Новое о рандомизированных контролируемых исследованиях

24.10.2023

Рубрики:

Исследования показывают, что в некоторых областях по крайней мере четверть клинических испытаний могут быть проблематичными или даже полностью выдуманными, предупреждают некоторые исследователи. Они призывают к более строгому контролю.

Сколько исследований клинических испытаний в медицинских журналах являются фальшивыми или фатально ошибочными? В октябре 2020 года Джон Карлайл сообщил о поразительной оценке. Карлайл, анестезиолог, работающий в Национальной службе здравоохранения Англии, известен своей способностью выявлять сомнительные данные в медицинских исследованиях. Он также является редактором журнала Anaesthesia, и в 2017 году он решил просмотреть все рукописи, с которыми он работал, в которых сообщалось о рандомизированном контролируемом исследовании (РКИ) — золотом стандарте медицинских исследований. За три года он проанализировал более 500 исследований¹.

Для более чем 150 испытаний Карлайл получил доступ к анонимным данным отдельных участников (IPD). Изучая электронные таблицы IPD, он пришел к выводу, что 44% этих испытаний содержали как минимум некоторые ошибочные данные: например, невозможные статистические данные, неправильные расчеты или дублированные числа или цифры. И 26% статей имели проблемы, которые были настолько распространены, что, по его мнению, нельзя было доверять испытанию — либо потому, что авторы были некомпетентны, либо потому, что они подделали данные. Карлайл назвал эти испытания «зомби», потому что они выглядели как настоящие исследования, но более тщательное изучение показало, что на самом деле это были пустые оболочки, маскирующиеся под достоверную информацию. Даже он был удивлен их распространенностью. «Я ожидал, может быть, одного из десяти», — говорит он.

Однако, когда Карлайл не мог получить доступ к необработанным данным исследования, он мог изучать только агрегированную информацию в сводных таблицах. По его оценке, только 1% этих случаев были связаны с зомби, а 2% имели ошибочные данные (см. «Распространенность испытаний с зомби»). Это открытие тоже встревожило его: предполагалось, что без доступа к IPD, который редакторы журналов обычно не запрашивают и рецензенты не видят, даже опытный сыщик не может обнаружить скрытые недостатки.

«Я думаю, что журналы должны предполагать, что все представленные статьи потенциально ошибочны, а редакторы должны проверять данные отдельных пациентов, прежде чем публиковать рандомизированные контролируемые испытания», — написал Карлайл в своем отчете. Карлайл отверг все испытания над зомби, но к настоящему времени, почти три года спустя, большинство из них были опубликованы в других журналах — иногда с данными, отличными от тех, которые были представлены вместе с рукописью, которую он видел. Он пишет редакторам журналов, чтобы предупредить их, но ожидает, что мало что будет сделано.

Распространяются ли открытия Карлайла в анестезиологии на другие области?В течение многих лет ряд ученых, врачей и специалистов по сбору данных утверждали, что фальшивые или ненадежные исследования пугающе широко распространены.Они изучили РКИ в различных областях медицины, таких как женское здоровье, исследование боли, анестезиология, здоровье костей и COVID-19, и нашли десятки или сотни испытаний с, казалось бы, статистически невозможными данными.Некоторые, основываясь на своем личном опыте, говорят, что ненадежность четверти испытаний может быть недооценкой.

«Если вы ищете все рандомизированные испытания по теме, около трети испытаний будут сфабрикованы», — утверждает Ян Робертс, эпидемиолог из Лондонской школы гигиены и тропической медицины. Эта проблема отчасти является подмножеством пресловутой проблемы бумажных фабрик: за последнее десятилетие журналы во многих областях опубликовали десятки тысяч подозреваемых фальшивых статей, некоторые из которых, как считается, были произведены сторонними фирмами, именуемые бумажными фабриками.

Но поддельные или ненадежные РКИ представляют собой особенно опасную угрозу.Они не только касаются медицинских вмешательств, но также могут быть отмыты до респектабельности, будучи включенными в метаанализы и систематические обзоры, которые тщательно просматривают литературу для оценки доказательств клинического лечения.

Медицинские руководства часто цитируют такие оценки, и врачи руководствуются ими, решая, как лечить пациентов. Бен Мол, специалист по акушерству и гинекологии в Университете Монаш в Мельбурне, Австралия, утверждает, что до 20–30% РКИ, включенных в систематические обзоры женского здоровья, вызывают подозрение.

Многие специалисты по добросовестности исследований говорят, что проблема существует, но ее масштабы и влияние неясны. Некоторые сомневаются, что проблема настолько серьезна, как показывают самые тревожные примеры. «Мы должны признать, что в области высококачественных доказательств у нас все больше шума. Есть хорошие люди, отстаивающие это и приводящие действительно страшную статистику. Но многие в академическом сообществе считают, что это паника», — говорит Жарко Альфиревич, специалист по фетальной и материнской медицине из Ливерпульского университета, Великобритания.

В этом году он и другие проводят дополнительные исследования, чтобы оценить, насколько серьезна проблема. Первоначальные результаты исследования под руководством Альфиревича не обнадеживают.

В медицинских исследованиях всегда были мошенники. Робертс, например, впервые столкнулся с этой проблемой, когда он был соавтором систематического обзора 2005 года для Cochrane Collaboration, престижной группы, чьи обзоры данных медицинских исследований часто используются для формирования клинической практики. Обзор показал, что высокие дозы сладкого раствора могут снизить смертность от травм головы. Но Робертс отозвал его² после того, как возникли сомнения относительно трех ключевых испытаний, упомянутых в статье, авторами всех которых был один и тот же бразильский нейрохирург Хулио Круз. (Робертс так и не узнал, были ли судебные процессы фальшивыми, потому что Круз покончил жизнь самоубийством до начала расследования. Статьи Круза не были отозваны.)

Более свежий пример — Ёсихиро Сато, японский исследователь здоровья костей. Сато, который умер в 2016 году, сфабриковал данные о десятках испытаний лекарств или добавок, которые могли бы предотвратить переломы костей. Согласно списку, составленному веб-сайтом Retraction Watch, у него 113 отозванных статей. Его работа оказала большое влияние: исследователи обнаружили, что 27 отозванных РКИ Сато были процитированы в 88 систематических обзорах и клинических рекомендациях, некоторые из которых были использованы для рекомендуемых в Японии методов лечения остеопороза³. Некоторые результаты примерно в половине этих обзоров изменились бы, если бы исследования Сато были исключены, говорит Элисон Авенелл, медицинский исследователь из Абердинского университета, Великобритания. Она вместе с медицинскими исследователями Эндрю Греем, Марком Болландом и Грегом Гэмблом из Оклендского университета в Новой Зеландии подталкивала университеты к изучению работы Сато и отслеживала ее влияние. «Вероятно, это отвлекло людей от более эффективного лечения для предотвращения переломов», — говорит Авенелл.

Однако опасения по поводу судебных процессов над зомби выходят за рамки отдельных мошенников, скрывающихся от радаров. Исследователи беспокоятся, что в некоторых областях РКИ разных исследовательских групп могут быть ненадежными.

Например, во время пандемии было проведено множество РКИ, чтобы выяснить, может ли ивермектин, противопаразитарное лекарство, лечить COVID-19. Но исследователи, которые не принимали участия, с тех пор указали на недостатки данных во многих исследованиях, некоторые из которых были отозваны. В обновленном Кокрейновском обзоре 2022 г. утверждается, что более 40% этих РКИ не заслуживают доверия⁴. «Недостоверная работа должна быть удалена из систематических обзоров», — говорит Стефани Вайбель, биолог из Вюрцбергского университета в Германии, соавтор обзора.

В области материнского здоровья — еще одной области, которая, по-видимому, изобилует проблемами — Робертс и Мол отметили исследования о том, может ли лекарство под названием транексамовая кислота остановить опасно сильное кровотечение после родов. Каждый год около 14 миллионов человек страдают этим заболеванием, и около 70 000 умирают: это основная причина материнской смертности в мире.

В 2016 году Робертс рассмотрел доказательства использования транексамовой кислоты для лечения серьезной кровопотери после родов. Он сообщил, что многие из 26 РКИ, посвященных изучению препарата, имели серьезные недостатки. У некоторых был идентичный текст, у других были несоответствия данных или отсутствие записей об этическом одобрении. Некоторые из них, по-видимому, недостаточно рандомизировали участников в контрольную и лечебную группы⁵. Когда он связался с отдельными авторами, чтобы запросить более подробную информацию и необработанные данные, он обычно не получал ответа или ему говорили, что записи отсутствуют или были потеряны из-за кражи компьютеров.

К счастью, в 2017 году крупное высококачественное многоцентровое исследование, в проведении которого помогал Робертс, показало, что препарат эффективен⁶. Вполне вероятно, говорит Робертс, что в этих и других подобных случаях некоторые из сомнительных испытаний были подражательным мошенничеством — исследователи увидели, что идет большой судебный процесс, и произвели маленькие, некачественные копии, которые никто не усомнится.

Однако этот вид мошенничества не является преступлением без потерпевших. «Это приводит к сужению доверительных интервалов, так что результаты выглядят гораздо более определенными, чем они есть на самом деле. Это также может усилить неправильный результат, предполагая, что лечение работает, когда оно не работает», — говорит он.

Это могло бы произойти по другому вопросу: что, если бы врачи в качестве профилактической меры вводили препарат всем, кто перенес кесарево сечение, сразу после родов? Обзор⁷ 36 РКИ, посвященных этой идее, проведенный в 2021 году, с участием более 10 000 человек, пришел к выводу, что это снизит риск тяжелой кровопотери на 60%. Тем не менее, в апреле этого года крупномасштабное РКИ под руководством США с участием 11 000 человек сообщило лишь о незначительном и статистически не значимом преимуществе⁸. Мол считает, что проблемы с некоторыми из 36 предыдущих РКИ объясняют несоответствие.

Метаанализ 2021 года включал одно многоцентровое исследование во Франции с участием более 4000 человек, в котором было обнаружено умеренное снижение тяжелой кровопотери на 16%, и еще 35 небольших одноцентровых исследований, в основном проведенных в Индии, Иране, Египте. и Китай, который в совокупности оценил падение на 93%. «Многие из небольших РКИ не заслуживали доверия», — говорит Мол, подробно изучивший некоторые из них. Неясно, повлияли ли ненадежные исследования на клиническую практику. Всемирная организация здравоохранения (ВОЗ) рекомендует использовать транексамовую кислоту для лечения кровопотери после родов, но не имеет рекомендаций по профилактическому применению.

Мол указывает на другой пример, когда ненадежные испытания могли повлиять на клиническую практику. В 2018 году исследователи опубликовали Кокрановский обзор⁹ о том, помогло ли введение стероидов людям, перенесшим кесарево сечение, уменьшить проблемы с дыханием у их детей. Стероиды полезны для легких ребенка, но могут нанести вред развивающемуся мозгу, говорит Мол; преимущества обычно перевешивают вред, когда дети рождаются преждевременно, но баланс менее ясен, когда стероиды используются на более поздних сроках беременности.

Авторы обзора 2018 года под руководством Александроса Сотириадиса, специалиста в области медицины матери и плода из Университета Аристотеля в Салониках в Греции, проанализировали данные о назначении стероидов женщинам, рожавшим с помощью кесарева сечения на более поздних сроках беременности. В итоге они провели четыре РКИ: британское исследование 2005 года с более чем 940 участниками и три египетских испытания, проведенных в период с 2015 по 2018 год, которые добавили в доказательную базу еще 3000 человек. В обзоре сделан вывод, что стероиды «могут» снизить частоту проблем с дыханием; он цитировался более чем в 200 документах и некоторых клинических руководствах.

Однако в январе 2021 года Мол и другие, более внимательно изучившие документы, выразили обеспокоенность по поводу судебных процессов в Египте. Он отметил, что самое крупное исследование, в котором приняли участие почти 1300 человек, было основано на диссертации второго автора, но даты окончания испытаний в диссертации отличались от документа. И зарегистрированное соотношение младенцев мужского и женского пола было невозможным 40% к 60%. Мол запросил и другие газеты и написал авторам, но говорит, что не получил удовлетворительных ответов. (Один автор сказал ему, что потерял данные при переезде.) Команда Мола также сообщила о статистических проблемах с некоторыми другими работами тех же авторов.

В декабре 2021 года команда Сотириадиса обновила свой обзор¹⁰.Но на этот раз он принял новый протокол проверки.До этого года Кокрановские обзоры были нацелены на включение всех соответствующих РКИ;если исследователи обнаружат потенциальные проблемы с испытанием, используя контрольный список «риска систематической ошибки», они понизят свою уверенность в его выводах, но не исключат их из своего анализа.

Но в 2021 году группа Кокрейн по обеспечению честности исследований представила новое руководство: авторы должны попытаться выявить «проблемные» или «ненадежные» испытания и исключить их из обзоров.Группа Сотириадиса теперь исключила все исследования, кроме британских.По словам исследователей, из-за того, что осталось только одно испытание, было «недостаточно данных», чтобы сделать твердые выводы о стероидах. К маю прошлого года, как сообщал Retraction Watch, крупный судебный процесс в Египте был отозван (к несогласию его авторов).Редакторы журнала написали в уведомлении об отзыве, что они не получили ни его данных, ни удовлетворительного ответа от авторов, добавив, что «если данные недостоверны, наносятся вред женщинам и младенцам».

Два других процесса все еще расследуются издательством Taylor & Francis в рамках более крупного дела о документах, говорит Сабина Алам, директор издательской этики фирмы. До обзора 2018 года в некоторых клинических руководствах предполагалось, что назначение стероидов на более поздних сроках беременности может быть полезным, и эта практика росла в некоторых странах, таких как Австралия, сообщает Mol. Однако последние обновленные руководства ВОЗ и региональные рекомендации не рекомендуют эту практику.

В целом, Мол и его коллеги заявили о проблемах в более чем 800 опубликованных медицинских исследованиях, по крайней мере 500 из которых относятся к РКИ.На данный момент работа привела к более чем 80 опровержениям и 50 выражениям озабоченности.Мол сосредоточил большую часть своей работы на документах из стран Ближнего Востока, и особенно из Египта.Один исследователь ответил на некоторые из его электронных писем, обвинив его в расизме.

Мол, однако, говорит, что это просто факт, что он столкнулся со многими подозрительными статистическими данными и отказами поделиться данными от авторов РКИ в таких странах, как Иран, Египет, Турция и Китай, и что он должен быть в состоянии указать на это. Проверка на благонадежность «Бен Мол, несомненно, был пионером в области обнаружения и борьбы с фальсификацией данных», — говорит Сотириадис, но добавляет, что трудно доказать, что бумага фальсифицирована. Сотириадис говорит, что он не зависел от работы Мола, когда его команда исключила эти испытания из своего обновления, и он не может сказать, были ли эти испытания искажены.

Вместо этого его группа следовала протоколу проверки, предназначенному для проверки «надежности».Он был разработан одной из независимых групп специалистов Кокрейн, Кокрановской группой по беременности и родам (CPC), координируемой Альфиревичем.(В апреле этого года Кокрейн официально распустил эту группу и некоторые другие в рамках стратегии реорганизации.) В нем содержится подробный список критериев, которым должны следовать авторы, чтобы проверить достоверность РКИ, например, было ли исследование зарегистрировано проспективно и было лиисследование не содержит необычных статистических данных, таких как неправдоподобно узкое или широкое распределение средних значений роста, веса или других характеристик участников, а также другие тревожные флажки.

Если РКИ не проходят проверки, рецензенты получают указание связаться с авторами первоначального исследования и, если ответы неадекватны, исключить исследование. «Мы отстаиваем идею о том, что если исследование не проходит эти планки, то никаких обид, но мы не называем его достаточно надежным», — объясняет Альфиревич. Для Сотириадиса достоинство этого протокола заключалось в том, что ему не приходилось объявлять испытания ошибочными или мошенническими; они просто не прошли тест на надежность. В конце концов его команда сообщила, что исключила египетские испытания, потому что они не были зарегистрированы проспективно, и авторы не объяснили, почему.

Другие авторы Кокрейн начинают применять тот же протокол. Например, в обзоре¹¹ препаратов, направленных на предотвращение преждевременных родов, опубликованном в августе прошлого года, он был использован для исключения 44 исследований — четверти из 122 исследований, опубликованных в литературе.

Что считается заслуживающим доверия? Вопрос о том, являются ли иногда проверки достоверности несправедливыми по отношению к авторам РКИ, и что именно следует проверять для классификации ненадежных исследований, все еще остается предметом дискуссий. В редакционной статье 2021 года¹², в которой представлена идея скрининга надежности, Лиза Беро, старший редактор по вопросам добросовестности исследований в Cochrane и специалист по биоэтике в Медицинском кампусе Anschutz Колорадского университета в Авроре, указала, что не существует проверенного, общепризнанного метода.

«Ошибочная классификация подлинного исследования как проблематичного может привести к ошибочным выводам обзора.Неправильная классификация также может привести к ущербу для репутации авторов, юридическим последствиям и этическим проблемам, связанным с участниками, принимавшими участие в исследовании, только для того, чтобы их не принимать во внимание», — написали она и два других исследователя. На данный момент существует несколько протоколов надежности.Например, в 2020 году Авенелл и другие опубликовали REAPPRAISED, контрольный список, предназначенный в большей степени для редакторов журналов.

И когда Вейбель и другие в прошлом году проанализировали испытания ивермектина в качестве лечения COVID-19, они создали свой собственный контрольный список, который они назвали «оценкой честности исследования». Беро говорит, что некоторые из этих проверок являются более трудоемкими, чем те, к которым обычно привыкли редакторы и систематические обозреватели. «Нам нужно убедить систематических обозревателей, что это стоит их времени», — говорит она. Она и другие специалисты консультировались с исследователями в области биомедицины, издателями и экспертами по добросовестности исследований, чтобы разработать ряд тревожных сигналов, которые могли бы послужить основой для создания широко согласованного метода оценки.

Несмотря на опасения таких исследователей, как Мол, многие ученые по-прежнему не уверены, сколько обзоров было скомпрометировано ненадежными РКИ.В этом году команда под руководством Джека Уилкинсона, исследователя в области здравоохранения из Манчестерского университета, Великобритания, использует результаты консультации Беро, чтобы применить список из 76 проверок достоверности ко всем испытаниям, упомянутым в 50 опубликованных Кокрейновских обзорах.(76 пунктов включают подробное изучение данных и статистики испытаний, а также проверку деталей финансирования, грантов, регистрации испытаний, правдоподобия методов исследования и записей авторов о публикациях, но в этом упражнении данные отдельных участниковне запрашивается.) Цель состоит в том, чтобы увидеть, сколько РКИ не прошли проверку и какое влияние окажет удаление этих испытаний на выводы обзоров.

Уилкинсон говорит, что над проектом работает команда из 50 человек. Он стремится создать общий инструмент проверки достоверности, а также отдельный инструмент для помощи в проверке данных участников, если авторы их предоставляют. Он обсудит работу в сентябре на ежегодном Кокрановском коллоквиуме.

Тем временем команда Альфиревич обнаружила в исследовании, которое еще предстоит опубликовать, что 25% из примерно 350 РКИ в 18 Кокрановских обзорах по питанию и беременности не прошли бы проверку на достоверность при использовании метода CPC. После исключения этих РКИ команда обнаружила, что одна треть обзоров потребует обновления, поскольку их выводы изменились. Исследователи сообщат более подробную информацию в сентябре.

По мнению Альфиревича, не имеет особого значения, какие проверки надежности используют рецензенты, если они делают что-то для более тщательного изучения РКИ. Он предупреждает, что количество систематических обзоров и метаанализов, которые публикуют журналы, резко возросло за последнее десятилетие, и многим из этих обзоров нельзя доверять из-за некачественных методов проверки. «Ненадежный систематический обзор гораздо опаснее, чем ненадежное первичное исследование», — говорит он. «Это отрасль, которая полностью вышла из-под контроля, с небольшой гарантией качества».

Робертс, впервые опубликовавший в 2015 году свои опасения по поводу проблематичных медицинских исследований в систематических обзорах¹³, говорит, что Кокрановской организации потребовалось шесть лет, чтобы отреагировать, и до сих пор она недостаточно серьезно относится к этому вопросу. «Если до 25% испытаний, включенных в систематические обзоры, являются мошенническими, то все усилия Кокрейн вызывают подозрения. Многое из того, что мы думаем, что знаем на основе систематических обзоров, неверно», — говорит он.

Беро говорит, что Кокрейн провела широкие консультации при разработке своего руководства 2021 года по решению проблемных испытаний, в том числе с учетом предложений Робертса, других Кокрановских обозревателей и экспертов по добросовестности исследований.

Многие исследователи, обеспокоенные медицинскими фальсификациями, согласны с Карлайлом в том, что было бы полезно, если бы журналы регулярно просили авторов делиться своими IPD. «Запрашивать необработанные данные было бы хорошей политикой. Позиция по умолчанию заключалась в том, чтобы просто доверять исследованию, но мы действовали с довольно наивной позиции», — говорит Уилкинсон. Однако этот совет противоречит существующей практике большинства медицинских журналов.

В 2016 году Международный комитет редакторов медицинских журналов (ICMJE), влиятельный орган, устанавливающий политику в отношении многих крупных медицинских изданий, предложил требовать обязательного обмена данными из РКИ. Но это вызвало отпор, в том числе из-за предполагаемых рисков для конфиденциальности участников испытаний, которые могли не давать согласия на обмен их данными, и доступности ресурсов для архивирования данных. В результате в последнем обновлении своего руководства в 2017 году он решил просто поощрять обмен данными и требовать заявлений о том, будут ли делиться данными и где.

Секретарь ICMJE Кристина Ви говорит, что «существуют серьезные проблемы с выполнимостью», которые необходимо решить для обязательного обмена IPD, хотя комитет может пересмотреть свою практику в будущем. Многие издатели медицинских журналов сообщили группе новостей Nature, что, следуя совету ICMJE, они не требуют IPD от авторов испытаний. (В число этих издателей входил Springer Nature; группа новостей Nature независима от редакции.) Однако некоторые журналы, в том числе Carlisle’s Anesthesia, пошли дальше и уже требуют IPD. «Большинство авторов предоставляют данные, когда им говорят, что это требование», — говорит Карлайл. По словам Уилкинсона, даже когда IPD являются общими, их изучение так, как это делает Карлайл, требует много времени и создает дополнительное бремя для рецензентов, хотя компьютерные проверки статистики могут помочь.

По словам специалистов по добросовестности исследований, редакторы журналов могут не только запрашивать данные, но и ускорить процесс принятия решений.По словам Авенелла, когда сыщики высказывают опасения, редакторы должны быть готовы выразить обеспокоенность медицинскими исследованиями быстрее, если они не получат ответа от авторов.В апреле этого года в парламентском отчете Великобритании о воспроизводимости и достоверности исследований говорится, что издателям не требуется более двух месяцев для публикации исправлений или отзывов исследований, когда ученые поднимают вопросы. И если журналы отказываются от исследований, авторы систематических обзоров должны быть обязаны исправить свою работу, говорят Авенелл и другие.

Это редко случается. В прошлом году, например, команда Авенелла сообщила, что она тщательно и неоднократно отправляла по электронной почте авторам и редакторам журналов 88 обзоров, в которых упоминались отозванные испытания Сато, чтобы сообщить им, что их обзоры включают отозванную работу. Они получили мало ответов — только 11 из 88 обзоров были обновлены до сих пор — что говорит о том, что авторы и редакторы обычно не заботились об исправлении отзывов. Это обескуражило, но не удивило команду, которая ранее рассказывала, насколько непрозрачными и неадекватными были институциональные расследования работы Сато. Кокрановское сотрудничество, со своей стороны, заявило в обновленном руководстве 2021 года, что систематические обзоры должны обновляться при возникновении отзывов.

В конце концов, как и в случае с бумажными фабриками, возникает вопрос, почему вообще производится так много сомнительных РКИ.Мол, основываясь на своем опыте изучения египетских исследований, винит отсутствие надзора и поверхностные оценки, которые продвигают ученых на основе их количества публикаций, а также отсутствие строгих проверок со стороны институтов и журналов в отношении недобросовестной практики.Однако египетские власти предприняли некоторые шаги для улучшения управления судебными процессами.

Например, парламент Египта опубликовал свой первый закон о клинических исследованиях в декабре 2020 года. «Решение должно быть исправлено в источнике», — говорит Карлайл. «Когда этот материал штампуется, это все равно, что бороться с лесным пожаром и терпеть неудачу».

источник