Вып. 18, год 2003
|
МЕТОДОЛОГИЯ НАУЧНЫХ ИССЛЕДОВАНИЙ И ОБРАЗОВАНИЕ |
|
British Medical Journal 2001; 322: 226–31 |
|
Отсеивание фактов: |
|
Jonathan
A. C. Sterne, George Davey Smith Адрес для корреспонденции: Jonathan A. C. Sterne, Department of Social Medicine, University of Bristol, Bristol BS8 2PR. E-mail: jonathan.sterne@bristol.ac.uk Sifting the evidence — what’s wrong with significance tests? © 2001 BMJ. Printed by permission Результаты научных исследований в области медицины часто оцениваются с большим скептицизмом, даже работы с явно корректным методологическим подходом и использованием соответствующих методов статистического анализа. Чаще всего это касается, по-видимому, результатов эпидемиологических исследований, которые показывают, что некоторые аспекты повседневной жизни отрицательно воздействуют на людей. Так, в недавно опубликованном популярном издании “Взлеты и падения современной медицины” (The Rise and Fall of Modern Medicine) журналист James Le Fanu, пишущий на медицинские темы, даже предлагает закрыть все научные отделы и кафедры, которые занимаются эпидемиологией, чтобы предотвратить вред, наносимый медицине [1]. В частности, этому способствует выраженная в медицинских публикациях тенденция усиливать положительные результаты: подтверждающие гипотезу факты имеют больше шансов быть опубликованными, чем отрицательные результаты [2–4]. Только в этой связи публикуется множество данных, основанных на случайных совпадениях, так как согласно общепринятым подходам 20 случайно полученных в исследованиях сочетаний позволяют говорить о результате, “значимом при Р = 0,05”. Если публикуются только положительные результаты, их могут ошибочно принимать как истинные, а не полученные вследствие случайного стечения обстоятельств на основе применения критериев достоверности, вытекающих из представления о статистической значимости. Поскольку во многих исследованиях применяются обширные опросники, аккумулирующие информацию о сотнях переменных, и оценивающие множество возможных вариантов, несколько ложноположительных результатов фактически гарантированы. Однако широкий спектр и часто противоречивый характер результатов медицинских научных исследований обусловлен не только систематической ошибкой, связанной с публикацией. Более существенной проблемой является весьма частое недопонимание сущности статистической значимости. В этой статье рассматривается история разработки критериев значимости. Создатели статистического анализа не ставили перед собой цель произвольно разграничить “значимые” и “незначимые” результаты (в соответствии с общепринятым пороговым значением Р = 0,05). Значения Р должны быть гораздо меньше 0,05 для того, чтобы являться строгим доказательством, отвергающим нулевую гипотезу. Следовательно, необходимо проводить исследования с большей статистической мощностью. При составлении отчетов о научных исследованиях, которые проводятся в области медицины, необходимо переходить от оценки результатов как значимых или незначимых к интерпретации данных в контексте характера исследования и других доступных данных. Редакторы медицинских журналов имеют широкие возможности для того, чтобы поощрять эти перемены, и в заключительной части статьи мы предлагаем рекомендации по представлению и интерпретации результатов исследований. Величина Р и применение
критериев статистической значимости: Причиной путаницы, существующей в современном подходе к критериям проверки гипотез, являются противоречия, царившие более 60 лет назад среди основоположников статистического анализа [6–8]. Идею оценки статистической значимости предложил R. A. Fisher. Предположим, мы хотим составить мнение о том, повышает ли новый лекарственный препарат уровень дожития после перенесенного инфаркта миокарда. Исследовав группу пациентов, которые лечились этим препаратом, и сопоставимую группу лиц, принимавших плацебо, мы получили данные о том, что показатель смертности в группе лечившихся новым препаратом в два раза ниже такового в группе пациентов, получавших плацебо. Эти результаты обнадеживают, но возникает вопрос, не могут ли они быть случайными? Мы решаем этот вопрос, определяя величину Р: вероятность повышения показателя дожития минимум в два раза в случае, если препарат в действительности не влияет на продолжительность жизни. Fisher рассматривал показатель Р как оценку силы доказательств ошибочности нулевой гипотезы (в нашем примере — гипотезы о том, что препарат не влияет на показатель дожития). Он поддерживал идею, что Р < 0,05 (5%-ная значимость) является стандартным уровнем, позволяющим сделать вывод о том, что есть доказательства ошибочности нулевой гипотезы, но не считал это абсолютным правилом. “Если показатель Р = 0,1–0,9, очевидно, нет причин сомневаться в истинности нулевой гипотезы. Если Р < 0,02, то, скорее всего, нулевая гипотеза не может объяснить все полученные данные. Не будет большой ошибкой, если мы согласимся в отношении условной границы в 0,05… .” [9]. Важно отметить, что Fisher настаивал на том, что окончательная интерпретация величины Р остается за исследователем. Например, если Р » 0,05, нельзя ни доказать, ни отвергнуть нулевую гипотезу, а следует проводить дополнительные исследования. Итоговые положения
Приведем высказывание Neyman и Pearson: “Ни один из методов оценки, основанных на теории вероятности, не может сам по себе предоставить убедительные доказательства правильности либо ошибочности той или иной гипотезы. Но мы можем рассматривать цель этого метода с другой точки зрения. Не надеясь установить, является ли каждая отдельная гипотеза истинной или ошибочной, мы можем определить правила, обусловливающие наше поведение по отношению к ним, следуя которому мы обеспечиваем определенные процедуры по ходу эксперимента, благодаря чему ошибки будут редкими” [10].Таким образом, при использовании подхода Neyman-Pearson мы заранее выбираем правила принятия решений при интерпретации результатов нашего эксперимента, и результат нашего анализа представляет собой просто отклонение или подтверждение нулевой гипотезы. В отличие от более субъективного подхода Fisher, который был противником метода Neyman-Pearson [11], здесь не предпринимаются попытки интерпретировать величину Р для того, чтобы оценить силу доказательств ошибочности нулевой гипотезы в конкретном исследовании. Для того чтобы использовать метод Neyman-Pearson, необходимо точно сформулировать альтернативную гипотезу. Другими словами, недостаточно заявить, что лечение эффективно, мы должны показать, насколько оно эффективно, например, что наш лекарственный препарат снижает смертность на 60%. Исследователь имеет право изменить правила оценки, уточнив альтернативную гипотезу и допустимую частоту ошибок типов I и II, но это следует делать до начала эксперимента. К сожалению, ученые с трудом усваивают эти идеи. До проведения своих исследований или анализа материалов, за исключением постановки основного вопроса при рандомизированных исследованиях, они редко ориентируются на определенный показатель эффективности лечения в качестве альтернативной гипотезы. В то же время широко применяется только более простая часть метода Neyman-Pearson — положение о том, что нулевая гипотеза может быть отклонена при Р < 0,05 (частота ошибки типа I — 5%). Так возникло ошибочное мнение о том, что метод Neyman-Pearson подобен методу Fisher. На практике, отчасти в связи с требованиями контролирующих органов и редакторов медицинских журналов [12], применение статистических методов в медицине стало в основном ограничиваться делением результатов на значимые и незначимые, при этом мало внимания обращается, или вовсе не обращается, на частоту ошибок типа II. Это порождает два общих и, по-видимому, серьезных последствия: возможно, клинически важные различия, наблюдаемые в небольших по объему исследованиях, оцениваются как незначимые и игнорируются, тогда как все значимые результаты считаются проявлением действия лечебного вмешательства. Эти проблемы, замеченные давно [13] и наблюдаемые с тех пор много раз [14–17], способствовали успешному распространению в научных кругах практики представления данных статистического анализа с включением доверительного интервала в дополнение к величине Р или вместо нее [18–20]. При использовании доверительного интервала, когда внимание акцентируется на результатах конкретного единичного сопоставления, мы отходим от механистической дихотомии: принять или отклонить. В небольших по объему исследованиях он может напомнить нам о том, что полученные нами результаты согласуются как с нулевой гипотезой, так и с важными положительными или вредными лечебными воздействиями (часто сочетающимися). Если значение Р » 0,05, возможен меньший или больший эффект, чем полученный в процессе оценки. Однако доверительный интервал 95% предполагает 5%-ный порог, что приводит к путанице при его интерпретации, если он используется лишь как способ оценки значимости (в зависимости от того, включает ли доверительный интервал нулевое значение) вместо того, чтобы с его помощью оценивался возможный разброс данных в популяции. Мы считаем, что исследователи, работающие в области медицины, не должны рассматривать 5%-ную значимость (Р < 0,05) как имеющую какое-либо особое значение. Для этого можно устанавливать другой стандартный доверительный интервал. Ошибочная интерпретация К сожалению, величину Р все еще часто понимают неправильно. Наиболее распространенная ошибочная интерпретация — мнение о том, что величина Р отражает вероятность подтверждения нулевой гипотезы. В соответствии с этой точкой зрения значимый результат означает весьма низкую вероятность подтверждения нулевой гипотезы. Ниже, сделав два реальных предположения, мы покажем ошибочность этой интерпретации.
Таблица 2. Количество случаев, когда мы принимаем или отвергаем нулевую гипотезу при рассмотрении реальных предположений об условиях проведения медицинских исследований
Во-первых, предположим, что процент нулевых гипотез, которые действительно соответствуют отрицательному результату, составляет 10%, т. е. 90% проверяемых гипотез ошибочные. Это согласуется с данными литературы по вопросам эпидемиологии: к 1985 году было выявлено около 300 факторов риска коронарной болезни сердца, вероятно, только незначительная часть из них действительно повышает риск этого заболевания [21]. Наше второе предположение заключается в том, что из-за часто очень небольшого объема исследований средняя статистическая мощность (1 минус частота ошибки типа II) работ, публикуемых в медицинской литературе, составляет 50%. Это совпадает с данными обзорных публикаций, посвященных объему выборок [22–24]. Теперь предположим, что мы проверяем гипотезы в 1000 исследований и отвергаем нулевую гипотезу при Р < 0,05. Наше первое допущение означает, что в 100 исследованиях нулевая гипотеза в действительности ошибочная. Так как частота ошибки типа II составляет 50% (второе допущение), мы отвергаем нулевую гипотезу в 50 из этих 100 исследований. Для 900 исследований, в которых нулевая гипотеза верна (т. е., лечение не оказывает эффекта), мы используем 5%-ный уровень значимости и таким образом отвергаем нулевую гипотезу в 45 исследованиях (табл. 2, адаптированная из работы Oakes [25]). Из 95 исследований, в которых были получены значимые результаты (т. е. при P < 0,05), в 45 (47%) нулевые гипотезы верны, т. е. получены “ложные сигналы тревоги”: мы отвергли нулевую гипотезу, хотя не должны были этого делать. Здесь существует прямая аналогия с исследованиями по скринингу популяции на наличие заболеваний. Если заболевание (ошибочная нулевая гипотеза) встречается редко, то специфичность скрининговых тестов должна быть высокой, чтобы истинные случаи заболеваний, выявленные с помощью теста, не перекрывались большим количеством ложноотрицательных случаев из той части популяции, где это заболевание отсутствует [26]. “Показатель положительной прогностической способности” значимого (P < 0,05) статистического анализа может в действительности быть низким (в приведенном примере — около 50%). Довольно часто ошибочно считают, что при уровне значимости 0,05 показатель положительной прогностической способности равен 95%. Положения, отраженные в табл. 2, сходны по духу с байесовским подходом к статистическому анализу, при котором мы начинаем с априорных положений в отношении вероятности различных возможных значений лечебного эффекта и меняем эти положения в соответствии с полученными данными. Аргументы байесовского подхода используются для демонстрации того, что обычный порог P < 0,05 не обязательно является веским доказательством ошибочности нулевой гипотезы [27, 28]. Разные авторы в разное время предлагали шире использовать байесовские статистические методы, чтобы избежать ошибочной интерпретации P < 0,05 как показателя того, что истинность нулевой гипотезы маловероятна, либо как панацеи, которая значительно повысит качество медицинских исследований [26, 29–32]. Различия между доминирующим (“классическим” или “частотным”) и байесовским подходами к статистическому анализу отражены во вставке 1. Вставка 1. Сравнение частотного и байесовского подходов к статистическому анализу Предположим, мы хотим установить, повышает ли новый лекарственный препарат вероятность дожития года после инфаркта миокарда, используя данные плацебо–контролируемого клинического испытания. Для этого мы оцениваем показатель относительного риска, получаемый делением частоты случаев смерти пациентов, получающих новый препарат, на частоту случаев смерти в контрольной группе. Если показатель относительного риска составляет 0,5, значит, новый препарат снижает риск смерти на 50%. Если показатель относительного риска составляет 1, значит, препарат неэффективен. Частотные методы статистики Подобно Mulder и Scully в “The X-files”, статистики, использующие частотные методы, считают, что “истина находится не здесь”. Данные используются для того, чтобы делать выводы в отношении истинного (но неизвестного) значения показателя относительного риска для популяции. Доверительный интервал 95% позволяет получать достаточно достоверные величины показателя относительного риска для популяции; в 95% случаев этот ряд показателей будет содержать истинные (но неизвестные) показатели для популяции. Величина Р — это вероятность получения показателя относительного риска, по меньшей мере настолько удаленного от единицы, как и обнаруженный в нашем исследовании. Методы байесовского статистического анализа Сторонники байесовского статистического анализа предпочитают субъективный подход. Вначале составляется априорное мнение о показателе относительного риска, представляемое как распределение вероятностей (или частот). Полученные данные используются для коррекции этого мнения (мы получаем окончательное распределение вероятностей для показателя относительного риска, основываясь как на полученных данных, так и на априорном распределении). Интервал надежности 95% означает, что вероятность того, что в него входит показатель относительного риска для популяции составляет 95%. Окончательное распределение может использоваться для того, чтобы сделать прямой статистический вывод в отношении показателя относительного риска — например, вероятность того, что лекарственный препарат повышает риск смерти. Если предварительное мнение в отношении показателя относительного риска неопределенное (предполагается равная вероятность получения весьма отличающихся друг от друга значений переменных), то результаты частотного анализа будут сходны с результатами байесовского статистического метода; оба подхода основываются на том, что статистики называют правдоподобием полученных данных: · доверительный интервал 95% — это то же самое, что и интервал надежности 95%, за исключением того, что последнему часто неправильно придается значение доверительного интервала; · (одномерная) величина Р представляет собой то же самое, что и байесовская апостериорная вероятность в отношении того, что лекарственный препарат повышает риск смерти (при исследовании возможного защитного эффекта препарата). Однако оба метода будут давать разные результаты, если наша априорная оценка не очень приблизительная относительно значимости информации, которая содержится в полученных данных. Насколько значима статистическая значимость? Когда в первые десятилетия ХХ века разрабатывались принципы статистического анализа, сфера научной деятельности была менее развитой, чем сегодня. В те времена, когда ежегодно проверялось, вероятно, лишь несколько сотен статистических гипотез, а вычисления были трудоемкими и выполнялись с помощью ручных механических калькуляторов (как на фотографии Fisher), казалось, были основания считать, что 5%-й показатель ложноположительных результатов выявит бoльшинство случайных ошибок. Сегодня, когда тысячи журналов публикуют огромное количество проверяемых гипотез и мы располагаем простыми в использовании компьютерными статистическими программами, а доля значимых (в том смысле, что выявленный эффект достаточно велик, чтобы представлять интерес) гипотез явно снизилась, установлено, что P < 0,05 имеет низкую прогностическую способность, чтобы с уверенностью можно было отклонить нулевую гипотезу. Часто можно легко повысить статистическую мощность исследований, увеличив либо размер выборки, либо точность измерений. В табл. 3 приводится прогностическая ценность разных пороговых значений величины Р при различных вариантах как статистической мощности исследований, так и доли значимых гипотез. Для любого значения величины Р процент значимых результатов, которые являются ложноположительными, значительно снижается при повышении статистической мощности исследования. Из табл. 3 следует, если мы не очень пессимистически оцениваем долю значимых гипотез, что величину Р < 0,001 разумно рассматривать как убедительное доказательство ошибочности нулевой гипотезы. В качестве одного из аргументов против изменения требований к силе доказательств ошибочности нулевой гипотезы приводится то, что в этом случае объем исследований должен в значительной степени возрасти. К удивлению, это не так. Для иллюстрации можно показать, выполнив стандартные расчеты статистической мощности, что размер выборки следует увеличить максимум лишь в 1,75 раза при переходе от Р < 0,05 к P < 0,01 и в 2,82 раза при переходе от P < 0,05 к P < 0,001. Также возможно (и обычно предпочтительно) увеличить статистическую мощность, изменив подход к измерению, не увеличивая объем выборки [33]. Таким образом, проводя меньше исследований, но с большей статистической мощностью, можно предупредить дискредитацию научных исследований в области медицины. Потребность в обширных статистически корректных исследованиях подчеркивается в течение многих лет Richard Peto и его сотрудниками [34]. Однако качество научных исследований в области медицины не улучшится, если мы просто заменим один произвольно устанавливаемый порог величины Р (0,05) другим (0,01).
R.A. Fisher, основатель статистического анализа, выполняет вычисления с помощью механического калькулятора
приходят к необоснованным выводам. В медицинской науке чаще всего игнорируются периодические призывы к полному использованию байесовских статистических методов. Главная причина — трудность квантификации априорных положений. Например, какой статистический вес следует придать конкретной совокупности полученных доказательств, если результаты исследования противоречат данным о международных различиях в распространенности заболевания? Таким же образом прогностическую ценность P < 0,05 для значимой гипотезы легко подсчитать на основе предполагаемой доли значимых гипотез в исследуемом интервале, однако истинное значение этой доли знать невозможно. К сожалению, табл. 2 и 3 — это всего лишь теоретические построения. Если попытаться избежать проблемы квантификации априорных положений — а это сделает нашу гипотезу крайне неопределенной, — то результат анализа с помощью байесовского метода будет аналогичным результату стандартного подхода. С другой стороны, рационально интерпретировать Р = 0,008 для основного эффекта, выявленного в клинических испытаниях, иначе, чем такую же величину Р для одного из основных выводов эмпирического исследования на основании того, что в первом случае доля проверяемых значимых гипотез, по-видимому, больше, а систематическая ошибка и вмешивающиеся факторы менее вероятны. Что необходимо сделать? Существует три способа снизить частоту ошибок вследствие применяемой практики использования критериев значимости. Во-первых, в табл. 3 показано, что величина Р < 0,05 не может рассматриваться как обеспечивающая абсолютные или даже убедительные доказательства ошибочности нулевой гипотезы. Во-вторых, ясно, что повышение доли значимых проверяемых гипотез также снизит частоту ошибок. К сожалению, этот способ трудно применить: вывод о том, что формулирование априорных гипотез полностью избавит нас от ошибочных действий, сам ошибочный. Если с целью изучения неэффективного метода лечения провести 100 рандомизированных клинических испытаний, каждое из которых будет проверять только одну гипотезу и применять только один метод статистической оценки гипотез, все значимые результаты окажутся ошибочными. Более того, невозможно с уверенностью заявить, что существующие гипотезы послужили причиной исследования полученных взаимосвязей. Этот процесс высмеян Philip Cole, который писал, что он с помощью компьютерного алгоритма сформулировал все возможные гипотезы в эпидемиологии, так что все статистические методы анализа считаются сейчас априорными гипотезами [39]. В-третьих, необходимо не изменить статистические парадигмы, а повысить качество исследований, увеличив объем выборки и точность измерений. Хотя нет простого или единственного решения, есть возможность уменьшить риск совершения ошибки благодаря результатам проверки гипотез. Такой возможностью располагают, в частности, редакторы научных журналов. Существенные изменения в представлении данных статистического анализа произошли после появления в 80-х годах методических рекомендаций, требующих приводить в публикациях доверительные интервалы. Сейчас необходимы такие же изменения в отношении представления статистической проверки гипотез. Мы считаем, что редакторы журналов должны требовать от авторов научных публикаций следовать рекомендациям, которые содержатся во вставке 2.
Таблица 3. Соотношение ложноположительных значимых результатов при трех различных уровнях статистической значимости
ЛИТЕРАТУРА
|
Copyright © 1998-2003. Обзор современной психиатрии. Все права сохранены.