25.4. 2008 14:51 Рецензия на книгата от Стивън Т. Зилиак и Дейрдре Н. Макклоски: Култът на статистическото значение

статистическите

Представете си две лекарства за отслабване, които имат същите странични ефекти и са също толкова скъпи. За една, средната загуба на тегло е 20 килограма за половин година, със средно отклонение от 10 килограма. Във втората средната загуба е пет килограма за половин година, а средното отклонение е един килограм. Така че можете да очаквате да загубите нещо между 10 и 30 килограма с първото хапче, докато с второто ще загубите между четири и шест килограма.

Кое хапче е по-добро? Човек, който иска да отслабне, със сигурност би избрал първия. Академичен икономист би казал, че второто хапче е „статистически по-значимо“. В повечето ситуации акцентът върху точността, а не върху величината на общия ефект, дава изкривена представа за реалността. Стивън Зилиак и Дейрдре Макклоски твърдят, че този неоправдан акцент е основен недостатък на съвременните емпирични методи в социалните науки.

Статистическа значимост

Източник: Гласувайте за тази статия на vybrali.sme.sk

Стивън Т. Зилиак и Дейрдре Н. Макклоски: Култът към статистическото значение. Как стандартната грешка ни струва работа, справедливост и живот. Ann Arbor: University of Michigan Press (2008), 320 стр.

Статистическата значимост е термин, който се отнася до регресионен анализ. В него изследователите се опитват да обяснят зависима променлива (като икономически растеж) чрез комбинация от други променливи (като интензивността на научните изследвания, грамотността на населението или качеството на институциите). По този начин регресионният анализ предоставя набор от оценки, от които може да се изведе ефектът от научните изследвания, грамотността или институциите върху икономическия растеж.

Традиционната работа на работещите с регресионен анализ е да тестват статистическа значимост - дали оценката на ефекта от, да речем, научни изследвания не може да бъде обяснена само като последица от случайността. Ако такава хипотеза не може да бъде отхвърлена, променливата се счита за статистически незначителна. Ако подобна хипотеза може да бъде отхвърлена, тогава въздействието на изследванията върху икономическия растеж се счита за нещо повече от случайност.

Но механичните тестове със статистическа значимост могат да скрият реалното, „съществено“ значение. Както в примера на хапчетата за отслабване, в емпиричната икономика може да има ситуация, при която потенциално голям ефект ни се струва статистически незначителен. Например, защото съответната променлива се измерва много неточно.

Здравият разум казва, че величината на даден ефект е по-важна от неговата статистическа значимост. Физиците разбират това много добре и първият им рефлекс винаги е да питат за степента на изследваното влияние. Във физиката много статистически значими връзки се считат за незначителни, ако степента на ефектите е твърде малка. За разлика от това много малки и незначителни ефекти се разглеждат в икономиката като статистически значими връзки. И твърде често, потенциално значимите ефекти, които показват голяма неточност, се игнорират. Изключително важно е да се осъзнае, че статистическата значимост сама по себе си не е нито необходимо, нито достатъчно условие за реалната значимост на наблюдаваната променлива.

Училищна грешка

В допълнение, безмисленото тестване на статистическа значимост крие подводни камъни под формата на училищна грешка - объркването на два различни типа условна вероятност. Каква е вероятността да бъде обесен произволно избран мъртвец? Разумно е да се предположи, че тя ще бъде относително малка. И обратно, каква е вероятността случайно избран обесен човек да е мъртъв? Тази вероятност ще бъде много близо до сигурност.

Това може да е на пръв поглед тривиална и лесно маскируема грешка. Читателят на икономически списания обаче лесно може да се сблъска с неговата „по-научна“ форма - неправилно приложен или интерпретиран t-тест на Student. Зад това име се крие математически инструмент за тестване на хипотезата за статистическата значимост на данните, измерени за избрана извадка. На практика се използва например за сравнение дали резултатите от измерванията от избрана проба се различават статистически значимо от контролната проба.

Математикът би казал, че t-тестът проверява дали хипотезата, че действителният ефект е нулев, може да бъде отхвърлена въз основа на данните, измерени върху избраната извадка. Голяма грешка е да се обърка това с опростеното твърдение, че се проверява дали величината на изследвания ефект е нула. Ако не можем да отхвърлим така наречената нулева хипотеза, тя все още не ни дава правото да твърдим недвусмислено, че реалният ефект е нулев. Или на човешки език: подобно е на ситуация, при която не можем да отхвърлим хипотезата, че случайно избран обесен човек е мъртъв. Твърде много социални учени обаче правят тази грешка.

Подвеждащи и вредни

Според Ziliak и McCloskey акцентът върху статистическата значимост е подвеждащ и вреден. Според тях статистическата значимост дори не е полезен инструмент за първоначално изследване на данните, тъй като твърде често може да доведе до напълно погрешни заключения. Парадоксално е колко голямо значение се придава на емпиричните изследвания, показващи „значителни“ резултати. Едно от първите открития, което се засажда в съзнанието на всеки студент по иконометрия, е, че резултатите му са статистически значими.

Иконометричните учебници са създадени от t-теста и еднопроцентното ниво на значимост на идола, който е безкритично преклонен пред почти цялата икономическа професия. Зилиак и Макклоски следват емпирични статии в American Economic Review, най-престижното списание в икономическата професия, и установяват, че акцентът върху статистическата значимост тласка други, много по-важни съображения. Само минимум статии също показаха силата на съответния тест. Много статии не обсъждат величината на откритите ефекти и тяхното сравнение с това, което авторите очакват от моделите.

Вярно е, че ситуацията се е подобрила донякъде в сравнение с 80-те години. Но все още доминира подходът към използването на методи, който безмислено прилага принципа на статистическата значимост и игнорира големината на изследваните ефекти. Тази тенденция не се избягва дори от големите имена на съвременната икономика. Авторите споменават с удоволствие произведенията на Гари Бекер, Бен Бернанке, Пол Кругман или Дейвид Кард и Алън Крюгер, които механично и безразсъдно използват концепцията за статистическа значимост като предполагаемо доказателство за реалната значимост на изследваните от тях ефекти.

Широко разпространена болест

Регресионният анализ не се използва само в икономиката. Това е често срещан инструмент в психологическите и медицинските изследвания. Според авторите днешната психология е по-добра от икономиката, тъй като научните списания поставят по-строги изисквания към фактическата, а не само статистическата значимост на резултатите. В медицината клиничните изпитвания на лекарства разчитат на статистическа значимост. И това може да бъде буквално фатално.

Vioxx, болкоуспокояващо средство, разработено от Merck, се разпространява в повече от 80 страни между 1999 и 2003 г. След като 70-годишна жена, приемала Vioxx по лекарско предписание, умря от инфаркт, клиничните изпитвания за неговите ефекти бяха преразгледани. Очаквайки съдебното дело, Мерк изтегли лекарството от продажба. Как се свързва със статистическата значимост?

Петима пациенти, приемащи Vioxx, са претърпели инфаркт по време на клинични изпитвания. През същия период само един пациент от контролната група, приемащ друго лекарство, е претърпял инфаркт. Тази разлика не достига границата от 5% от статистическа значимост. Поради това Merck твърди, че няма разлика в ефекта на двете лекарства върху кръвоносната система, въпреки очевидното съотношение пет към едно в ущърб на Vioxx. За да се влошат нещата, по-късно беше установено, че още трима пациенти, които са страдали или са починали от инфаркт, са били изключени от пробата по време на тестването. В крайна сметка това не беше съотношение пет към едно, а осем към едно (което вече би било статистически значимо).

Разбираемо е, че честният икономист би намерил манипулирането на данни за неприемливо. Но основният проблем е, че акцентът върху самата манипулация беше върху статистическата значимост като единствената мярка за риск. Механичното му приложение създава перфектната мотивация за манипулации, които често се случват. Следователно, ако искаме да постигнем по-високо ниво на прозрачност в научните изследвания, трябва да настояваме тестовете със статистическа значимост да не са крайъгълен камък за работа с данни.

Историята на статистиката

Увлекателна е и историята с t-теста на Student, който Зилиак и Макклоски разказват в последната трета от книгата. Студентът, който публикува теории по биометрия, всъщност се казва Уилям С. Госет и работи в пивоварната Гинес в Дъблин. Работодателят не му позволи да публикува с истинското си име. Методът, който той използва главно при сравняване на технологични процеси при приготвянето на бира или при сравняване на качеството на сортовете хмел, попада в ръцете на Роналд А. Фишър, амбициозен статистик, който по-късно става професор по евгеника в Университетския колеж в Лондон.

Госет предупреди да не прави t-теста механичен инструмент за оценка на значимостта на обяснителните променливи в статистическата регресия, като същевременно игнорира величината на ефекта. Недобросъвестният Фишър обаче, който съзнателно омаловажи значението на Студента за собствените си изследвания, превърна теста за статистическа значимост в идол на съвременната статистика.

Влиянието на R. A. Fisher и първоначалната привлекателност на прости, автоматично прилагани правила стоят зад факта, че приложната икономика, психология и клинична медицина поставят ненужен акцент върху t-теста. Разширяването на компютърните технологии, което позволява незабавно тестване на статистическа значимост, също изигра роля.

Ако разходите за използване на тест за статистическа значимост са на практика нула, тогава икономиката прогнозира, че в дългосрочен план възвръщаемостта от тези тестове също ще бъде нула. И това изглежда точно описва ситуацията в съвременните емпирични дисциплини. Статистическата значимост е ежедневно явление, което има много малка полза за реалното познание.

Зилиак и Макклоски призовават за радикална промяна на парадигмата. Те призовават социалните учени да не прилагат t-теста като рецепта от готварска книга, а по-скоро да гледат на техния мащаб, когато оценяват значението на различните ефекти. И я сблъскаха с това, което техните теории предсказват с разумно зададени параметри. Подобна промяна би поставила по-големи изисквания към качеството и ще помогне на социалните науки да бъдат по-честни и да говорят за реалността повече, отколкото казват в момента.

    Стивън Т. Зиляк е професор по икономика в университета Рузвелт в Чикаго. В допълнение към икономическата история той се фокусира върху методологията и историята на математическата статистика.

Deirdre N. McCloskey (роден Доналд Н. Макклоски) е професор по икономика, история, английски език и комуникации в Университета на Илинойс в Чикаго. Той е един от основателите на клиометрията - количествено изследване на икономическата история. В допълнение към важния принос в тази област, McCloskey стана известен главно с изследването на значението на реториката в икономиката и социологията на икономическата професия.

Авторът на рецензията е докторант в университета Джордж Мейсън.