Таблици за извънредни ситуации
Смисъл и подреждане на масата. Непредвидена ситуация или кръстосана таблица е комбинация от две (или повече) честотни таблици, така че всяка вътрешна клетка представлява уникална комбинация от специфични стойности (наричани още категории) на кръстосано табличните променливи. По този начин дава възможност да се определи честотата, броят на респондентите, попадащи в определена категория за повече от една променлива. Изследването на тези честоти дава възможност да се определи връзката, връзката между кръстосано табличните променливи. Таблицата за непредвидени обстоятелства е подходяща само за номинални променливи или числени променливи, достигащи относително малък брой възможни стойности. Ако е необходимо да се използва числова променлива с по-голям брой получени стойности, е необходимо първо да се прекодира, където стойностите на променливата ще бъдат еднозначно присвоени на категория (например ниска, средна, висока).
Маса 2х2. Най-простата форма на непредвидена таблица е таблица 2х2, където и двете променливи са двоични, придобивайки само две възможни стойности. Например, за да определим връзката между пола и популярността на определена напитка от производител А или Б, използваме следните данни:
Получената таблица за непредвидени обстоятелства може да изглежда като напр. както следва:
Всяка клетка на таблица представлява уникална комбинация от стойностите на две кръстосани променливи. Числото в клетката е броят на респондентите, които получават в заглавката на реда и колоната стойностите на променливите. Тази таблица показва, че повече жени, отколкото мъже, избират производител А и повече мъже, отколкото жени производител Б. По този начин полът и производителят могат да бъдат във връзка, която трябва да бъде доказана или опровергана.
Пределни числа. Пределните или по друг начин пределни числа са в дясната колона и долния ред на таблицата и са идентични с честотните таблици на изследваните променливи, които са описани в описателната статистика. Пределните числа са полезни при оценката дали има връзка между изследваните променливи. Тъй като съотношението на мъжете и жените в производител А е 40:60, ако същото съотношение беше в цялата група, бихме могли да заключим, че популярността на производител А не е свързана с пола. В този случай съотношението в колоната за производител А би отразявало само общото съотношение на мъжете и жените.
Ред, колона и общи проценти. Предишният пример показа, че за да се оцени връзката между кръстосани таблични променливи, е полезно да се сравняват стойностите във вътрешните клетки с пределните. За простота е по-удобно да се работи с честоти, изразени като процент.
Графично представяне на непредвидени таблици. Възможно е редовете и колоните на таблицата да се представят като стълбови графики или цялата таблица с една графика, триизмерна хистограма. Друга възможност е да се използва категоризирана хистограма, където една променлива се представя от отделни хистограми за всяка стойност на другата.
Маси за забиване и банер. Ако има само две променливи, които трябва да бъдат оценени в кръстосана таблица, говорим за двупосочна таблица. Ако обаче са налични няколко променливи и двупосочните таблици на няколко двойки от тези променливи са интересни, възможно е да се покажат в кондензиран вид в една, т.нар. stub-and-banner таблици.
Многопосочни таблици с контролна променлива. Ако е необходимо да се оцени връзката между повече от две категориални променливи, ние говорим за многопосочна таблица. Теоретично броят на променливите в многопосочната таблица е неограничен, но практическият резултат вече е много труден за четене за броя на променливите 5. За да се анализират връзките в такива таблици, е добре да се използват моделни техники като логаритарен анализ или анализ на съответствието.
Статистика в непредвидени таблици. Следващата таблица показва много силна връзка между възрастта (възрастен или дете) на респондентите и популярността на определен вид десерт (A или B).
Като цяло възрастните предпочитат десерта А, докато децата предпочитат десерта В. Няма съмнение относно връзката между изследваните променливи. На практика обаче сесията не е толкова силна и въпросът е как да се оцени нейната надеждност, т.е. статистическа значимост. Следващият преглед обхваща най-общите мерки за връзката между две категориални променливи. Следователно това е статистически анализ на двупосочни таблици.
Тестът за хи-квадрат на Пиърсън. Тази мярка за надеждност на връзката между двете категориални променливи е най-често използваната. Тестът се основава на измерване на разликите в действителните честоти в клетките на таблицата за непредвидени обстоятелства, за разлика от очакваните, където очакваната честота на клетките се изчислява като съотношението на произведението на пределната честота на съответния ред и колона и общ брой. Значението на хи-квадрат теста се увеличава с увеличаването на измерените разлики.В съответствие с въвеждането, стойността на теста хи-квадрат и неговата значимост също зависят от общия брой респонденти. При големия им брой дори малки разлики в придобитите честоти в сравнение с очакваните могат да доведат до статистическа значимост.
Единствената предпоставка за използването на хи-квадрат теста (освен правилата, свързани с вземането на проби) е правилото, че очакваните честоти не трябва да бъдат много малки, по-малко от 5.
Хи-квадрат тест с максимална вероятност. Този тест проверява същата хипотеза като предишната, но се основава на теорията за максималната вероятност. На практика резултатът е много близък до теста за хи-квадрат на Пиърсън.
Корекция на Йейтс. Това е подобрен хи-квадрат тест за таблици с типове 2x2. Подходящ е в случай, че таблицата съдържа малки действителни честоти, така че очакваните честоти също да са по-малки от 10.
Точен тест на Фишър. Приложим е само за таблици 2x2 pri malom n. Той се основава на следния принцип: Пределните честоти в таблицата са дадени и нека приемем, че за цялата популация е вярно, че двете променливи, разгледани в таблицата, не са във връзка. Каква е вероятността при тези предположения да получим клетъчни честоти, неравни или по-лоши от тези, които имаме? За малък n тази вероятност може да бъде точно определена количествено, като се анализират всички възможни таблици въз основа на дадени пределни честоти.
Тест за хи-квадрат на Макнемаров. Тестът е приложим за 2x2 таблици и независими измервания. Например измерване преди и след експеримента, където измерваме броя на студентите, които не са успели в теста в началото и в края на семестъра. Получаваме два хи-квадрат теста. A/D тестът тества хипотезата, че броят на клетките A (горе вляво) и D (долу вдясно) са еднакви. B/C тества хипотезата, че броят в клетките B (горе вдясно) и C (долу вляво) са еднакви.
Коефициент Phi. Това е мярка за корелацията между две категориални променливи за 2x2 таблици. Стойността на коефициента phi може да варира от -1 до 1, 0 означава, че променливите не корелират, -1 или 1, че те са напълно зависими.
Тетрахорична корелация. Тези статистически данни са приложими само за 2x2 таблици, където и двете променливи са създадени чрез изкуствена категоризация на първоначално непрекъснатите променливи.
Непредвидени обстоятелства коефициент - C . Това е мярка за връзката на две променливи въз основа на хи-квадрат теста на Пиърсън. В сравнение с оригиналния хи-квадрати е по-лесно да се тълкува, тъй като неговите стойности са извън обхвата, като 0 означава абсолютна независимост. Недостатъкът на тази статистика е фактът, че C може да достигне горната граница 1 само ако броят на категориите е неограничен. Тази степен на връзка обикновено не е толкова приемлива, поради не много ясна интерпретация от гледна точка на вероятността като r на Пиърсън.
Статистика въз основа на ранга. В много случаи категориите на променливите на таблицата за непредвидени ситуации са от порядък (напр. Много слаби, слаби, средни, силни, много силни). Така че променливите са поредни. Докато кодирането на категориите следва логичен ред, следните статистически данни могат да се използват за изразяване на връзката между променливите:
Сперманово Р . R на Spearman може да се разглежда като коефициент на корелация на продукта на Pearson (r на Pearson), т.е. от гледна точка на дела на променливостта, с изключение на това, че Spearman се изчислява от реда. Следователно променливите трябва да бъдат измерими най-малко в редовната скала.
Тау на Кендъл . Тау на Кендъл, идентичен с R. на Спиърман. Изчислението и резултатът обаче са различни, както и интерпретацията. Валидно: -1
D на Сомер: d (X | Y), d (Y | X). (Siegel, Castellan, 1988, стр. 303-310)
Гама. Гама статистиката е полезна за използване, ако данните съдържат много обвързани измервания. От гледна точка на предположенията, гама статистиката е еквивалентна на R на Spearman или на Kendall, от гледна точка на интерпретацията е подобна на tau на Kendall.
Коефициенти на неопределеност . Това са показатели за стохастична зависимост. S (Y, X) се отнася до симетрична зависимост, S (X | Y), S (Y | X) до асиметрична.