За да се улесни разбирането на статистиката, е необходимо да се обяснят някои основни статистически понятия.

може съдържа

Статистически файл

Статистиката се занимава с явленията, които наричаме масови явления. Различаваме два вида масови явления. Един вид е този, който се среща при голям брой обекти - ръст, тегло, цвят на очите, пол, възраст, професия, брой деца и т.н. Вторият вид е този, който е резултат от голям брой повторения, напр. многократно претегляне на предмет, многократно хвърляне на зарове, монети и др. Извикват се обектите, които изследваме статистически статистически файл - напр. набор от хора, живеещи на дадена територия.

Основен статистически файл обхват н представлява съвкупността от всички статистически единици. Ако не е възможно да се разгледа основният файл (по време, финансови или други причини), ние създаваме от него примерен файл според предварително определени правила. В проучването се събират данни само за част от населението, т.нар проба. След това тези данни се използват за оценка на характеристиките на цялата популация. В този случай трябва да се гарантира, че извадката представлява съответната популация. Например делът на хората на възраст под 18 години или делът на жените и мъжете в избраната извадка от домакинства трябва да отразява реалността в общото население.
Трябва да направим селекцията, така че избраните обекти да имат свойство, което има целият основен файл. Ние наричаме това свойство статистически знак (това може да бъде пол, професия, брой деца, възраст, образование и т.н.). Ние наричаме вариации, варианти на различни стойности на статистически знак.

Статистически знак

Статистическите характеристики могат да бъдат разделени според различни аспекти. Основното разделение е на качествени и количествени характеристики:

Качествени (категорични) характеристики устно изразява свойство на статистическа единица. Стойностите на качествените знаци обикновено се означават с числа, те се кодират. Разделяме качествените характеристики на:

  • - знакови имена, можем да назовем техните ценности, но не можем да ги класираме. Можем да кажем, че те са различни или равни (пол, цвят на очите, националност);
  • - редови - серийни знаци, Можем естествено да подредим техните стойности по ред, но не можем да определим доколко едната стойност е по-голяма от другата (медал - злато, сребро, бронз, ранг в армията, качествена оценка на ученика - отличен, много добър, добър, неуспешно, можем да изразим числена оценка 1, 2, 3, 4).

Количествени (кардинални, числови) знаци са реални числа, можем да кажем за техните стойности дали са еднакви или различни, можем да ги подредим по ред и също така можем да определим колко една стойност е по-голяма от друга. Тези знаци също имат нулева стойност и мерна единица. Количествените характеристики се разделят на:

  • - дискретни символи - те имат краен, но преброим брой вариации и всички вариации могат да бъдат номерирани с естествени числа 1, 2, 3 например броят на децата в семейството, броят точки в теста;
  • - непрекъснатознаци - може да има различна числова стойност от определен интервал (телесна височина, доход).

Интервални знаци (диференциални) са тези, чиито стойности можем да подредим по ред, можем да определим колко една стойност е по-голяма от другата и какви са разликите (интервалите) между стойностите, но не можем да определим колко пъти една стойност е по-голяма от другия. Интервалният знак няма естествена нулева точка, но нулевата точка може да бъде определена по споразумение. Следователно стойностите на интервалните знаци могат да се добавят или изваждат, но не могат да се умножават и делят. Те могат да придобият както положителни, така и отрицателни стойности, например: знакът "температура на Целзий" има уговорена нула - температура на топене на лед.

Пропорционалните знаци (пропорционални) са специални случаи на интервални знаци. Те могат да бъдат подредени по ред и ние можем да определим разликите между стойностите. Те също имат естествена нулева точка, абсолютна 0, което означава, че знакът не съществува. Стойностите им не могат да бъдат отрицателни, те могат да се събират, изваждат, умножават и разделят. Например възрастовият характер има абсолютна нула от 0 години. 60-годишният е на 40 години по-възрастен от 20 години и можем да кажем, че е 3 пъти по-възрастен от двайсетте си години.

Определянето на стойностите на статистически признак в статистически файл се нарича статистическо проучване. При обработката на статистически данни често заместваме качествената характеристика с количествена.
(напр. качествена черта на пола: мъже = 1, жени = 2).

Извиква се знак, който има само една фиксирана стойност постоянна. Статистиката основно наблюдава знаци, които имат поне две или повече вариации. Такъв герой има име променлива.

Статистическа класификация

Най-добрият начин за опростяване и изясняване на данните, получени чрез статистически изследвания, е да ги организирате в определени групи - класове.

Методът за подреждане на статистическите данни в определени групи (класове) според определена характеристика се нарича сортиране.
класификация = разделяне на статистическите единици на такива групи (класове), че характеристичните свойства на изследваните явления се открояват възможно най-добре;
сортиращ знак = статистически знак, който е критерият за сортиране на статистическия файл;
клас = група статистически единици със същата стойност (вариант) на даден знак.


Примери за сортиране на статистически файлове:
- когато оценяваме в училище, правим разлика между клас единици, клас двойки, клас тройки, .
- класификация на лицата според постигнатото ниво на образование - група с основно образование, група със средно образование, без GCSE, група със средно образование с GCSE.

Когато дадена статистика има малък брой вариации, всяка от нейните вариации представлява отделен клас. За представяне на такива данни се използва таблица за честотно разпределение, наричана още честотна таблица. Обикновено става въпрос за първата стъпка в обработката на статистиката.

Честотно разпределение - честотна таблица

Честотните таблици се използват за показване на данни, т.е. ясен начин за организиране на данни. Статистиката се класифицира в класове с определен брой и се създава честотно разпределение.

Честотните таблици съдържат информация:

  • - за наблюдаваните стойности на знака и за честотата на появата му в статистическия файл (абсолютен брой), брой ni, указва колко единици от статистическия файл принадлежат към клас с определено свойство или колко единици от файла имат символна стойностx i
  • - за относителното представяне на символни стойности във файла (относителна честота), = число vi, указва коя част от файла принадлежи на класа с даденото свойство; се определя от съотношението на абсолютно изобилие ni и обхват на файла н.
  • - относно включването на индивидуалната стойност на даден знак в общото разпределение на честотата на знака (кумулативна честота)

Броят на дневните в домакинствата беше определен с възможни резултати: 1, 2, 3, 4, 5+ (което означава 5 или повече стаи). В това проучване бяха избрани на случаен принцип 25 респонденти със следните резултати, които живееха в апартаменти със следния брой стаи: 1, 3, 2, 4, 5+, 2, 3, 2, 5+, 1, 4, 2, 3, 3, 5+, 3, 3, 2, 4, 4, 2, 3, 4, 3, 2

Създайте таблица на честотните и относителните честотни разпределения. Опитайте с кратка интерпретация на получените резултати, която ще съдържа най-многобройната и най-малко многобройната стойност на наблюдавания характер.

Решението
Маркираме наблюдавания знак със символа х (брой дневни), които могат да приемат стойностите x i (j = 1, 2, 3, 4, 5+). Обозначаваме абсолютни числа ni, относително изобилие vj.

Таблица: Абсолютни и относителни числа според броя на дневните

Повечето хора живеят в домакинства с три дневни (32%), докато домакинствата с една дневна живеят в най-малко хора (8%).

Средни стойности

Познаваме две основни групи числени характеристики за изследване на една статистическа характеристика:
характеристика на позицията (център) - изразяват определено ниво на характер, около което други ценности на характера са концентрирани повече или по-малко;
характеристики на променливостта - изразете как стойностите на характера на елементите от множеството се различават от избраната характеристика на позицията или една от друга

Характеристики на позицията (нива, център) - числа, които характеризират т.нар "средната стойност" на наблюдаваната статистическа характеристика. Разделяме ги на две основни групи:

- средни стойности - те могат да бъдат прости или претеглени
а) средно аритметично
б) геометричен диаметър
в) средна хармоника
- други средни стойности - медиана, режим

Средноаритметично

Нарича се средната аритметична, на общ език средно аритметично, е сумата от стойностите на група от числа, разделена на броя на числата в групата. Средното може да се разбира като сумиране на група от числа в едно число.

Средноаритметично х изразява обема на X стойности средно за единица файл. Определя се от връзката:

н - обхват на файла,
x i - стойност на знака X в i-тата единица.

Пример
Имаме 9 числа в групата: 10, 12, 11, 15, 13, 35, 41, 23, 20. Сборът от тези 9 числа е 180. Тогава сумата от 180 се дели на числото 9, за да се получи средната стойност . Средната стойност е 180/9 = 20.

Пример
Въз основа на статистически доклади за ражданията и смъртните случаи и досиета за миграцията, Статистическата служба на Словашката република изготвя годишен баланс на населението на Словашката република за всички общини.

Имаме средния (среден) брой постоянни жители в отделни региони на Словашката република към 31 декември 2018 г. (за по-добра работа с данни броят на жителите е закръглен и е даден в хиляди): Регион Братислава 646, Регион Трнава 562, Регион Тренчин 588, Регион Нитра 679, Регион Жилина 691, Регион Банска Бистрица 650, Регион Прешов 823, Регион Кошице 798.

Изчислете средната аритметична стойност на броя на жителите, живеещи в един регион на Словашката република.

Решението
Заместваме дадените данни във формулата за средно аритметично. Не трябва да забравяме, че ще вмъкнем числа във хиляди във формулата, така получената популация ще бъде в хиляди.

х = (646 + 562 + 588 + 679 + 691 + 650 + 823 + 798)/8 = 679 625 ≐ (приблизително) 680

Можем да заявим, че във всеки регион на Словашката република живеят средно 680 хиляди жители.

Средно аритметично (илюстрационното видео може да съдържа реклами)

В официалната статистика това е най-често срещаният тип средна стойност среднопретеглена, защото рядко всички елементи имат еднакво значение. В среднопретеглената стойност всеки взет елемент се умножава по число (тегло), което отразява относителната важност на артикула, след това резултатът се изчислява и след това се разделя на броя на елементите.

Претеглена аритметична средна стойност х използваме при работа със сортиран набор от символни стойности х. За да го изчислим използваме релацията:

н - обхват на файла,
x i - стойност на знака X в i-тата единица.

Средно претеглена (илюстративното видео на чешки може да съдържа реклами)

Геометричен диаметър (илюстрационното видео може да съдържа реклами)

Режим

Mo е най-често срещаната стойност на знака х, съответно, в случай на сортиран файл, стойността с най-голямото абсолютно изобилие.

Пример
Броят на дневните в домакинствата беше определен с възможни резултати: 1, 2, 3, 4, 5+ (което означава 5 или повече стаи). По време на това проучване бяха избрани на случаен принцип 25 респонденти, всеки живеещ в апартамент с определен брой стаи (първият живееше в едностаен апартамент, а вторият в тристаен апартамент: 1, 3, 2, 4, 5 +, 2, 3, 2, 5+, 1, 4, 2, 3, 3, 5+, 3, 3, 2, 4, 4, 2, 3, 4, 3, 2
Стойността 3 е най-често срещаната в този пример, което означава, че режимът е 3.
Mod (x) = 3, стойност 3 е най-често срещана, среща се до 8 пъти.

Медиана

Медиана Аз е стойността, която разделя набора от открити стойности на 2 еднакво многобройни групи, t. j. групи, първата от които съдържа 50% от статистическите единици със стойността на даден знак х по-малко от медианата, втората съдържа 50% от останалите статистически единици, които имат стойност по-голяма от медианата. Ако сортираме всички стойности на символа според размера в не намаляваща (или не увеличаваща се) последователност, тогава медианата ще бъде стойността, която е в средата на разглежданата последователност.

В случай на сортиран файл:


и - горната граница на класа, предшестващ медийния интервал,
N - обхват на файла,
n1 - брой на всички елементи под медийния интервал,
n2 - брой елементи на медийния интервал,
h - ширина на класа.

Пример
Размерите на ръбовете на петте зарове са 6, 8, 9, 10 и 11 (в см). Определете средната стойност:
а) за тяхната повърхност,
б) за обема на тези кубчета.

Решението
а) Първо изчисляваме повърхностите (в см 2) на отделните кубчета. За дадените размери на ръба те са равни на: 216, 384, 486, 600, 726.
Вече е възможно да се определи медианата:
Med (x) = x (n + 1)/2 = x6/2 = x3 = 486, защото n е нечетно.

б) Първо изчисляваме обемите (в см 3) на отделни кубчета. За дадените размери на ръбовете те постепенно са равни на: 216, 512, 729, 1000, 1331. Вече е възможно да се определи медианата:
Med (x) = x (n + 1)/2 = x6/2 = x3 = 729, защото n е нечетно.

Режим, медиана (илюстрационното видео може да съдържа реклами)

Променливост

Характеристики на променливостта (променливост, разсейване) = числа, които показват степента, в която стойностите на знака се отклоняват от избраната характеристична позиция или една от друга. Те включват:
- вариационен обхват
- разсейване
- стандартно отклонение

Диапазон на вариация vr е само приблизителна характеристика на променливостта на стойностите на наблюдаваната черта. Определя се като разликата между най-голямата и най-малката стойност на количествената характеристика, t. j. v r = хмакс - хмин .

Разпръскване

Разпръскване δ 2 представлява средната аритметична стойност на квадратите на отклоненията от средната стойност х. Определя се по формулата:

В случай на сортиран файл, ние го изчисляваме според съотношението:

N - обхват на файла,
m - брой класове във файла,
nj - абсолютно изобилие j-от този клас (j = 1, 2, . м),
xj - стойност на знака х, което представлява j-този клас.

Едно от важните свойства на разсейването е:
а) Дисперсията на константата е равна на нула.
б) Ако добавим към всички стойности на константния знак, дисперсията не се променя.
в) Ако умножим всички стойности на знака по константата a, тогава дисперсията на получените стойности е равна на произведението на дисперсията на първоначалния набор и квадрата на константата a .

Пример
В магазина за домакински стоки те получиха пратка от 18 метли, докато метлите трябваше да имат предписаната дължина от 120 см. Измерванията обаче показаха, че действителните дължини са както следва:
117, 122, 125, 118, 119, 120, 122, 123, 116, 117, 121, 120, 123, 120, 119, 121, 124, 115.
Определено разпръскването на метли.

Решението
Първо изчисляваме средната стойност:
х = (117 + 122 + 125 + 118 +. + 121 + 124 + 115)/18 = 2162/18 = 120.1

Замествайки във формулата, изчисляваме дисперсията:

Получената дисперсия е 6,69.

Скатер (илюстрационното видео може да съдържа реклами)

Въведение в дисперсията и стандартното отклонение (илюстрационното видео може да съдържа реклами)


Стандартно (стандартно) отклонение
δ се дефинира като δ = √δ 2 и показва как средните стойности на знака се отклоняват от средната аритметична стойност в дадения набор.

Стандартно отклонение (илюстрационното видео може да съдържа реклами)