Класичні методи статистики: критерій хі-квадрат. Порівняння двох частотних розподілів. Критерій хі-квадрат

Міністерство освіти та науки Російської Федерації

Федеральне агентство з освіти міста Іркутська

Байкальський державний університетекономіки та права

Кафедра Інформатики та Кібернетики

Розподіл "хі-квадрат" та його застосування

Колмикова Ганна Андріївна

студентка 2 курсу

групи ІС-09-1

Для обробки отриманих даних використовуємо критерій хі-квадрат.

І тому побудуємо таблицю розподілу емпіричних частот, тобто. тих частот, які ми спостерігаємо:

Теоретично, ми очікуємо, що частоти розподіляться рівноймовірно, тобто. частота розподілиться пропорційно між хлопчиками та дівчатками. Побудуємо таблицю теоретичних частот. Для цього помножимо суму по рядку на суму по стовпцю і розділимо число, що вийшло, на загальну суму (s).


Підсумкова таблиця для обчислень виглядатиме так:

χ2 = ∑(Е - Т)² / Т

n = (R - 1), де R – кількість рядків у таблиці.

У нашому випадку хі-квадрат = 4,21; n = 2.

За таблицею критичних значень критерію знаходимо: при n = 2 та рівні помилки 0,05 критичне значення χ2 = 5,99.

Отримане значення менше критичного, а отже, приймається нульова гіпотеза.

Висновок: вчителі не надають значення стать дитини при написанні їй характеристики.

Додаток

Критичні точки розподілу χ2

Таблиця 1

Висновок

Студенти багатьох спеціальностей вивчають в кінці курсу вищої математики розділ "теорія ймовірностей і математична статистика", реально вони знайомляться лише з деякими основними поняттями та результатами, яких явно мало для практичної роботи. З деякими математичними методами дослідження студенти зустрічаються у спеціальних курсах (наприклад, таких, як "Прогнозування та техніко-економічне планування", "Техніко-економічний аналіз", "Контроль якості продукції", "Маркетинг", "Контролінг", " Математичні методипрогнозування", "Статистика" та ін. (у випадку студентів економічних спеціальностей), проте виклад у більшості випадків носить дуже скорочений і рецептурний характер. У результаті знань у фахівців із прикладної статистики недостатньо.

Тому велике значеннямає курс "Прикладна статистика" у технічних вузах, а в економічних вузах – курсу "Економетрика", оскільки економетрика – це, як відомо, статистичний аналізконкретні економічні дані.

Теорія ймовірності та математична статистика дають фундаментальні знання для прикладної статистики та економетрики.

Вони потрібні фахівцям для практичної роботи.

Я розглянула безперервну ймовірнісну модель і постаралася на прикладах показати її використання.

Список використаної літератури

1. Орлов А.І. Прикладна статистика М: Видавництво "Іспит", 2004.

2. Гмурман В.Є. Теорія ймовірностей та математична статистика. М.: Вища школа, 1999. - 479с.

3. Айвозян С.А. Теорія ймовірностей та прикладна статистика, т.1. М.: Юніті, 2001. - 656с.

4. Хамітов Г.П., Ведернікова Т.І. Імовірності та статистика. Іркутськ: БДУЕП, 2006 - 272с.

5. Єжова Л.М. Економетрики. Іркутськ: БДУЕП, 2002. - 314с.

6. Мостеллер Ф. П'ятдесят цікавих ймовірнісних завдань із рішеннями. М.: Наука, 1975. - 111с.

7. Мостеллер Ф. Імовірність. М.: Світ, 1969. - 428с.

8. Яглом А.М. Можливість та інформація. М.: Наука, 1973. - 511с.

9. Чистяков В.П. Курс теорії ймовірностей. М.: Наука, 1982. - 256с.

10. Кремер Н.Ш. Теорія ймовірностей та математична статистика. М.: ЮНІТІ, 2000. - 543с.

11. Математична енциклопедія, т.1. М.: Радянська енциклопедія, 1976. - 655с.

12. http://psystat.at.ua/ - Статистика в психології та педагогіці. Критерій Хі-квадрат.

Хі-квадратПірсона - це найпростіший критерій перевірки значущості зв'язку між двома категоризованими змінними. Критерій Пірсона ґрунтується на тому, що у двовходовій таблиці очікуванічастоти при гіпотезі "між змінними немає залежності" можна обчислити безпосередньо. Уявіть, що 20 чоловіків та 20 жінок опитано щодо вибору газованої води (марка Aабо марка B). Якщо між перевагою та статтю немає зв'язку, то природно чекатирівного вибору марки Aта марки Bдля кожної статі.

Значення статистики хі-квадратта її рівень значимості залежить від загальної кількості спостережень та кількості осередків у таблиці. Відповідно до принципів, що обговорюються у розділі , відносно малі відхилення частот, що спостерігаються від очікуваних буде доводити значимість, якщо число спостережень велике.

Є лише одне суттєве обмеження використання критерію хі-квадрат(крім очевидного припущення про випадковий вибір спостережень), яке полягає в тому, що очікувані частоти не повинні бути дуже малі. Це пов'язано з тим, що критерій хі-квадратза своєю природою перевіряє ймовірностіу кожному осередку; і якщо очікувані частоти в комірках, стають маленькими, наприклад, менше 5, то ці ймовірності не можна оцінити з достатньою точністю за допомогою наявних частот. Подальші обговорення див. у роботах Everitt (1977), Hays (1988) або Kendall and Stuart (1979).

Критерій хі-квадрат (метод максимальної правдоподібності).Максимум правдоподібності хі-квадратпризначений для перевірки тієї ж гіпотези щодо зв'язків у таблицях спряженості, що і критерій хі-квадратПірсона. Однак його обчислення ґрунтується на методі максимальної правдоподібності. На практиці статистика МП хі-квадратдуже близька за величиною до звичайної статистики Пірсона хі-квадрат. Докладніше про цю статистику можна прочитати в роботах Bishop, Fienberg, Holland (1975) або Fienberg (1977). У розділі Логлінійний аналізця статистика обговорюється докладніше.

Виправлення Єтса.Апроксимація статистики хі-квадратдля таблиць 2x2 з малими числом спостережень в осередках може бути поліпшена зменшенням абсолютного значення різниць між очікуваними і частотами, що спостерігаються, на величину 0.5 перед зведенням у квадрат (так звана поправка Єтса). Поправка Йєтса, що робить оцінку більш помірною, зазвичай застосовується в тих випадках, коли таблиці містять тільки малі частоти, наприклад, коли деякі очікувані частоти стають менше 10 (подальше обговорення див. Conover, 1974; Everitt, 1977; Hays, 1988; Kenda Stuart, 1979 та Mantel, 1974).

Точний критерій Фішера.Цей критерій застосовується лише таблиць 2x2. Критерій ґрунтується на наступній міркуванні. Дано маргінальні частоти в таблиці, припустимо, що обидві табульовані змінні незалежні. Задамося питанням: яка ймовірність отримання частот, що спостерігаються в таблиці, виходячи із заданих маргінальних? Виявляється, ця ймовірність обчислюється точнопідрахунком всіх таблиць, які можна побудувати, з маргінальних. Таким чином, критерій Фішера обчислює точнуймовірність появи частот, що спостерігаються при нульовій гіпотезі (відсутність зв'язку між табульованими змінними). У таблиці результатів наводяться як односторонні, і двосторонні рівні.

Хіквадрат Макнемара.Цей критерій застосовується, коли частоти таблиці 2x2 представляють залежнівибірки. Наприклад, спостереження тих самих індивідуумів до і після експерименту. Зокрема, ви можете підраховувати кількість студентів, які мають мінімальні успіхи з математики на початку і в кінці семестру або перевагу одних і тих же респондентів до і після реклами. Обчислюються два значення хі-квадрат: A/Dі B/C. A/D хі-квадратперевіряє гіпотезу про те, що частоти в комірках Aі D(верхня ліва, нижня права) однакові. B/C хі-квадратперевіряє гіпотезу про рівність частот у осередках Bі C(верхня права, нижня ліва).

Коефіцієнт Фі.Фі-квадратявляє собою міру зв'язку між двома змінними таблиці 2x2. Його значення змінюються від 0 (немає залежності між змінними; хі-квадрат = 0.0 ) до 1 (Абсолютна залежність між двома факторами в таблиці). Докладнішу інформацію див. у Castellan and Siegel (1988, стор. 232).

Тетрахорична кореляція.Ця статистика обчислюється (і застосовується) лише таблиць спряженості 2x2. Якщо таблиця 2x2 може розглядатися як результат (штучного) розбиття значень двох безперервних змінних на два класи, коефіцієнт тетрахорической кореляції дозволяє оцінити залежність між двома цими змінними.

Коефіцієнт спряженості.Коефіцієнт сполученості є заснованою на статистиці хі-квадратміру зв'язку ознак у таблиці спряженості (запропоновану Пірсоном). Перевага цього коефіцієнта перед звичайною статистикою хі-квадрату цьому, що він легше інтерпретується, т.к. діапазон його зміни знаходиться в інтервалі від 0 до 1 (де 0 відповідає випадку незалежності ознак у таблиці, а збільшення коефіцієнта показує збільшення ступеня зв'язку). Недолік коефіцієнта спряженості у цьому, що його максимальне значення"залежить" від розміру таблиці. Цей коефіцієнт може досягати значення 1 тільки якщо число класів не обмежено (див. Siegel, 1956, стор 201).

Інтерпретація заходів зв'язку.Істотний недолік заходів зв'язку (розглянутих вище) пов'язаний із складністю їх інтерпретації у звичайних термінах ймовірності або "частки поясненої варіації", як у випадку коефіцієнта кореляції rПірсона (див. Кореляції). Тому не існує одного загальноприйнятого заходу чи коефіцієнта зв'язку.

Статистики, що ґрунтуються на рангах.У багатьох завданнях, що виникають на практиці, ми маємо вимірювання лише в порядковий шкалою (див. Елементарні поняття статистики). Особливо це стосується вимірювань у галузі психології, соціології та інших дисциплін, пов'язаних з вивченням людини. Припустимо, ви опитали кілька респондентів з метою з'ясування їхнього ставлення до деяких видів спорту. Ви уявляєте вимірювання в шкалі з наступними позиціями: (1) завжди, (2) зазвичай, (3) інодіта (4) ніколи. Очевидно, що відповідь іноді цікавлюсьпоказує менший інтерес респондента, ніж відповідь зазвичай цікавлюсяі т.д. Отже, можна впорядкувати (ранжувати) рівень інтересу респондентів. Це типовий прикладпорядкової шкали. Для змінних, виміряних у порядковій шкалі, є типи кореляції, що дозволяють оцінити залежності.

R Спірмена.Статистику RСпірмена можна інтерпретувати так само, як і кореляцію Пірсона ( rПірсона) у термінах поясненої частки дисперсії (маючи, однак, на увазі, що статистика Спірмена обчислена за рангами). Передбачається, що змінні виміряні як мінімум у порядковийшкалою. Всебічне обговорення рангової кореляціїСпірмена, її потужності та ефективності можна знайти, наприклад, у книгах Gibbons (1985), Hays (1981), McNemar (1969), Siegel (1956), Siegel and Castellan (1988), Kendall (1948), Olds (1949) та Hotelling and Pabst (1936).

Тау Кендалл.Статистика тауКендала еквівалентна RСпірмена під час виконання деяких основних припущень. Також еквівалентні їх потужності. Однак зазвичай значення RСпірмена та тауКендалки різні, тому що вони відрізняються як своєю внутрішньою логікою, так і способом обчислення. У роботі Siegel and Castellan (1988) автори висловили співвідношення між цими двома статистиками такою нерівністю:

1 < = 3 * Тау Кендалла - 2 * R Спирмена < = 1

Більш важливим є те, що статистики Кендалла таута Спірмена Rмають різну інтерпретацію: тоді як статистика RСпірмена може розглядатися як прямий аналог статистики rПірсона, обчислений за рангами, статистика Кендала таускоріше заснована на ймовірності. Більш точно, перевіряється, що є різниця між ймовірністю того, що дані, що спостерігаються розташовані в тому ж самому порядку для двох величин і ймовірністю того, що вони розташовані в іншому порядку. Kendall (1948, 1975), Everitt (1977), та Siegel and Castellan (1988) дуже докладно обговорюють тауКендалл. Зазвичай обчислюється два варіанти статистики тауКендалла: tau bі tau c. Ці заходи розрізняються лише способом обробки збігаються рангів. Найчастіше їх значення досить схожі. Якщо виникають відмінності, то, мабуть, найбільш безпечний спосіб- Розглядати найменше з двох значень.

Коефіцієнт d сомера: d (X | Y), d (Y | X).Статистика dСоммера є несиметричною мірою зв'язку між двома змінними. Ця статистика близька до tau b(Див. Siegel and Castellan, 1988, стор 303-310).

Гамма-статистика.Якщо даних є багато збігаються значень, статистика гаммакраще RСпирмена або тауКендалл. З погляду основних припущень, статистика гаммаеквівалентна статистиці RСпірмена або тау Кендалл. Її інтерпретація та обчислення більш схожі на статистику тау Кендала, ніж на статистику R Спірмена. Говорячи коротко, гаммає також ймовірність; точніше, різниця між ймовірністю того, що ранговий порядок двох змінних збігається, мінус ймовірність того, що він не збігається, поділену на одиницю мінус ймовірність збігів. Таким чином, статистика гаммав основному еквівалентна тауКендала, за винятком того, що збіги явно враховуються в нормуванні. Детальне обговорення статистики гаммаможна знайти у Goodman and Kruskal (1954, 1959, 1963, 1972), Siegel (1956) та Siegel and Castellan (1988).

Коефіцієнти невизначеності.Ці коефіцієнти вимірюють інформаційний зв'язок між факторами (рядками та стовпцями таблиці). Концепція інформаційної залежностібере початок у теоретико-інформаційному підході до аналізу таблиць частот, можна звернутися до відповідних посібників для роз'яснення цього питання (див. Kullback, 1959; Ku and Kullback, 1968; Ku, Varner, and Kullback, 1971; див. також Bishop, Fienberg, and Holland, 1975, стор 344-348). Статистика S(Y,X) є симетричною та вимірює кількість інформації в змінній Yщодо змінної Xабо у змінній Xщодо змінної Y. Статистики S(X|Y)і S(Y|X)виражають спрямовану залежність.

Багатомірні відгуки та дихотомії. Змінні типу багатовимірних відгуків та багатовимірних дихотомій виникають у ситуаціях, коли дослідника цікавлять не тільки "прості" частоти подій, але також деякі (часто неструктуровані) якісні властивості цих подій. Природу багатовимірних змінних (чинників) краще зрозуміти на прикладах.

  • · Багатомірні відгуки
  • · Багатомірні дихотомії
  • · Кросстабуляція багатовимірних відгуків та дихотомій
  • · Парна кростабуляція змінних з багатовимірними відгуками
  • · Заключний коментар

Багатовимірні відгуки.Уявіть, що в процесі великого маркетингового дослідження, ви попросили покупців назвати 3 найкращі, на їхній погляд, безалкогольні напої. Звичайне питання може виглядати так.

Критерій хі-квадрат.

Критерій хі-квадрат, на відміну від критерію z, застосовується для порівняння будь-якої кількості груп.

Вихідні дані: таблиця спряженості.

Приклад таблиці сполученості мінімальної розмірності 2*2 наведено нижче. A, B, C, D – звані, реальні частоти.

Ознака 1 Ознака 2 Усього
Група 1 A B A+B
Група 2 C D C+D
Усього A+C B+D A+B+C+D

Розрахунок критерію заснований на порівнянні реальних частот та очікуваних частот, які обчислюються в припущенні відсутності взаємного впливу порівнюваних ознак один на одного. Таким чином, якщо реальні та очікувані частоти досить близькі одна до одної, то впливу немає і значить ознаки будуть розподілені приблизно однаково за групами.

Вихідні дані для застосування цього методу повинні бути занесені в таблицю сполученості, по стовпчиків і рядків якої вказуються варіанти значень досліджуваних ознак. Числа у цій таблиці будуть називатися реальними чи експериментальними частотами. Далі необхідно розрахувати очікувані частоти з припущення, що порівнювані групи абсолютно рівні по розподілу ознак. У цьому випадку пропорції по підсумковому рядку або стовпцю «всього» повинні зберігатися в будь-якому рядку та стовпці. Виходячи з цього визначаються очікувані частоти (див. приклад).

Потім розраховують значення критерію як суму по всіх осередках таблиці сполученості відношення квадрата різниці між реальною частотою і очікуваною частотою до очікуваної частоти:

де - реальна частота в комірці; - Очікувана частота в комірці.

, де N = A + B + C + D.

При розрахунку за основною формулою для таблиці 2*2 ( тільки для такої таблиці ), також необхідно застосувати поправку Йейтса на безперервність:

.

Критичне значення критерію визначається за таблицею (див. додаток) з урахуванням числа ступенів свободи та рівня значущості. Рівень значимості набувають стандартного: 0,05; 0,01 чи 0,001. Число ступенів свободи визначається як добуток числа рядків та стовпців таблиці сполученості зменшених кожне на одиницю:

,

де r- Число рядків (число градацій однієї ознаки), з- Число стовпців (число градацій іншої ознаки). Це критичне значення можна визначити в електронній таблиці Microsoft Excelвикористовуючи функцію =хі2обр( a, f), де замість a треба запровадити рівень значущості, а замість f- Число ступенів свободи.

Якщо значення критерію хі-квадрат більше критичного, то гіпотезу про незалежність ознак відкидають і можна вважати залежними на обраному рівні значимості.

Цей метод має обмеження щодо застосування: очікувані частоти мають бути 5 або більше (для таблиці 2*2). Для довільної таблиці це обмеження менш суворе: всі очікувані частоти повинні бути 1 або більше, а частка комірок з очікуваними частотами менше 5 не повинна перевищувати 20%.

З таблиці сполученості великої розмірності можна «виокремити» таблиці меншої розмірності і їм розрахувати значення критерію c 2 . Це фактично будуть численні порівняння, аналогічні описаним для критерію Стьюдента. У цьому випадку також треба застосовувати поправку на численні порівняння в залежності від їх кількості.

Для перевірки гіпотези за допомогою критерію c 2 в електронних таблицях Microsoft Excel можна застосувати наступну функцію:

ХІ2ТЕСТ (фактичний інтервал; очікуваний інтервал).

Тут фактичний_інтервал - вихідна таблиця сполученості з реальними частотами (вказуються тільки осередки з самими частотами без заголовків і "всього"); ожидаемый_інтервал - масив очікуваних частот. Отже, очікувані частоти мають бути обчислені самостійно.

Приклад:

У деякому місті стався спалах інфекційного захворювання. Є припущення, що джерелом зараження стала питна вода. Перевірити це припущення вирішили за допомогою вибіркового опитування міського населення, за яким необхідно встановити чи кількість води, що випивається, на кількість хворих.

Вихідні дані наведені в таблиці:

Розрахуємо очікувані частоти. Пропорція всього повинна зберегтися і всередині таблиці. Тому обчислимо, наприклад, яку частку становлять всього за рядками в загальній чисельності, отримаємо для кожного рядка коефіцієнт. Така ж частка повинна опинитися в кожному осередку відповідного рядка, тому для обчислення очікуваної частоти в осередку множимо коефіцієнт на все по відповідному стовпцю.

Число ступенів свободи дорівнює (3-1) * (2-1) = 2. Критичне значення критерію .

Експериментальне значення більше критичного (61,5> 13,816), тобто. гіпотеза про відсутність впливу кількості води, що випивається на захворюваність, відкидається з ймовірністю помилки менше 0,001. Таким чином можна стверджувати, що саме вода стала джерелом захворювання.

В обох описаних критеріїв є обмеження, які зазвичай не виконуються, якщо кількість спостережень невелика або окремі градації ознак рідко зустрічаються. У цьому випадку використовують точний критерій Фішера . Він заснований на переборі всіх можливих варіантівзаповнення таблиці сполученості при даній кількості груп. Тому ручний розрахунок його досить складний. Для його розрахунку можна скористатися статистичними пакетами прикладних програм.

Критерій z є аналогом критерію Стьюдента, але застосовується порівняння якісних ознак. Експериментальне значення критерію розраховується як відношення різниці часток до середньої помилкирізниці часток.

Критичні значення критерію z дорівнюють відповідним точкам нормованого нормального розподілу: , , .



Критерій хі-квадрат застосовується для порівняння будь-якої кількості груп за значеннями якісних ознак. Вихідні дані мають бути представлені у вигляді таблиці спряженості. Експериментальне значення критерію розраховують як суму по всіх осередках таблиці сполученості відношення квадрата різниці між реальною частотою та очікуваною частотою до очікуваної частоти. Очікувані частоти обчислюються у припущенні рівності порівнюваних ознак переважають у всіх групах. Критичні значення визначаються за таблицями розподілу хі-квадрат.

ЛІТЕРАТУРА.

Гланц С. - Розділ 5.

Реброва О.Ю. - Розділ 10,11.

Лакін Г.Ф. - С. 120-123

Запитання для самоперевірки студентів.

1. У яких випадках можна використовувати критерій z?

2. На чому ґрунтується обчислення експериментального значеннякритерію z?

3. Як визначити критичне значення критерію z?

4. У яких випадках можна застосовувати критерій з 2?

5. На чому ґрунтується обчислення експериментального значення критерію c 2 ?

6. Як визначити критичне значення критерію c 2 ?

7. Що можна застосувати для порівняння якісних ознак, якщо не можна застосувати за обмеженнями критерії z і c 2 ?

Завдання.

Розподіл "хі-квадрат" є одним із найбільш широко використовуваних у статистиці для перевірки статистичних гіпотез. На основі розподілу "хі-квадрат" побудований один із найпотужніших критеріїв згоди – критерій "хі-квадрату" Пірсона.

Критерієм згоди називають критерій перевірки гіпотези про передбачуваний закон невідомого розподілу.

Критерій χ2 (хі-квадрат) використовується для перевірки гіпотези різних розподілів. У цьому полягає його перевага.

Розрахункова формула критерію дорівнює

де m і m' - відповідно емпіричні та теоретичні частоти

розглянутого розподілу;

n – число ступенів свободи.

Для перевірки нам необхідно порівнювати емпіричні (спостерігаються) та теоретичні (обчислені у припущенні нормального розподілу) частоти.

При повному збігу емпіричних частот з частотами, обчисленими або очікуваними S (Е - Т) = 0 і критерій 2 теж дорівнюватиме нулю. Якщо ж S (Е – Т) не дорівнює нулю, це вкаже на невідповідність обчислених частот емпіричним частотам ряду. У разі необхідно оцінити значимість критерію χ2, який теоретично може змінюватися від нуля до нескінченності. Це здійснюється шляхом порівняння фактично отриманої величини χ2ф з його критичним значенням (χ2st). (a) та числа ступенів свободи (n).

Розподіл ймовірних значень випадкової величини 2 безперервно і асиметрично. Воно залежить від числа ступенів свободи (n) і наближається до нормальному розподілуу міру збільшення числа спостережень. Тому застосування критерію χ2 до оцінки дискретних розподілівпов'язано з деякими похибками, що позначаються на його величині, особливо на нечисленних вибірках. Для отримання більш точних оцінок вибірка, що розподіляється в варіаційний ряд, повинна мати щонайменше 50 варіантів. Правильне застосуваннякритерію χ2 вимагає також, щоб частоти варіантів у крайніх класах були б менше 5; якщо їх менше 5, то вони поєднуються з частотами сусідніх класів, щоб у сумі становили величину більшу або рівну 5. Відповідно до об'єднання частот зменшується і число класів (N). Число ступенів свободи встановлюється за вторинним числом класів з урахуванням кількості обмежень свободи варіації.



Так як точність визначення критерію χ2 значною мірою залежить від точності розрахунку теоретичних частот (Т), для отримання різниці між емпіричними та обчисленими частотами слід використовувати неокруглені теоретичні частоти.

Як приклад візьмемо дослідження, опубліковане на сайті, присвяченому застосуванню статистичних методіву гуманітарних науках.

Критерій "Хі-квадрат" дозволяє порівнювати розподіл частот через незалежно від того, розподілені вони нормально чи ні.

Під частотою розуміється кількість появ будь-якої події. Зазвичай, з частотою появи події мають справу, коли змінні виміряні в шкалі найменувань та інші характеристики, крім частоти підібрати неможливо або проблематично. Іншими словами, коли змінна має якісні характеристики. Також багато дослідників схильні переводити бали тесту до рівнів (високий, середній, низький) і будувати таблиці розподілів балів, щоб дізнатися кількість людей за цими рівнями. Щоб довести, що в одному з рівнів (в одній із категорій) кількість людей дійсно більша (менша) так само використовується коефіцієнт Хі-квадрат.

Розберемо найпростіший приклад.

Серед молодших підлітків було проведено тест виявлення самооцінки. Бали тесту були переведені на три рівні: високий, середній, низький. Частоти розподілилися так:

Високий (В) 27 чол.

Середній (С) 12 чол.

Низький (Н) 11 чол.

Очевидно, що дітей із високою самооцінкою більшість, проте це потрібно довести статистично. Для цього використовуємо критерій хі-квадрат.

Наше завдання – перевірити, чи відрізняються отримані емпіричні дані від теоретично рівноймовірних. Для цього потрібно знайти теоретичні частоти. У нашому випадку, теоретичні частоти – це рівноймовірні частоти, які знаходяться шляхом складання всіх частот та поділу на кількість категорій.

У нашому випадку:

(В + С + Н) / 3 = (27 +12 +11) / 3 = 16,6

Формула для розрахунку критерію хі-квадрат:

χ2 = ∑(Е - Т)І / Т

Будуємо таблицю:

Знаходимо суму останнього стовпця:

Тепер потрібно знайти критичне значення критерію таблиці критичних значень (Таблиця 1 у додатку). Для цього нам знадобиться кількість ступенів свободи (n).

n = (R - 1) * (C - 1)

де R – кількість рядків у таблиці, C – кількість стовпців.

У нашому випадку лише один стовпець (маються на увазі вихідні емпіричні частоти) і три рядки (категорії), тому формула змінюється – виключаємо стовпці.

n = (R - 1) = 3-1 = 2

Для ймовірності помилки p≤0,05 та n = 2 критичне значення χ2 = 5,99.

Отримане емпіричне значення більше критичного - відмінності частот достовірні (? 2 = 9,64; p? 0,05).

Як бачимо, розрахунок критерію дуже простий і не займає багато часу. Практична цінністькритерію хі-квадрат величезна. Цей метод виявляється найбільш цінним під час аналізу відповіді питання анкет.


Розберемо складніший приклад.

Наприклад, психолог хоче дізнатися, чи справді те, що вчителі більш упереджено ставляться до хлопчиків, ніж до дівчаток. Тобто. більш схильні хвалити дівчаток. Для цього психологом були проаналізовані характеристики учнів, написані вчителями, на предмет частоти трьох слів: "активний", "старальний", "дисциплінований", синоніми слів так само підраховувалися. Дані про частоту слів були занесені в таблицю:

Для обробки отриманих даних використовуємо критерій хі-квадрат.

І тому побудуємо таблицю розподілу емпіричних частот, тобто. тих частот, які ми спостерігаємо:

Теоретично, ми очікуємо, що частоти розподіляться рівноймовірно, тобто. частота розподілиться пропорційно між хлопчиками та дівчатками. Побудуємо таблицю теоретичних частот. Для цього помножимо суму по рядку на суму по стовпцю і розділимо число, що вийшло, на загальну суму (s).

Підсумкова таблиця для обчислень виглядатиме так:

χ2 = ∑(Е - Т)І / Т

n = (R - 1), де R – кількість рядків у таблиці.

У нашому випадку хі-квадрат = 4,21; n = 2.

За таблицею критичних значень критерію знаходимо: при n = 2 та рівні помилки 0,05 критичне значення χ2 = 5,99.

Отримане значення менше критичного, а отже, приймається нульова гіпотеза.

Висновок: вчителі не надають значення стать дитини при написанні їй характеристики.


Висновок.

К. Пірсон зробив значний внесок у розвиток математичної статистики ( велика кількістьфундаментальних понять). Основна філософська позиція Пірсона формулюється так: поняття науки - штучні конструкції, засоби опису та впорядкування чуттєвого досвіду; правила зв'язку їх у наукові пропозиції виокремлюються граматикою науки, яка і є філософією науки. Зв'язати ж різнорідні поняття та явища дозволяє універсальна дисципліна - прикладна статистика, хоч і вона за Пірсоном суб'єктивна.

Багато побудов К. Пірсона безпосередньо пов'язані чи розроблялися з допомогою антропологічних матеріалів. Їм розроблено численні способи нумеричної класифікації та статистичні критерії, що застосовуються у всіх галузях науки.


Література

1. Боголюбов А. Н. Математики. Механіки. Біографічний довідник – Київ: Наукова думка, 1983.

2. Колмогоров А. Н., Юшкевич А. П. (ред.). Математика ХІХ століття. - М: Наука. – Т. I.

3. 3. Боровков А.А. Математична статистика. М: Наука, 1994.

4. 8. Феллер В. Введення в теорію ймовірностей та її застосування. - М: Мир, Т.2, 1984.

5. 9. Харман Р., Сучасний факторний аналіз. - М: Статистика, 1972.

У цій статті йтиметься про дослідження залежності між ознаками, або як більше подобається. випадковими величинами, змінними. Зокрема, ми розберемо як запровадити міру залежності між ознаками, використовуючи критерій Хі-квадрат та порівняємо її з коефіцієнтом кореляції.

Навіщо це може знадобитися? Наприклад, щоб зрозуміти які ознаки сильніше залежні від цільової змінної при побудові кредитного скорингу - визначенні ймовірності дефолту клієнта. Або, як у моєму випадку, зрозуміти які показники потрібно використовувати для програмування торгового робота.

Окремо зазначу, що з аналізу даних використовую мову c#. Можливо це все вже реалізовано на R або Python, але використання c# для мене дозволяє детально розібратися в темі, навіть це моя улюблена мова програмування.

Почнемо з зовсім простого прикладу, створимо в екселі чотири колонки, використовуючи генератор випадкових чисел:
X=ВИПАДМІЖ(-100;100)
Y =X*10+20
Z =X*X
T=ВИПАДМІЖ(-100;100)

Як видно, змінна Yлінійно залежна від X; змінна Zквадратично залежить від X; змінні Xі Тнезалежні. Такий вибір я зробив спеціально, тому що нашу міру залежності ми порівнюватимемо з коефіцієнтом кореляції. Як відомо, між двома випадковими величинами він дорівнює по модулю 1 якщо між ними найжорсткіший вид залежності - лінійний. Між двома незалежними випадковими величинами кореляція нульова, але з рівності коефіцієнта кореляції нулю не випливає незалежність. Далі ми це побачимо на прикладі змінних Xі Z.

Зберігаємо файл як data.csv і починаємо перші прикиди. Спочатку розрахуємо коефіцієнт кореляції між величинами. Код у статтю я вставляти не став, він є на моєму github. Отримуємо кореляцію по різних парах:

Видно, що у лінійно залежних Xі Yкоефіцієнт кореляції дорівнює 1. А ось у Xі Zвін дорівнює 0.01, хоча залежність ми поставили явну Z=X*X. Зрозуміло, що нам потрібна міра, яка «відчуває» залежність краще. Але перш, ніж переходити до критерію Хі-квадрат, розглянемо що таке матриця сполученості.

Щоб побудувати матрицю сполученості, ми розіб'ємо діапазон значень змінних на інтервали (або категоруємо). Є багато способів такого розбиття, при цьому якогось універсального не існує. Деякі їх розбивають на інтервали так, щоб у них потрапляла однакова кількість змінних, інші розбивають на рівні по довжині інтервали. Мені особисто за духом комбінувати ці підходи. Я вирішив скористатися у такий спосіб: зі змінної я віднімаю оцінку мат. очікування, потім отримане поділю на оцінку стандартного відхилення. Іншими словами, я центрую і нормую випадкову величину. Отримане значення множиться на коефіцієнт (у цьому прикладі він дорівнює 1), після чого все округляється до цілого. На виході виходить змінна типу int, що є ідентифікатором класу.

Отже, візьмемо наші ознаки Xі Z, категоруємо описаним вище способом, після чого порахуємо кількість та ймовірності появи кожного класу та ймовірності появи пар ознак:

Це матриця за кількістю. Тут у рядках – кількості появи класів змінної X, у стовпцях - кількості появ класів змінної Z, у клітинах – кількості появ пар класів одночасно. Наприклад, клас 0 зустрівся 865 разів для змінної X, 823 рази на змінну Zі жодного разу не було пари (0,0). Перейдемо до ймовірностей, поділивши всі значення на 3000 ( загальна кількістьспостережень):

Отримали матрицю сполученості, одержану після категорування ознак. Тепер настав час задуматися над критерієм. За визначенням, випадкові величини незалежні, якщо незалежні сигма-алгебри, породжені цими випадковими величинами. Незалежність сигма-алгебр має на увазі попарну незалежність подій із них. Дві події називаються незалежними, якщо ймовірність їхньої спільної появи дорівнює добутку ймовірностей цих подій: Pij = Pi*Pj. Саме цією формулою ми будемо користуватися для побудови критерію.

Нульова гіпотеза: категоровані ознаки Xі Zнезалежні. Еквівалентна їй: розподіл матриці сполученості визначається виключно ймовірностями появи класів змінних (ймовірності рядків і стовпців). Або так: осередки матриці знаходяться твором відповідних ймовірностей рядків та стовпців. Це формулювання нульової гіпотези ми будемо використовувати для побудови вирішального правила: суттєва розбіжність між Pijі Pi*Pjбуде основою відхилення нульової гіпотези.

Нехай – ймовірність появи класу 0 у змінної X. Усього у нас nкласів у Xі mкласів у Z. Виходить, щоб задати розподіл матриці нам потрібно знати ці nі mймовірностей. Але насправді якщо ми знаємо n-1ймовірність для X, то остання знаходиться відніманням з 1 суми інших. Таким чином, для знаходження розподілу матриці сполученості нам треба знати l=(n-1)+(m-1)значень. Або ми маємо l-мірне параметричне простір, вектор з якого задає нам наш розподіл. Статистика Хі-квадрат матиме такий вигляд:

і, згідно з теоремою Фішера, мати розподіл Хі-квадрат з n*m-l-1=(n-1)(m-1)ступенями свободи.

Задамося рівнем значимості 0.95 (або ймовірність помилки першого роду дорівнює 0.05). Знайдемо квантиль розподілу Хі квадрат для даного рівня значущості та ступенів свободи з прикладу (n-1) (m-1) = 4 * 3 = 12: 21.02606982. Сама статистика Хі-квадрат для змінних Xі Zдорівнює 4088.006631. Видно, що гіпотеза про незалежність не ухвалюється. Зручно розглядати ставлення статистики Хі-квадрат до порогового значення - даному випадкувоно одно Chi2Coeff=194.4256186. Якщо це відношення менше 1, то гіпотеза про незалежність приймається, якщо більше, то ні. Знайдемо це відношення для всіх пар ознак:

Тут Factor1і Factor2- імена ознак
src_cnt1і src_cnt2- кількість унікальних значень вихідних ознак
mod_cnt1і mod_cnt2- кількість унікальних значень ознак після категорування
chi2- статистика Хі-квадрат
chi2max- граничне значення статистики Хі-квадрат для рівня значимості 0.95
chi2Coeff- Ставлення статистики Хі-квадрат до порогового значення
corr- Коефіцієнт кореляції

Видно, що незалежні (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) та ( Z,T), що логічно, оскільки змінна Tгенерується випадково. Змінні Xі Zзалежні, але менш, ніж лінійно залежні Xі Yщо теж логічно.

Код утиліти, що розраховує дані показники, я виклав на github, там же файл data.csv. Утиліта приймає на вхід файл csv і вираховує залежності між усіма парами колонок: PtProject.Dependency.exe data.csv



Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.