Критерій згоди пірсона. Критерій Пірсона. Перевірка гіпотези про нормальний розподіл

​ Критерій χ 2 Пірсона – це непараметричний метод, який дозволяє оцінити значущість відмінностей між фактичною (виявленою в результаті дослідження) кількістю наслідків або якісних характеристиквибірки, що потрапляють у кожну категорію, та теоретичною кількістю, яку можна очікувати в групах, що вивчаються при справедливості нульової гіпотези. Висловлюючись простіше, метод дозволяє оцінити статистичну значимістьвідмінностей двох чи кількох відносних показників(Частот, часток).

1. Історія розробки критерію χ 2

Критерій хі-квадрат для аналізу таблиць сполученості був розроблений та запропонований у 1900 році англійським математиком, статистиком, біологом та філософом, засновником математичної статистикита одним із основоположників біометрики Карлом Пірсоном(1857-1936).

2. Для чого використовується критерій 2 Пірсона?

Критерій хі-квадрат може застосовуватися під час аналізу таблиць сполученості, що містять відомості про частоту наслідків залежно від наявності фактора ризику. Наприклад, чотирипільна таблиця сполученостівиглядає наступним чином:

Вихід є (1) Виходу немає (0) Усього
Чинник ризику є (1) A B A + B
Чинник ризику відсутній (0) C D C+D
Усього A + C B + D A+B+C+D

Як заповнити таку таблицю поєднання? Розглянемо невеликий приклад.

Проводиться дослідження впливу куріння на ризик розвитку гіпертонії. Для цього було відібрано дві групи досліджуваних – до першої увійшли 70 осіб, які щодня викурюють не менше 1 пачки цигарок, у другу – 80 некурців такого ж віку. У першій групі у 40 осіб відзначався підвищений артеріальний тиск. У другій – артеріальна гіпертонія спостерігалася у 32 осіб. Відповідно, нормальний артеріальний тиск у групі курців був у 30 осіб (70 – 40 = 30) а у групі некурців – у 48 (80 – 32 = 48).

Заповнюємо вихідними даними чотирипільну таблицю сполученості:

В отриманій таблиці спряженості кожен рядок відповідає певній групі досліджуваних. Стовпці - показують кількість осіб із артеріальною гіпертонією чи з нормальним артеріальним тиском.

Завдання, яке ставиться перед дослідником: чи є статистично значущі відмінності між частотою осіб з артеріальним тиском серед курців та некурців? Відповісти на це питання можна, розрахувавши критерій хі-квадрат Пірсона і порівнявши значення, що вийшло, з критичним.

3. Умови та обмеження застосування критерію хі-квадрат Пірсона

  1. Порівняні показники повинні бути виміряні в номінальної шкали(наприклад, стать пацієнта - чоловіча або жіноча) або в порядковий(наприклад, ступінь артеріальної гіпертензії, Що приймає значення від 0 до 3).
  2. Цей методдозволяє проводити аналіз не тільки чотирипольних таблиць, коли і фактор, і результат є бінарними змінними, тобто мають лише два можливі значення (наприклад, чоловіча або жіноча стать, наявність або відсутність певного захворювання в анамнезі...). Критерій хі-квадрат Пірсона може застосовуватися і у разі аналізу багатопольних таблиць, коли фактор та (або) результат приймають три і більше значень.
  3. Порівнювані групи повинні бути незалежними, тобто критерій хі-квадрат не повинен застосовуватися при порівнянні спостережень "до" після. У цих випадках проводиться тест Мак-Немара(при порівнянні двох пов'язаних сукупностей) або розраховується Q-критерій Кохрена(у разі порівняння трьох та більше груп).
  4. При аналізі чотирипольних таблиць очікувані значенняу кожному із осередків мають бути не менше 10. У тому випадку, якщо хоча б в одному осередку очікуване явище набуває значення від 5 до 9, критерій хі-квадрат повинен розраховуватися з поправкою Йейтса. Якщо хоча в одному осередку очікуване явище менше 5, то для аналізу повинен використовуватися точний критерій Фішера.
  5. У разі аналізу багатопільних таблиць очікуване число спостережень має приймати значення менше 5 більш ніж 20% осередків.

4. Як розрахувати критерій хі-квадрат Пірсона?

Для розрахунку критерію хі-квадрату необхідно:

Даний алгоритм застосовується як для чотирипільних, так і для багатопольних таблиць.

5. Як інтерпретувати значення критерію хі-квадрат Пірсона?

У тому випадку, якщо отримане значення критерію χ 2 більше критичного, робимо висновок про наявність статистичного взаємозв'язку між фактором ризику, що вивчається, і результатом при відповідному рівні значущості.

6. Приклад розрахунку критерію хі-квадрат Пірсона

Визначимо статистичну значущість впливу фактора куріння на частоту випадків артеріальної гіпертонії за розглянутою вище таблицею:

  1. Розраховуємо очікувані значення для кожного осередку:
  2. Знаходимо значення критерію хі-квадрат Пірсона:

    χ 2 = (40-33.6) 2 / 33.6 + (30-36.4) 2 / 36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2 / 41.6 = 4.396.

  3. Число ступенів свободи f = (2-1) * (2-1) = 1. Знаходимо по таблиці критичне значення критерію хі-квадрат Пірсона, яке при рівні значущості p = 0.05 та числі ступенів свободи 1 становить 3.841.
  4. Порівнюємо отримане значення критерію хі-квадрат із критичним: 4.396 > 3.841, отже залежність частоти випадків артеріальної гіпертонії від наявності куріння – статистично значуща. Рівень значимості цього взаємозв'язку відповідає p<0.05.
Призначення критерію 2 - критерію Пірсона Критерій 2 застосовується у двох цілях: 1) для зіставлення емпіричного розподілу ознаки з теоретичним - рівномірним, нормальним або якимось іншим; 2) для зіставлення двох, трьох або більше емпіричних розподілів однієї й тієї ж ознаки. Опис критерію Критерій χ 2 відповідає питанням про те, чи однаковою частотою зустрічаються різні значення ознаки в емпіричному і теоретичному розподілах чи двох і більше емпіричних розподілах. Перевага методу полягає в тому, що він дозволяє зіставляти розподіл ознак, представлених у будь-якій шкалі, починаючи від шкали найменувань. У найпростішому випадку альтернативного розподілу "так - ні", "допустив шлюб - не допустив шлюбу", "вирішив завдання - не вирішив завдання" і т.п. ми вже можемо застосувати критерій 2 . Чим більше розбіжність між двома розподілами, тим більше емпіричне значення χ 2 . Автоматичний розрахунок χ 2 – критерію Пірсона Щоб зробити автоматичний розрахунок χ 2 – критерію Пірсона, необхідно виконати дії у два кроки: Крок 1. Вказати кількість емпіричних розподілів (від 1 до 10); Крок 2. Занести до таблиці емпіричні частоти; Крок 3. Отримати відповідь.

Перевагою критерію Пірсона є його універсальність: з його допомогою можна перевіряти гіпотези про різні закони розподілу.

1. Перевірка гіпотези про розподіл.

Нехай отримано вибірку досить великого обсягу пз великою кількістю різних значень варіант. Для зручності її обробки розділимо інтервал від найменшого до найбільшого значень варіант на sрівних частин і вважатимемо, що значення варіант, що потрапили в кожен інтервал, приблизно рівні числу, що задає середину інтервалу. Підрахувавши число варіантів, що потрапили в кожен інтервал, складемо так звану згруповану вибірку:

варіанти……….. х 1 х 2 … х s

частоти…………. п 1 п 2 … п s ,

де х i– значення середин інтервалів, а п i- Число варіант, що потрапили в i-і інтервал (емпіричні частоти).



За отриманими даними можна обчислити вибіркове середнє та вибіркове середнє квадратичне відхилення σ В. Перевіримо припущення, що генеральна сукупність розподілена за нормальним законом із параметрами M(X) = , D(X) = . Тоді можна знайти кількість чисел із вибірки обсягу п, що має опинитися у кожному інтервалі при цьому припущенні (тобто теоретичні частоти). Для цього за таблицею значень функції Лапласа знайдемо ймовірність влучення в i-й інтервал:

,

де а iі b i- Межі i-го інтервалу. Помноживши отримані ймовірності обсяг вибірки п, знайдемо теоретичні частоти: п i = n · p iНаша мета – порівняти емпіричні та теоретичні частоти, які, звичайно, відрізняються один від одного, і з'ясувати, чи є ці відмінності несуттєвими, що не спростовують гіпотезу про нормальний розподіл досліджуваної випадкової величини, або вони настільки великі, що суперечать цій гіпотезі. Для цього використовується критерій у вигляді випадкової величини

. (20.1)

Сенс її очевидний: додаються частини, які квадрати відхилень емпіричних частот від теоретичних складають від відповідних теоретичних частот. Можна довести, що незалежно від реального закону розподілу генеральної сукупності закон розподілу випадкової величини (20.1) при прагненні до закону розподілу (див. лекцію 12) з числом ступенів свободи k = s - 1 – r, де r- Число параметрів передбачуваного розподілу, оцінених за даними вибірки. Нормальний розподіл характеризується двома параметрами, тому k = s - 3. Для обраного критерію будується правостороння критична область, що визначається умовою

(20.2)

де α - Рівень значущості. Отже, критична область задається нерівністю а сфера прийняття гіпотези - .

Отже, для перевірки нульової гіпотези Н 0: генеральна сукупність розподілена нормально - потрібно обчислити за вибіркою значення критерію:

, (20.1`)

а по таблиці критичних точок розподілу 2 знайти критичну точку , використовуючи відомі значення α і k = s - 3. Якщо - нульову гіпотезу приймають, за її відкидають.

2. Перевірка гіпотези про рівномірний розподіл.

При використанні критерію Пірсона для перевірки гіпотези про рівномірний розподіл генеральної сукупності з ймовірністю ймовірності

необхідно, обчисливши за наявною вибіркою значення, оцінити параметри аі bза формулами:

де а*і b*- оцінки аі b. Дійсно, для рівномірного розподілу М(Х) = , звідки можна отримати систему для визначення а*і b*: , Рішенням якої є вирази (20.3).

Потім, припускаючи, що , можна знайти теоретичні частоти за формулами

Тут s- Число інтервалів, на які розбита вибірка.

Значення критерію Пірсона, що спостерігається, обчислюється за формулою (20.1`), а критичне – за таблицею з урахуванням того, що число ступенів свободи k = s - 3. Після цього межі критичної галузі визначаються так само, як і для перевірки гіпотези про нормальний розподіл.

3. Перевірка гіпотези про показовий розподіл.

У цьому випадку, розбивши наявну вибірку на рівні по довжині інтервали, розглянемо послідовність варіантів, рівновіддалених один від одного (вважаємо, що всі варіанти, що потрапили в i- й інтервал, що приймають значення, що збігається з його серединою), і відповідних їм частот n i(число варіант вибірки, що потрапили в i- й інтервал). Обчислимо за цими даними та приймемо як оцінку параметра λ величину. Тоді теоретичні частоти обчислюються за формулою

Потім порівнюються спостерігане та критичне значення критерію Пірсона з урахуванням того, що число ступенів свободи k = s - 2.

Раніше розглядалися гіпотези, у яких закон розподілу генеральної сукупності передбачався відомим. Тепер займемося перевіркою гіпотез про передбачуваний закон невідомого розподілу, тобто перевірятимемо нульову гіпотезу про те, що генеральна сукупність розподілена за деяким відомим законом. Зазвичай статистичні критерії для перевірки таких гіпотез називаються критеріями згоди.

Критерієм згодиназивається критерій перевірки гіпотези про передбачуваний закон невідомого розподілу. Це чисельна міра розбіжності між емпіричним та теоретичним розподілом.

Основна задача.Дано емпіричний розподіл (вибірка). Зробити припущення (висунути гіпотезу) про вид теоретичного розподілу та перевірити висунуту гіпотезу на заданому рівні значущості α.

Вирішення основного завдання складається з двох частин:

1. Висунення гіпотези.

2. Перевірка гіпотези на заданому рівні значимості.

Розглянемо докладно ці частини.

1. Вибір гіпотезипро вид теоретичного розподілу зручно робити з допомогою полігонів чи гістограм частот. Порівнюють емпіричний полігон (або гістограму) з відомими законами розподілу та вибирають найбільш підходящий.

Наведемо графіки найважливіших законів розподілу:

Приклади емпіричних законів розподілу наведено на рисунках:



У разі (а) висувається гіпотеза про нормальний розподіл, у разі (б) – гіпотеза про рівномірний розподіл, у разі (в) – гіпотеза про розподіл Пуассона.

Підставою висування гіпотези про теоретичному розподілі може бути теоретичні передумови характер зміни ознаки. Наприклад, виконання умов теореми Ляпунова дозволяє зробити гіпотезу про нормальний розподіл. Рівність середньої та дисперсії наводить на гіпотезу про розподіл Пуассона.

Насправді найчастіше доводиться зустрічатися з нормальним розподілом, у наших завданнях потрібно перевірити лише гіпотезу про розподіл.

Перевірка гіпотезипро теоретичний розподіл відповідає на запитання: чи можна вважати розбіжність між передбачуваними теоретичним та емпіричним розподілами випадковим, несуттєвим, що пояснюється випадковістю попадання у вибірку тих чи інших об'єктів, або ж це розбіжність говорить про суттєву розбіжність між розподілами. Для перевірки існують різні методи (критерії згоди) - c 2 (хі-квадрат), Колмогорова, Романовського та ін.

Критерій Пірсона.

Перевагою критерію Пірсона є його універсальність: з його допомогою можна перевіряти гіпотези про різні закони розподілу.

1. Перевірка гіпотези про розподіл.Нехай отримано вибірку досить великого обсягу пз великою кількістю різних значень варіант. Для зручності її обробки розділимо інтервал від найменшого до найбільшого значень варіант на sрівних частин і вважатимемо, що значення варіант, що потрапили в кожен інтервал, приблизно рівні числу, що задає середину інтервалу. Підрахувавши число варіантів, що потрапили в кожен інтервал, складемо так звану згруповану вибірку:

варіанти……….. х 1 х 2 … х s

частоти…………. п 1 п 2 … п s ,

де х i– значення середин інтервалів, а п i- Число варіант, що потрапили в i-і інтервал (емпіричні частоти). За отриманими даними можна обчислити вибіркове середнє та вибіркове середнє квадратичне відхилення σ В. Перевіримо припущення, що генеральна сукупність розподілена за нормальним законом із параметрами M(X) = , D(X) = . Тоді можна знайти кількість чисел із вибірки обсягу п, що має опинитися у кожному інтервалі при цьому припущенні (тобто теоретичні частоти). Для цього за таблицею значень функції Лапласа знайдемо ймовірність влучення в i-й інтервал:

,

де а iі b i- Межі i-го інтервалу. Помноживши отримані ймовірності обсяг вибірки п, знайдемо теоретичні частоти: п i = n · p iНаша мета – порівняти емпіричні та теоретичні частоти, які, звичайно, відрізняються один від одного, і з'ясувати, чи є ці відмінності несуттєвими, що не спростовують гіпотезу про нормальний розподіл досліджуваної випадкової величини, або вони настільки великі, що суперечать цій гіпотезі. Для цього використовується критерій у вигляді випадкової величини

. (7)

Сенс її очевидний: додаються частини, які квадрати відхилень емпіричних частот від теоретичних складають від відповідних теоретичних частот. Можна довести, що незалежно від реального закону розподілу генеральної сукупності закон розподілу випадкової величини (7) при прагненні до закону розподілу з числом ступенів свободи k = s - 1 – r, де r- Число параметрів передбачуваного розподілу, оцінених за даними вибірки. Нормальний розподіл характеризується двома параметрами, тому k = s - 3. Для обраного критерію будується правостороння критична область, що визначається умовою

(8)

де α - Рівень значущості. Отже, критична область задається нерівністю а сфера прийняття гіпотези - .

Отже, для перевірки нульової гіпотези Н 0: генеральна сукупність розподілена нормально - потрібно обчислити за вибіркою значення критерію:

, (7`)

а по таблиці критичних точок розподілу 2 знайти критичну точку , використовуючи відомі значення α і k = s - 3. Якщо - нульову гіпотезу приймають, за її відкидають.

приклад.Результати дослідження попиту товар представлені у таблице:

Висунути гіпотезу про вид розподілу і перевірити її лише на рівні значимості a=0,01.

I. Висунення гіпотези.

Для вказівки виду емпіричного розподілу побудуємо гістограму


120 160 180 200 220 280

По виду гістограми можна зробити припущення про нормальний закон розподілу ознаки, що вивчається, в генеральній сукупності.

ІІ. Перевіримо висунуту гіпотезу про нормальний розподіл, використовуючи критерій згоди Пірсона.

1. Обчислюємо , s В. Як варіант візьмемо середнє арифметичне кінці інтервалів:

2. Знайдемо інтервали (Z i ; Z i+1): ; .

За лівий кінець першого інтервалу приймемо (-¥), а за правий кінець останнього інтервалу – (+¥). Результати представлені у табл. 4.

3. Знайдемо теоретичні ймовірності Р i та теоретичні частоти (див. табл. 4).

Таблиця 4

i Кордон інтервалів Ф(Z i) Ф(Z i+1) P i = Ф(Z i+1)-Ф(Z i)
x i x i+1 Z i Z i+1
-1,14 -0,5 -0,3729 0,1271 6,36
-1,14 -0,52 -0,3729 -0,1985 0,1744 8,72
-0,52 0,11 -0,1985 0,0438 0,2423 12,12
0,11 0,73 0,0438 0,2673 0,2235 11,18
0,73 0,2673 0,5 0,2327 11,64

4. Порівняємо емпіричні та теоретичні частоти. Для цього:

а) обчислимо значення критерію Пірсона, що спостерігається.

Обчислення представлені у табл.5.

Таблиця 5

i
6,36 -1,36 1,8496 0,291
8,72 1,28 1,6384 0,188
12,12 1,88 3,5344 0,292
11,18 0,82 0,6724 0,060
11,64 -2,64 6,9696 0,599
S

б) по таблиці критичних точок розподілу c 2 при заданому рівні значущості a = 0,01 та числі ступенів свободи k = m-3 = 5-3 = 2 знаходимо критичну точку; маємо .

Порівнюємо c. . Отже, немає підстав відкидати гіпотезу про нормальний закон розподілу ознаки генеральної сукупності, що вивчається. Тобто. розбіжність між емпіричними та теоретичними частотами незначна (випадково). ◄

Зауваження.Інтервали, що містять нечисленні емпіричні частоти (n i<5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.

приклад.За вибіркою з 24 варіант висунуто гіпотезу про нормальний розподіл генеральної сукупності. Використовуючи критерій Пірсона за рівня значущості серед заданих значень = (34, 35, 36, 37, 38) вказати: а) найбільше, котрій немає підстав відкидати гіпотезу; б) найменше, починаючи з якого гіпотеза має бути відкинута.

Знайдемо число ступенів свободи за допомогою формули:

де - Число груп вибірки (варіант), - Число параметрів розподілу.

Оскільки нормальний розподіл має 2 параметри ( і ), отримуємо

По таблиці критичних точок розподілу, за заданим рівнем значущості та числом ступенів свободи визначаємо критичну точку.

У разі а) для значень , рівних 34 і 35, немає підстав відкидати гіпотезу про нормальний розподіл, оскільки . А найбільше серед цих значень.

У разі б) для значень 36, 37, 38 гіпотезу відкидають, оскільки . Найменше серед них.

2. Перевірка гіпотези про рівномірний розподіл. При використанні критерію Пірсона для перевірки гіпотези про рівномірний розподіл генеральної сукупності з ймовірністю ймовірності

необхідно, обчисливши за наявною вибіркою значення, оцінити параметри аі bза формулами:

де а*і b*- оцінки аі b. Дійсно, для рівномірного розподілу М(Х) = , звідки можна отримати систему для визначення а*і b*: , Рішенням якої є вирази (9).

Потім, припускаючи, що , можна знайти теоретичні частоти за формулами

Тут s- Число інтервалів, на які розбита вибірка.

Значення критерію Пірсона, що спостерігається, обчислюється за формулою (7`), а критичне – за таблицею з урахуванням того, що число ступенів свободи k = s - 3. Після цього межі критичної галузі визначаються так само, як і для перевірки гіпотези про нормальний розподіл.

3. Перевірка гіпотези про показовий розподіл.У цьому випадку, розбивши наявну вибірку на рівні по довжині інтервали, розглянемо послідовність варіантів, рівновіддалених один від одного (вважаємо, що всі варіанти, що потрапили в i- й інтервал, що приймають значення, що збігається з його серединою), і відповідних їм частот n i(число варіант вибірки, що потрапили в i- й інтервал). Обчислимо за цими даними та приймемо як оцінку параметра λ величину. Тоді теоретичні частоти обчислюються за формулою

Потім порівнюються спостерігане та критичне значення критерію Пірсона з урахуванням того, що число ступенів свободи k = s - 2.

ОпрКритерій перевірки гіпотези про передбачуваний закон невідомого розподілу називається критерієм згоди.

Є кілька критеріїв згоди: $ \ chi ^ 2 $ (хі-квадрат) К. Пірсона, Колмогорова, Смирнова та ін.

Зазвичай теоретичні та емпіричні частоти різняться. Випадок розбіжності то, можливо випадковим, отже пояснюється лише тим, що правильно обрана гіпотеза. Критерій Пірсона відповідає на поставлене питання, але як і будь-який критерій він нічого не доводить, а лише встановлює на прийнятому рівні значущості її згоду або незгоду з даними спостережень.

ОпрДосить малу ймовірність, коли він подію вважатимуться практично неможливим називають рівнем значимості.

Насправді зазвичай приймають рівні значимості, укладені між 0,01 і 0,05, $\alpha =0,05$ - це $5 ( \% ) $ рівень значимості.

Як критерій перевірки гіпотези приймемо величину \begin(equation) \label ( eq1 ) \chi ^2=\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) \qquad (1) \ end(equation)

тут $n_i -$ емпіричні частоти, одержані з вибірки, $n_i" -$ теоретичні частоти, знайдені теоретичним шляхом.

Доведено, що з $n\to \infty $ закон розподілу випадкової величини ( 1 ) незалежно від цього, яким законом розподілена генеральна сукупність, прагне закону $\chi ^2$ ( хи-квадрат ) з $k$ ступенями свободи.

ОпрЧисло ступенів свободи знаходять рівності $k=S-1-r$ де $S-$ число груп інтервалів, $r-$ число параметрів.

1) рівномірний розподіл: $ r = 2, k = S-3 $

2) нормальний розподіл: $ r = 2, k = S-3 $

3) показовий розподіл: $ r = 1, k = S-2 $.

Правило . Перевірка гіпотези за критерієм Пірсона.

  1. Для перевірки гіпотези обчислюють теоретичні частоти і знаходять $\chi _ (набл)
  2. По таблиці критичних точок розподілу $\chi ^2$ за заданим рівнем значущості $\alpha $ і числу ступенів свободи $k$ знаходять $\chi _ (кр) ^2 ((\alpha,k))$.
  3. Якщо $ \ chi _ ( Набл ) ^ 2<\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.

ЗауваженняДля контролю обчислень застосовують формулу $\chi ^2$ як $\chi _ ( набл ) ^2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) $

Перевірка гіпотези про рівномірний розподіл

Функція щільності рівномірного розподілу величини $ X $ має вигляд $ f (x) = \ frac (1) (b-a) x \ in \ left [(a, b) \ right] $.

Для того, щоб при рівні значущості $ перевірити гіпотезу про те, що безперервна випадкова величина розподілена за рівномірним законом, потрібно:

1) Знайти по заданому емпіричному розподілу вибіркове середнє $ \ overline ( x_b ) $ і $ \ sigma _b = \ sqrt ( D_b ) $. Прийняти як оцінку параметрів $a$ і $b$ величини

$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $

2) Знайти ймовірність потрапляння випадкової величини $X$ у часткові інтервали $(( x_i ,x_ ( i+1 ) ))$ за формулою $ P_i =P(( x_i

3) Знайти теоретичні (що вирівнюють) частоти за формулою $ n_i" = np_i $.

4) Прийнявши число ступенів свободи $k=S-3$ і рівень значущості $\alpha =0,05$ за таблицями $\chi ^2$ знайдемо $\chi _ (кр) ^2 $ за заданими $\alpha $ і $k$, $\chi _ (кр) ^2 ((\alpha, k))$.

5) За формулою $\chi _ ( набл ) ^2 =\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) $ де $n_i -$ емпіричні частоти, знаходимо спостерігається значення $ \ chi _ (Набл) ^ 2 $.

6) Якщо $ \ chi _ ( Набл ) ^ 2<\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу.

Перевіримо гіпотезу на прикладі.

1) $ \ overline x _b = 13,00 \, \, \ sigma _b = \ sqrt (D_b) = 6,51 $

2) $a = 13,00-sqrt 3 \ cdot 6,51 = 13,00-1,732 \ cdot 6,51 = 1,72468 $

$ b = 13,00 +1,732 \ cdot 6,51 = 24,27532 $

$ b-a = 24,27532-1,72468 = 22,55064 $

3) $ P_i = P (( x_i

$ P_2 = ((3

$ P_3 = ((7

$ P_4 = ((11

$ P_5 = ((15

$ P_6 = ((19

У рівномірному розподілі якщо однакова довжина інтервалу, $P_i -$ однакові.

4) Знайдемо $n_i" = np_i$.

5) Знайдемо $\sum ( \frac ((( n_i -n_i" ))^2 ) ( n_i" ) ) $ і знайдемо $\chi _ ( набл ) ^2 $.

Занесемо всі отримані значення таблицю

\begin(array) (|l|l|l|l|l|l|l|) (( n_i -n_i" ))^2 ) ( n_i" ) & Контроль~ \frac ( n_i^2 ) ( n_i" ) \\ \hline 1& 1& 4,43438& -3.43438& 11,7950& 2,659895& \\ \hline 2& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 3& 3& 4,43438& -1,43438& 2,05744& 3& 4 ,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \line 5& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,4 6562& 2, 45117& 0,552765& 8,11838 \\ \hline & & & & & \sum = \chi _ ( набл ) ^2 =3,261119& \chi _ ( набл ) ^2 =\sum ( \frac ( n_i^2 ) ( n_i " ) -n ) = 3,63985 \ \ \ hline \ end (array)

$ \ chi _ (кр) ^ 2 ((0,05,3)) = 7,8 $

$ \ chi _ ( Набл ) ^ 2<\chi _ { кр } ^2 =3,26<7,8$

Висновоквідкидати гіпотезу немає підстав.

Ширина інтервалу складе:

Xmax – максимальне значення групувального ознаки в сукупності.
Xmin - мінімальне значення групувальної ознаки.
Визначимо межі групи.

Номер групиНижня границяВерхня межа
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

Одне й значення ознаки служить верхньої і нижньої межами двох суміжних (попередньої і наступної) груп.
Для кожного значення ряду підрахуємо, скільки разів воно потрапляє в той чи інший інтервал. Для цього сортуємо ряд за зростанням.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6

Результати угруповання оформимо у вигляді таблиці:
Групи№ сукупностіЧастота f i
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6

Таблиця до розрахунку показників.
Групиx iКількість, f ix i * f iНакопичена частота, S| x - x ср | * f(x - x ср) 2 * fЧастота, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

Для оцінки низки розподілів знайдемо такі показники:
Показники центру розподілу.
Середня виважена


Мода
Мода - найбільш поширене значення ознаки в одиниць цієї сукупності.

де x0 – початок модального інтервалу; h – величина інтервалу; f 2 -Частота, що відповідає модальному інтервалу; f 1 - Передмодальна частота; f3 – післямодальна частота.
Вибираємо як початок інтервалу 51.49, тому що саме на цей інтервал припадає найбільша кількість.

Найчастіше зустрічається значення ряду – 52.8
Медіана
Медіана ділить вибірку на дві частини: половина варіант менше медіани, половина – більше.
В інтервальному ряду розподілу відразу можна вказати лише інтервал, в якому будуть мода або медіана. Медіана відповідає варіанту, що стоїть у середині ранжованого ряду. Медіанним є інтервал 51.49 – 54.32, т.к. у цьому інтервалі накопичена частота S, більша за медіанний номер (медіанним називається перший інтервал, накопичена частота S якого перевищує половину загальної суми частот).


Таким чином, 50% одиниць сукупності будуть меншими за величиною 53.06
Показники варіації.
Абсолютні показники варіації.
Розмах варіації - різниця між максимальним та мінімальним значеннями ознаки первинного ряду.
R = X max - X min
R = 60 - 43 = 17
Середнє лінійне відхилення- обчислюють у тому, щоб врахувати відмінності всіх одиниць досліджуваної сукупності.


Кожне значення ряду відрізняється від іншого трохи більше, ніж 2.3
Дисперсія- характеризує міру розкиду біля її середнього значення (заходи розсіювання, тобто відхилення від середнього).


Незміщена оцінка дисперсії- Заможна оцінка дисперсії.


Середнє квадратичне відхилення.

Кожне значення ряду відрізняється від середнього значення 53.3 трохи більше, ніж 3.21
Оцінка середньоквадратичного відхилення.

Відносні показники варіації.
До відносних показників варіації відносять коефіцієнт осциляції, лінійний коефіцієнт варіації, відносне лінійне відхилення.
Коефіцієнт варіації- міра відносного розкиду значень сукупності: показує, яку частку середнього значення цієї величини становить її середній розкид.

Оскільки v ≤ 30%, то сукупність однорідна, а варіація слабка. Отриманим результатам можна довіряти.
Лінійний коефіцієнт варіаціїабо Відносне лінійне відхилення- характеризує частку усередненого значення ознаки абсолютних відхилень від середньої величини.

Перевірка гіпотез про вид розподілу.
1. Перевіримо гіпотезу про те, що Х розподілено за нормальному законуза допомогою критерію згоди Пірсона.

де p i - ймовірність попадання в i-й інтервал випадкової величини, розподіленої за гіпотетичним законом
Для обчислення ймовірностей p i застосуємо формулу та таблицю функції Лапласа

де
s = 3.21, x ср = 53.3
Теоретична (очікувана) частота дорівнює n i = np i , де n = 36
Інтервали угрупованняСпостережувана частота n ix 1 = (x i - x ср) / sx 2 = (x i+1 - x ср)/sФ(x 1)Ф(x 2)Імовірність потрапляння до i-го інтервалу, p i = Ф(x 2) - Ф(x 1)Очікувана частота, 36p iДоданки статистики Пірсона, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84

Визначимо межу критичної галузі. Оскільки статистика Пірсона вимірює різницю між емпіричним і теоретичним розподілами, чим більше її спостерігається значення K набл, тим більше аргумент проти основний гіпотези.
Тому критична область для цієї статистики завжди є правосторонньою: )

Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.