Критерий Пирсона. Проверка гипотезы о нормальном распределении. Критерий согласия Пирсона (критерий хи-квадрат)

Статистический критерий

Правило, по которому гипотеза Я 0 отвергается или принимается, называется статистическим критерием. В названии критерия, как правило, содержится буква, которой обозначается специально составленная характеристика из п. 2 алгоритма проверки статистической гипотезы (см. п. 4.1), рассчитываемая в критерии. В условиях данного алгоритма критерий назывался бы «в -критерий».

При проверке статистических гипотез возможны два типа ошибок:

  • - ошибка первого рода (можно отвергнуть гипотезу Я 0 , когда она на самом деле верна);
  • - ошибка второго рода (можно принять гипотезу Я 0 , когда она на самом деле не верна).

Вероятность а допустить ошибку первого рода называется уровнем значимости критерия.

Если за р обозначить вероятность допустить ошибку второго рода, то (l - р) - вероятность не допустить ошибку второго рода, которая называется мощностью критерия.

Критерий согласия х 2 Пирсона

Существует несколько типов статистических гипотез:

  • - о законе распределения;
  • - однородности выборок;
  • - численных значениях параметров распределения и т.д.

Мы будем рассматривать гипотезу о законе распределения на примере критерия согласия х 2 Пирсона.

Критерием согласия называют статистический критерий проверки нулевой гипотезы о предполагаемом законе неизвестного распределения.

В основе критерия согласия Пирсона лежит сравнение эмпирических (наблюдаемых) и теоретических частот наблюдений, вычисленных в предположении определенного закона распределения. Гипотеза # 0 здесь формулируется так: по исследуемому признаку генеральная совокупность распределена нормально.

Алгоритм проверки статистической гипотезы # 0 для критерия х 1 Пирсона:

  • 1) выдвигаем гипотезу Я 0 - по исследуемому признаку генеральная совокупность распределена нормально;
  • 2) вычисляем выборочную среднюю и выборочное среднее квадратическое отклонение о в;

3) по имеющейся выборке объема п рассчитываем специально составленную характеристику ,

где: я, - эмпирические частоты, - теоретические частоты,

п - объем выборки,

h - величина интервала (разность между двумя соседними вариантами),

Нормализованные значения наблюдаемого признака,

- табличная функция. Также теоретические частоты

могут быть вычислены с помощью стандартной функции MS Excel НОРМРАСП по формуле ;

4) по выборочному распределению определяем критическое значение специально составленной характеристики xl P

5) при гипотеза # 0 отвергается, при гипотеза # 0 принимается.

Пример. Рассмотрим признак X - величину показателей тестирования осужденных в одной из исправительных колоний по некоторой психологической характеристике, представленный в виде вариационного ряда:

На уровне значимости 0,05 проверить гипотезу о нормальном распределении генеральной совокупности.

1. На основе эмпирического распределения можно выдвинуть гипотезу Н 0 : по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осу-

жденных распределена нормально. Альтернативная гипотеза 1: по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осужденных не распределена нормально.

2. Вычислим числовые выборочные характеристики:

Интервалы

х г щ

х} щ

3. Вычислим специально составленную характеристику j 2 . Для этого в предпоследнем столбце предыдущей таблицы найдем теоретические частоты по формуле , а в последнем столбце

проведем расчет характеристики % 2 . Получаем х 2 = 0,185.

Для наглядности построим полигон эмпирического распределения и нормальную кривую по теоретическим частотам (рис. 6).

Рис. 6.

4. Определим число степеней свободы s : к = 5, т = 2, s = 5-2-1 = 2.

По таблице или с помощью стандартной функции MS Excel «ХИ20БР» для числа степеней свободы 5 = 2 и уровня значимости а = 0,05 найдем критическое значение критерия xl P . =5,99. Для уровня значимости а = 0,01 критическое значение критерия х%. = 9,2.

5. Наблюдаемое значение критерия х =0,185 меньше всех найденных значений Хк Р.-> поэтому гипотеза Я 0 принимается на обоих уровнях значимости. Расхождение эмпирических и теоретических частот незначимое. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности. Таким образом, по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осужденных распределена нормально.

  • 1. Корячко А.В., Куличенко А.Г. Высшая математика и математические методы в психологии: руководство к практическим занятиям для слушателей психологического факультета. Рязань, 1994.
  • 2. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных: Учеб, пособие. СПб., 2008.
  • 3. Сидоренко Е.В. Методы математической обработки в психологии. СПб., 2010.
  • 4. Сошникова Л.А. и др. Многомерный статистический анализ в экономике: Учеб, пособие для вузов. М., 1999.
  • 5. Суходольский Е.В. Математические методы в психологии. Харьков, 2004.
  • 6. Шмойлова Р.А., Минашкин В.Е., Садовникова Н.А. Практикум по теории статистики: Учеб, пособие. М., 2009.

Ранее рассматривались гипотезы, в которых закон распределения генеральной совокупности предполагался известным. Теперь займемся проверкой гипотез о предполагаемом законе неизвестного распределения, то есть будем проверять нулевую гипотезу о том, что генеральная совокупность распределена по некоторому известному закону. Обычно статистические критерии для проверки таких гипотез называются критериями согласия.

Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения. Это численная мера расхождения между эмпирическим и теоретическим распределением.

Основная задача. Дано эмпирическое распределение (выборка). Сделать предположение (выдвинуть гипотезу) о виде теоретического распределения и проверить выдвинутую гипотезу на заданном уровне значимости α.

Решение основной задачи состоит из двух частей:

1. Выдвижение гипотезы.

2. Проверка гипотезы на заданном уровне значимости.

Рассмотрим подробно эти части.

1. Выбор гипотезы о виде теоретического распределения удобно делать с помощью полигонов или гистограмм частот. Сравнивают эмпирический полигон (или гистограмму) с известными законами распределения и выбирают наиболее подходящий.

Приведём графики важнейших законов распределения:

Примеры эмпирических законов распределения приведены на рисунках:



В случае (а) выдвигается гипотеза о нормальном распределении, в случае (б) - гипотеза о равномерном распределении, в случае (в) - гипотеза о распределении Пуассона.

Основанием для выдвижения гипотезы о теоретическом распределении могут быть теоретические предпосылки о характере изменения признака. Например, выполнение условий теоремы Ляпунова позволяет сделать гипотезу о нормальном распределении. Равенство средней и дисперсии наводит на гипотезу о распределении Пуассона.

На практике чаще всего приходится встречаться с нормальным распределением, поэтому в наших задачах требуется проверить только гипотезу о нормальном распределении.

Проверка гипотезы о теоретическом распределении отвечает на вопрос: можно ли считать расхождение между предполагаемыми теоретическим и эмпирическим распределениями случайным, несущественным, объясняемым случайностью попадания в выборку тех или иных объектов, или же это расхождение говорит о существенном расхождении между распределениями. Для проверки существуют различные методы (критерии согласия) - c 2 (хи-квадрат), Колмогорова, Романовского и др.

Критерий Пирсона.

Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения.

1. Проверка гипотезы о нормальном распределении. Пусть получена выборка достаточно большого объема п с большим количеством различных значений вариант. Для удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вариант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку:

варианты………..х 1 х 2 … х s

частоты………….п 1 п 2 … п s ,

где х i – значения середин интервалов, а п i – число вариант, попавших в i -й интервал (эмпирические частоты). По полученным данным можно вычислить выборочное среднее и выборочное среднее квадратическое отклонение σ В . Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M (X ) = , D (X ) = . Тогда можно найти количество чисел из выборки объема п , которое должно оказаться в каждом интервале при этом предположении (то есть теоретические частоты). Для этого по таблице значений функции Лапласа найдем вероятность попадания в i -й интервал:

,

где а i и b i - границы i -го интервала. Умножив полученные вероятности на объем выборки п, найдем теоретические частоты: п i =n·p i .Наша цель – сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распределении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины

. (7)

Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирических частот от теоретических составляют от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупности закон распределения случайной величины (7) при стремится к закону распределения с числом степеней свободы k = s – 1 – r , где r – число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s – 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием

(8)

где α – уровень значимости. Следовательно, критическая область задается неравенством а область принятия гипотезы - .

Итак, для проверки нулевой гипотезы Н 0: генеральная совокупность распределена нормально – нужно вычислить по выборке наблюдаемое значение критерия:

, (7`)

а по таблице критических точек распределения χ 2 найти критическую точку , используя известные значения α и k = s – 3. Если - нулевую гипотезу принимают, при ее отвергают.

Пример. Результаты исследования спроса на товар представлены в таблице:

Выдвинуть гипотезу о виде распределения и проверить её на уровне значимости a=0,01.

I. Выдвижение гипотезы.

Для указания вида эмпирического распределения построим гистограмму


120 160 180 200 220 280

По виду гистограммы можно сделать предположение о нормальном законе распределения изучаемого признака в генеральной совокупности.

II. Проверим выдвинутую гипотезу о нормальном распределении, используя критерий согласия Пирсона.

1. Вычисляем , s В.В качестве вариант возьмём среднее арифметическое концов интервалов:

2. Найдём интервалы (Z i ; Z i+1): ; .

За левый конец первого интервала примем (-¥), а за правый конец последнего интервала - (+¥). Результаты представлены в табл. 4.

3. Найдем теоретические вероятности Р i и теоретические частоты (см. табл. 4).

Таблица 4

i Граница интервалов Ф(Z i) Ф(Z i+1) P i = Ф(Z i+1)-Ф(Z i)
x i x i+1 Z i Z i+1
-1,14 -0,5 -0,3729 0,1271 6,36
-1,14 -0,52 -0,3729 -0,1985 0,1744 8,72
-0,52 0,11 -0,1985 0,0438 0,2423 12,12
0,11 0,73 0,0438 0,2673 0,2235 11,18
0,73 0,2673 0,5 0,2327 11,64

4. Сравним эмпирические и теоретические частоты. Для этого:

а) вычислим наблюдаемое значение критерия Пирсона.

Вычисления представлены в табл.5.

Таблица 5

i
6,36 -1,36 1,8496 0,291
8,72 1,28 1,6384 0,188
12,12 1,88 3,5344 0,292
11,18 0,82 0,6724 0,060
11,64 -2,64 6,9696 0,599
S

б) по таблице критических точек распределения c 2 при заданном уровне значимости a=0,01 и числе степеней свободы k=m–3=5–3=2 находим критическую точку ; имеем .

Сравниваем c . . Следовательно, нет оснований отвергать гипотезу о нормальном законе распределения изучаемого признака генеральной совокупности. Т.е. расхождение между эмпирическими и теоретическими частотами незначимо (случайно). ◄

Замечание. Интервалы, содержащие малочисленные эмпирические частоты (n i <5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.

Пример. По выборке из 24 вариант выдвинута гипотеза о нормальном распределении генеральной совокупности. Используя критерий Пирсона при уровне значимости среди заданных значений = {34, 35, 36, 37, 38} указать: а) наибольшее, для которого нет оснований отвергать гипотезу; б) наименьшее, начиная с которого гипотеза должна быть отвергнута.

Найдем число степеней свободы с помощью формулы:

где - число групп выборки (вариант), - число параметров распределения.

Так как нормальное распределение имеет 2 параметра ( и ), получаем

По таблице критических точек распределения , по заданному уровню значимости и числу степеней свободы определяем критическую точку .

В случае а) для значений , равных 34 и 35, нет оснований отвергать гипотезу о нормальном распределении, так как . А наибольшее среди этих значений .

В случае б) для значений 36, 37, 38 гипотезу отвергают, так как . Наименьшее среди них .◄

2. Проверка гипотезы о равномерном распределении . При использовании критерия Пирсона для проверки гипотезы о равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности

необходимо, вычислив по имеющейся выборке значение , оценить параметры а и b по формулам:

где а* и b* - оценки а и b . Действительно, для равномерного распределения М (Х ) = , , откуда можно получить систему для определения а* и b *: , решением которой являются выражения (9).

Затем, предполагая, что , можно найти теоретические частоты по формулам

Здесь s – число интервалов, на которые разбита выборка.

Наблюдаемое значение критерия Пирсона вычисляется по формуле (7`), а критическое – по таблице с учетом того, что число степеней свободы k = s – 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении.

3. Проверка гипотезы о показательном распределении. В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотрим последовательность вариант , равноотстоящих друг от друга (считаем, что все варианты, попавшие в i – й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот n i (число вариант выборки, попавших в i – й интервал). Вычислим по этим данным и примем в качестве оценки параметра λ величину . Тогда теоретические частоты вычисляются по формуле

Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s – 2.

При проверке статистических гипотез о соответствии отдельных параметров закона распределения случайных величин предполагалось, что законы распределения этих величин известны. Однако при решении практических задач (особенно экономических) модель закона распределения в общем случае заранее неизвестна, поэтому возникает необходимость выбора модели закона распределения, согласующейся с результатами выборочных наблюдений.

Пусть x 1 , x 2 ,...,x n – выборка наблюдений случайной величины Х с неизвестной непрерывной функцией распределения F(x) . Проверяется гипотеза Н 0 , утверждающая, что Х распределена по закону, имеющему функцию распределения F(x) , равную функции F 0 (x) , т.е. проверяется нулевая гипотеза .

Критерии, с помощью которых проверяется нулевая гипотеза о неизвестном распределении, называются критериями согласия . Рассмотрим критерий согласия Пирсона.

Схема проверки нулевой гипотезы :

1. По выборке x 1 , x 2 ,..., x n строят вариационный ряд; он может быть как дискретным, так и интервальным. Рассмотрим для определенности дискретный вариационный ряд

x i x 1 x 2 ... x k-1 x k
m i m 1 m 2 ... m k-1 m k

2. По данным предыдущих исследований или по предварительным данным делают предположение (принимают гипотезу) о модели закона распределения случайной величины Х .

3. По выборочным данным проводят оценку параметров выбранной модели закона распределения. Предположим, что закон распределения имеет r параметров (например, биномиальный закон имеет один параметр p ; нормальный – два параметра (a 0 , σ x ) и т.д.).

4. Подставляя выборочные оценки значений параметров распределения, находят теоретические значения вероятностей

, i=1, 2,..., k .

5. Рассчитывают теоретические частоты , где .

6. Рассчитывают значение критерия согласия Пирсона

.

Эта величина при стремится к распределению с степенями свободы. Поэтому для рассчетов используют таблицы распределения .

7. Задаваясь уровнем значимости α, находят критическую область (она всегда правосторонняя) ; значение определяют из соотношения . Если численное значение попадает в интервал , то гипотеза отклоняется и принимается альтернативная гипотеза о том, что выбранная модель закона распределения не подтверждается выборочными данными, при этом допускается ошибка, вероятность которой равна α.

Задача 6. Экзаменационный билет по математике содержит 10 заданий. Пусть Х – случайная величина числа задач, решенных абитуриентами на вступительном экзамене. Результаты сдачи экзамена по математике для 300 абитуриентов таковы:



i
x i
m i

Х .

Решение. Для составления гипотезы о модели закона распределения случайной величины Х сделаем следующие предположения:

· вероятность решения задачи не зависит от исхода решения других задач;

· вероятность решить любую отдельно взятую задачу одна и та же и равна p , а вероятность не решить задачу равна q=1-p .

При этих допущениях можно предположить, что Х подчинена биномиальному закону распределения (нулевая гипотеза), т.е. вероятность того, что абитуриент решит x задач, может быть подсчитана по формуле

Найдем оценку параметра p , входящего в модель (1).

Здесь p – это вероятность того, что абитуриент решит задачу. Оценкой вероятности p является относительная частота p * , которая вычисляется по формуле

,

где – среднее число задач, решенных одним абитуриентом;

v – число задач, решаемое каждым абитуриентом.

Тогда оценку для p получим в виде

Подставим значения p * =0,6 и q * =1-0,6=0,4 в выражение (1) и при различных x i получим теоретические вероятности и частоты (табл. 1).

Таблица 1

Номер группы i x i
0,0001 0,03
0,0016 0,48
0,0106 3,18
0,0425 12,75
0,1115 33,45
0,2007 60,21
0,2508 75,24
0,2150 64,50
0,1209 36,27
0,0403 12,09
0,0060 1,80

Из таблицы видно, что для групп 1, 2, 3 и 11 теоретическая частота . Такие группы обычно объединяются с соседними. Значения для групп 1, 2 и 3 можно объединить с . Это представляется естественным, потому что за 0, 1, 2 и 3 решенные задачи на экзамене обычно ставится неудовлетворительная оценка. Объединим так же группу 11 с группой 10 и составим табл. 2.



Таблица 2

Номер группы i
x i 0-3 9-10
m i

По данным табл. 2 рассчитываем величину критерия согласия:

Зададимся уровнем значимости α=0,05, тогда для степеней свободы .

Величина , следовательно, нулевая гипотеза должна быть отвергнута.

Задача 7. Результаты взвешиваний 50 случайным образом отобранных пачек чая приведены ниже (в граммах):

150, 147, 152, 148, 149, 153,. 151, 150,149, 147, 153, 151, 152, 151, 149, 152, 150, 148, 152, 150, 152, 151, 148, 151, 152, 150, 151, 149, 148, 149, 150, 150, 151, 149, 151, 150, 151, 150, 149, 148, 147, 153, 147, 152, 150, 151, 149, 150, 151, 153.

Оценить закон распределения случайной величины Х – массы пачки чая – для уровня значимости α=0,05.

Решение. Масса пачки чая – непрерывная случайная величина, но в силу того, что взвешивание проведено с дискретностью 1 г и размах составляет 147÷153 г, непрерывная величина может быть представлена дискретным вариационным рядом:

Таблица 1.

В качестве модели закона распределения выберем нормальный закон , число параметров которого r =2: a 0 – математическое ожидание, σ x – среднее квадратичное отклонение.

По выборочным данным получим оценки параметров нормального закона распределения:

;

, s=1,68 .

Для рассчета теоретических частот воспользуемся табличными значениями функции Лапласа Ф(z ). Алгоритм вычисления состоит в следующем:

Находим по нормированным значениям случайной величины Z значения Ф(z ), а затем F N (x ):

, .

Например,

x 1 =147; z 1 =(147–150,14)/1,68= –1,87; Ф(–1,87)= –0,46926; F N (147)=0,03074;

Находим ;

Находим , и если некоторое , то соответствующие группы объединяются.

Результаты вычисления , и приведены в табл. 2.

По таблице находим по схеме: для уровня значимости и числа степеней свободы . Следовательно критическая область .

Величина не входит в критическую область, поэтому гипотеза о том, что случайная величина Х – масса пачки чая – подчинена нормальному закону распределения, согласуется с выборочными данными.

Таблица 2

i x i +x i +1 m i Ф(z i ) F N (x i ) F N (x i+1 ) = F N (x i+1 )– – F N (x i )
–∞÷147 –0,50000 0,00000 0,03074 0,03074 1,537 -
147÷148 –0,46926 0,03074 0,10204 0,07130 3,563 0,237
148÷149 –0,39796 0,10204 0,24825 0,14621 7,31 0,730
149÷150 –0,25175 0,24825 0,46812 0,21987 10,99 0,813
150÷151 –0,03188 0,46812 0,69497 0,22685 11,34 0,010
151÷152 0,19497 0,69497 0,86650 0,17153 8,58 0,683
152÷153 0,36650 0,86650 0,95543 0,08893 4,45 2,794
153÷∞ 0,45543 0,95543 1,00000 0,04457 2,23 -
Σ=50 Σ=1,00000 Σ=5,267

Цель занятий: Привить студентам навыки проверки статистических гипотез. Обратить особое внимание на усвоение понятий, связанных с проверкой гипотез (статистический критерий, ошибки 1 и 2 рода и т.д.). После решения каждой задачи обсудить другие варианты выводов с разными и разными уровнями значимости.

К занятию по данной теме должны быть подготовлены ответы на следующие вопросы:

1. Как изменяются вероятности совершения ошибки первого и второго рода при увеличении объема выборки?

2. Зависят ли вероятности совершения ошибок первого и второго рода от вида альтернативной гипотезы, от применяемого критерия?

3. В чем состоит односторонность действия статистических критериев значимости?

4. Можно ли, применяя статистический критерий значимости, сделать вывод: «Проверяемая нулевая гипотеза верна»?

5. В чем состоит различие между построением двусторонней критической области и построением доверительного интервала для одного и того же параметра?

Задача 1. Были исследованы 200 готовых деталей на отклонение истинного размера от расчетного. Сгруппированные данные исследований приведены в табл.5.

Таблица 5

По данному статистическому ряду построить гистограмму. По виду гистограммы выдвинуть гипотезу о виде закона распределения (например, предложить, что исследуемая величина имеет нормальный закон распределения). Подобрать параметры закона распределения (равные их оценкам на основе опытных данных). На том же графике построить функцию плотности вероятности, соответствующую выдвинутой гипотезе. С помощью критерия согласия проверить, согласуется ли гипотеза с опытными данными. Уровень значимости взять, например, равным 0,05 .

Решение. Для того чтобы получить представление о виде закона распределения изучаемой величины, строим гистограмму. Для этого над каждым интервалом построим прямоугольник, площадь которого численно равна частоте попадания в интервал


(рис.8.)

По виду гистограммы можно выдвинуть предположение о том, что исследуемая величина имеет нормальный закон распределения. Параметры нормального закона распределения (математическое ожидание и дисперсию) оценим на основе опытных данных, считая в качестве представителя каждого интервала его середину:

.

Итак, выдвигаем гипотезу, что исследуемая величина имеет нормальный закон распределения N(5;111,6) , т.е. имеет функцию плотности вероятности

.

График её удобнее строить с помощью таблиц функции

.

Например, точка максимума и точки перегиба имеют ординаты соответственно

Вычислим меру расхождения между выдвинутой гипотезой и опытными данными, т.е. . Для этого сначала вычисляем вероятности, приходящиеся на каждый интервал в соответствии с гипотезой

Аналогично ,

Вычисление удобно вести, оформляя запись следующим образом:

0,069 0,242 0,362 0,242 0,069 13,8 48,4 72,4 48,4 23,8 5,2 -6,4 -1,4 7,5 -1,8 -27,04 40,96 1,96 57,76 3,24 1,96 0,85 0,02 1,19 0,23

Итак, вычислено значение . Построим критическую область для уровня значимости . Число степеней свободы для равно 2 (число интервалов , а на наложено три связи: , и . В результате ). Для заданного уровня значимости и числа степеней свободы находим из таблицы, распределения такое значение , чтобы .

В нашем случае , и критической областью будет интервал [5,99; ¥). Значение в критическую область не входит. Вывод: гипотеза опытным данным не противоречит (что не означает, конечно, что гипотеза верна).

Задача 2. В виде статистического ряда приведены сгруппированные данные о времени безотказной работы 400 приборов:

Согласуются ли эти данные с предположением, что время безотказной работы прибора имеет интегральную функцию распределения ? Уровень значимости взять, например, равным 0,02 .

Решение. Подсчитаем вероятности, приходящиеся в соответствии с гипотезой на интервалы:

p =P(0;

p =P(500

p =P(1000

p = P(1500

Вычисляем c .

n i p i np i n i - np i (n i - np i) 2 (n i -np i) / np i
0,6324 0,2325 0,0852 0,0317 252,96 34,08 12,68 4,04 -15 14,92 3,32 16,32 222,6 11,02 0,06 2,42 6,53 0,87

Число степеней свободы равно трём, так как на 4 величины n наложена только одна связь Sn = n (r =4 -1=3). Для трех степеней свободы и уровня значимости b=0,02 находим из таблицы распределения c критическое значение c =9,84. Значение c =9,88 входит в критическую область. Вывод: гипотеза противоречит опытным данным. Гипотезу отвергаем и вероятность того, что мы при этом ошибаемся, равна 0,02.

Задача 3 . Монету подбросили 50 раз. 32 раза выпал герб. С помощью критерия согласия “хи-квадрат ” проверить, согласуются ли эти данные с предположением, что монета была симметричной.

Решение. Выдвигаем гипотезу, что монета была симметричной, т. е. вероятность выпадания герба равна 1/2 . В нашем опыте герб выпал 32 раза и 18 раз выпала цифра Вычисляем значение c в .

n i p i np i n i - np i (n i - np i) (n i - np i) / np i
1/2 1/2 1,96 1,96

Число степеней свободы для c равно r = 2–1=1 ; так как слагаемых два, а на n наложена одна связь ν + ν =50 .

Для числа степеней свободы r =1 и уровня значимости, например, равного β=0,05 находим из таблицы распределения c , что P(c 3,84)=0,05 , т.е. областью критических значений c при уровне значимости β=0,05 будет интервал [3.84; ). Вычисленное значение c =3,92 попадает в критическую область, гипотеза отвергается. Вероятность того, что мы при этом ошибаемся равна 0,05 .

Задача 4. Изготовитель утверждает что в данной большой партии изделий только 10% изделий низкого сорта.Было отобрано наугад пять изделий и среди них оказалось три изделия низкого сорта. С помощью леммы Неймана-Пирсона построить критерий и проверить гипотезу о том, что процент изделий низкого сорта действительно равен 10 (p =0,1) против альтернативы, что процент не низкосортных изделий больше 10 (p=p >p ). Вероятность ошибки первого рода выбрать »0,01 , т.е. включить в критическую область столько точек, чтобы вероятность отвергнуть проверяемую гипотезу, если она верна, была 0,01 . Эта вероятность назначается приблизительно, чтобы не прибегать к рандомизации, о которой студенты не имеют представления. Если p =0,6 , то какова вероятность ошибки второго рода?

Решение. Согласно гипотезе p 0 =0,1 при альтернативном значении p >p . По лемме Неймана-Пирсона в критическую область следует отнести те значения k , для которых

= >C,

где С - некоторая постоянная,

,

k + (5 -k) ,

.

Так как , то выражение в скобке неотрицательно. Поэтому

Значит в критическую область следует включить те из значений {0,2,1,3,4,5} , которые больше некоторого , зависящего от уровня значимости (от вероятности ошибки первого рода). Для определения в предположении, что гипотеза верна, вычисляем вероятности

Если к критической области отнести значения {3,4,5} , то вероятность ошибки первого рода будет равна

В условиях задачи оказалось, что среди пяти проверенных три бракованных изделия. Значение входит в критическую область. Гипотезу отвергаем в пользу альтернативы и вероятность того, что мы это делаем ошибочно, меньше 0,01 .

Вероятностью ошибки второго рода называется вероятность принять гипотезу, когда она не верна. Гипотеза будет принята при . Если вероятность изготовления бракованного изделия на самом деле равна , то вероятность принять ложную гипотезу равна

Задача 5. Известно, что при тщательном перемешивании теста изюмины распределяются в нём примерно по закону Пуассона, т.е. вероятность наличия в булочке изюмин равна приблизительно , где - среднее число изюмин, приходящееся на булочку. При выпечке булочек с изюмом полагается по стандарту на 1000 булочек 9000 изюмин. Имеется подозрение, что в тесто засыпали изюму меньше, чем полагается по стандарту. Для проверки выбирается одна булочка и пересчитываются изюмины в ней. Построить критерий для проверки гипотезы о том, что против альтернативы . Вероятность ошибки первого рода взять приблизительно 0,02.

Решение. Для проверки гипотезы: против альтернативы по лемме Неймана-Пирсона в критическую область следует включить те значения для которых

где - некоторая постоянная.

Тогдаn 1 Н 1 , так как ее справедливость означает эффективность применения новой технологии).

Фактическое значение статистики критерия

.

При конкурирующей гипотезе Н 1 критическое значение статистики находится из условия , т.е. , откуда t кр =t 0,95 =1,96 .

Так как фактически наблюдаемое значение t =4,00 больше критического значения t кр (при любой из взятых конкурирующих гипотез), то гипотеза Н 0 отвергается, т.е. на 5%-ом уровне значимости можно сделать вывод, что новая технология позволяет повысить среднюю выработку рабочих.

Задача 2. Произведены две выборки урожая пшеницы: при своевременной уборке урожая и уборке с некоторым опазданием. В первом случае при наблюдении 8 участков выборочная средняя урожайность составила 16,2 ц/га, а среднее квадратическое отклонение – 3,2 ц/га; во втором случае при наблюдении 9 участков те же характеристики равнялись соответственно 13,9 ц/га и 2,1 ц/га. На уровне значимости α=0,05 выяснисть влияние своевременой уборки урожая на среднее значение урожайности.

Решение. Проверяемая гипотеза , т.е. средние значения урожайности при своевременной уборке урожая и с некоторым опозданием равны. В качестве альтернативной гипотезы берем гипотезу , принятие которой означает существенное влияние на урожайность сроков уборки.

Фактически наблюдаемое значение статистики критерия

.

Критическое значение статистики для односторонней области определяется при числе степеней свободы l=n 1 +n 2 -2=9+8-2= =15 из условия θ(t,l )=1–2·0,05=0,9, откуда по таблице t -распределения (Приложение 6) находим, t кр =1,75. Так как , то гипотеза Н 0 принимается. Это означает, что имеющиеся выборочные данные на 5%-ом уровне значимости не позволяют считать, что некоторое запаздывание в сроках уборки оказывает существенное влияние на величину урожая. Еще раз подчеркнем, что это не означает безоговорочную верность гипотезы Н 0 . Вполне возможно, что только незначительный объем выборки позволил принять эту гипотезу, а при увеличении объемов выборки (числа отобранных участков) гипотеза Н 0 будет отвергнута.

Задача 3. Имеются следующие данные об урожайности пшеницы на 8 опытных участках одинакового размера (ц/га): 26,5; 26,2; 35,9; 30,1; 32,3; 29,3; 26,1; 25,0. Есть основание предполагать, что значение урожайности третьего участка x * =35,9 зарегистрировано неверно. Является ли это значение аномальным (резко выделяющимся) на 5%-ном уровне значимости?

Решение. Исключив значение x * =35,9, найдем для оставшихся наблюдений и . Фактически наблюдаемое значение больше табличного , следовательно, значение x * =35,9 является аномальным, и его следует отбросить.

Задача 4. На двух токарных станках обрабатываются втулки. Отобраны две пробы: из втулок, сделанных на первом станке n 1 =15 шт., на втором станке – n 2 =18 шт. По данным этих выборок рассчитаны выборочные дисперсии (для первого станка) и (для второго станка). Полагая, что размеры втулок подчиняются нормальному закону распределения, на уровне значимости α=0,05 выяснить, можно ли считать, что станки обладают различной точностью.

Решение. Имеем нулевую гипотезу , т.е. дисперсии размера втулок, обрабатываемых на каждом станке, равны. Возьмем в качестве конкурирующей гипотезу (дисперсия больше для первого станка).

.

По таблице P .

Решение. Проверяемая гипотеза . В качестве альтернативной возьмем гипотезу . Так как генеральная дисперсия σ 2 неизвестна, то используем t -критерий Стьюдента. Статистика критерия равна . Критическое значение статистики t кр =1,83.

Так как |t |>t кр (2,25>1,83), то гипотеза Н 0 отвергается, т.е. на 5%-ном уровне значимости сделанный прогноз должен быть отвергнут.

Задача 6. Для эмпирического распределени

Проверка статистических гипотез включает в себя большой пласт задач математической статистики. Зная некоторые характеристики выборки (или имея просто выборочные данные), мы можем проверять гипотезы о виде распределении случайной величины или ее параметрах (примеры этих задач на странице Проверка гипотез о параметрах распределения).

Ниже в примерах мы разберем основные учебные задачи на проверку гипотез о виде распределения. Чаще всего для этого используется критерий согласия $\chi^2$ Пирсона, а также критерий Колмогорова-Смирнова.

Критерий согласия Пирсона (или критерий $\chi^2$ - "хи квадрат") - наиболее часто употребляемый для проверки гипотезы о принадлежности некоторой выборки теоретическому закону распределения (в учебных задачах чаще всего проверяют "нормальность" - распределение по нормальному закону).

В учебных задачах обычно используется следующий алгоритм :

  1. Выбор теоретического закона распределения (обычно задан заранее, если не задан - анализируем выборку, например с помощью гистограммы относительных частот, которая имитирует плотность распределения).
  2. Оцениваем параметры распределения по выборке (для этого вычисляется математическое ожидание и дисперсия): $a, \sigma$ для нормального, $a,b$ - для равномерного, $\lambda$ - для распределения Пуассона и т.д.
  3. Вычисляются теоретические значения частот (через теоретические вероятности попадания в интервал) и сравниваются с исходными (выборочными).
  4. Анализируется значение статистики $\chi^2$ и делается вывод о соответствии (или нет) теоретическому закону распределения.

Подробные примеры на разные распределения и критерии вы найдете ниже.


Понравилось? Добавьте в закладки

Примеры решений на проверку гипотез онлайн

Критерий Пирсона, нормальное распределение

Пример 1. Используя критерий Пирсона, при уровне значимости 0,05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X по результатам выборки:
X 0,3 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3
N 7 9 28 27 30 26 21 25 22 9 5

Пример 2. Были исследованы 200 готовых деталей на отклонения истинного размера от расчетного. Сгруппированные данные приведены в следующей таблице:
По данному статистическому ряду построить гистограмму. По виду гистограммы выдвинуть гипотезу о виде закона распределения (например, предположить, что исследуемая величина имеет нормальный закон распределения). Подобрать параметры закона распределения (равные их оценкам на основе опытных данных). На том же графике построить функцию плотности вероятности, соответствующую выдвинутой гипотезе. С помощью критерия согласия проверить, согласуется ли гипотеза с опытными данными. Уровень значимости взять, например, равным 0,05.

Критерий Пирсона, распределение по закону Пуассона

Пример 3. Отдел технического контроля проверил n партий однотипных изделий и установил, что число нестандартных изделий в одной партии имеет эмпирическое распределение, приведенное в таблице, в одной строке которой указано количество xi нестандартных изделий в одной партии, а в другой строке – количество ni партий, содержащих xi нестандартных изделий. Требуется при уровне значимости α0,05 проверить гипотезу о том, что случайная величина X (число нестандартных изделий в одной партии) распределена по закону Пуассона.

Пример 4. В результате обследования 150 человек были получены данные о количестве приобретаемых за месяц цветных иллюстрированных журналов. Соответствует ли данное распределение закону редких событий Пуассона?

Критерий Пирсона, распределение по показательному закону

Пример 5. В итоге испытаний 1000 элементов на время безотказной работы (час.) получено распределение, приведенное в таблице. Требуется при уровне значимости проверить гипотезу о том, что данные в генеральной совокупности распределены по показательному закону.
Время безотказной работы 0-10 10-20 20-30 30-40 40-50 50-60 60-70
Число отказавших элементов 365 245 150 100 70 45 25

Критерий Пирсона, распределение по равномерному закону

Пример 6. В некоторой местности в течение 300 суток регистрировалась среднесуточная температура воздуха. В итоге наблюдений было получено эмпирическое распределение, приведенное в таблице 40 (в первом столбце указан интервал температуры в градусах, во втором столбце – частота $n_i$, т.е. количество дней, среднесуточная температура которых принадлежит этому интервалу).
Требуется при уровне значимости 0,05 проверить гипотезу о том, что среднесуточная температура воздуха распределена равномерно.

Критерий Колмогорова

Пример 7. Имеются выборочные данные о числе сделок, заключенных фирмой с частными лицами в течение месяца:
- число заключенных сделок 0-10 10-20 20-30 30-40 40-50
- число частных лиц 23 24 11 9 3
Проверить при уровне значимости 0,05, используя критерий согласия Колмогорова, гипотезу о нормальном законе распределения.

Пример 8. В течение месяца выборочно осуществлялась проверка торговых точек города по продаже овощей. Результаты двух проверок по недовесам покупателям одного вида овощей приведены в таблице:Можно ли считать при уровне значимости 0,05, что недовесы овощей являются устойчивым и закономерным процессом при продаже овощей в данном городе (т.е. описываются одной и той же функцией распределения)?

Критерий согласия Пирсона :

Пример 1 . Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.

Решение находим с помощью калькулятора .

x i Кол-во, f i x i * f i Накопленная частота, S (x - x ср) * f (x - x ср) 2 * f (x - x ср) 3 * f Частота, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1

.
Средняя взвешенная


Показатели вариации .
.

R = X max - X min
R = 21 - 5 = 16
Дисперсия


Несмещенная оценка дисперсии


Среднее квадратическое отклонение .

Каждое значение ряда отличается от среднего значения 12.63 не более, чем на 4.7
.

.
нормальному закону




n = 200, h=2 (ширина интервала), σ = 4.7, x ср = 12.63

i x i u i φ i n* i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
i n i n* i n i -n* i (n i -n* i) 2 (n i -n* i) 2 /n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86



Её границу K kp = χ 2 (k-r-1;α) находим по таблицам распределения «хи-квадрат» и заданным значениям σ, k = 9, r=2 (параметры x cp и σ оценены по выборке).
Kkp(0.05;6) = 12.59159; Kнабл = 22.86
Наблюдаемое значение статистики Пирсона попадает в критическую область: Кнабл > Kkp, поэтому есть основания отвергать основную гипотезу. Данные выборки распределены не по нормальному закону . Другими словами, эмпирические и теоретические частоты различаются значимо.

Пример 2 . Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.
Решение .
Таблица для расчета показателей.

x i Кол-во, f i x i * f i Накопленная частота, S (x - x ср) * f (x - x ср) 2 * f (x - x ср) 3 * f Частота, f i /n
0.3 6 1.8 6 5.77 5.55 -5.34 0.03
0.5 9 4.5 15 6.86 5.23 -3.98 0.045
0.7 26 18.2 41 14.61 8.21 -4.62 0.13
0.9 25 22.5 66 9.05 3.28 -1.19 0.13
1.1 30 33 96 4.86 0.79 -0.13 0.15
1.3 26 33.8 122 0.99 0.0375 0.00143 0.13
1.5 21 31.5 143 5 1.19 0.28 0.11
1.7 24 40.8 167 10.51 4.6 2.02 0.12
1.9 20 38 187 12.76 8.14 5.19 0.1
2.1 8 16.8 195 6.7 5.62 4.71 0.04
2.3 5 11.5 200 5.19 5.39 5.59 0.025
200 252.4 82.3 48.03 2.54 1

Показатели центра распределения .
Средняя взвешенная


Показатели вариации .
Абсолютные показатели вариации .
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = X max - X min
R = 2.3 - 0.3 = 2
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).


Несмещенная оценка дисперсии - состоятельная оценка дисперсии.


Среднее квадратическое отклонение .

Каждое значение ряда отличается от среднего значения 1.26 не более, чем на 0.49
Оценка среднеквадратического отклонения .

Проверка гипотез о виде распределения .
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.

где n* i - теоретические частоты:

Вычислим теоретические частоты, учитывая, что:
n = 200, h=0.2 (ширина интервала), σ = 0.49, x ср = 1.26

i x i u i φ i n* i
1 0.3 -1.96 0,0573 4.68
2 0.5 -1.55 0,1182 9.65
3 0.7 -1.15 0,2059 16.81
4 0.9 -0.74 0,3034 24.76
5 1.1 -0.33 0,3765 30.73
6 1.3 0.0775 0,3977 32.46
7 1.5 0.49 0,3538 28.88
8 1.7 0.89 0,2661 21.72
9 1.9 1.3 0,1691 13.8
10 2.1 1.71 0,0909 7.42
11 2.3 2.12 0,0422 3.44

Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия:

21.72 -2.28 5.2 0.24 9 20 13.8 -6.2 38.41 2.78 10 8 7.42 -0.58 0.34 0.0454 11 5 3.44 -1.56 2.42 0.7 ∑ 200 200 12.67

Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение K набл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: }

Похожие статьи

© 2024 parki48.ru. Строим каркасный дом. Ландшафтный дизайн. Строительство. Фундамент.