Критерій φ * - Кутове перетворення Фішера. Критерій фішера і приватний критерій фішера для рівняння множинної регресії

на даному прикладіРозглянемо, як оцінюється надійність отриманого рівняння регресії. Цей тест використовується для перевірки гіпотези у тому, що коефіцієнти регресії одночасно дорівнюють нулю, a=0 , b=0 . Іншими словами, суть розрахунків – відповісти на запитання: чи можна його використовувати для подальшого аналізу та прогнозів?

Для встановлення подібності або відмінності дисперсій у двох вибірках використовуйте цей t-критерій.


Отже, метою аналізу є отримання деякої оцінки, за допомогою якої можна було б стверджувати, що при певному рівні отримане рівняння регресії - статистично надійно. Для цього використовується коефіцієнт детермінації R 2.
Перевірка значущості моделі регресії проводиться з використанням F-критерію Фішера, розрахункове значення якого перебуває як відношення дисперсії вихідного ряду спостережень показника, що вивчається, і незміщеної оцінки дисперсії залишкової послідовності для даної моделі.
Якщо розрахункове значення з k 1 =(m) і k 2 =(n-m-1) ступенями свободи більше табличного при заданому рівні значущості, модель вважається значущою.

де m - Число факторів в моделі.
Оцінка статистичної значимостіпарний лінійної регресіїпровадиться за наступним алгоритмом:
1. Висувається нульова гіпотеза у тому, що рівняння загалом статистично незначимо: H 0: R 2 =0 лише на рівні значимості α.
2. Далі визначають фактичне значення F-критерію:


де m=1 для парної регресії.
3. Табличне значеннявизначається за таблицями розподілу Фішера для заданого рівня значимості, враховуючи, що число ступенів свободи для загальної суми квадратів (більшої дисперсії) дорівнює 1 і число ступенів свободи залишкової суми квадратів (меншої дисперсії) при лінійній регресії дорівнює n-2 (або через функцію Excel FРОЗКЛАД (імовірність; 1; n-2)).
F табл – це максимально можливе значення критерію під впливом випадкових факторівпри даних ступенях свободи та рівні значущості α. Рівень значущості α - можливість відкинути правильну гіпотезу за умови, що вона вірна. Зазвичай приймається рівною 0,05 або 0,01.
4. Якщо фактичне значення F-критерію менше табличного, то кажуть, що немає підстав відхиляти нульову гіпотезу.
В іншому випадку, нульова гіпотеза відхиляється і з ймовірністю (1-α) приймається альтернативна гіпотеза про статистичну значущість рівняння в цілому.
Табличне значення критерію зі ступенями свободи k 1 =1 і k 2 =48, F табл = 4

Висновки: Оскільки фактичне значення F > F табл, коефіцієнт детермінації статистично значимий ( знайдена оцінка рівняння регресії статистично надійна) .

Дисперсійний аналіз

.

Показники якості рівняння регресії

Приклад. По сукупності 25 підприємств торгівлі вивчається залежність між ознаками: X - ціна товару А, тис. крб.; Y – прибуток торговельного підприємства, млн. руб. Оцінюючи регресійної моделі було отримано такі проміжні результати: ∑(y i -y x) 2 = 46000; ∑(y i -y ср) 2 = 138000. Який показник кореляції можна визначити за цими даними? Розрахуйте величину цього показника, на основі цього результату та за допомогою F-критерія Фішеразробіть висновок якість моделі регресії.
Рішення. За цими даними можна визначити емпіричне кореляційне ставлення: де ?
η 2 = 92000/138000 = 0.67, η = 0.816 (0.7< η < 0.9 - связь между X и Y высокая).

F-критерій Фішера: n = 25, m = 1.
R 2 = 1 - 46000/138000 = 0.67, F = 0.67/(1-0.67)x(25 - 1 - 1) = 46. F табл (1; 23) = 4.27
Оскільки фактичне значення F > Fтабл, то знайдена оцінка рівняння регресії статистично надійна.

Запитання: Яку статистику використовують для перевірки значущості моделі регресії?
Відповідь: Для значущості всієї моделі загалом використовують F-статистику (критерій Фішера).

Критерій Фішерадозволяє порівнювати величини вибіркових дисперсій двох незалежних вибірок. Для обчислення F емп потрібно знайти відношення дисперсій двох вибірок, причому так, щоб більша за величиною дисперсія знаходилася б у чисельнику, а менша – у знаменнику. Формула обчислення критерію Фішера така:

де - дисперсії першої та другої вибірки відповідно.

Так як, згідно з умовою критерію, величина чисельника повинна бути більшою або дорівнює величині знаменника, то значення F емп завжди буде більше або дорівнює одиниці.

Число ступенів свободи визначається також просто:

k 1 =n l - 1 для першої вибірки (тобто для тієї вибірки, величина дисперсії якої більша) і k 2 = n 2 - 1 для другої вибірки.

У Додатку 1 критичні значення критерію Фішера знаходяться за величинами k 1 (верхній рядок таблиці) та k 2 (лівий стовпець таблиці).

Якщо t эмп >t критий, то нульова гіпотеза приймається, інакше приймається альтернативна.

приклад 3.У двох третіх класах проводилося тестування розумового розвиткуз тесту ТУРМШ десяти учнів. Отримані значення середніх величин достовірно не розрізнялися, проте психолога цікавить питання - чи є відмінності в ступені однорідності показників розумового розвитку між класами.

Рішення. Для критерію Фішера необхідно порівняти дисперсії тестових оцінок обох класах. Результати тестування представлені у таблиці:

Таблиця 3.

№№ учнів

Перший клас

Другий клас

Розрахувавши дисперсії для змінних X та Y, отримуємо:

s x 2 =572,83; s y 2 =174,04

Тоді за формулою (8) для розрахунку за F критерієм Фішера знаходимо:

За таблицею з Додатка 1 для F критерію при ступенях свободи в обох випадках рівних k=10 - 1 = 9 знаходимо F крит =3,18 (<3.29), следовательно, в терминах статистических гипотез можно утвер­ждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н 1 . Иcследователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

6.2 Непараметричні критерії

Порівнюючи на вічко (за відсотковими співвідношеннями) результати до і після будь-якого впливу, дослідник приходить до висновку, що якщо спостерігаються відмінності, то має різницю в порівнюваних вибірках. Подібний підхід категорично неприйнятний, тому що для відсотків не можна визначити рівень достовірності у відмінностях. Відсотки, взяті власними силами, не дають можливості робити статистично достовірні висновки. Щоб довести ефективність будь-якого впливу, необхідно виявити статистично значиму тенденцію у зміщенні показників. Для вирішення подібних завдань дослідник може використовувати низку критеріїв відмінності. Нижче буде розглянуто непараметричні критерії: критерій знаків та критерій хі-квадрат.

Значимість рівняння множинної регресії в цілому, так само як і в парній регресії, оцінюється за допомогою критерію Фішера:

, (2.22)

де
- Факторна сума квадратів на один ступінь свободи;
– залишкова сума квадратів однією ступінь свободи;
- Коефіцієнт (індекс) множинної детермінації;
- Число параметрів при змінних (У лінійній регресії збігається з числом включених у модель факторів); - Число спостережень.

Оцінюється значущість як рівняння загалом, а й чинника, додатково включеного в регресійну модель. Необхідність такої оцінки пов'язана з тим, що не кожен фактор, який увійшов до моделі, може суттєво збільшувати частку поясненої варіації результативної ознаки. Крім того, за наявності моделі декількох факторів вони можуть вводитися в модель в різній послідовності. Зважаючи на кореляцію між факторами значущість одного і того ж фактора може бути різною залежно від послідовності його введення в модель. Мірою для оцінки включення фактора в модель служить приватний
-Критерій, тобто. .

Приватний
-Критерій побудований на порівнянні приросту факторної дисперсії, обумовленого впливом додатково включеного фактора, з залишковою дисперсією на один ступінь свободи за регресійною моделлю в цілому. У загальному вигляді для фактора приватний
-Критерій визначиться як

, (2.23)

де
- Коефіцієнт множинної детермінації для моделі з повним набором факторів,
- Той самий показник, але без включення в модель фактора ,- Число спостережень,
- Число параметрів в моделі (без вільного члена).

Фактичне значення
-критерія порівнюється з табличним при рівні значимості
та числі ступенів свободи: 1 та
. Якщо фактичне значення перевищує
, то додаткове включення фактора у модель статистично виправдано і коефіцієнт чистої регресії при факторі статистично значущий. Якщо ж фактичне значення менше табличного, то додаткове включення до моделі фактора істотно не збільшує частку поясненої варіації ознаки , отже, недоцільно його включення до моделі; коефіцієнт регресії за даного чинника у разі статистично незначимий.

Для двофакторного рівняння приватні
-Критерії мають вигляд:

,
. (2.23а)

За допомогою приватного
-критерію можна перевірити значущість всіх коефіцієнтів регресії у припущенні, що кожен відповідний фактор вводився в рівняння множинної регресії останнім.

-Критерій студента для рівняння множинної регресії.

Приватний
-Критерій оцінює важливість коефіцієнтів чистої регресії. Знаючи величину , можна визначити і -Критерій для коефіцієнта регресії при -му факторі, , а саме:

. (2.24)

Оцінка значимості коефіцієнтів чистої регресії за -критерію Стьюдента може бути проведена і без розрахунку приватних
-Критеріїв. В цьому випадку, як і в парній регресії, для кожного фактора використовується формула:

, (2.25)

де - Коефіцієнт чистої регресії при факторі ,- Середня квадратична (стандартна) помилка коефіцієнта регресії .

Для рівняння множинної регресії середня квадратична помилка коефіцієнта регресії може бути визначена за такою формулою:

, (2.26)

де ,- Середнє квадратичне відхилення для ознаки ,
- Коефіцієнт детермінації для рівняння множинної регресії,
- Коефіцієнт детермінації для залежності фактора з усіма іншими факторами рівняння множинної регресії;
- Число ступенів свободи для залишкової суми квадратів відхилень.

Як бачимо, щоб скористатися цією формулою, необхідні матриця міжфакторної кореляції та розрахунок за нею відповідних коефіцієнтів детермінації
. Так, для рівняння
оцінка значущості коефіцієнтів регресії ,,передбачає розрахунок трьох міжфакторних коефіцієнтів детермінації:
,
,
.

Взаємозв'язок показників приватного коефіцієнта кореляції, приватного
-критерія та -Крітерія Стьюдента для коефіцієнтів чистої регресії може використовуватися в процедурі відбору факторів. Відсів факторів при побудові рівняння регресії методом виключення практично можна здійснювати не лише за приватними коефіцієнтами кореляції, виключаючи на кожному кроці фактор із найменшим незначним значенням приватного коефіцієнта кореляції, але й за величинами і . Приватний
-Критерій широко використовується і при побудові моделі методом включення змінних та кроковим регресійним методом.

Для порівняння двох нормально розподілених сукупностей, які не мають відмінностей у середніх вибіркових значеннях, але є різниця в дисперсіях, використовують критерій Фішера. Фактичний критерій розраховують за такою формулою:

де в чисельнику стоїть більше значення вибіркової дисперсії, а знаменнику - менше. Для висновку про достовірність різниці між вибірками використовують ОСНОВНИЙ ПРИНЦИП перевірки статистичних гіпотез Критичні точки для
містяться у таблиці. Нульову гіпотезу відкидають, якщо фактично встановлена ​​величина
перевершить або виявиться рівною критичному (стандартному) значенню
цієї величини для прийнятого рівня значущості та числа ступенів свободи k 1 = n велика -1 ; k 2 = n менша -1 .

П р і м е р: щодо впливу деякого препарату на швидкість проростання насіння було встановлено, що у експериментальної партії насіння і контролі середня швидкість проростання однакова, але є різниця у дисперсіях.
=1250,
=417. Обсяги вибірок однакові та дорівнюють 20.

=2,12. Отже, нульова гіпотеза відкидається.

Кореляційна залежність. Коефіцієнт кореляції та її властивості. Рівняння регресії.

ЗАВДАННЯкореляційного аналізу зводиться до:

    Встановлення напряму та форми зв'язку між ознаками;

    Вимірювання її тісноти.

Функціональною називається однозначна залежність між змінними величинами, коли певному значенню однієї (незалежної) змінної х , що називається аргументом, відповідає певне значення іншої (залежної) змінної у , що називається функцією. ( приклад: залежність швидкості хімічної реакції від температури; залежність сили тяжіння від мас тіл, що притягуються, і відстані між ними).

Кореляційної називається залежність між змінними, що мають статистистичний характер, коли певному значенню однієї ознаки (що розглядається як незалежна змінна) відповідає цілий ряд числових значень іншої ознаки. ( приклад: зв'язок між урожаєм та кількістю опадів; між зростанням та вагою і т.д.).

Поле кореляції є безліч точок, координати яких дорівнюють отриманим на досвіді парам значень змінних х і у .

По виду кореляційного поля можна судити про наявність або відсутність зв'язку та його тип.



Зв'язок називається позитивною якщо при збільшенні однієї змінної збільшується інша змінна.

Зв'язок називається негативною якщо при збільшенні однієї змінної зменшується інша змінна.

Зв'язок називається лінійної якщо її можна в аналітичному вигляді подати як
.

Показником тісноти зв'язку є коефіцієнт кореляції . Емпіричний коефіцієнт кореляції визначається виразом:

Коефіцієнт кореляції лежить у межах від -1 до 1 та характеризує ступінь близькості між величинами x і y . Якщо:


Кореляційну залежність між ознаками можна описувати у різний спосіб. Зокрема будь-яка форма зв'язку може бути виражена рівнянням загального виду
. Рівняння виду
і
називаються регресією . Рівняння прямої регресії у на х у загальному випадку можна записати у вигляді

Рівняння прямої регресії х на у у загальному випадку виглядає як

Найбільш ймовірні значення коефіцієнтів аі в, зі dможуть бути обчислені, наприклад, під час використання методу найменших квадратів.



Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.