Оцінка значущості рівняння регресії та її параметрів. Оцінка суттєвості параметрів лінійної регресії та всього рівняння в цілому

З допомогою МНК можна лише оцінки параметрів рівняння регресії. Щоб перевірити, чи значущі параметри (тобто значуще вони відрізняються від нуля в істинному рівнянні регресії) використовують статистичні методи перевірки гіпотез. Як основна гіпотеза висувають гіпотезу про незначну відмінність від нуля параметра регресії або коефіцієнта кореляції. Альтернативною гіпотезою, у своїй є гіпотеза зворотна, тобто. про нерівність нулю параметра чи коефіцієнта кореляції. Для перевірки гіпотези використовується t-критерій Стьюдента.

Знайдене за даними спостережень значення t-критерію (його ще називають спостерігається або фактичним) порівнюється з табличним (критичним) значенням, що визначається за таблицями розподілу Стьюдента (які зазвичай наводяться в кінці підручників та практикумів зі статистики або економетрики). Табличне значення визначається залежно від рівня значущості та числа ступенів свободи, яке у разі лінійної парної регресії дорівнює , n-Кількість спостережень.

Якщо фактичне значення t-Критерію більше табличного (по модулю), то вважають, що з ймовірністю параметр регресії (коефіцієнт кореляції) значно відрізняється від нуля.

Якщо фактичне значення t-критерію менше табличного (за модулем), немає підстав відкидати основну гіпотезу, тобто. параметр регресії (коефіцієнт кореляції) незначно відрізняється від нуля за рівня значимості .

Фактичні значення t-Критерію визначаються за формулами:

,

,

де .

Для перевірки гіпотези про незначну відмінність від нуля коефіцієнта лінійної парної кореляції використовують критерій:

де r - оцінка коефіцієнта кореляції, отримана за даними, що спостерігаються.

Прогноз очікуваного значення результативної ознаки Y за лінійною парному рівняннюрегресії.

Нехай потрібно оцінити прогнозне значення ознаки-результату для заданого значення ознаки-фактора. Прогнозоване значення ознаки-результату з довірчою ймовірністю рівною належить інтервалу прогнозу:

,

де - точковий прогноз;

t - коефіцієнт довіри, який визначається за таблицями розподілу Стьюдента залежно від рівня значущості α та числа ступенів свободи;

Середня помилкапрогнозу.

Точковий прогноз розраховується за лінійним рівнянням регресії, як:

.

Середня помилка прогнозу визначається за такою формулою:

.

приклад 1.

На основі даних, наведених у Додатку та відповідних варіанту 100, потрібно:



1. Побудувати рівняння лінійної парної регресії однієї ознаки іншого. Одна з ознак, що відповідають Вашому варіанту, відіграватиме роль факторного (Х) , інший - результативного . Причинно-наслідкові зв'язки між ознаками встановити самим з урахуванням економічного аналізу. Пояснити значення параметрів рівняння.

3. Оцінити статистичну значущість параметрів регресії та коефіцієнта кореляції з рівнем значущості 0,05.

4. Виконати прогноз очікуваного значення ознаки-результату Yпри прогнозному значенні ознаки-фактора X, 105% від середнього рівня X . Оцінити точність прогнозу, розрахувавши помилку прогнозу та його довірчий інтерваліз ймовірністю 0,95.

Рішення:

Як ознака-фактор у даному випадкуВиберемо курсову ціну акцій, оскільки від прибутковості акцій залежить величина нарахованих дивідендів. Таким чином, результативною буде ознака дивіденди, нараховані за результатами діяльності.

Для полегшення розрахунків збудуємо розрахункову таблицю, яка заповнюється по ходу розв'язання задачі. (Таблиця 1)

Для наочності залежності Yот X представимо графічно. (Малюнок 2)

Таблиця 1 - Розрахункова таблиця


1. Побудуємо рівняння регресії виду: .

Для цього необхідно визначити параметри рівняння та .

Визначимо ,

де - середнє із значень , зведених у квадрат;

Середнє значення в квадраті.

Визначимо параметр а 0:

Отримаємо рівняння регресії наступного виду:

Параметр показує, скільки склали б дивіденди, нараховані за результатами діяльності за відсутності впливу курсової ціни акцій. За підсумками параметра можна дійти невтішного висновку, що з зміні курсової ціни акцій на 1 крб. відбудеться зміна дивідендів у той самий бік на 0,01 млн. крб.



2. Розрахуємо лінійний коефіцієнт парної кореляції та коефіцієнт детермінації.

Лінійний коефіцієнт парної кореляції визначимо за такою формулою:

,

Визначимо та :

Коефіцієнт кореляції, рівний 0,708, дозволяє судити про тісний зв'язок між результативною та факторною ознаками .

Коефіцієнт детермінації дорівнює квадрату лінійного коефіцієнтакореляції:

p align="justify"> Коефіцієнт детермінації показує, що на варіації нарахованих дивідендів залежить від варіації курсової ціни акцій, і на - від інших неврахованих в моделі факторів.

3. Оцінимо значимість параметрів рівняння регресії та лінійного коефіцієнта кореляції за t-критерію Стьюдента. Необхідно порівняти розрахункові значення t-критерію для кожного параметра та порівняти його з табличним.

Для розрахунку фактичних значень t-Критерія визначимо:

Після того, як знайдено рівняння лінійної регресії, проводиться оцінка значущості як рівняння загалом, і окремих його параметрів.

Перевірити значущість рівняння регресії - означає встановити, чи відповідає математична модель, що виражає залежність між змінними, експериментальними даними і чи достатньо включених до рівняння пояснюючих змінних (однієї або декількох) для опису залежної змінної.

Перевірка значущості проводиться на основі дисперсійного аналізу.

Відповідно до ідеї дисперсійного аналізу, загальна сума квадратів відхилень (СКО) y від середнього значення розкладається на дві частини – пояснену та непояснену:

або, відповідно:

Тут можливі два крайні випадки: коли загальна СКО точно дорівнює залишкової і коли загальна СКО дорівнює факторной.

У першому випадку фактор х не впливає на результат, вся дисперсія y обумовлена ​​впливом інших факторів, лінія регресії паралельна осі Ох і рівняння має мати вигляд.

У другому випадку інші фактори не впливають на результат, пов'язаний з x функціонально, і залишкова СКО дорівнює нулю.

Однак на практиці у правій частині присутні обидва доданки. Придатність лінії регресії для прогнозу залежить від цього, яка частина загальної варіації y посідає пояснену варіацію. Якщо пояснена СКО буде більше залишкової СКО, то рівняння регресії статистично значуще і фактор х істотно впливає на результат y. Це рівнозначно тому, що коефіцієнт детермінації наближатиметься до одиниці.

Число ступенів свободи (df-degrees of freedom) - це число незалежно значень ознаки, що варіюються.

Для загальної СКО потрібно (n-1) незалежних відхилень,

Факторна СКО має один ступінь свободи, та

Таким чином, можемо записати:

На цьому балансу визначаємо, що = n-2.

Розділивши кожну СКО на свою кількість ступенів свободи, отримаємо середній квадрат відхилень, або дисперсію на один ступінь свободи: - загальна дисперсія, - Факторна, - Залишкова.

Аналіз статистичної значимостікоефіцієнтів лінійної регресії

Хоча теоретичні значення коефіцієнтів рівняння лінійної залежності передбачаються постійними величинами, оцінки а і b цих коефіцієнтів, одержувані в ході побудови рівняння за даними випадкової вибірки, є випадковими величинами. Якщо помилки регресії мають нормальний розподіл, то оцінки коефіцієнтів також розподілені нормально і можуть характеризуватись своїми середніми значеннями та дисперсією. Тому аналіз коефіцієнтів починається з розрахунку цих показників.

Дисперсії коефіцієнтів розраховуються за формулами:

Дисперсія коефіцієнта регресії:

де - Залишкова дисперсія на один ступінь свободи.

Дисперсія параметра:

Звідси стандартна помилкакоефіцієнта регресії визначається за такою формулою:

Стандартна помилка параметра визначається за такою формулою:

Вони служать для перевірки нульових гіпотез у тому, що справжнє значення коефіцієнта регресії b чи вільного члена a дорівнює нулю: .

Альтернативна гіпотеза має вигляд: .

t – статистики мають t – розподіл Стьюдента зі ступенями свободи. За таблицями розподілу Стьюдента при певному рівні значущості б і степенях свободи знаходять критичне значення.

Якщо, то нульова гіпотеза має бути відхилена, коефіцієнти вважаються статистично значущими.

Якщо, то нульова гіпотеза може бути відхилена. (У випадку, якщо коефіцієнт b статистично незначний, рівняння повинно мати вигляд, і це означає, що зв'язок між ознаками відсутній. У випадку, якщо коефіцієнт а статистично незначний, рекомендується оцінити нове рівняння у вигляді).

Інтервальні оцінки коефіцієнтів лінійного рівняннярегресії:

Довірчий інтервал дляа: .

Довірчий інтервал для b:

Це означає, що із заданою надійністю (де – рівень значущості) справжні значення а, b перебувають у зазначених інтервалах.

Коефіцієнт регресії має чітку економічну інтерпретацію, тому довірчі межі інтервалу не повинні містити суперечливих результатів, наприклад, вони не повинні включати нуль.

Аналіз статистичної значущості рівняння загалом.

Розподіл Фішера у регресійному аналізі

Оцінка значущості рівняння регресії загалом дається з допомогою F- критерію Фішера. У цьому висувається нульова гіпотеза у тому, що це коефіцієнти регресії, крім вільного члена а, рівні нулю і, отже, чинник х впливає результат y (чи).

Розмір F - критерію пов'язані з коефіцієнтом детермінації. В разі множинної регресії:

де m – число незалежних змінних.

В разі парної регресіїформула F - статистики набуває вигляду:

При знаходженні табличного значення F-критерію визначається рівень значущості (зазвичай 0,05 або 0,01) і два ступені свободи: - у разі множинної регресії, - для парної регресії.

Якщо, то відхиляється і робиться висновок про суттєвість статистичного зв'язку між y та x.

Якщо, то ймовірність рівняння регресії вважається статистично незначним, не відхиляється.

Зауваження. У парній лінійній регресії. Крім того, тому. Таким чином, перевірка гіпотез про значущість коефіцієнтів регресії та кореляції рівносильна перевірці гіпотези про суттєвість лінійного рівняння регресії.

Розподіл Фішера може бути використаний не тільки для перевірки гіпотези про одночасну рівність нуля всіх коефіцієнтів лінійної регресії, але й гіпотези про рівність нуля частини цих коефіцієнтів. Це важливо при розвитку лінійної регресійної моделі, так як дозволяє оцінити обгрунтованість виключення окремих змінних або їх груп з числа змінних, що пояснюють, або ж, навпаки, включення їх в це число.

Нехай, наприклад, спочатку була оцінена множинна лінійна регресія за п спостереженнями з пояснювальними змінними, і коефіцієнт детермінації дорівнює, потім останні k змінних виключені з числа пояснюючих, і за тими ж даними оцінено рівняння, для якого коефіцієнт детермінації дорівнює (, т.к кожна додаткова змінна пояснює частину, нехай невелику, варіації залежної змінної).

Для того щоб перевірити гіпотезу про одночасну рівність нулю всіх коефіцієнтів при виключених змінних, розраховується величина

має розподіл Фішера зі ступенями свободи.

По таблицях розподілу Фішера, за заданого рівня значущості, знаходять. І якщо, то нульова гіпотеза відкидається. У разі виключати все k змінних з рівняння некоректно.

Аналогічні міркування можуть бути проведені і з приводу обґрунтованості включення до рівняння регресії однієї або кількох нових пояснюючих змінних.

У цьому випадку розраховується F - статистика

має розподіл. І якщо вона перевищує критичний рівень, то включення нових змінних пояснює істотну частину непоясненої раніше дисперсії залежною змінною (тобто включення нових змінних, що пояснюють, виправдано).

Зауваження. 1. Включати нові змінні доцільно за однією.

2. Для розрахунку F - статистики під час розгляду питання включення пояснюючих змінних рівняння бажано розглядати коефіцієнт детермінації з поправкою на кількість ступенів свободи.

F - статистика Фішера використовується також для перевірки гіпотези про збіг рівнянь регресії для окремих груп спостережень.

Нехай є дві вибірки, що містять, відповідно, спостережень. Для кожної із цих вибірок оцінено рівняння регресії виду. Нехай СКО від лінії регресії (тобто) рівні їм, відповідно, .

Перевіряється нульова гіпотеза: у тому, що це відповідні коефіцієнти цих рівнянь рівні одне одному, тобто. рівняння регресії цих вибірок одне й те саме.

Нехай оцінено рівняння регресії тієї самої виду одночасно всім спостережень, і СКО.

Тоді розраховується F - статистика за такою формулою:

Вона має розподіл Фішера зі ступенями свободи. F - статистика буде близькою до нуля, якщо рівняння обох вибірок однаково, т.к. в цьому випадку. Тобто. якщо, то нульова гіпотеза приймається.

Якщо ж, то нульова гіпотеза відкидається, і єдине рівняння регресії збудувати не можна.

Після того як рівняння регресії побудовано та за допомогою коефіцієнта детермінації оцінено його точність, залишається відкритим питанняза рахунок чого досягнуто цієї точності і відповідно чи можна цьому рівнянню довіряти. Справа в тому, що рівняння регресії будувалося не за генеральної сукупності, яка невідома, а щодо вибірки з неї. Крапки з генеральної сукупності потрапляють у вибірку випадковим чином, тому відповідно до теорії ймовірності серед інших випадків можливий варіант, коли вибірка з “широкої” генеральної сукупності виявиться “вузькою” (рис. 15).

Мал. 15. Можливий варіантвлучення точок у вибірку з генеральної сукупності.

В цьому випадку:

а) рівняння регресії, побудоване на вибірку, може значно відрізнятися від рівняння регресії для генеральної сукупності, що призведе до помилок прогнозу;

б) коефіцієнт детермінації та інші характеристики точності виявляться невиправдано високими і вводитимуть в оману про прогнозні якості рівняння.

У граничному випадку не виключений варіант, коли з генеральної сукупності хмара з головною віссю паралельної горизонтальної осі (відсутня зв'язок між змінними) за рахунок випадкового відбору буде отримана вибірка, головна вісь якої виявиться нахиленою до осі. Таким чином, спроби прогнозувати чергові значення генеральної сукупності спираючись на дані вибірки з неї загрожують не тільки помилками в оцінці сили та напряму зв'язку між залежною та незалежною змінними, але й небезпекою знайти зв'язок між змінними там, де насправді її немає.

В умовах відсутності інформації про всі точки генеральної сукупності єдиний спосіб зменшити помилки в першому випадку полягає у використанні при оцінці коефіцієнтів рівняння регресії методу, що забезпечує їх незміщеність та ефективність. А ймовірність настання другого випадку може бути значно знижена завдяки тому, що апріорі відома одна властивість генеральної сукупності з двома незалежними один від одного змінними – в ній відсутня саме цей зв'язок. Досягається це зниження з допомогою перевірки статистичної значимості отриманого рівняння регресії.

Один з варіантів перевірки, що найчастіше використовуються, полягає в наступному. Для отриманого рівняння регресії визначається -статистика - характеристика точності рівняння регресії, що є відношенням тієї частини дисперсії залежною змінною яка пояснена рівнянням регресії до непоясненої (залишкової) частини дисперсії. Рівняння для визначення статистики у разі багатовимірної регресії має вигляд:

де: - Пояснена дисперсія - частина дисперсії залежною змінною Y яка пояснена рівнянням регресії;

Залишкова дисперсія - частина дисперсії залежною змінною Y яка не пояснена рівнянням регресії, її наявність є наслідком дії випадкової складової;

Число точок у вибірці;

Число змінних у рівнянні регресії.

Як видно з наведеної формули, дисперсії визначаються як окреме від поділу відповідної суми квадратів на число ступенів свободи. Число ступенів свободи це мінімально необхідне число значень залежної змінної, яких достатньо для отримання шуканої характеристики вибірки і які можуть вільно змінюватись з урахуванням того, що для цієї вибірки відомі всі інші величини, що використовуються для розрахунку потрібної характеристики.

Для отримання залишкової дисперсії потрібні коефіцієнти рівняння регресії. У разі парної лінійної регресії коефіцієнтів два, тому відповідно до формули (беручи ) число ступенів свободи дорівнює . Мається на увазі, що для визначення залишкової дисперсії достатньо знати коефіцієнти рівняння регресії і лише значень залежної змінної вибірки. Два значення, що залишилися, можуть бути обчислені на підставі цих даних, а значить, не є вільно варіюються.

Для обчислення поясненої дисперсії значень залежної змінної взагалі не потрібні, оскільки її можна обчислити, знаючи коефіцієнти регресії при незалежних змінних та дисперсію незалежної змінної. Для того щоб переконатися в цьому, достатньо згадати вираз, що наводився раніше. . Тому число ступенів свободи для залишкової дисперсії дорівнює числу незалежних змінних у рівнянні регресії (для парної лінійної регресії).

В результаті критерій для рівняння парної лінійної регресії визначається за формулою:

.

Теоретично ймовірності доведено, що критерій рівняння регресії, отриманого для вибірки з генеральної сукупності, у якої відсутній зв'язок між залежною і незалежною змінною має розподіл Фішера, досить добре вивчений. Завдяки цьому для будь-якого значення критерію можна розрахувати ймовірність його появи і навпаки, визначити те значення критерію яке він не зможе перевищити із заданою ймовірністю.

Для здійснення статистичної перевірки значущості рівняння регресії формулюється нульова гіпотеза про відсутність зв'язку між змінними (всі коефіцієнти при змінних дорівнюють нулю) і вибирається рівень значущості.

Рівень значущості – це припустима можливість зробити помилку першого роду – відкинути внаслідок перевірки правильну нульову гіпотезу. У даному випадку зробити помилку першого роду означає визнати за вибіркою наявність зв'язку між змінними в генеральній сукупності, коли насправді її там немає.

Зазвичай рівень значущості приймається рівним 5% чи 1%. Що рівень значимості (що менше ), то вище рівень надійності тесту, рівний , тобто. Тим більше шанс уникнути помилки визнання щодо вибірки наявності зв'язку у генеральної сукупності насправді незв'язаних між собою змінних. Але зі зростанням рівня значущості зростає небезпека скоєння помилки другого роду – відкинути правильну нульову гіпотезу, тобто. не помітити за вибіркою наявний насправді зв'язок змінних у генеральній сукупності. Тому залежно від того, яка помилка має великі негативні наслідки, Вибирають той чи інший рівень значущості.

Для обраного рівня значущості за розподілом Фішера визначається табличне значенняймовірність перевищення, що у вибірці потужністю , отриманої з генеральної сукупності без зв'язку між змінними, вбирається у рівня значимості. порівнюється з фактичним значенням критерію для регресійного рівняння.

Якщо виконується умова, то помилкове виявлення зв'язку зі значенням -критерію рівним або більшим за вибіркою з генеральної сукупності з незв'язаними між собою змінними відбуватиметься з ймовірністю меншою за рівень значущості. Відповідно до правила “дуже рідкісних подійне буває”, приходимо до висновку, що встановлений за вибіркою зв'язок між змінними є і в генеральній сукупності, з якої вона отримана.

Якщо виявляється , то рівняння регресії статистично не значимо. Іншими словами існує реальна ймовірність того, що за вибіркою встановлено не існує в реальності зв'язок між змінними. До рівняння, що не витримало перевірку на статистичну значущість, ставляться так само, як і до ліків з терміном, що минув термін придатності.

Ті – такі ліки не обов'язково зіпсовані, але якщо немає впевненості у їхній якості, то їх вважають за краще не використовувати. Це правило не вберігає від усіх помилок, але дозволяє уникнути найбільш грубих, що також досить важливо.

Другий варіант перевірки, зручніший у разі використання електронних таблиць, це зіставлення ймовірності появи отриманого значення -критерію з рівнем значущості. Якщо ця можливість виявляється нижче рівня значимості , отже рівняння статистично значуще, інакше немає.

Після того, як виконано перевірку статистичної значущості регресійного рівняння в цілому корисно, особливо для багатовимірних залежностей здійснити перевірку на статистичну значущість отриманих коефіцієнтів регресії. Ідеологія перевірки така ж як і при перевірці рівняння в цілому але як критерій використовується - критерій Стьюдента, що визначається за формулами:

і

де: - значення критерію Стьюдента для коефіцієнтів і відповідно;

- Залишкова дисперсія рівняння регресії;

Число точок у вибірці;

Число змінних у вибірці, для парної лінійної регресії.

Отримані фактичні значення критерію Стьюдента порівнюються з табличними значеннями отриманими з розподілу Стьюдента. Якщо виявляється, що , то відповідний коефіцієнт статистично значущий, інакше немає. Другий варіант перевірки статистичної значущості коефіцієнтів - визначити ймовірність появи критерію Стьюдента і порівняти з рівнем значущості.

Для змінних, чиї коефіцієнти виявилися статистично не значущими, велика ймовірність того, що їх вплив на залежну змінну в генеральній сукупності взагалі відсутній. Тому або необхідно збільшити кількість точок у вибірці, тоді можливо коефіцієнт стане статистично значущим і заодно уточниться його значення, або як незалежні змінні знайти інші, більш тісно пов'язані з залежною змінною. Точність прогнозування у разі обох випадках зросте.

Як експресний метод оцінки значущості коефіцієнтів рівняння регресії можна застосовувати наступне правило- Якщо критерій Стьюдента більше 3, то такий коефіцієнт, як правило, виявляється статистично значущим. А взагалі вважається, що для отримання статистично значимих рівнянь регресії необхідно, щоб виконувалася умова.

Стандартна помилка прогнозування отриманого рівняння регресії невідомого значення при відомому оцінюють за формулою:

Таким чином, прогноз з довірчою ймовірністю 68% може бути представлений у вигляді:

Якщо потрібна інша довірча ймовірність, то рівня значимості необхідно визначити критерій Стьюдента і довірчий інтервал для прогнозу з рівнем надійності дорівнюватиме .

Прогнозування багатовимірних та нелінійних залежностей

Якщо прогнозована величина залежить від кількох незалежних змінних, то цьому випадку є багатовимірна регресія виду:

де: - Коефіцієнти регресії, що описують вплив змінних на прогнозовану величину.

Методика визначення коефіцієнтів регресії не відрізняється від парної лінійної регресії, особливо при використанні електронної таблиці, так як там застосовується та сама функція і для парної і для багатовимірної лінійної регресії. У цьому бажано щоб між незалежними змінними були відсутні взаємозв'язки, тобто. зміна однієї змінної не позначалося на значення інших змінних. Але ця вимога не є обов'язковою, важливо щоб між змінними були відсутні функціональні лінійні залежності. Описані вище процедури перевірки статистичної значущості отриманого рівняння регресії та її окремих коефіцієнтів, оцінка точності прогнозування залишається як і для випадку парної лінійної регресії. У той же час застосування багатомірних регресій замість парної зазвичай дозволяє при належному виборі змінних суттєво підвищити точність опису поведінки залежної змінної, а отже, і точність прогнозування.

Крім цього, рівняння багатовимірної лінійної регресії дозволяють описати і нелінійну залежність прогнозованої величини від незалежних змінних. Процедура наведення нелінійного рівняннядо лінійного виглядуназивається лінеаризацією. Зокрема, якщо ця залежність описується поліномом ступеня відмінного від 1, то, здійснивши заміну змінних зі ступенями відмінними від одиниці на нові змінні в першому ступені, отримуємо завдання багатовимірної лінійної регресії замість нелінійної. Так, наприклад, якщо вплив незалежної змінної описується параболою виду

то заміна дозволяє перетворити нелінійне завдання до багатовимірного лінійного вигляду

Так само легко можуть бути перетворені нелінійні завдання, у яких нелінійність виникає внаслідок того, що прогнозована величина залежить від твору незалежних змінних. Для обліку такого впливу необхідно запровадити нову змінну, що дорівнює цьому твору.

У тих випадках, коли нелінійність описується складнішими залежностями, лінеаризація можлива за рахунок перетворення координат. Для цього розраховуються значення та будуються графіки залежності вихідних точок у різних комбінаціях перетворених змінних. Та комбінація перетворених координат або перетворених і не перетворених координат, в якій залежність найближче до прямої лінії підказує заміну змінних, яка призведе до перетворення нелінійної залежності до лінійного вигляду. Наприклад, нелінійна залежність виду

перетворюється на лінійну вигляду

Отримані коефіцієнти регресії для перетвореного рівняння залишаються незміщеними та ефективними, але перевірка статистичної значущості рівняння та коефіцієнтів неможлива

Перевірка обґрунтованості застосування методу найменших квадратів

Застосування методу найменших квадратів забезпечує ефективність та незміщеність оцінок коефіцієнтів рівняння регресії за дотримання наступних умов (умов Гауса-Маркова):

3. значення не залежать один від одного

4. значення не залежать від незалежних змінних

Найбільш просто можна перевірити дотримання цих умов шляхом побудови графіків залишків залежно від , Потім від незалежної (незалежних) змінних. Якщо точки на цих графіках розташовані в коридорі розташованому симетрично осі абсцис і розташування точок не проглядаються закономірності, то умови Гауса-Маркова виконані і можливості підвищити точність рівняння регресії відсутні. Якщо це не так, то існує можливість суттєво підвищити точність рівняння і для цього необхідно звернутись до спеціальної літератури.

Оцінка значущості параметрів рівняння регресії

Оцінка значущості параметрів рівняння лінійної регресії провадиться за допомогою критерію Стьюдента:

якщо tрозрах. > tкр, то приймається основна гіпотеза ( H o), що свідчить про статистичну значущість параметрів регресії;

якщо tрозрах.< tкр, то приймається альтернативна гіпотеза ( H 1), що свідчить про статистичну незначущість параметрів регресії.

де m a , m b– стандартні помилки параметрів aі b:

(2.19)

(2.20)

Критичне (табличне) значення критерію знаходиться за допомогою статистичних таблиць розподілу Стьюдента (додаток Б) або за таблицями Excel(Розділ майстра функцій «Статистичні»):

tкр = СТЬЮДРАСПОБР( α=1-P; k=n-2), (2.21)

де k=n-2також являє собою число ступенів свободи .

Оцінка статистичної значимості може бути застосована і до лінійного коефіцієнта кореляції

де m r– стандартна помилка визначення значень коефіцієнта кореляції r yx

(2.23)

Нижче представлені варіанти завдань для практичних та лабораторних робітза тематикою другого розділу.

Запитання для самоперевірки по 2 розділу

1. Вкажіть основні складові економетричної моделі та їхню сутність.

2. Основний зміст етапів економетричного дослідження.

3. Сутність підходів щодо визначення параметрів лінійної регресії.

4. Сутність та особливість застосування методу найменших квадратів при визначенні параметрів рівняння регресії.

5. Які показники використовуються для оцінки тісноти взаємозв'язку досліджуваних факторів?

6. Сутність лінійного коефіцієнта кореляції.

7. Сутність коефіцієнта детермінації.

8. Сутність та основні особливості процедур оцінки адекватності (статистичної значущості) регресійних моделей.

9. Оцінка адекватності лінійних регресійних моделей за коефіцієнтом апроксимації.

10. Сутність підходу оцінки адекватності регресійних моделей за критерієм Фішера. Визначення емпіричних та критичних значень критерію.

11. Сутність поняття «дисперсійний аналіз» стосовно економетричним дослідженням.

12. Сутність та основні особливості процедури оцінки значущості параметрів лінійного рівняння регресії.

13. Особливості застосування розподілу Стьюдента в оцінці значущості параметрів лінійного рівняння регресії.

14. У чому завдання прогнозу поодиноких значень досліджуваного соціально-економічного явища?

1. Побудувати поле кореляції та сформулювати припущення про форму рівняння взаємозв'язку досліджуваних факторів;

2. Записати основні рівняння методу найменших квадратів, зробити необхідні перетворення, скласти таблицю для проміжних розрахунків та визначити параметри лінійного рівняння регресії;

3. Здійснити перевірку правильності проведених обчислень за допомогою стандартних процедур та електронних функцій таблиць Excel.

4. Провести аналіз результатів, сформулювати висновки та рекомендації.

1. Розрахунок значення лінійного коефіцієнта кореляції;

2. Побудова таблиці дисперсійного аналізу;

3. Оцінка коефіцієнта детермінації;

4. Здійснити перевірку правильності проведених обчислень за допомогою стандартних процедур та функцій електронних таблиць Excel.

5. Провести аналіз результатів, сформулювати висновки та рекомендації.

4. Провести загальну оцінкуадекватності обраного рівняння регресії;

1. Оцінка адекватності рівняння за значеннями коефіцієнта апроксимації;

2. Оцінка адекватності рівняння за значеннями коефіцієнта детермінації;

3. Оцінка адекватності рівняння за критерієм Фішера;

4. Провести загальну оцінку адекватності параметрів рівняння регресії;

5. Здійснити перевірку правильності проведених обчислень за допомогою стандартних процедур та функцій електронних таблиць Excel.

6. Провести аналіз результатів, сформулювати висновки та рекомендації.

1. Використання стандартних процедур майстра функцій електронних таблиць Excel (з розділів «Математичні» та «Статистичні»);

2. Підготовка даних та особливості застосування функції «ЛІНЕЙН»;

3. Підготовка даних та особливості застосування функції «ПЕРЕДСКАЗ».

1. Використання стандартних процедур пакету аналізу даних електронних таблиць Excel;

2. Підготовка даних та особливості застосування процедури «РЕГРЕСІЯ»;

3. Інтерпретація та узагальнення даних таблиці регресійного аналізу;

4. Інтерпретація та узагальнення даних таблиці дисперсійного аналізу;

5. Інтерпретація та узагальнення даних таблиці оцінки значущості параметрів рівняння регресії;

При виконанні лабораторної роботи за даними одного з варіантів необхідно виконати такі окремі завдання:

1. Здійснити вибір форми рівняння взаємозв'язку досліджуваних чинників;

2. Визначити параметри рівняння регресії;

3. Провести оцінку тісноти взаємозв'язку досліджуваних чинників;

4. Провести оцінку адекватності обраного рівняння регресії;

5. Здійснити оцінку статистичної значущості параметрів рівняння регресії.

6. Здійснити перевірку правильності проведених обчислень за допомогою стандартних процедур та функцій електронних таблиць Excel.

7. Провести аналіз результатів, сформулювати висновки та рекомендації.

Завдання для практичних та лабораторних робіт на тему «Парна лінійна регресія та кореляція в економетричних дослідженнях».

Варіант 1 Варіант 2 Варіант 3 Варіант 4 Варіант 5
x y x y x y x y x y
Варіант 6 Варіант 7 Варіант 8 Варіант 9 Варіант 10
x y x y x y x y x y

Оцінка значущості рівняння множинної регресії

Побудова емпіричного рівняння регресії є початковим етапомеконометричного аналізу. Перше ж побудоване за вибіркою рівняння регресії дуже рідко є задовільний за тими чи іншими характеристиками. Тому наступною найважливішим завданнямЕконометричного аналізу є перевірка якості рівняння регресії. В економетриці прийнято усталену схему такої перевірки.

Отже, перевірка статистичної якості оціненого рівняння регресії проводиться за такими напрямками:

· Перевірка значущості рівняння регресії;

· Перевірка статистичної значущості коефіцієнтів рівняння регресії;

· Перевірка властивостей даних, здійсненність яких передбачалася при оцінюванні рівняння (перевірка здійсненності передумов МНК).

Перевірка значущості рівняння множинної регресії, як і і парної регресії, здійснюється з допомогою критерію Фішера. У разі (на відміну парної регресії) висувається нульова гіпотеза Н 0у тому, що це коефіцієнти регресії дорівнюють нулю ( b 1=0, b 2=0, … , b m=0). Критерій Фішера визначається за такою формулою:

де Dфакт - факторна дисперсія, пояснена регресією, однією ступінь свободи; Dост - залишкова дисперсія однією ступінь свободи; R 2- Коефіцієнт множинної детермінації; т ху рівнянні регресії (у парній лінійній регресії т= 1); п -кількість спостережень.

Отримане значення F-критерію порівнюється з табличним за певного рівня значущості. Якщо його фактичне значення більше табличного, тоді гіпотеза Алепро незначущість рівняння регресії відкидається, і приймається альтернативна гіпотеза про його статистичній значущості.

За допомогою критерію Фішера можна оцінити значущість як рівняння регресії загалом, а й значимість додаткового включення у модель кожного чинника. Така оцінка необхідна для того, щоб не завантажувати модель факторами, які не суттєво впливають на результат. Крім того, оскільки модель складається з кількох факторів, то вони можуть вводитися в неї в різній послідовності, а так як між факторами існує кореляція, значимість включення в модель одного і того ж фактора може відрізнятися в залежності від послідовності введення в неї факторів.

Для оцінки значущості включення додаткового фактора у модель розраховується приватний критерійФішера F xi.Він побудований на порівнянні приросту факторної дисперсії, обумовленого включенням до моделі додаткового фактора, з залишковою дисперсією на один ступінь свободи за регресією в цілому. Отже, формула розрахунку приватного F-критеріюдля фактора матиме наступний вигляд:

де R 2 yx 1 x 2… xi … xp -коефіцієнт множинної детермінації для моделі з повним набором пфакторів ; R 2 yx 1 x 2… x i -1 x i +1… xp- Коефіцієнт множинної детермінації для моделі, що не включає фактор x i;п- Число спостережень; т- Число параметрів при факторах xу рівнянні регресії.

Фактичне значення приватного критерію Фішера порівнюється з табличним при рівні значимості 0,05 або 0,1 та відповідних числах ступенів свободи. Якщо фактичне значення F xiперевищує F табл, то додаткове включенняфактор А x iу модель статистично виправдано, та коефіцієнт «чистої» регресії b iпри факторі x iстатистично значущий. Якщо ж F xiменше F табл, то додаткове включення до моделі фактора істотно не збільшує частку поясненої варіації результату. у,і, отже, його включення в модель не має сенсу, коефіцієнт регресії при даному факторіу цьому випадку статистично незначимий.

За допомогою приватного критерію Фішера можна перевірити значущість усіх коефіцієнтів регресії у припущенні, що кожен відповідний фактор x iвводиться у рівняння множинної регресії останнім, проте інші чинники були вже включені в модель раніше.

Оцінка значимості коефіцієнтів «чистої» регресії b iпо критерію Стьюдента tможе бути проведена і без розрахунку приватних F-Критеріїв. У цьому випадку, як і за парної регресії, для кожного фактора застосовується формула

t bi = b i / m bi ,

де b i- Коефіцієнт «чистої» регресії при факторі x i ; m bi- стандартна помилка коефіцієнта регресії b i .

Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.