Коефіцієнт парної кореляції Excel. Визначення множинного коефіцієнта кореляції в MS Excel

1. Розрахувати матрицю парних коефіцієнтів кореляції; проаналізувати тісноту та напрямок зв'язку результуючої ознаки Yз кожним із факторів Х; оцінити статистичну значущість коефіцієнтів кореляції r(Y,X i); вибрати найбільш інформативний фактор.

2. Побудувати модель парної регресії із найбільш інформативним чинником; дати економічну інтерпретацію коефіцієнта регресії.

3. Оцінити якість моделі за допомогою середньої відносної помилки апроксимації, коефіцієнта детермінації та F – критерію Фішера (прийняти рівень значущості α=0,05).

4. З довірчою ймовірністю γ=80% здійснити прогнозування середнього значення показника Y(Прогнозні значення факторів наведені у Додатку 6). Подати графічно фактичні та модельні значення Y, результати прогнозування

5. Методом включення збудувати двофакторні моделі, зберігаючи в них найбільш інформативний фактор; побудувати трифакторну модель з повним перелікомфакторів.

6. Вибрати найкращу з побудованих множинних моделей. Надати економічну інтерпретацію її коефіцієнтів.

7. Перевірити значущість коефіцієнтів множинної регресіїза допомогою t-Критерія Стьюдента (прийняти рівень значущості α = 0,05). Чи покращилася якість множинної моделі в порівнянні з парною?

8. Дати оцінку впливу факторів на результат за допомогою коефіцієнтів еластичності, бета- та дельта-коефіцієнтів.

Задача 2. Моделювання одновимірного часового ряду

У Додатку 7 наведено тимчасові ряди Y(t)соціально-економічних показників за Алтайському краюза період з 2000 р. по 2011 р. потрібно дослідити динаміку показника, що відповідає варіанту завдання.

варіант Позначення, найменування, одиниця виміру показника
Y1 Споживчі витрати загалом душу населення (на місяць), крб.
Y2 Викиди забруднюючих речовин у атмосферне повітря, тис. тонн
Y3 Середні ціни на вторинному ринку житла (на кінець року, квадратний метрзагальної площі), руб
Y4 Об `єм платних послугна душу населення, руб
Y5 Середньорічна чисельність зайнятих в економіці, тис. осіб
Y6 Число власних легкових автомобілівна 1000 осіб населення (на кінець року), штук
Y7 Середньодушові грошові доходи (на місяць), руб
Y8 Індекс споживчих цін(грудень до грудня попереднього року), %
Y9 Інвестиції в основний капітал (у цінах, що фактично діяли), млн. руб
Y10 Оборот роздрібної торгівліна душу населення (у фактично чинних цінах), руб


Порядок виконання роботи

1. Побудувати лінійну модель часового ряду, параметри якої оцінити МНК. Пояснити зміст коефіцієнта регресії.

2. Оцінити адекватність побудованої моделі, використовуючи властивості випадковості, незалежності та відповідності залишкової компоненти до нормального закону розподілу.

3. Оцінити точність моделі з урахуванням використання середньої відносної помилки апроксимації.

4. Здійснити прогнозування аналізованого показника на рік уперед (прогнозний інтервал розрахувати при довірчої ймовірності 70%).

5. Подати графічно фактичні значення показника, результати моделювання та прогнозування.

6. Провести розрахунок параметрів логарифмічного, поліноміального (поліном 2-го ступеня), статечного, експоненціального та гіперболічного трендів. На підставі графічного зображеннята значення індексу детермінації вибрати найбільш відповідний виглядтренд.

7. За допомогою кращої нелінійної моделі здійснити точкове прогнозування показника, що розглядається, на рік вперед. Зіставити отриманий результат з довірчим прогнозним інтервалом, побудованим під час використання лінійної моделі.

ПРИКЛАД

Виконання контрольної роботи

Завдання 1

Фірма займається реалізацією вживаних автомобілів. Найменування показників та вихідні дані для економетричного моделювання представлені в таблиці:

Ціна реалізації, тис.у.о. ( Y) Ціна нового авт., тис.у.о. ( Х1) Термін експлуатації, роки ( Х2) Ліве кермо - 1, праве кермо - 0, ( Х3)
8,33 13,99 3,8
10,40 19,05 2,4
10,60 17,36 4,5
16,58 25,00 3,5
20,94 25,45 3,0
19,13 31,81 3,5
13,88 22,53 3,0
8,80 16,24 5,0
13,89 16,54 2,0
11,03 19,04 4,5
14,88 22,61 4,6
20,43 27,56 4,0
14,80 22,51 3,3
26,05 31,75 2,3

Потрібно:

1. Розрахувати матрицю парних коефіцієнтів кореляції; проаналізувати тісноту та напрямок зв'язку результуючої ознаки Y з кожним із факторів Х; оцінити статистичну значущість коефіцієнтів кореляції r(Y, X i); вибрати найбільш інформативний фактор.

Використовуємо Excel (Дані / Аналіз даних / КОРЕЛЯЦІЯ):

Отримаємо матрицю коефіцієнтів парної кореляції між усіма змінними:

У Х1 Х2 Х3
У
Х1 0,910987
Х2 -0,4156 -0,2603
Х3 0,190785 0,221927 -0,30308

Проаналізуємо коефіцієнти кореляції між результуючою ознакою Yі кожним із факторів X j:

> 0, отже, між змінними Yі Х 1 спостерігається пряма кореляційна залежність: що стоїть ціна нового автомобіля, то вище ціна реалізації.

> 0,7 – це залежність є тісної.

< 0, значит, между переменными Yі Х 2 спостерігається

зворотна кореляційна залежність: ціна реалізації нижче для авто-

мобілів із великим терміном експлуатації.

- Ця залежність помірна, ближче до слабкої.

> 0, отже, між змінними Yі Х 3 спостерігається пряма кореляційна залежність: ціна реалізації вища для автомобілів з лівим кермом.

< 0,4 – эта зависимость слабая.

Для перевірки важливості знайдених коефіцієнтів кореляції використовуємо критерій Стьюдента.

Для кожного коефіцієнта кореляції обчислимо t-статистику за формулою та занесемо результати розрахунків у додатковий стовпець кореляційної таблиці:

У Х1 Х2 Х3 t-статистики
У
Х1 0,910987 7,651524603
Х2 -0,4156 -0,2603 1,582847988
Х3 0,190785 0,221927 -0,30308 0,673265587

За таблицею критичних точокрозподілу Ст'юдента за рівня значимості та числі ступенів свободи визначимо критичне значення (Додаток 1, або функція СТЬЮДРАСПОБР).Y та терміном експлуатації Х 2 достовірна.

< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Yта розташуванням керма Х 3 достовірна.

Таким чином, найбільш тісна та значуща залежність спостерігається між ціною реалізації Yта ціною нового автомобіля Х 1; фактор Х 1 є найінформативнішим.

Колінеарними є фактори …

Рішення:

Вважається, що дві змінні явно колінеарні, тобто. знаходяться між собою в лінійної залежностіякщо . У нашій моделі лише коефіцієнт парної лінійної регресіїміж факторами та більше 0,7. , Отже, фактори і колінеарні.

4. У моделі множинної регресії визначник матриці парних коефіцієнтів кореляції між факторами і близький до нуля. Це означає, що фактори і …

мультиколінеарні

незалежні

кількісно вимірні

Рішення:

Для оцінки мультиколлінеарності факторів може використовуватись визначник матриці парних коефіцієнтів кореляції між факторами. Якщо фактори не корелювали між собою, то матриця парних коефіцієнтів кореляції між факторами була б поодинокою. Оскільки всі недіагональні елементи були б нульові.
оскільки = = і = = =0.
Якщо між факторами існує повна лінійна залежність і всі коефіцієнти парної кореляції дорівнюють одиниці, то визначник такої матриці дорівнює нулю.


Чим ближче до нуля визначник матриці міжфакторної кореляції, тим сильніша мультиколлінеарність факторів і ненадійніше результати множинної регресії. І, навпаки, чим ближче до одиниці визначник матриці міжфакторної кореляції, тим менша мультиколінеарність факторів.

5. Для економетричної моделі лінійного рівняннямножинної регресії виду побудовано матрицю парних коефіцієнтів лінійної кореляції (y- Залежна змінна; х (1),х (2), х (3), x (4)- незалежні змінні):


Колінеарними (тісно пов'язаними) незалежними (пояснювальними) змінними не являються

x (2)і x (3)

x (1)і x (3)

x (1)і x (4)

x (2)і x (4)

Рішення:

При побудові моделі множинної регресії необхідно унеможливити існування тісної лінійної залежності між незалежними (пояснювальними) змінними, яка веде до проблеми мультиколлінеарності. При цьому здійснюють перевірку коефіцієнтів лінійної кореляції для кожної пари незалежних змінних. Ці значення відображені у матриці парних коефіцієнтів лінійної кореляції. Вважається, що наявність значень коефіцієнтів парної кореляції між пояснювальними змінними, що перевищують за абсолютною величиною 0,7, відображає тісний зв'язок між цими змінними (тіснота зв'язку зі змінною yв даному випадкуне розглядається). Такі незалежні змінні називають колінеарними. Якщо значення коефіцієнта парної кореляції між перемінними, що пояснюють, не перевищує по абсолютній величині 0,7, то такі пояснюючі змінні не є колінеарними. Розглянемо значення парних коефіцієнтів міжфакторної кореляції: між x (1)і x (2)значення дорівнює 0,45; між x (1)і x (3)- дорівнює 0,82; між x (1)і x (4)- дорівнює 0,94; між x (2)і x (3)- дорівнює 0,3; між x (2)і x (4)- дорівнює 0,7; між x (3)і x (4)- Дорівнює 0,12. Таким чином, не перевищують 0,7 значення , , . Отже, колінеарними не являютьсяфактори x (1)і x (2), x (2)і x (3), x (3)і x (4). З останніх перерахованих пар у варіантах відповідей є пара x (2)і x (3)– це правильний варіантвідповіді. Для інших пар: x (1і x (3), x (1)і x (4), x (2)і x (4)значення парних коефіцієнтів міжфакторної кореляції перевищують 0,7, і ці фактори є колінеарними.

Тема 3: Фіктивні змінні

1. Дано таблицю вихідних даних для побудови економетричної регресійної моделі:

Фіктивними змінними не являються

стаж роботи

продуктивність праці

рівень освіти

рівень кваліфікації працівника

Рішення:

При побудові регресійної моделі може виникнути ситуація, коли необхідно включити до рівняння крім кількісних змінних змінні, що відображають деякі атрибутивні ознаки (стаття, освіта, регіон тощо). Такі якісні змінні називаються «фіктивними» (dummy) змінними. Для побудови зазначеної у постановці завдання моделі використовуються фіктивні змінні: рівень освіти та рівень кваліфікації працівника. Інші змінні не являютьсяфіктивними, із запропонованих варіантів це стаж роботи та продуктивність праці.

2. При дослідженні залежності споживання м'яса від рівня доходу та статі споживача можна рекомендувати.

використовувати фіктивну змінну – стать споживача

розділити сукупність на дві: для споживачів жіночої статі та для споживачів чоловічої статі

використовувати фіктивну змінну – рівень доходу

виключити з розгляду стать споживача, оскільки даний фактор не можна виміряти кількісним чином

Рішення:

При побудові регресійної моделі може виникнути ситуація, коли необхідно включити до рівняння крім кількісних змінних змінні, що відображають деякі атрибутивні ознаки (стаття, освіта, регіон тощо). Такі якісні змінні називаються «фіктивними» (dummy) змінними. Вони відбивають неоднорідність досліджуваної статистичної сукупності і використовуються більш якісного моделювання залежностей у таких неоднорідних об'єктах спостереження. При моделюванні окремих залежностей за неоднорідними даними можна також скористатися способом поділу всієї сукупності неоднорідних даних на кілька окремих сукупностей, кількість яких дорівнює кількості станів dummy-змінної. Таким чином правильними варіантамивідповідей є: «використовувати фіктивну змінну – стать споживача» і «розділити сукупність на дві: для споживачів жіночої статі та для споживачів чоловічої статі».

3. Вивчається залежність ціни квартири ( у) від її житлової площі ( х) та типу будинку. У модель включені фіктивні змінні, що відображають типи будинків: монолітний, панельний, цегляний. Отримано рівняння регресії: ,
де ,
Приватними рівняннями регресії для цегляного та монолітного є …

для типу будинку цегляний

для типу будинку монолітний

для типу будинку цегляний

для типу будинку монолітний

Рішення:

Потрібно дізнатися приватне рівняння регресії для цегляного та монолітних будинків. Для цегляного будинкуЗначення фіктивних змінних наступні , . Рівняння набуде вигляду: або для типу будинку цегляний.
Для монолітного будинкуЗначення фіктивних змінних наступні , . Рівняння набуде вигляду
або для типу будинку монолітний.

Матриця парних коефіцієнтів кореляції

Y X1 X2 X3 X4 X5
Y
X1 0,732705
X2 0,785156 0,706287
X3 0,179211 -0,29849 0,208514
X4 0,667343 0,924333 0,70069 0,299583
X5 0,709204 0,940488 0,691809 0,326602 0,992945

У вузлах матриці знаходяться парні коефіцієнти кореляції, що характеризують тісноту взаємозв'язку між факторними ознаками. Аналізуючи ці коефіцієнти, відзначимо, що чим більше їх абсолютна величинатим більше впливає відповідний факторний ознака на результативний. Аналіз отриманої матриці здійснюється у два етапи:

1. Якщо у першому стовпці матриці є коефіцієнти кореляції, для яких /r /< 0,5, то соответствующие признаки из модели исключаются. В данном случае в первом столбце матрицы коэффициентов корреляции исключается фактор или коэффициент роста уровня инфляции. Цей факторнадає менший вплив на результативну ознаку, ніж чотири ознаки, що залишилися.

2. Аналізуючи парні коефіцієнти кореляції факторних ознак один з одним, (r XiXj), що характеризують тісноту їхнього взаємозв'язку, необхідно оцінити їх незалежність один від одного, оскільки це необхідна умовадля подальшого проведення регресійного аналізу. Зважаючи на те, що в економіці абсолютно незалежних ознак немає, необхідно виділити, по можливості, максимально незалежні. Факторні ознаки, що перебувають у тісній кореляційній залежності один з одним, називаються мультиколінеарними. Включення в модель мультиколлінеарних ознак унеможливлює економічну інтерпретацію регресійної моделі, оскільки зміна одного фактора тягне за собою зміну факторів, пов'язаних з ним, що може призвести до «поломки» моделі в цілому.

Критерій мультиколеніарності факторів виглядає так:

/r XiXj / > 0,8

В отриманій матриці парних коефіцієнтів кореляції цьому критерію відповідають два показники, що знаходяться на перетині рядків та . З кожної пари цих ознак у моделі необхідно залишити одну, вона повинна надавати більший вплив на результативну ознаку. У результаті моделі виключаються чинники і , тобто. коефіцієнт зростання собівартості реалізованої продукції та коефіцієнт зростання обсягу її реалізації.

Отже, в регресійну модель вводимо фактори Х1 та Х2.

Далі здійснюється регресійний аналіз (сервіс, аналіз даних, регресія). Знову складає таблиця вихідних даних із чинниками Х1 і Х2. Регресія в цілому використовується для аналізу впливу на окрему залежну змінну значень незалежних змінних (факторів) і дозволяє кореляційний зв'язок між ознаками подати у вигляді деякої функціональної залежності, яка називається рівнянням регресії або кореляційно-регресійною моделлю.

Внаслідок регресійного аналізу отримуємо результати розрахунку багатовимірної регресії. Проаналізуємо отримані результати.

Усі коефіцієнти регресії значимі за критерієм Стьюдента. Коефіцієнт множинної кореляції R становить 0,925, квадрат цієї величини (коефіцієнт детермінації) означає, що варіація результативної ознаки в середньому на 85,5% пояснюється за рахунок варіації факторних ознак, включених в модель. Коефіцієнт детермінованості характеризує тісноту взаємозв'язку між сукупністю факторних ознак та результативним показником. Чим ближче значення R-квадрат до 1, тим більше взаємозв'язок. У разі показник, рівний 0,855, вказує на правильний підбірфакторів та на наявність взаємозв'язку факторів з результативним показником.

Розглянута модель адекватна, оскільки розрахункове значення F-критерію Фішера істотно перевищує його табличне значення(F набл = 52,401; F табл = 1,53).

В якості загального результатупроведеного кореляційно-регресійного аналізу виступає множинне рівняння регресії, яке має вигляд:

Отримане рівняння регресії відповідає меті кореляційно-регресійного аналізу та є лінійною моделлю залежності балансового прибутку підприємства від двох факторів: коефіцієнта зростання продуктивності праці та коефіцієнта майна виробничого призначення.

З отриманої моделі можна дійти невтішного висновку у тому, що зі збільшенні рівня продуктивність праці на 1% до рівня попереднього періоду величина балансового прибутку зросте на 0,95 п.п.; збільшення коефіцієнта майна виробничого призначення на 1% призведе до зростання результативного показника на 27,9 п.п. Отже, домінуючий вплив на зростання балансового прибутку надає збільшення вартості майна виробничого призначення (оновлення та зростання основних засобів підприємства).

За множинною регресійною моделлю виконується багатофакторний прогноз результативної ознаки. Нехай відомо, що х1 = 3,0, а х3 = 0,7. Підставимо значення факторних ознак у модель, отримаємо Упр = 0,95 * 3,0 + 27,9 * 0,7 - 19,4 = 2,98. Таким чином, при збільшенні продуктивності праці та модернізації основних засобів на підприємстві балансовий прибутоку 1 кварталі 2005 р. по відношенню до попереднього періоду (IV квартал 2004 р.) зросте на 2,98%.

ВАРІАНТ 5

Вивчається залежність середньої очікуваної тривалості життя від кількох факторів за даними за 1995, представленим у табл. 5.

Таблиця 5

Мозамбік

……………………………………………………………………………………..

Швейцарія

Прийняті у таблиці позначення:

· Y- Середня очікувана тривалість життя при народженні, років;

· X 1 - ВВП у паритетах купівельної спроможності;

· X 2 - ланцюгові темпи приросту населення, %;

· X 3 - ланцюгові темпи приросту робочої сили в %;

· Х 4 - коефіцієнт дитячої смертності, % .

Потрібно:

1. Скласти матрицю парних коефіцієнтів кореляції між усіма досліджуваними змінними та виявити колінеарні фактори.

2. Побудувати рівняння регресії, яке містить колінеарних чинників. Перевірити статистичну значущість рівняння та його коефіцієнтів.

3. Побудувати рівняння регресії, що містить лише статистично значущі та інформативні фактори. Перевірити статистичну значущість рівняння та його коефіцієнтів.

Пункти 4-6 відносяться до рівняння регресії, побудованого при виконанні пункту 3.

4. Оцінити якість та точність рівняння регресії.

5. Дати економічну інтерпретацію коефіцієнтів рівняння регресії та порівняльну оцінку сили впливу факторів на результативну змінну Y.

6. Розрахувати прогнозне значення результативної змінної Yякщо прогнозні значення факторів становитимуть 75 % від своїх максимальних значень. Побудувати довірчий інтервалпрогнозу фактичного значення Yз надійністю 80%.

Рішення.Для вирішення завдання використовується табличний процесор EXCEL.

1. За допомогою надбудови «Аналіз даних… Кореляція» будуємо матрицю парних коефіцієнтів кореляції між усіма змінними, що досліджуються (меню «Сервіс» «Аналіз даних…» «Кореляція»). На рис. 1 зображена панель кореляційного аналізуіз заповненими полямиДля копіювання знімка вікна в буфер обміну даних WINDOWS використовується комбінація клавіш Alt+Print Screen (на деяких клавіатурах - Alt+PrtSc).. Результати кореляційного аналізу наведені в дод. 2 та перенесені в табл. 1.

Мал. 1. Панель кореляційного аналізу

Таблиця 1

Матриця парних коефіцієнтів кореляції

Аналіз міжфакторних коефіцієнтів кореляції показує, що значення 0,8 перевищує за абсолютною величиноюкоефіцієнт кореляції між парою факторів Х 2 -Х 3 (виділений жирним шрифтом). Чинники Х 2 -Х 3 таким чином визнаються колінеарними.

2. Як було показано в пункті 1, фактори Х2-Х3 є колінеарними, а це означає, що вони фактично дублюють один одного, і їхнє одночасне включення в модель призведе до неправильної інтерпретації відповідних коефіцієнтів регресії. Видно, що фактор Х2 має більший за модулем коефіцієнт кореляції з результатом Y, ніж фактор Х3: ry, x2 = 0,72516; ry, x3 = 0,53397; |ry,x2|>|ry,x3| (Див. табл. 1). Це свідчить про більш сильному впливіфактор Х2 на зміну Y. Фактор Х3, таким чином, виключається з розгляду.

Для побудови рівняння регресії значення змінних ( Y,X 1 , X 2 , X 4) скопіюємо на чистий робочий лист ( дод. 3). Рівняння регресії будуємо за допомогою надбудови Аналіз даних… Регресія» (меню « Сервіс» « Аналіз даних…» « Регресія»). Панель регресійного аналізу із заповненими полями зображена на Мал. 2.

Результати регресійного аналізу наведено в дод. 4та перенесені до табл. 2. Рівняння регресії має вигляд (див. Коефіцієнти»в табл. 2):

y = 75.44 + 0.0447? x 1 - 0.0453? x 2 - 0.24? x 4

Рівняння регресії визнається статистично значущим, оскільки ймовірність його випадкового формування у вигляді, у якому воно отримано, становить 1.04571?10 -45 (див. «Значність F»в табл. 2), що значно нижче прийнятого рівня значимості =0,05.

Ймовірність випадкового формування коефіцієнтів за фактора Х 1 нижче за прийнятий рівень значущості =0,05 (див. « P-Значення»в табл. 2), що свідчить про статистичної значимостікоефіцієнтів та суттєвий вплив цих факторів на зміну річного прибутку Y.

Ймовірність випадкового формування коефіцієнтів за факторів Х 2 та Х 4 перевищує прийнятий рівень значущості = 0,05 (див. « P-Значення»в табл. 2), і ці коефіцієнти не визнаються статистично значущими.

Мал. 2. Панель регресійного аналізу моделі Y(X 1 ,X 2 ,X 4 )

Таблиця 2

Y(X 1 , X 2 , X 4 )

Дисперсійний аналіз

Значення F

Регресія

Рівняння регресії

Коефіцієнти

Стандартна помилка

t-статистика

P-Значення

Нижні 95%

Верхні 95%

Нижні 95,0%

Верхні 95,0%

Y-перетин

3. За результатами перевірки статистичної значущості коефіцієнтів рівняння регресії, проведеної в попередньому пункті, будуємо нову регресійну модель, що містить лише інформативні фактори, до яких належать:

· Фактори, коефіцієнти при яких статистично значущі;

· фактори, у коефіцієнтів яких t _статистика перевищує за модулем одиницю (іншими словами, абсолютна величина коефіцієнта більша за його стандартну помилку).

До першої групи належить фактор Х 1 до другої - фактор X 4 . Чинник X 2 виключається з розгляду як неінформативний, і остаточно регресійна модель міститиме фактори X 1 , X 4 .

Для побудови рівняння регресії скопіюємо на чистий робочий лист значення змінних ( дод. 5)та проведемо регресійний аналіз ( Мал. 3). Його результати наведені в дод. 6та перенесені до табл. 3. Рівняння регресії має вигляд:

y = 75.38278 + 0.044918? x 1 - 0.24031? x 4

(див. « Коефіцієнти»в табл.3).

Мал. 3. Панель регресійного аналізу моделі Y(X 1 , X 4 )

Таблиця 3

Результати регресійного аналізу моделі Y(X 1 , X 4 )

Регресійна статистика

Множинний R

R-квадрат

Нормований R-квадрат

Стандартна помилка

Спостереження

Дисперсійний аналіз

Значення F

Регресія

Рівняння регресії

Коефіцієнти

Стандартна помилка

t-статистика

P-Значення

Y-перетин

Рівняння регресії статистично значуще: ймовірність його випадкового формування нижче допустимого рівнязначимості = 0,05 (див. « Значення F»в табл.3).

Статистично значимим визнається і коефіцієнт за фактора Х 1 ймовірність його випадкового формування нижче за допустимий рівень значущості =0,05 (див. « P-Значення»в табл. 3). Це свідчить про суттєвий вплив ВВП у паритетах купівельної спроможності X 1 на зміну річного прибутку Y.

Коефіцієнт за фактора Х 4 (річний коефіцієнт дитячої смертності) перестав бути статистично значимим. Однак цей фактор все ж таки можна вважати інформативним, так як t _статистика його коефіцієнта перевищує за модулемодиницю, хоча до подальших висновків щодо фактора Х 4 слід ставитись з деякою часткою обережності.

4. Оцінимо якість і точність останнього рівняння регресії, використовуючи деякі статистичні характеристики, отримані під час регресійного аналізу (див. « Регресійну статистику»У табл. 3):

· множинний коефіцієнтдетермінації

R 2 = _ i=1 ____________ =0.946576

R 2 = показує, що регресійна модель пояснює 94,7% варіації середньої очікуваної тривалості життя при народженні Y, причому ця варіація обумовлена ​​зміною включених до моделі регресії факторів X 1 , X 4 ;

· Стандартна помилка регресії

показує, що передбачені рівнянням регресії значення середньої очікуваної тривалості життя при народженні Yвідрізняються від фактичних значень у середньому на 2,252208 років.

Середня відносна помилкаапроксимації визначається за наближеною формулою:

E отн?0,8? -? 100% = 0.8? 2.252208/66.9? 100%?2.7

де тис. руб. -- середнє значення тривалості життя (визначено за допомогою вбудованої функції « Відмінник»; дод. 1).

Еотн показує, що передбачені рівнянням регресії значення річного прибутку Yвідрізняються від фактичних значень загалом на 2,7 %. Модель має високу точність(при - точність моделі висока, при - хороша, при - задовільна, при - незадовільна).

5. Для економічної інтерпретації коефіцієнтів рівняння регресії зведемо до таблиці середні значення та стандартні відхиленнязмінних у вихідних даних (табл. 4). Середні значення були визначені за допомогою вбудованої функції «СРЗНАЧ», стандартні відхилення – за допомогою вбудованої функції «СТАНДОТКЛОН» (див. додаток 1).

Аналіз матриці парних коефіцієнтів кореляції показує, що результативний показник найбільш тісно пов'язаний із показником x(4) – кількість добрив, що витрачаються на 1 га ().

У той самий час зв'язок між ознаками-аргументами досить тісний. Так, існує практично функціональний зв'язок між числом колісних тракторів ( x(1)) і числом знарядь поверхневого обробітку ґрунту
.

Про наявність мультиколінеарності свідчать також коефіцієнти кореляції
і
. Враховуючи тісний взаємозв'язок показників x (1) , x(2) та x(3) , До регресійної моделі врожайності може увійти лише один з них.

Щоб продемонструвати негативний вплив мультиколлінеарності, розглянемо регресійну модель врожайності, включивши до неї всі вихідні показники:


F набл = 121.

У дужках вказано значення виправлених оцінок середньоквадратичних відхилень оцінок коефіцієнтів рівняння
.

Під рівнянням регресії представлені такі параметри адекватності: множинний коефіцієнт детермінації
; виправлена ​​оцінка залишкової дисперсії
, Середня відносна помилка апроксимації розрахункове значення-критерію F набл = 121.

Рівняння регресії значимо, т.к. F набл = 121 > F kp = 2,85 знайденого за таблицею F-розподілу при  = 0,05; 1 = 6 і 2 = 14.

На цьому випливає, що 0, тобто. і хоча б один із коефіцієнтів рівняння j (j= 0, 1, 2, ..., 5) не дорівнює нулю.

Для перевірки гіпотези про значущість окремих коефіцієнтів регресії H0: j = 0, де j=1,2,3,4,5, порівнюють критичне значення t kp = 2,14, знайдене за таблицею t-розподілу при рівні значимості  = 2 Q=0,05 та числі ступенів свободи=14, з розрахунковим значенням . З рівняння випливає, що статистично значущим є коефіцієнт регресії лише за x(4) , оскільки t 4 =2,90 > t kp = 2,14.

Не піддаються економічної інтерпретації негативні знаки коефіцієнтів регресії при x(1) та x(5) . З негативних значень коефіцієнтів випливає, що підвищення насиченості сільського господарства колісними тракторами ( x(1)) та засобами оздоровлення рослин ( x(5)) негативно позначається на врожайності. Таким чином, отримане рівняння регресії є неприйнятним.

Для отримання рівняння регресії із значними коефіцієнтами використовуємо покроковий алгоритм регресійного аналізу. Спочатку використовуємо покроковий алгоритм із винятком змінних.

Виключимо з моделі змінну x(1) , якій відповідає мінімальне за абсолютною величиною значення t 1 =0,01. Для змінних, що залишилися, знову побудуємо рівняння регресії:

Отримане рівняння значимо, т.к. F набл = 155 > F kp = 2,90, знайденого при рівні значущості  = 0,05 та числах ступенів свободи  1 =5 та  2 =15 за таблицею F-розподілу, тобто. вектор0. Однак у рівнянні значимий лише коефіцієнт регресії при x(4). Розрахункові значення t j для інших коефіцієнтів менше tкр = 2,131, знайденого за таблицею t-розподілу при  = 2 Q=0,05 та =15.

Виключивши з моделі змінну x(3) , якій відповідає мінімальне значення t 3 = 0,35 і отримаємо рівняння регресії:

(2.9)

В отриманому рівнянні статистично не значущий і економічно не інтерпретуємо коефіцієнт при x(5) . Виключивши x(5) отримаємо рівняння регресії:

(2.10)

Ми отримали значне рівняння регресії зі значними та інтерпретованими коефіцієнтами.

Однак отримане рівняння є не єдино "хорошою" і не "найкращою" моделлю врожайності в нашому прикладі.

Покажемо, що за умови мультиколлінеарності покроковий алгоритм із включенням змінних є ефективнішим.На першому кроці модель урожайності yвходить змінна x(4) , що має найвищий коефіцієнт кореляції з y, що пояснюється змінною r(y,x(4)) = 0,58. На другому кроці, включаючи рівняння поряд з x(4) змінні x(1) або x(3) , ми отримаємо моделі, які з економічних міркувань та статистичних характеристик перевищують (2.10):

(2.11)

(2.12)

Включення в рівняння будь-якої з трьох змінних, що залишилися, погіршує його властивості. Дивись, наприклад, рівняння (2.9).

Таким чином, ми маємо три “хороші” моделі врожайності, з яких потрібно вибрати з економічних та статистичних міркувань одну.

За статистичними критеріями найбільш адекватна модель (2.11). Їй відповідають мінімальні значення залишкової дисперсії =2,26 і середньої відносної помилки апроксимації найбільші значення
і F набл = 273.

Дещо гірші показники адекватності має модель (2.12), а потім - модель (2.10).

Тепер вибиратимемо найкращу з моделей (2.11) та (2.12). Ці моделі відрізняються одна від одної змінними x(1) та x(3) . Однак у моделях урожайностей змінна x(1) (кількість колісних тракторів на 100 га) більш краща, ніж змінна x(3) (кількість знарядь поверхневого обробітку грунту на 100 га), який є деякою мірою вторинним (або похідним від x (1)).

У зв'язку з економічних міркувань перевагу слід віддати моделі (2.12). Таким чином, після реалізації алгоритму покрокового регресійного аналізу з включенням змінних та врахування того, що до рівняння має увійти лише одна з трьох пов'язаних змінних ( x (1) ,x(2) або x(3)) вибираємо остаточне рівняння регресії:

Рівняння значимо при ? = 0,05, т.к. F набл = 266 > F kp = 3,20, знайденого за таблицею F-розподілу при  = Q=0,05; 1 =3 і 2 =17. Значні й усі коефіцієнти регресії і у рівнянні t j > t kp (=2 Q= 0,05;  = 17) = 2,11. Коефіцієнт регресії 1 слід визнати значущим ( 1 0) з економічних міркувань, причому t 1 =2,09 лише трохи менше t kp = 2,11.

З рівняння регресії випливає, що збільшення одиницю числа тракторів на 100 га ріллі (при фіксованому значенні x(4)) призводить до зростання врожайності зернових у середньому на 0,345 ц/га.

Наближений розрахунок коефіцієнтів еластичності е 1 0,068 та е 2 0,161 показує, що при збільшенні показників x(1) та x(4) на 1% урожайність зернових підвищується в середньому відповідно на 0,068% та 0,161%.

Множинний коефіцієнт детермінації
свідчить про те, що тільки 46,9% варіації врожайності пояснюється показниками, що увійшли до моделі ( x(1) та x(4)), тобто насиченістю рослинництва тракторами та добривами. Решта варіації обумовлена ​​дією неврахованих факторів ( x (2) ,x (3) ,x(5), погодні умови та ін.). Середня відносна помилка апроксимаціїхарактеризує адекватність моделі, так само як і величина залишкової дисперсії
. При інтерпретації рівняння регресії інтерес становлять значення відносних помилок апроксимації
. Нагадаємо, що - модельне значення результативного показника, що характеризує середнє для сукупності районів, що розглядаються, значення врожайності за умови, що значення пояснюючих змінних x(1) та x(4) зафіксовані на тому самому рівні, а саме x (1) =x i(1) та x (4) = x i(4). Тоді за значенням iможна зіставляти райони за врожайністю. Райони, яким відповідають значення i>0, мають урожайність вище середнього, а i <0 - ниже среднего.

У нашому прикладі, за врожайністю найбільше ефективно рослинництво ведеться в районі, якому відповідає  7 =28%, де врожайність на 28% вища за середню по регіону, і найменш ефективно - в районі с 20 =27,3%.



Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.