Побудувати матрицю парних коефіцієнтів кореляції. Перевірити наявність мультиколінеарності. Обґрунтувати відбір факторів у модель. Дано матрицю парних коефіцієнтів кореляції.

Матриця парних коефіцієнтів кореляції

Y X1 X2 X3 X4 X5
Y
X1 0,732705
X2 0,785156 0,706287
X3 0,179211 -0,29849 0,208514
X4 0,667343 0,924333 0,70069 0,299583
X5 0,709204 0,940488 0,691809 0,326602 0,992945

У вузлах матриці знаходяться парні коефіцієнти кореляції, що характеризують тісноту взаємозв'язку між факторними ознаками. Аналізуючи ці коефіцієнти, відзначимо, що чим більше їх абсолютна величинатим більше впливає відповідний факторний ознака на результативний. Аналіз отриманої матриці здійснюється у два етапи:

1. Якщо у першому стовпці матриці є коефіцієнти кореляції, для яких /r /< 0,5, то соответствующие признаки из модели исключаются. В даному випадкуу першому стовпці матриці коефіцієнтів кореляції виключається фактор чи коефіцієнт зростання рівня інфляції. Цей фактор менш впливає на результативну ознаку, ніж чотири ознаки, що залишилися.

2. Аналізуючи парні коефіцієнти кореляції факторних ознак один з одним, (r XiXj), що характеризують тісноту їхнього взаємозв'язку, необхідно оцінити їх незалежність один від одного, оскільки це необхідна умовадля подальшого проведення регресійного аналізу. Зважаючи на те, що в економіці абсолютно незалежних ознак немає, необхідно виділити, по можливості, максимально незалежні. Факторні ознаки, що перебувають у тісній кореляційній залежності один з одним, називаються мультиколінеарними. Включення в модель мультиколлінеарних ознак унеможливлює економічну інтерпретацію регресійної моделі, оскільки зміна одного фактора тягне за собою зміну факторів, пов'язаних з ним, що може призвести до «поломки» моделі в цілому.

Критерій мультиколеніарності факторів виглядає так:

/r XiXj / > 0,8

В отриманій матриці парних коефіцієнтів кореляції цьому критерію відповідають два показники, що знаходяться на перетині рядків та . З кожної пари цих ознак у моделі необхідно залишити одну, вона повинна надавати більший вплив на результативну ознаку. У результаті моделі виключаються чинники і , тобто. коефіцієнт зростання собівартості реалізованої продукції та коефіцієнт зростання обсягу її реалізації.

Отже, в регресійну модель вводимо фактори Х1 та Х2.

Далі здійснюється регресійний аналіз (сервіс, аналіз даних, регресія). Знову складає таблиця вихідних даних із чинниками Х1 і Х2. Регресія в цілому використовується для аналізу впливу на окрему залежну змінну значень незалежних змінних (факторів) і дозволяє кореляційний зв'язок між ознаками подати у вигляді деякої функціональної залежності, яка називається рівнянням регресії або кореляційно-регресійною моделлю.

Внаслідок регресійного аналізу отримуємо результати розрахунку багатовимірної регресії. Проаналізуємо отримані результати.

Усі коефіцієнти регресії значимі за критерієм Стьюдента. Коефіцієнт множинної кореляції R становить 0,925, квадрат цієї величини (коефіцієнт детермінації) означає, що варіація результативної ознаки в середньому на 85,5% пояснюється за рахунок варіації факторних ознак, включених в модель. Коефіцієнт детермінованості характеризує тісноту взаємозв'язку між сукупністю факторних ознак та результативним показником. Чим ближче значення R-квадрат до 1, тим більше взаємозв'язок. У разі показник, рівний 0,855, вказує на правильний підбірфакторів та на наявність взаємозв'язку факторів з результативним показником.

Розглянута модель адекватна, оскільки розрахункове значення F-критерію Фішера істотно перевищує його табличне значення(F набл = 52,401; F табл = 1,53).

В якості загального результатупроведеного кореляційно-регресійного аналізу виступає множинне рівняння регресії, яке має вигляд:

Отримане рівняння регресії відповідає меті кореляційно-регресійного аналізу та є лінійною моделлю залежності балансового прибутку підприємства від двох факторів: коефіцієнта зростання продуктивності праці та коефіцієнта майна виробничого призначення.

З отриманої моделі можна дійти невтішного висновку у тому, що зі збільшенні рівня продуктивність праці на 1% до рівня попереднього періоду величина балансового прибутку зросте на 0,95 п.п.; збільшення коефіцієнта майна виробничого призначення на 1% призведе до зростання результативного показника на 27,9 п.п. Отже, домінуючий вплив на зростання балансового прибутку надає збільшення вартості майна виробничого призначення (оновлення та зростання основних засобів підприємства).

За множинною регресійною моделлю виконується багатофакторний прогноз результативної ознаки. Нехай відомо, що х1 = 3,0, а х3 = 0,7. Підставимо значення факторних ознак у модель, отримаємо Упр = 0,95 * 3,0 + 27,9 * 0,7 - 19,4 = 2,98. Таким чином, при збільшенні продуктивності праці та модернізації основних засобів на підприємстві балансовий прибутоку 1 кварталі 2005 р. по відношенню до попереднього періоду (IV квартал 2004 р.) зросте на 2,98%.

Матриця парних коефіцієнтів кореляціїє матрицею, елементами якої є парні коефіцієнти кореляції. Наприклад, для трьох змінних ця матриця має вигляд:
- yx 1x 2x 3
y1 r yx1r yx2r yx3
x 1r x1y1 r x1x2r x1x3
x 2r x2yr x2x11 r x2x3
x 3r x3yr x3x1r x3x21

Вставте у поле матрицю парних коефіцієнтів.

Приклад. За даними 154 сільськогосподарських підприємств Кемеровської області 2003 вивчити ефективність виробництва зернових (табл. 13).

  1. Визначте фактори, що формують рентабельність зернових у сільськогосподарських підприємствах у 2003 р.
  2. Побудуйте матрицю парних коефіцієнтів кореляції. Встановіть, які мультиколлінеарні фактори.
  3. Побудуйте рівняння регресії, що характеризує залежність рентабельності зернових від усіх факторів.
  4. Оцініть важливість отриманого рівняння регресії. Які чинники істотно впливають формування рентабельності зернових у цій моделі?
  5. Оцініть значення рентабельності виробництва зернових у сільськогосподарському підприємстві №3.

Рішенняодержуємо за допомогою калькулятора Рівняння множинної регресії

1. Оцінка рівняння регресії.
Визначимо вектор оцінок коефіцієнтів регресії. Відповідно до методу найменших квадратів, Вектор виходить з виразу:
s = (X T X) -1 X T Y
Матриця X

1 0.43 2.02 0.29
1 0.87 1.29 0.55
1 1.01 1.09 0.7
1 0.63 1.68 0.41
1 0.52 0.3 0.37
1 0.44 1.98 0.3
1 1.52 0.87 1.03
1 2.19 0.8 1.3
1 1.8 0.81 1.17
1 1.57 0.84 1.06
1 0.94 1.16 0.64
1 0.72 1.52 0.44
1 0.73 1.47 0.46
1 0.77 1.41 0.49
1 1.21 0.97 0.88
1 1.25 0.93 0.91
1 1.31 0.91 0.94
1 0.38 2.08 0.27
1 0.41 2.05 0.28
1 0.48 1.9 0.32
1 0.58 1.73 0.38
1 0 0 0

Матриця Y
0.22
0.67
0.79
0.42
0.32
0.24
0.95
1.05
0.99
0.96
0.73
0.52
2.1
0.58
0.87
0.89
0.91
0.14
0.18
0.27
0.37
0

Матриця X T
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Помножуємо матриці, (X T X)
Знаходимо визначник det(X T X) T = 34.35
Знаходимо зворотну матрицю(X T X) -1
0.6821 0.3795 -0.2934 -1.0118
0.3795 9.4402 -0.133 -14.4949
-0.2934 -0.133 0.1746 0.3204
-1.0118 -14.4949 0.3204 22.7272

Вектор оцінок коефіцієнтів регресії дорівнює
s = (X T X) -1 X T Y =
0.1565
0.3375
0.0043
0.2986

Рівняння регресії (оцінка рівняння регресії)
Y = 0.1565 + 0.3375X 1 + 0.0043X 2 + 0.2986X 3

Матриця парних коефіцієнтів кореляції

Число спостережень n = 22. Число незалежних змінних у моделі дорівнює 3, а число регресорів з урахуванням одиничного вектора дорівнює числу невідомих коефіцієнтів. З урахуванням ознаки Y, розмірність матриці стає рівною 5. Матриця, незалежних змінних Х має розмірність (22 х 5). Матриця Х T Х визначається безпосереднім множенням або за наступними попередньо обчисленими сумами.
Матриця складена з Y та X
1 0.22 0.43 2.02 0.29
1 0.67 0.87 1.29 0.55
1 0.79 1.01 1.09 0.7
1 0.42 0.63 1.68 0.41
1 0.32 0.52 0.3 0.37
1 0.24 0.44 1.98 0.3
1 0.95 1.52 0.87 1.03
1 1.05 2.19 0.8 1.3
1 0.99 1.8 0.81 1.17
1 0.96 1.57 0.84 1.06
1 0.73 0.94 1.16 0.64
1 0.52 0.72 1.52 0.44
1 2.1 0.73 1.47 0.46
1 0.58 0.77 1.41 0.49
1 0.87 1.21 0.97 0.88
1 0.89 1.25 0.93 0.91
1 0.91 1.31 0.91 0.94
1 0.14 0.38 2.08 0.27
1 0.18 0.41 2.05 0.28
1 0.27 0.48 1.9 0.32
1 0.37 0.58 1.73 0.38
1 0 0 0 0

Транспонована матриця.
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.22 0.67 0.79 0.42 0.32 0.24 0.95 1.05 0.99 0.96 0.73 0.52 2.1 0.58 0.87 0.89 0.91 0.14 0.18 0.27 0.37 0
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Матриця A T A.
22 14.17 19.76 27.81 13.19
14.17 13.55 15.91 16.58 10.56
19.76 15.91 23.78 22.45 15.73
27.81 16.58 22.45 42.09 14.96
13.19 10.56 15.73 14.96 10.45

Отримана матриця має таку відповідність:

Знайдемо парні коефіцієнти кореляції.
Для y та x 1

Середні значення



Дисперсія





Коефіцієнт кореляції

Для y та x 2
Рівняння має вигляд y = ax + b
Середні значення



Дисперсія


Середньоквадратичне відхилення


Коефіцієнт кореляції

Для y та x 3
Рівняння має вигляд y = ax + b
Середні значення



Дисперсія


Середньоквадратичне відхилення


Коефіцієнт кореляції

Для x 1 та x 2
Рівняння має вигляд y = ax + b
Середні значення



Дисперсія


Середньоквадратичне відхилення


Коефіцієнт кореляції

Для x 1 та x 3
Рівняння має вигляд y = ax + b
Середні значення



Дисперсія


Середньоквадратичне відхилення


Коефіцієнт кореляції

Для x 2 та x 3
Рівняння має вигляд y = ax + b
Середні значення



Дисперсія


Середньоквадратичне відхилення


Коефіцієнт кореляції

Матриця парних коефіцієнтів кореляції.
- y x 1 x 2 x 3
y 1 0.62 -0.24 0.61
x 1 0.62 1 -0.39 0.99
x 2 -0.24 -0.39 1 -0.41
x 3 0.61 0.99 -0.41 1

Аналіз першого рядка цієї матриці дозволяє відбір факторних ознак, які можуть бути включені в модель множинної кореляційної залежності. Факторні ознаки, у яких r yxi< 0.5 исключают из модели.
Колінеарність – залежність між факторами. Як критерій мультиколлінеарності може бути прийнято дотримання наступних нерівностей:
r(x j y) > r(x k x j); r(x k y) > r(x k x j).
Якщо жодної з нерівностей не дотримується, то виключається той параметр x k або x j , зв'язок якого з результативним показником Y виявляється найменш тісним.
3. Аналіз параметрів рівняння регресії.
Перейдемо до статистичного аналізуотриманого рівняння регресії: перевірки значущості рівняння та його коефіцієнтів, дослідженню абсолютних та відносних помилок апроксимації
Для незміщеної оцінки дисперсії виконаємо такі обчислення:
Незміщена помилка e = Y - X * s ( абсолютна помилкаапроксимації)
-0.18
0.05
0.08
-0.08
-0.12
-0.16
-0.03
-0.24
-0.13
-0.05
0.06
-0.02
1.55
0.01
0.04
0.04
0.03
-0.23
-0.21
-0.15
-0.1
-0.16

s e 2 = (Y - X * s) T (Y - X * s)
Незміщена оцінка дисперсії дорівнює

Оцінка середньоквадратичного відхиленнядорівнює

Знайдемо оцінку коварійної матриці вектора k = a*(X T X) -1
0.26 0.15 -0.11 -0.39
0.15 3.66 -0.05 -5.61
-0.11 -0.05 0.07 0.12
-0.39 -5.61 0.12 8.8

Дисперсії параметрів моделі визначаються співвідношенням S 2 i = K ii, тобто. це елементи, що лежать на головній діагоналі
З метою розширення можливостей змістовного аналізу моделі регресії використовуються приватні коефіцієнти еластичності, що визначаються за формулою:


Приватні коефіцієнти еластичності E 1< 1. Следовательно, его влияние на результативный признак Y незначительно.

Приватні коефіцієнти еластичності E 2< 1. Следовательно, его влияние на результативный признак Y незначительно.

Приватні коефіцієнти еластичності E 3< 1. Следовательно, его влияние на результативный признак Y незначительно.
Тісноту спільного впливу факторів на результат оцінює індекс множинної кореляції (від 0 до 1)

Зв'язок між ознакою Y факторами X помірний
Коефіцієнт детермінації
R 2 = 0.62 2 = 0.38
тобто. у 38.0855% випадків зміни х призводять до зміни y. Іншими словами - точність підбору рівняння регресії - середня
Значення коефіцієнта кореляції

За таблицею Стьюдента знаходимо Tтабл
T табл (n-m-1; a) = (18; 0.05) = 1.734
Оскільки Tнабл > Tтабл, відхиляємо гіпотезу про рівність 0 коефіцієнта кореляції. Інакше кажучи, коефіцієнта кореляції статистично - значимий
Інтервальна оцінка коефіцієнта кореляції (довірчий інтервал)

Довірчий інтервал для коефіцієнта кореляції
r(0.3882;0.846)
5. Перевірка гіпотез щодо коефіцієнтів рівняння регресії (перевірка значущості параметрів множинного рівняння регресії).
1) t-статистика


Статистична значимість коефіцієнта регресії b 0 не підтверджується

Статистична значимість коефіцієнта регресії b 1 не підтверджується

Статистична значимість коефіцієнта регресії b 2 не підтверджується

Статистична значимість коефіцієнта регресії b 3 не підтверджується
Довірчий інтервал для коефіцієнтів рівняння регресії
Визначимо довірчі інтерваликоефіцієнтів регресії, які з надійністю 95% будуть такими:
(b i - t i S i ; b i + t i S i)
b 0: (-0.7348; 1.0478)
b 1: (-2.9781; 3.6531)
b 2: (-0.4466; 0.4553)
b 3: (-4.8459; 5.4431)

2) F-статистика. Критерій Фішера


Fkp = 2.93
Оскільки F< Fkp, то коэффициент детерминации статистически не значим и уравнение регрессии статистически ненадежно.
6. Перевірка на наявність гетероскедастичності методом графічного аналізу залишків.
У цьому випадку осі абсцис відкладаються значення пояснюючої змінної X i , а по осі ординат квадрати відхилення e i 2 .

y y(x) e=y-y(x) e 2
0.22 0.4 -0.18 0.03
0.67 0.62 0.05 0
0.79 0.71 0.08 0.01
0.42 0.5 -0.08 0.01
0.32 0.44 -0.12 0.02
0.24 0.4 -0.16 0.03
0.95 0.98 -0.03 0
1.05 1.29 -0.24 0.06
0.99 1.12 -0.13 0.02
0.96 1.01 -0.05 0
0.73 0.67 0.06 0
0.52 0.54 -0.02 0
2.1 0.55 1.55 2.41
0.58 0.57 0.01 0
0.87 0.83 0.04 0
0.89 0.85 0.04 0
0.91 0.88 0.03 0
0.14 0.37 -0.23 0.05
0.18 0.39 -0.21 0.04
0.27 0.42 -0.15 0.02
0.37 0.47 -0.1 0.01
0.16 -0.16 0.02

Аналіз матриці парних коефіцієнтів кореляції показує, що результативний показник найбільш тісно пов'язаний із показником x(4) – кількість добрив, що витрачаються на 1 га ().

У той самий час зв'язок між ознаками-аргументами досить тісний. Так, існує практично функціональний зв'язок між числом колісних тракторів ( x(1)) і числом знарядь поверхневого обробітку ґрунту
.

Про наявність мультиколінеарності свідчать також коефіцієнти кореляції
і
. Враховуючи тісний взаємозв'язок показників x (1) , x(2) та x(3) , До регресійної моделі врожайності може увійти лише один з них.

Щоб продемонструвати негативний вплив мультиколлінеарності, розглянемо регресійну модель врожайності, включивши до неї всі вихідні показники:


F набл = 121.

У дужках вказано значення виправлених оцінок середньоквадратичних відхилень оцінок коефіцієнтів рівняння
.

Під рівнянням регресії представлені такі параметри адекватності: множинний коефіцієнт детермінації
; виправлена ​​оцінка залишкової дисперсії
, Середня відносна помилка апроксимації розрахункове значення-критерію F набл = 121.

Рівняння регресії значимо, т.к. F набл = 121 > F kp = 2,85 знайденого за таблицею F-розподілу при  = 0,05; 1 = 6 і 2 = 14.

На цьому випливає, що 0, тобто. і хоча б один із коефіцієнтів рівняння j (j= 0, 1, 2, ..., 5) не дорівнює нулю.

Для перевірки гіпотези про значущість окремих коефіцієнтів регресії H0: j = 0, де j=1,2,3,4,5, порівнюють критичне значення t kp = 2,14, знайдене за таблицею t-розподілу при рівні значимості  = 2 Q=0,05 та числі ступенів свободи=14, з розрахунковим значенням . З рівняння випливає, що статистично значущим є коефіцієнт регресії лише за x(4) , оскільки t 4 =2,90 > t kp = 2,14.

Не піддаються економічної інтерпретації негативні знаки коефіцієнтів регресії при x(1) та x(5) . З негативних значень коефіцієнтів випливає, що підвищення насиченості сільського господарства колісними тракторами ( x(1)) та засобами оздоровлення рослин ( x(5)) негативно позначається на врожайності. Таким чином, отримане рівняння регресії є неприйнятним.

Для отримання рівняння регресії із значними коефіцієнтами використовуємо покроковий алгоритм регресійного аналізу. Спочатку використовуємо покроковий алгоритм із винятком змінних.

Виключимо з моделі змінну x(1) , якій відповідає мінімальне за абсолютною величиною значення t 1 =0,01. Для змінних, що залишилися, знову побудуємо рівняння регресії:

Отримане рівняння значимо, т.к. F набл = 155 > F kp = 2,90, знайденого при рівні значущості  = 0,05 та числах ступенів свободи  1 =5 та  2 =15 за таблицею F-розподілу, тобто. вектор0. Однак у рівнянні значимий лише коефіцієнт регресії при x(4). Розрахункові значення t j для інших коефіцієнтів менше tкр = 2,131, знайденого за таблицею t-розподілу при  = 2 Q=0,05 та =15.

Виключивши з моделі змінну x(3) , якій відповідає мінімальне значення t 3 = 0,35 і отримаємо рівняння регресії:

(2.9)

В отриманому рівнянні статистично не значущий і економічно не інтерпретуємо коефіцієнт при x(5) . Виключивши x(5) отримаємо рівняння регресії:

(2.10)

Ми отримали значне рівняння регресії зі значними та інтерпретованими коефіцієнтами.

Однак отримане рівняння є не єдино "хорошою" і не "найкращою" моделлю врожайності в нашому прикладі.

Покажемо, що за умови мультиколлінеарності покроковий алгоритм із включенням змінних є ефективнішим.На першому кроці модель урожайності yвходить змінна x(4) , що має найвищий коефіцієнт кореляції з y, що пояснюється змінною r(y,x(4)) = 0,58. На другому кроці, включаючи рівняння поряд з x(4) змінні x(1) або x(3) , ми отримаємо моделі, які з економічних міркувань та статистичних характеристик перевищують (2.10):

(2.11)

(2.12)

Включення в рівняння будь-якої з трьох змінних, що залишилися, погіршує його властивості. Дивись, наприклад, рівняння (2.9).

Таким чином, ми маємо три “хороші” моделі врожайності, з яких потрібно вибрати з економічних та статистичних міркувань одну.

За статистичними критеріями найбільш адекватна модель (2.11). Їй відповідають мінімальні значення залишкової дисперсії =2,26 і середньої відносної помилки апроксимації найбільші значення
і F набл = 273.

Дещо гірші показники адекватності має модель (2.12), а потім - модель (2.10).

Тепер вибиратимемо найкращу з моделей (2.11) та (2.12). Ці моделі відрізняються одна від одної змінними x(1) та x(3) . Однак у моделях урожайностей змінна x(1) (кількість колісних тракторів на 100 га) більш краща, ніж змінна x(3) (кількість знарядь поверхневого обробітку грунту на 100 га), який є деякою мірою вторинним (або похідним від x (1)).

У зв'язку з економічних міркувань перевагу слід віддати моделі (2.12). Таким чином, після реалізації алгоритму покрокового регресійного аналізу з включенням змінних та врахування того, що до рівняння має увійти лише одна з трьох пов'язаних змінних ( x (1) ,x(2) або x(3)) вибираємо остаточне рівняння регресії:

Рівняння значимо при ? = 0,05, т.к. F набл = 266 > F kp = 3,20, знайденого за таблицею F-розподілу при  = Q=0,05; 1 =3 і 2 =17. Значні й усі коефіцієнти регресії і у рівнянні t j > t kp (=2 Q= 0,05;  = 17) = 2,11. Коефіцієнт регресії 1 слід визнати значущим ( 1 0) з економічних міркувань, причому t 1 =2,09 лише трохи менше t kp = 2,11.

З рівняння регресії випливає, що збільшення одиницю числа тракторів на 100 га ріллі (при фіксованому значенні x(4)) призводить до зростання врожайності зернових у середньому на 0,345 ц/га.

Наближений розрахунок коефіцієнтів еластичності е 1 0,068 та е 2 0,161 показує, що при збільшенні показників x(1) та x(4) на 1% урожайність зернових підвищується в середньому відповідно на 0,068% та 0,161%.

Множинний коефіцієнт детермінації
свідчить про те, що тільки 46,9% варіації врожайності пояснюється показниками, що увійшли до моделі ( x(1) та x(4)), тобто насиченістю рослинництва тракторами та добривами. Решта варіації обумовлена ​​дією неврахованих факторів ( x (2) ,x (3) ,x(5), погодні умови та ін.). Середня відносна помилка апроксимаціїхарактеризує адекватність моделі, так само як і величина залишкової дисперсії
. При інтерпретації рівняння регресії інтерес становлять значення відносних помилок апроксимації
. Нагадаємо, що - модельне значення результативного показника, що характеризує середнє для сукупності районів, що розглядаються, значення врожайності за умови, що значення пояснюючих змінних x(1) та x(4) зафіксовані на тому самому рівні, а саме x (1) =x i(1) та x (4) = x i(4). Тоді за значенням iможна зіставляти райони за врожайністю. Райони, яким відповідають значення i>0, мають урожайність вище середнього, а i <0 - ниже среднего.

У нашому прикладі, за врожайністю найбільше ефективно рослинництво ведеться в районі, якому відповідає  7 =28%, де врожайність на 28% вища за середню по регіону, і найменш ефективно - в районі с 20 =27,3%.

Колінеарними є фактори …

Рішення:

Вважається, що дві змінні явно колінеарні, тобто. знаходяться між собою в лінійній залежності, якщо . У нашій моделі лише коефіцієнт парної лінійної регресії між факторами та більше 0,7. , Отже, фактори і колінеарні.

4. У моделі множинної регресіївизначник матриці парних коефіцієнтів кореляції між факторами і близький до нуля. Це означає, що фактори і …

мультиколінеарні

незалежні

кількісно вимірні

Рішення:

Для оцінки мультиколлінеарності факторів може використовуватись визначник матриці парних коефіцієнтів кореляції між факторами. Якщо фактори не корелювали між собою, то матриця парних коефіцієнтів кореляції між факторами була б поодинокою. Оскільки всі недіагональні елементи були б нульові.
оскільки = = і = = =0.
Якщо між факторами існує повна лінійна залежність і всі коефіцієнти парної кореляції дорівнюють одиниці, то визначник такої матриці дорівнює нулю.


Чим ближче до нуля визначник матриці міжфакторної кореляції, тим сильніша мультиколлінеарність факторів і ненадійніше результати множинної регресії. І, навпаки, чим ближче до одиниці визначник матриці міжфакторної кореляції, тим менша мультиколінеарність факторів.

5. Для економетричної моделі лінійного рівняння множинної регресії виду побудовано матрицю парних коефіцієнтів лінійної кореляції ( y- Залежна змінна; х (1),х (2), х (3), x (4)- незалежні змінні):


Колінеарними (тісно пов'язаними) незалежними (пояснювальними) змінними не являються

x (2)і x (3)

x (1)і x (3)

x (1)і x (4)

x (2)і x (4)

Рішення:

При побудові моделі множинної регресії необхідно унеможливити існування тісної лінійної залежності між незалежними (пояснювальними) змінними, яка веде до проблеми мультиколлінеарності. При цьому здійснюють перевірку коефіцієнтів лінійної кореляції для кожної пари незалежних змінних. Ці значення відображені у матриці парних коефіцієнтів лінійної кореляції. Вважається, що наявність значень коефіцієнтів парної кореляції між пояснювальними змінними, що перевищують за абсолютною величиною 0,7, відображає тісний зв'язок між цими змінними (тіснота зв'язку зі змінною yу разі не розглядається). Такі незалежні змінні називають колінеарними. Якщо значення коефіцієнта парної кореляції між перемінними, що пояснюють, не перевищує по абсолютній величині 0,7, то такі пояснюючі змінні не є колінеарними. Розглянемо значення парних коефіцієнтів міжфакторної кореляції: між x (1)і x (2)значення дорівнює 0,45; між x (1)і x (3)- дорівнює 0,82; між x (1)і x (4)- дорівнює 0,94; між x (2)і x (3)- дорівнює 0,3; між x (2)і x (4)- дорівнює 0,7; між x (3)і x (4)- Дорівнює 0,12. Таким чином, не перевищують 0,7 значення , , . Отже, колінеарними не являютьсяфактори x (1)і x (2), x (2)і x (3), x (3)і x (4). З останніх перерахованих пар у варіантах відповідей є пара x (2)і x (3)- Це правильний варіант відповіді. Для інших пар: x (1і x (3), x (1)і x (4), x (2)і x (4)значення парних коефіцієнтів міжфакторної кореляції перевищують 0,7, і ці фактори є колінеарними.

Тема 3: Фіктивні змінні

1. Дано таблицю вихідних даних для побудови економетричної регресійної моделі:

Фіктивними змінними не являються

стаж роботи

продуктивність праці

рівень освіти

рівень кваліфікації працівника

Рішення:

При побудові регресійної моделі може виникнути ситуація, коли необхідно включити до рівняння крім кількісних змінних змінні, що відображають деякі атрибутивні ознаки (стаття, освіта, регіон тощо). Такі якісні змінні називаються «фіктивними» (dummy) змінними. Для побудови зазначеної у постановці завдання моделі використовуються фіктивні змінні: рівень освіти та рівень кваліфікації працівника. Інші змінні не являютьсяфіктивними, із запропонованих варіантів це стаж роботи та продуктивність праці.

2. При дослідженні залежності споживання м'яса від рівня доходу та статі споживача можна рекомендувати.

використовувати фіктивну змінну – стать споживача

розділити сукупність на дві: для споживачів жіночої статі та для споживачів чоловічої статі

використовувати фіктивну змінну – рівень доходу

виключити з розгляду стать споживача, оскільки даний фактор не можна виміряти кількісним чином

Рішення:

При побудові регресійної моделі може виникнути ситуація, коли необхідно включити до рівняння крім кількісних змінних змінні, що відображають деякі атрибутивні ознаки (стаття, освіта, регіон тощо). Такі якісні змінні називаються «фіктивними» (dummy) змінними. Вони відбивають неоднорідність досліджуваної статистичної сукупності і використовуються більш якісного моделювання залежностей у таких неоднорідних об'єктах спостереження. При моделюванні окремих залежностей за неоднорідними даними можна також скористатися способом поділу всієї сукупності неоднорідних даних на кілька окремих сукупностей, кількість яких дорівнює кількості станів dummy-змінної. Таким чином правильними варіантами відповідей є: «використовувати фіктивну змінну – стать споживача» і «розділити сукупність на дві: для споживачів жіночої статі та для споживачів чоловічої статі».

3. Вивчається залежність ціни квартири ( у) від її житлової площі ( х) та типу будинку. У модель включені фіктивні змінні, що відображають типи будинків: монолітний, панельний, цегляний. Отримано рівняння регресії: ,
де ,
Приватними рівняннями регресії для цегляного та монолітного є …

для типу будинку цегляний

для типу будинку монолітний

для типу будинку цегляний

для типу будинку монолітний

Рішення:

Потрібно дізнатися про приватне рівняння регресії для цегляного та монолітного будинків. Для цегляного будинку значення фіктивних змінних такі, . Рівняння набуде вигляду: або для типу будинку цегляний.
Для монолітного будинку значення фіктивних змінних такі, . Рівняння набуде вигляду
або для типу будинку монолітний.

Для визначення ступеня залежності між декількома показниками застосовується численні коефіцієнти кореляції. Їх потім зводять до окремої таблиці, яка має назву кореляційної матриці. Найменуваннями рядків та стовпців такої матриці є назви параметрів, залежність яких один від одного встановлюється. На перетині рядків і шпальт розташовуються відповідні коефіцієнти кореляції. Давайте з'ясуємо, як можна здійснити подібний розрахунок за допомогою інструментів Excel.

Прийнято в такий спосіб визначати рівень взаємозв'язку між різними показниками, залежно від коефіцієнта кореляції:

  • 0 – 0,3 – зв'язок відсутній;
  • 0,3 - 0,5 - зв'язок слабкий;
  • 0,5 – 0,7 – середній зв'язок;
  • 0,7 – 0,9 – висока;
  • 0,9 – 1 – дуже сильна.

Якщо кореляційний коефіцієнт негативний, це означає, що зв'язок параметрів зворотний.

Для того, щоб скласти кореляційну матрицю в Екселі, використовується один інструмент, що входить до пакету «Аналіз даних». Він так і називається - «Кореляція». Давайте дізнаємося, як за допомогою нього можна обчислити показники множинної кореляції.

Етап 1: активація пакету аналізу

Відразу слід сказати, що за замовчуванням пакет «Аналіз даних»вимкнено. Тому, як розпочати процедуру безпосереднього обчислення коефіцієнтів кореляції, потрібно його активувати. На жаль, далеко не кожен юзер знає, як це робити. Тому ми зупинимося на цьому питанні.


Після вказаної дії пакет інструментів «Аналіз даних»буде активовано.

Етап 2: розрахунок коефіцієнта

Тепер можна переходити безпосередньо до розрахунку множинного коефіцієнта кореляції. Давайте на прикладі наведеної нижче таблиці показників продуктивності праці, фондоозброєності та енергоозброєності на різних підприємствах розрахуємо множинний коефіцієнт кореляції зазначених факторів.


Етап 3: аналіз отриманого результату

Тепер давайте розберемося, як розуміти той результат, який ми отримали в процесі обробки даних інструментом «Кореляція»у програмі Excel.

Як бачимо з таблиці, коефіцієнт кореляції фондоозброєності (Стовпець 2) та енергоозброєності ( Стовпець 1) становить 0,92, що відповідає дуже сильному взаємозв'язку. Між продуктивністю праці ( Стовпець 3) та енергоозброєністю ( Стовпець 1) даний показник дорівнює 0,72, що є високим ступенем залежності. Коефіцієнт кореляції між продуктивністю праці ( Стовпець 3) та фондоозброєністю ( Стовпець 2) дорівнює 0,88, що теж відповідає високому ступеню залежності. Таким чином, можна сказати, що залежність між усіма факторами, що вивчаються, простежується досить сильна.

Як бачимо, пакет «Аналіз даних»в Екселі є дуже зручний і досить легкий у використанні інструмент для визначення множинного коефіцієнта кореляції. З його ж допомогою можна розраховувати і звичайну кореляцію між двома факторами.

Схожі статті

2023 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.