Прямолінійна регресія. Коефіцієнт регресії. Основи лінійної регресії

Коефіцієнти регресіїпоказують інтенсивність впливу чинників результативний показник. Якщо проведено попередню стандартизацію факторних показників, то b 0 дорівнює середньому значенню результативного показника в сукупності. Коефіцієнти b 1 , b 2 , ..., b n показують, наскільки одиниць рівень результативного показника відхиляється від середнього значення, якщо значення факторного показника відхиляються від середнього, рівного нулю, на одне стандартне відхилення. Отже, коефіцієнти регресії характеризують ступінь значимості окремих чинників підвищення рівня результативного показника. Конкретні значення коефіцієнтів регресії визначають за емпіричними даними згідно з методом найменших квадратів(В результаті рішення систем нормальних рівнянь).

Лінія регресії- лінія, яка найточніше відображає розподіл експериментальних точок на діаграмі розсіювання і крутість нахилу якої характеризує залежність між двома інтервальними змінними.

Лінія регресії найчастіше шукається у вигляді лінійної функції (лінійна регресія), найкращим чиномнаближає шукану криву. Робиться це за допомогою методу найменших квадратів, коли мінімізується сума квадратів відхилень реально спостерігаються від їх оцінок (маються на увазі оцінки за допомогою прямої лінії, що претендує на те, щоб представляти шукану регресійну залежність):

(M – обсяг вибірки). Цей підхід заснований на тому відомому факті, що сума, що фігурує в наведеному вираженні, приймає мінімальне значення саме для того випадку, коли .
57. Основні завдання теорії кореляції.

Теорія кореляції є апарат, що оцінює тісноту зв'язків між явищами, які перебувають у причинно-наслідкових відносинах. З допомогою теорії кореляції оцінюються стохастичні, але з причинні зв'язку. Автором спільно з Лукацькою М. Л. зроблено спробу отримати оцінки для причинних зв'язків. Проте питання причинно-наслідкових відносин явищ, у тому, як пізнати причину і слідство, залишається відкритим, і здається, що у формальному рівні він принципово не вирішимо.

Теорія кореляції та її застосовано до аналізу виробництва.

Теорія кореляції, що є одним із розділів математичної статистики, дозволяє зробити обґрунтовані припущення про можливі межі, в яких з певним ступенем надійності буде перебувати досліджуваний параметр, якщо інші статистично пов'язані з ним параметри отримають певні значення.

Теоретично кореляції прийнято виділяти два основні завдання.

Перше завданнятеорії кореляції – встановити форму кореляційного зв'язку, тобто. вид функції регресії (лінійна, квадратична і т.д.).

Друге завданнятеорії кореляції – оцінити тісноту (силу) кореляційного зв'язку.

Тіснота кореляційного зв'язку (залежності) на X оцінюється за величиною розсіювання значень навколо умовного середнього. Велике розсіювання свідчить про слабку залежність від X, мале розсіювання вказує на наявність сильної залежності.
58. Кореляційна таблиця та її числові показники.

На практиці в результаті незалежних спостережень над величинами X і Y, як правило, мають справу не з усією сукупністю всіх можливих пар значень цих величин, а лише з обмеженою вибіркою з генеральної сукупності, причому обсяг n вибіркової сукупності визначається як кількість наявних у вибірці пар.

Нехай величина Х у вибірці приймає значення x 1 , x 2 ,.... x m , де кількість значень цієї величини, що різняться між собою, причому в загальному випадкукожне їх у вибірці може повторюватися. Нехай величина Y у вибірці приймає значення y 1 , y 2 ,....y k , де k - кількість значень цієї величини, що розрізняються між собою, причому в загальному випадку кожне з них у вибірці також може повторюватися. У цьому випадку дані заносять до таблиці з урахуванням частот народження. Таку таблицю із групованими даними називають кореляційною.

Першим етапом статистичної обробки результатів є складання кореляційної таблиці.

Y\X x 1 x 2 ... x m n y
y 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm n

У першому рядку основної частини таблиці в порядку зростання перераховуються всі значення величини X, що зустрічаються у вибірці. У першому стовпці також у порядку зростання перераховуються всі значення значення величини Y, що зустрічаються у вибірці. ,...,m; j=1,2,...,k) рівні кількості появ пари (x i ;y i) у вибірці. Наприклад, частота n 12 являє собою кількість появи у вибірці пари (x 1; y 1).

Також n xi n ij , 1≤i≤m, сума елементів i-го стовпця, n yj n ij , 1≤j≤k, - сума елементів j-го рядка і n xi = n yj =n

Аналоги формул, отримані за даними кореляційної таблиці, мають вигляд:


59. Емпірична та теоретична лінії регресії.

Теоретична лінія регресіїможе бути розрахована у разі за результатами окремих спостережень. Для вирішення системи нормальних рівняньнам знадобляться самі дані: х, у, ху і хг. Ми маємо дані про обсяги виробництва цементу та обсяг основних виробничих фондів в 1958 р. Ставиться завдання: дослідити залежність між обсягом виробництва цементу (у натуральному вираженні) та обсягом основних фондів. [ 1 ]

Чим менша теоретична лінія регресії (розрахована за рівнянням) відхиляється від фактичної (емпіричної), тим менша середня помилка апроксимації.

Процес знаходження теоретичної лінії регресії є вирівнювання емпіричної лінії регресії з урахуванням методу найменших квадратів.

Процес знаходження теоретичної лінії регресії називається вирівнюванням емпіричної лінії регресії і полягає у виборі та обґрунтуванні типу; кривою та розрахунку параметрів її рівняння.

Емпірична регресія будується за даними аналітичного або комбінаційного угруповань і є залежністю групових середніх значень ознаки-результату від групових середніх значень ознаки-фактора. Графічним уявленням емпіричної регресії - ламана лінія, Складена з точок, абсцисами яких є групові середні значення ознаки-фактора, а ординатами - групові середні значення ознаки-результату. Число точок дорівнює числу груп у групуванні.

Емпірична лінія регресії відбиває основну тенденцію аналізованої залежності. Якщо емпірична лінія регресії за своїм виглядом наближається до прямої лінії, можна припустити наявність прямолінійної кореляційної зв'язку між ознаками. А якщо лінія зв'язку наближається до кривої, це може бути пов'язано з наявністю криволінійного кореляційного зв'язку.
60. Вибіркові коефіцієнти кореляції та регресії.

Якщо залежність між ознаками на графіку вказує на лінійну кореляцію, розраховують коефіцієнт кореляції r, що дозволяє оцінити тісноту зв'язку змінних величин, і навіть з'ясувати, яка частка змін ознаки обумовлена ​​впливом основного ознаки, яка – впливом інших чинників. Коефіцієнт варіює в межах від -1 до +1. Якщо r=0, то зв'язок між ознаками відсутня. Рівність r=0 говорить лише про відсутність лінійної кореляційної залежності, але взагалі про відсутність кореляційної, а тим паче статистичної залежності. Якщо r= ±1, це означає наявність повної (функціональної) зв'язку. При цьому всі значення, що спостерігаються, розташовуються на лінії регресії, яка являє собою пряму.
Практична значущість коефіцієнта кореляції визначається його величиною, зведеною квадрат, що отримала назву коефіцієнта детермінації.
Регресія, що апроксимується (наближено описується) лінійною функцією y = kX + b. Для регресії У X рівняння регресії: `y x = ryx X + b; (1). Кутовий коефіцієнт ryx прямої регресії Y на X називається коефіцієнтом регресії Y на X.

Якщо рівняння (1) знаходиться за вибірковими даними, воно називається вибірковим рівнянням регресії. Відповідно, ryx - вибірковий коефіцієнт регресії Y на X, а b - вибірковий вільний член рівняння. p align="justify"> Коефіцієнт регресії вимірює варіацію Y, що припадає на одиницю варіації X. Параметри рівняння регресії (коефіцієнти ryx і b) знаходяться методом найменших квадратів.
61. Оцінка значимості коефіцієнта кореляції та тісноти кореляційного зв'язку в генеральній сукупності

Значимість коефіцієнтів кореляціїперевіряємось за критерієм Стьюдента:

де - середньоквадратична помилка коефіцієнта кореляції, що визначається за формулою:

Якщо розрахункове значення (вище табличного, можна зробити висновок у тому, що величина коефіцієнта кореляції є значимої. Табличні значення tзнаходять за таблицею значень критеріїв Стьюдента. При цьому враховуються кількість ступенів свободи (V = п - 1) і рівень довірчої ймовірності(В економічних розрахунках зазвичай 0,05 або 0,01). У нашому прикладі кількість ступенів свободи дорівнює: п - 1 = 40 - 1 = 39. При рівні довірчої ймовірності Р = 0,05; t= 2,02. Оскільки (фактична у всіх випадках вище t-табличного, зв'язок між результативним та факторними показниками є надійним, а величина коефіцієнтів кореляції - значущою.

Оцінка коефіцієнта кореляції, Обчислена за обмеженою вибіркою, практично завжди відрізняється від нуля. Але з цього ще не випливає, що коефіцієнт кореляції генеральної сукупностітакож відмінний від нуля. Потрібно оцінити значущість вибіркової величини коефіцієнта або, відповідно до постановки завдань перевірки статистичних гіпотез, перевірити гіпотезу про рівність нуля коефіцієнта кореляції. Якщо гіпотеза Н 0 про рівність нулю коефіцієнта кореляції буде відкинуто, то вибірковий коефіцієнт значимий, а відповідні величини пов'язані лінійним співвідношенням. Якщо гіпотеза Н 0 буде прийнято, то оцінка коефіцієнта не значуща, і величини лінійно не пов'язані один з одним (якщо з фізичних міркувань фактори можуть бути пов'язані, то краще говорити про те, що з наявних ЕД цей взаємозв'язок не встановлений). Перевірка гіпотези про значення оцінки коефіцієнта кореляції вимагає знання розподілу цієї випадкової величини. Розподіл величини  ikвивчено лише для окремого випадку, коли випадкові величини U jі U kрозподілені за нормальним законом.

Як критерій перевірки нульової гіпотези Н 0 застосовують випадкову величину . Якщо модуль коефіцієнта кореляції відносно далекий від одиниці, то величина tпри справедливості нульової гіпотези розподілено згідно із законом Стьюдента з n– 2 ступенями свободи. Конкуруюча гіпотеза Н 1 відповідає твердженню, що значення  ikне дорівнює нулю (більше або менше від нуля). Тому критична сфера двостороння.
62. Обчислення вибіркового коефіцієнта кореляції та побудова вибіркового рівняння прямої лінії регресії.

Вибірковий коефіцієнткореляціїзнаходиться за формулою

де - Вибіркові середні квадратичні відхилення величин і .

Вибірковий коефіцієнт кореляції показує тісноту лінійного зв'язку між і : чим ближче до одиниці, тим сильніший лінійний зв'язок між і .

Проста лінійна регресія дозволяє знайти лінійну залежність між однією вхідною та однією вихідною змінними. Для цього визначається рівняння регресії - це модель, що відображає залежність значень Y, залежної величини Y від значень х, незалежної змінної х та генеральної сукупності, що описується рівнем:

де А0- вільний член рівняння регресії;

А1- Коефіцієнт рівняння регресії

Потім будується відповідна пряма, яка називається лінією регресії. Коефіцієнти А0 і А1, звані також параметрами моделі, вибираються таким чином, щоб сума квадратів відхилень точок, що відповідають реальним спостереженням даних від лінії регресії, була б мінімальною. Підбір коефіцієнтів проводиться у разі методу найменших квадратів. Іншими словами, проста лінійна регресія описує лінійну модель, яка найкраще апроксимує залежність між однією вхідною та однією вихідною змінними.

Використання графічного методу.
Цей метод застосовують для наочного зображення форми зв'язку між економічними показниками, що вивчаються. Для цього в прямокутної системикоординат будують графік, по осі ординат відкладають індивідуальні значення результативної ознаки Y, а по осі абсцис - індивідуальні значення факторної ознаки X.
Сукупність точок результативної та факторної ознак називається полем кореляції.
З поля кореляції можна висунути гіпотезу (для генеральної сукупності) у тому, що зв'язок між усіма можливими значеннями X і Y носить лінійний характер.

Лінійне рівняння регресіїмає вигляд y = bx + a + ε
Тут - випадкова помилка (відхилення, обурення).
Причини існування випадкової помилки:
1. Невключення до регресійної моделі значних пояснюючих змінних;
2. Агрегування змінних. Наприклад, функція сумарного споживання – це спроба загального виразусукупності рішень окремих індивідів про витрати. Це лише апроксимація окремих співвідношень, які мають різні параметри.
3. Неправильний опис структури моделі;
4. Неправильна функціональна специфікація;
5. Помилки виміру.
Оскільки відхилення ε i кожного конкретного спостереження i – випадкові та його значення у вибірці невідомі, то:
1) за спостереженнями x i та y i можна отримати лише оцінки параметрів α та β
2) Оцінками параметрів і регресійної моделі є відповідно величини а і b, які носять випадковий характер, т.к. відповідають випадковій вибірці;
Тоді оціночне рівняння регресії (побудоване за вибірковими даними) матиме вигляд y = bx + a + ε, де e i – значення (оцінки) помилок ε i , що спостерігаються, а і b відповідно оцінки параметрів α і β регресійної моделі, які слід знайти.
Для оцінки параметрів і - використовують МНК (метод найменших квадратів).
Система звичайних рівнянь.

Для наших даних система рівнянь має вигляд:

10a + 356b = 49
356a + 2135b = 9485

З першого рівняння виражаємо а і підставимо на друге рівняння
Отримуємо b=68.16, a=11.17

Рівняння регресії:
y = 68.16 x – 11.17

1. Параметри рівняння регресії.
Вибіркові середні.



Вибіркові дисперсії.


Середньоквадратичне відхилення

1.1. Коефіцієнт кореляції
Розраховуємо показник тісноти зв'язку. Таким показником є ​​вибірковий лінійний коефіцієнткореляції, що розраховується за формулою:

Лінійний коефіцієнт кореляції набуває значень від –1 до +1.
Зв'язки між ознаками можуть бути слабкими та сильними (тісними). Їхні критерії оцінюються за шкалою Чеддока :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
У прикладі зв'язок між ознакою Y чинником X дуже висока і пряма.

1.2. Рівняння регресії(Оцінка рівняння регресії).

Лінійне рівняння регресії має вигляд y = 68.16 x -11.17
Коефіцієнтам рівняння лінійної регресіїможна надати економічного сенсу. Коефіцієнт рівняння регресіїпоказує, скільки од. зміниться результат за зміни чинника на 1 од.
Коефіцієнт b = 68.16 показує середнє зміна результативного показника (в одиницях виміру у) із підвищенням чи зниженням величини чинника x одиницю його виміру. У даному прикладііз збільшенням на 1 одиницю y підвищується у середньому на 68.16.
Коефіцієнт a = -11.17 формально показує прогнозований рівень у, але у разі, якщо х=0 перебуває близько з вибірковими значеннями.
Але якщо х=0 знаходиться далеко від вибіркових значень x , то буквальна інтерпретація може призвести до невірних результатів, і навіть якщо лінія регресії досить точно описує значення вибірки, що спостерігається, немає гарантій, що також буде при екстраполяції вліво або вправо.
Підставивши в рівняння регресії відповідні значення x можна визначити вирівняні (передбачені) значення результативного показника y(x) для кожного спостереження.
Зв'язок між у і x визначає знак коефіцієнта регресії b (якщо > 0 – прямий зв'язок, інакше – зворотний). У прикладі зв'язок пряма.

1.3. Коефіцієнт еластичності.
Коефіцієнти регресії (у прикладі b) небажано використовувати для безпосередньої оцінки впливу факторів на результативну ознаку в тому випадку, якщо існує відмінність одиниць вимірювання результативного показника у факторної ознаки х.
З цією метою обчислюються коефіцієнти еластичності і бета - коефіцієнти. Коефіцієнт еластичності знаходиться за формулою:


Він показує, на скільки відсотків у середньому змінюється результативна ознака при зміні факторної ознаки х на 1%. Він не враховує ступінь коливання факторів.
У нашому прикладі коефіцієнт еластичності більший за 1. Отже, при зміні Х на 1%, Y зміниться більш ніж на 1%. Іншими словами – Х істотно впливає на Y.
Бета – коефіцієнтпоказує, яку частину величини свого середнього квадратичного відхиленнязміниться в середньому значення результативної ознаки при зміні факторної ознаки на величину його середньоквадратичного відхилення при фіксованому постійному рівнізначення інших незалежних змінних:

Тобто. збільшення x на величину середньоквадратичного відхилення цього показника призведе до збільшення середнього Y на 0.9796 середньоквадратичного відхиленняцього показника.

1.4. Помилка апроксимації.
Оцінимо якість рівняння регресії за допомогою помилки абсолютної апроксимації.


Оскільки помилка більше 15%, то дане рівняння не бажано використовувати як регресію.

1.6. Коефіцієнт детермінації.
Квадрат (множинного) коефіцієнта кореляції називається коефіцієнтом детермінації, який показує частку варіації результативної ознаки, пояснену варіацією факторної ознаки.
Найчастіше, даючи інтерпретацію коефіцієнта детермінації, його виражають у відсотках.
R 2 = 0.98 2 = 0.9596
тобто. у 95.96% випадків зміни x призводять до зміни у. Іншими словами – точність підбору рівняння регресії – висока. Інші 4.04 % зміни Y пояснюються факторами, не врахованими у моделі.

x y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (xi-x cp) 2 |y - yx |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Оцінка параметрів рівняння регресії.
2.1. Значимість коефіцієнта кореляції.

За таблицею Стьюдента з рівнем значущості α=0.05 та ступенями свободи k=7 знаходимо t крит:
t крит = (7; 0.05) = 1.895
де m = 1 – кількість пояснюючих змінних.
Якщо t набл > t критич, то отримане значення коефіцієнта кореляції визнається значущим (нульова гіпотеза, яка стверджує рівність нуля коефіцієнта кореляції, відкидається).
Оскільки t набл > t критий, то відхиляємо гіпотезу про рівність 0 коефіцієнта кореляції. Інакше кажучи, коефіцієнт кореляції статистично - значимий
У парній лінійній регресії t 2 r = t 2 b і тоді перевірка гіпотез про значущість коефіцієнтів регресії та кореляції рівносильна перевірці гіпотези про суттєвість лінійного рівняння регресії.

2.3. Аналіз точності визначення оцінок коефіцієнтів регресії.
Незміщеною оцінкою дисперсії збурень є величина:


S 2 y = 94.6484 - непояснена дисперсія (захід розкиду залежної змінної навколо лінії регресії).
S y = 9.7287 - стандартна помилкаоцінки (стандартна помилка регресії).
Sa - стандартне відхилення випадкової величини a.


S b – стандартне відхилення випадкової величини b.

2.4. Довірчі інтервали для залежної змінної.
Економічне прогнозування на основі побудованої моделі передбачає, що зберігаються взаємозв'язки змінних, що існували раніше, і на період попередження.
Для прогнозування залежної змінної результативної ознаки необхідно знати прогнозні значення всіх факторів, що входять у модель.
Прогнозні значення факторів підставляють у модель і отримують точкові прогнозні оцінки показника, що вивчається.
(a + bx p ± ε)

Розрахуємо межі інтервалу, в якому буде зосереджено 95% можливих значень Y при необмеженому великому числіспостережень та X p = 1 (-11.17 + 68.16 * 1 ± 6.4554)
(50.53;63.44)

Індивідуальні довірчі інтервалидляYпри даному значенніX.
(a + bx i ± ε)
де

x i y = -11.17 + 68.16x i ε i y min y max
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

Імовірно, 95% можна гарантувати, що значення Y при необмежено великому числі спостережень не вийде за межі знайдених інтервалів.

2.5. Перевірка гіпотез щодо коефіцієнтів лінійного рівняння регресії.
1) t-статистика. Критерій Стьюдента.
Перевіримо гіпотезу H 0 про рівність окремих коефіцієнтів регресії нулю (при альтернативі H 1 не дорівнює) лише на рівні значимості α=0.05.
t крит = (7; 0.05) = 1.895


Оскільки 12.8866> 1.895, то статистична значущість коефіцієнта регресії b підтверджується (відкидаємо гіпотезу про рівність нулю цього коефіцієнта).


Оскільки 2.0914> 1.895, то статистична значущість коефіцієнта регресії a підтверджується (відкидаємо гіпотезу про рівність нулю цього коефіцієнта).

Довірчий інтервал коефіцієнтів рівняння регресії.
Визначимо довірчі інтервали коефіцієнтів регресії, які з надійністю 95% будуть такими:
(b - t крит S b; b + t крит S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Імовірно, 95% можна стверджувати, що значення даного параметра будуть лежати в знайденому інтервалі.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Імовірно, 95% можна стверджувати, що значення даного параметра будуть лежати в знайденому інтервалі.

2) F-статистики. Критерій Фішера.
Перевірка значимості моделі регресії проводиться з використанням F-критерію Фішера, розрахункове значення якого перебуває як відношення дисперсії вихідного ряду спостережень показника, що вивчається, і незміщеної оцінки дисперсії залишкової послідовності для даної моделі.
Якщо розрахункове значення з lang=EN-US>n-m-1) ступенями свободи більше табличного при заданому рівні значущості, то модель вважається значущою.

де m - Число факторів в моделі.
Оцінка статистичної значущості парної лінійної регресії проводиться у разі наступного алгоритму:
1. Висувається нульова гіпотеза у тому, що рівняння загалом статистично незначимо: H 0: R 2 =0 лише на рівні значимості α.
2. Далі визначають фактичне значення F-критерію:


де m=1 для парної регресії.
3. Табличне значення визначається за таблицями розподілу Фішера для заданого рівня значимості, враховуючи, що число ступенів свободи для загальної суми квадратів (більшої дисперсії) дорівнює 1 і число ступенів свободи залишкової суми квадратів (меншої дисперсії) при лінійній регресії дорівнює n-2 .
4. Якщо фактичне значення F-критерію менше табличного, то кажуть, що немає підстав відхиляти нульову гіпотезу.
В іншому випадку, нульова гіпотеза відхиляється і з ймовірністю (1-α) приймається альтернативна гіпотеза про статистичної значимостірівняння загалом.
Табличне значення критерію зі ступенями свободи k1=1 та k2=7, Fkp=5.59
Оскільки фактичне значення F > Fkp, то коефіцієнт детермінації статистично значущий (Знайдена оцінка рівняння регресії статистично надійна).

Перевірка на наявність автокореляції залишків.
Важливою причиною побудови якісної регресійної моделі МНК є незалежність значень випадкових відхилень від значень відхилень в інших спостереженнях. Це гарантує відсутність корелювання між будь-якими відхиленнями і, зокрема, між сусідніми відхиленнями.
Автокореляція (послідовна кореляція)визначається як кореляція між показниками, що спостерігаються, упорядкованими в часі (тимчасові ряди) або в просторі (перехресні ряди). Автокореляція залишків (відхилень) зазвичай трапляється у регресійному аналізі під час використання даних часових рядів і дуже рідко під час використання перехресних даних.
У економічні завданнязначно частіше зустрічається позитивна автокореляція, ніж негативна автокореляція. Найчастіше позитивна автокореляція викликається спрямованим постійним впливомдеяких неврахованих у моделі факторів.
Негативна автокореляціяФактично означає, що з позитивним відхиленням слід негативне і навпаки. Така ситуація може мати місце, якщо ту саму залежність між попитом на прохолодні напої та доходами розглядати за сезонними даними (зима-літо).
Серед основних причин, що викликають автокореляцію, можна виділити такі:
1. Помилки специфікації. Неврахування в моделі будь-якої важливої ​​пояснюючої змінної або невірний вибірФорми залежності зазвичай призводять до системних відхилень точок спостереження від лінії регресії, що може зумовити автокореляцію.
2. Інерція. Багато економічних показників (інфляція, безробіття, ВНП і т.д.) мають певну циклічність, пов'язану з хвилеподібністю ділової активності. Тому зміна показників відбувається не миттєво, а має певну інертність.
3. Ефект павутиння. У багатьох виробничих та інших сферах економічні показники реагують зміну економічних умовіз запізненням (тимчасовим лагом).
4. Згладжування даних. Найчастіше дані по деякому тривалому часовому періоду отримують усереднення даних по складових його інтервалах. Це може призвести до певного згладжування коливань, які були всередині періоду, що розглядається, що в свою чергу може бути причиною автокореляції.
Наслідки автокореляції схожі з наслідками гетероскедастичності: висновки по t-і F-статистики, що визначають значущість коефіцієнта регресії та коефіцієнта детермінації, можливо, будуть невірними.

Виявлення автокореляції

1. Графічний метод
Є низка варіантів графічного визначення автокореляції. Один із них пов'язує відхилення e i з моментами їх отримання i. При цьому по осі абсцис відкладають або час отримання статистичних даних, або порядковий номерспостереження, а, по осі ординат – відхилення e i (чи оцінки отклонений).
Природно припустити, що й є певна зв'язок між відхиленнями, то автокореляція має місце. Відсутність залежності, швидше за все, свідчить про відсутність автокореляції.
Автокореляція стає наочнішою, якщо побудувати графік залежності e i від e i-1 .

Критерій Дарбіна-Уотсона.
Цей критерій є найбільш відомим виявлення автокореляції.
При статистичному аналізі рівняння регресії на початковому етапічасто перевіряють здійсненність однієї передумови: умови статистичної незалежності відхилень між собою. При цьому перевіряється некорельованість сусідніх величин e i.

y y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Для аналізу корелюваності відхилень використовують статистику Дарбіна-Уотсона:

Критичні значення d 1 і d 2 визначаються на основі спеціальних таблиць для необхідного рівня значущості α, числа спостережень n = 9 і кількості змінних, що пояснюють m=1.
Автокореляція відсутня, якщо виконується така умова:
d 1< DW и d 2 < DW < 4 - d 2 .
Не звертаючись до таблиць, можна скористатися приблизним правилом і вважати, що автокореляція залишків відсутня, якщо 1.5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

Вивчення кореляційних залежностей ґрунтується на дослідженні таких зв'язків між змінними, при яких значення однієї змінної, її можна прийняти за залежну змінну, «у середньому» змінюються в залежності від того, які значення набуває інша змінна, що розглядається як причина стосовно залежної змінної. Дія цієї причини здійснюється в умовах складної взаємодії різних факторів, Внаслідок чого прояв закономірності затемнюється впливом випадковостей. Обчислюючи середні значення результативного ознаки цієї групи значень ознаки-фактора, частково елімінується вплив випадковостей. Обчислюючи параметри теоретичної лінії зв'язку, проводиться подальше їх елімінування та виходить однозначна (за формою) зміна «y» із зміною фактора «x».

Для дослідження стохастичних зв'язків широко використовується метод зіставлення двох паралельних рядів, метод аналітичних угруповань, кореляційний аналіз, регресійний аналіз та деякі непараметричні методи У загальному виглядіЗавдання статистики у сфері вивчення взаємозв'язків полягає у кількісної оцінці їх наявності, напрями й сили зв'язку, а й у визначенні форми (аналітичного висловлювання) впливу факторних ознак на результативний. Для її вирішення застосовують методи кореляційного та регресійного аналізу.

РОЗДІЛ 1. РІВНЯННЯ РЕГРЕСІЇ: ТЕОРЕТИЧНІ ОСНОВИ

1.1. Рівняння регресії: сутність та типи функцій

Регресія (лат. regressio- зворотний рух, перехід від більш складних формрозвитку до менш складних) - одне з основних понять у теорії ймовірності та математичної статистикищо виражає залежність середнього значення випадкової величини від значень іншої випадкової величини або кількох випадкових величин. Це поняття введено Френсісом Гальтоном у 1886 році.

Теоретична лінія регресії - це лінія, навколо якої групуються точки кореляційного поля і яка вказує основний напрямок, основну тенденцію зв'язку.

Теоретична лінія регресії повинна відображати зміну середніх величин результативної ознаки «y» у міру зміни величин факторної ознаки «x» за умови повного взаємопогашення всіх інших – випадкових стосовно фактора «x» - причин. Отже, ця лінія повинна бути проведена так, щоб сума відхилень точок поля кореляції від відповідних точок теоретичної лінії регресії дорівнювала нулю, а сума квадратів цих відхилень була мінімальною величиною.

y=f(x) – рівняння регресії – це формула статистичного зв'язку між змінними.

Пряма лінія на площині (у просторі двох вимірювань) визначається рівнянням y=a+b*х. Докладніше: змінна y може бути виражена через константу (a) та кутовий коефіцієнт (b), помножений на змінну x. Константу іноді називають також вільним членом, а кутовий коефіцієнт – регресійним або B-коефіцієнтом.

Важливим етапомРегресійний аналіз є визначення типу функції, за допомогою якої характеризується залежність між ознаками. Головною підставою повинен бути змістовний аналіз природи залежності, що вивчається, її механізму. Разом з тим теоретично обґрунтувати форму зв'язку кожного з факторів з результативним показником можна далеко не завжди, оскільки досліджувані соціально-економічні явища дуже складні та фактори, що формують їхній рівень, тісно переплітаються та взаємодіють один з одним. Тому на основі теоретичного аналізунерідко можуть бути зроблені найзагальніші висновки щодо напряму зв'язку, можливості його зміни у досліджуваній сукупності, правомірності використання лінійної залежності, можливої ​​наявності екстремальних значень тощо. Необхідним доповненням такого роду припущень може бути аналіз конкретних фактичних даних.

Приблизно уявлення про лінію зв'язку можна отримати на основі емпіричної лінії регресії. Емпірична лінія регресії зазвичай є ламаною лінією, має більш менш значний злам. Пояснюється це тим, що вплив інших неврахованих факторів, що впливають на варіацію результативної ознаки, у середніх погашається неповністю, через недостатньо великої кількостіспостережень, тому емпіричною лінією зв'язку для вибору та обґрунтування типу теоретичної кривої можна скористатися за умови, що кількість спостережень буде досить великою.

Одним з елементів конкретних досліджень є зіставлення різних рівнянь залежності, засноване на використанні критеріїв якості апроксимації емпіричних даних конкуруючими варіантами моделей. Найчастіше для характеристики зв'язків економічних показниківвикористовують такі типи функций:

1. Лінійна:

2. Гіперболічна:

3. Показова:

4. Параболічна:

5. Ступінна:

6. Логарифмічна:

7. Логістична:

Модель з однією пояснювальною та однією пояснюваною змінними – модель парної регресії. Якщо пояснюючих (факторних) змінних використовується дві або більше, то говорять про використання моделі множинної регресії. При цьому, як варіанти можуть бути обрані лінійна, експоненційна, гіперболічна, показова та інші види функцій, що зв'язують ці змінні.

Для знаходження параметрів а та b рівняння регресії використовують метод найменших квадратів. При застосуванні методу найменших квадратів для знаходження такої функції, яка найкраще відповідає емпіричним даним, вважається, що сумка квадратів відхилень емпіричних точок від теоретичної лінії регресії повинна бути мінімальною величиною.

Критерій методу найменших квадратів можна записати таким чином:

Отже, застосування методу найменших квадратів визначення параметрів a і b прямий, найбільш відповідної емпіричним даним, зводиться до завдання на екстремум.

Щодо оцінок можна зробити такі висновки:

1. Оцінки методу найменших квадратів є функціями вибірки, що дозволяє легко розраховувати.

2. Оцінки методу найменших квадратів є точковими оцінкамитеоретичних коефіцієнтів регресії

3. Емпірична пряма регресія обов'язково проходить через точку x, y.

4. Емпіричне рівняння регресії побудовано таким чином, що сума відхилень

.

Графічне зображення емпіричної та теоретичної лінії зв'язку представлене малюнку 1.


Параметр b у рівнянні – це коефіцієнт регресії. За наявності прямої кореляційної залежності коефіцієнт регресії має позитивне значення, а разі зворотної залежності коефіцієнт регресії – негативний. p align="justify"> Коефіцієнт регресії показує на скільки в середньому змінюється величина результативного ознаки "y" при зміні факторного ознаки "x" на одиницю. Геометрично коефіцієнт регресії являє собою нахил прямої лінії, що зображує рівняння кореляційної залежності щодо осі «x» (для рівняння

).

Розділ багатовимірного статистичного аналізу, присвячений відновленню залежностей, називається регресійним аналізом Термін «лінійний регресійний аналіз» використовують, коли функція, що розглядається, лінійно залежить від оцінюваних параметрів (від незалежних змінних залежність може бути довільною). Теорія оцінювання

невідомих параметрів добре розвинена саме у разі лінійного регресійного аналізу. Якщо ж лінійності немає і не можна перейти до лінійного завдання, то, як правило, хороших властивостейвід оцінок очікувати годі й говорити. Продемонструємо підходи у разі залежностей різного виду. Якщо залежність має вигляд багаточлену (полінома). Якщо розрахунок кореляції характеризує силу зв'язку між двома змінними, то регресійний аналіз служить визначення виду цього і дає можливість прогнозування значення однієї (залежної) змінної відштовхуючись від значення інший (незалежної) змінної. Для проведення лінійного регресійного аналізу залежна змінна повинна мати інтервальну (чи порядкову) шкалу. У той же час, бінарна логістична регресія виявляє залежність дихотомічної змінної від іншої змінної, що відноситься до будь-якої шкали. Ті ж умови застосування справедливі і для пробіт-аналізу. Якщо залежна змінна є категоріальною, але має більше двох категорій, то підходящим методом буде мультиноміальна логістична регресія можна аналізувати і нелінійні зв'язки між змінними, які відносяться до інтервальної шкали. І тому призначений метод нелінійної регресії.

Основи аналізу даних.

Типовим завданням, що виникає на практиці, є визначення залежностей чи зв'язків між змінними. У реальному житті змінні пов'язані один з одним. Наприклад, у маркетингу кількість грошей, вкладених у рекламу, впливає на обсяги продажу; у медичних дослідженнях доза лікарського препаратувпливає ефект; у текстильному виробництві якість фарбування тканини залежить від температури, вологості та ін. параметрів; у металургії якість сталі залежить від спеціальних добавок тощо. Знайти залежності в даних та використовувати їх у своїх цілях – завдання аналізу даних.

Припустимо, ви спостерігаєте значення пари змінних X та Y і хочете знайти залежність між ними. Наприклад:

X – кількість відвідувачів інтернет магазину, Y – обсяг продажів;

X – діагональ плазмової панелі, Y – ціна;

X - ціна купівлі акції, Y - ціна продажу;

X – вартість алюмінію на Лондонській біржі, Y – обсяги продажів;

X – кількістю проривів на нафтопроводах, Y – величина втрат;

X – «вік» літака, Y – витрати на його ремонт;

X - торгівельна площа, Y – оборот магазину;

X – дохід, Y – споживання тощо.

Змінна X зазвичай носить назву незалежної змінної (англ. independent variable), змінна Y називається залежною змінною (англ. dependent variable). Іноді змінну X називають предиктором, змінну Y - відгуком.



Ми хочемо визначити саме залежність від X або передбачити, якими будуть значення Y за даних значеннях X.У даному випадкуми спостерігаємо значення X та відповідні їм значення Y. Завдання полягає в тому, щоб побудувати модель, що дозволяє за значеннями X, відмінними від спостережуваних, визначити Y.У статистиці подібні завдання вирішуються у межах регресійного аналізу.

Існують різні регресійні моделі, що визначаються вибором функції f(x 1 ,x 2 ,...,x m):

1) Проста лінійна регресія

2) Множинна регресія

3) Поліноміальна регресія

Коефіцієнти називаються параметрами регресії.

Основна особливість регресійного аналізу: за його допомогою можна отримати конкретні відомості про те, яку форму та характер має залежність між досліджуваними змінними.

Послідовність етапів регресійного аналізу

1. Формулювання завдання. На цьому етапі формуються попередні гіпотези щодо залежності досліджуваних явищ.

2. Визначення залежних та незалежних (пояснюючих) змінних.

3. Збір статистичних даних. Дані мають бути зібрані для кожної із змінних, включених до регресійної моделі.

4. Формулювання гіпотези про форму зв'язку (просте або множинне, лінійне або нелінійне).

5. Визначення функції регресії (полягає у розрахунку чисельних значень параметрів рівняння регресії)

6. Оцінка точності регресійного аналізу.

7. Інтерпретація одержаних результатів. Отримані результати регресійного аналізу порівнюються із попередніми гіпотезами. Оцінюється коректність та правдоподібність отриманих результатів.

8. Пророцтво невідомих значень залежною змінною.

За допомогою регресійного аналізу можливе вирішення завдання прогнозування та класифікації. Прогнозні значення обчислюються шляхом підстановки рівняння регресії параметрів значень пояснюючих змінних. Розв'язання задачі класифікації здійснюється таким чином: лінія регресії ділить все безліч об'єктів на два класи, і та частина множини, де значення функції більше за нуль, належить до одного класу, а та, де воно менше нуля, - до іншого класу.

Основні завдання регресійного аналізу:встановлення форми залежності, визначення функції регресії, оцінка невідомих значень залежної змінної.

Лінійна регресія

Лінійна регресіязводиться до знаходження рівняння виду

Або . (1.1)

x- називається незалежною змінною чи предиктором.

Y- Залежна змінна або змінна відгуку. Це значення, яке ми очікуємо для y(у середньому), якщо ми знаємо величину x, тобто. це «передбачене значення y»

· a– вільний член (перетин) лінії оцінки; це значення Y, коли x=0(Рис.1).

· b- Кутовий коефіцієнт або градієнт оціненої лінії; вона є величиною, на яку Yзбільшується в середньому, якщо ми збільшуємо xодну одиницю.

· aі bназивають коефіцієнтами регресії оціненої лінії, хоча цей термін часто використовують тільки для b.

· e- випадкові величини, що не спостерігаються, із середнім 0, або їх ще називають помилками спостережень, передбачається, що помилки не кореловані між собою.

Рис.1. Лінія лінійної регресії, що показує перетин a і кутовий коефіцієнт b (величину зростання Y при збільшенні x на одну одиницю)

Рівняння виду дозволяє за заданими значеннями фактора хмати теоретичні значення результативної ознаки, підставляючи в нього фактичні значення фактора х. На графіку теоретичні значення становлять лінію регресії.

У більшості випадків (якщо не завжди) спостерігається певний розкид спостережень щодо регресійної прямої.

Теоретичною лінією регресіїназивається та лінія, навколо якої групуються точки кореляційного поля та яка вказує основний напрямок, основну тенденцію зв'язку.

p align="justify"> Важливим етапом регресійного аналізу є визначення типу функції, за допомогою якої характеризується залежність між ознаками. Головною основою вибору виду рівняння повинен бути змістовний аналіз природи досліджуваної залежності, її механізму.

Для знаходження параметрів аі bрівняння регресії використовуємо метод найменших квадратів (МНК). При застосуванні МНК для знаходження такої функції, яка найкраще відповідає емпіричним даним, вважається, що сума квадратів відхилень (залишок) емпіричних точок від теоретичної лінії регресії має бути мінімальною величиною.

Підганяння оцінюється, розглядаючи залишки (вертикальна відстань кожної точки від лінії, наприклад, залишок = спостережуваному y- Передбачений y, Мал. 2).

Лінію кращого припасування вибирають так, щоб сума квадратів залишків була мінімальною.

Мал. 2. Лінія лінійної регресії із зображеними залишками (вертикальні пунктирні лінії) кожної точки.

Після нескладних перетворень отримаємо систему нормальних рівнянь способу найменших квадратів визначення величини параметрів aі bрівняння прямолінійного кореляційного зв'язку за емпіричними даними:

. (1.2)

Вирішуючи цю системурівнянь щодо b, Отримаємо наступну формулу для визначення цього параметра:

(1.3)

Де і – середні значення y, x.

Значення параметра аотримаємо, розділивши обидві частини першого рівняння у цій системі на n:

Параметр bу рівнянні називають коефіцієнтом регресії. За наявності прямої кореляційної залежності коефіцієнт регресії має позитивне значення, а разі зворотної залежності коефіцієнт регресії – негативний.

Якщо знак при коефіцієнті регресії - позитивний, зв'язок залежної змінної з незалежною буде позитивним.

Якщо знак при коефіцієнті регресії - негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

Коефіцієнт регресії показує, наскільки в середньому змінюється величина результативної ознаки yпри зміні факторної ознаки хна одиницю, геометричний коефіцієнт регресії являє собою нахил прямої лінії, що зображує рівняння кореляційної залежності щодо осі х(Для рівняння ).

Через лінійне співвідношення і ми очікуємо, що змінюється, у міру того, як змінюється, і називаємо це варіацією, яка обумовлена ​​або пояснюється регресією. Залишкова варіація має бути якнайменше.

Якщо це, то більшість варіації пояснюватиметься регресією, а точки лежатимуть близько до лінії регресії, тобто. лінія добре відповідає даним.

Кількісною характеристикоюступеня лінійної залежності між випадковими величинами X та Y є коефіцієнт кореляції r ( Показник тісноти зв'язку між двома ознаками ) .

Коефіцієнт кореляції:

де x – значення факторної ознаки;

y – значення результативної ознаки;

n – число пар даних.


Рис.3 - Варіанти розташування «хмари» крапок

Якщо коефіцієнт кореляції r=1, то між Xі Yмає місце функціональна лінійна залежність, всі крапки (x i, y i)лежатимуть на прямій.

Якщо коефіцієнт кореляції r=0 (r~0), то кажуть, що Xі Yнекорельовані, тобто. між ними немає лінійної залежності.

Зв'язок між ознаками (за шкалою Чеддока) може бути сильним, середнім і слабким . Тісноту зв'язку визначають за величиною коефіцієнта кореляції, який може набувати значення від -1 до +1 включно. Критерії оцінки тісноти зв'язку показані на рис. 1.

Мал. 4. Кількісні критерії оцінки тісноти зв'язку

Будь-яка залежність між змінними має дві важливі властивості: величину і надійність. Чим сильніша залежність між двома змінними, тим більша величина залежності і тим легше передбачити значення однієї змінної за значенням іншої змінної.Величину залежності легше виміряти, ніж надійність.

Надійність залежності не менш важлива за її величину. Це властивість пов'язані з представництвом досліджуваної вибірки. Надійність залежності характеризує, наскільки ймовірно, що ця залежність знову буде знайдена на інших даних.

Зі зростанням величини залежності змінних її надійність зазвичай зростає.

Долю загальної дисперсії, яка пояснюється регресією називають коефіцієнтом детермінаціїзазвичай виражають через відсоткове співвідношення і позначають R 2(У парній лінійній регресії це величина r 2, квадрат коефіцієнта кореляції), дозволяє суб'єктивно оцінити якість рівняння регресії.

Коефіцієнт детермінації вимірює частку розкиду щодо середнього значення, яку пояснює побудована регресія. Коефіцієнт детермінації лежить у межах від 0 до 1. Чим ближче коефіцієнт детермінації до 1, тим краще регресія «пояснює» залежність у даних, значення близьке до нуля, означає погану якість побудованої моделі. Коефіцієнт детермінації може максимально наближатися до 1 якщо всі предиктори різні.

Різниця є відсотком дисперсії, який не можна пояснити регресією.

Множинна регресія

Множинна регресія застосовується у ситуаціях, коли з безлічі факторів, що впливають на результативну ознаку, не можна виділити один домінуючий фактор і необхідно враховувати вплив кількох факторів. Наприклад, обсяг випуску продукції визначається величиною основних та оборотних коштів, Чисельністю персоналу, рівнем менеджменту і т. д., рівень попиту залежить не тільки від ціни, а й від наявних у населення коштів.

Основна мета множинної регресії - побудувати модель з декількома факторами і визначити при цьому вплив кожного фактора окремо, а також їх спільний вплив на показник, що вивчається.

Множинною регресією називають рівняння зв'язку з кількома незалежними змінними:

Під час навчання студенти часто стикаються з різноманітними рівняннями. Одне з них – рівняння регресії – розглянуто у цій статті. Такий тип рівняння використовується спеціально для опису характеристики зв'язку між математичними параметрами. Цей видрівностей використовують у статистиці та економетриці.

Визначення поняття регресії

У математиці під регресією мається на увазі певна величина, що описує залежність середнього значення сукупності даних від значень іншої величини. Рівняння регресії показує як функцію певної ознаки середнє значення іншої ознаки. Функція регресії має вигляд простого рівняння у = х, в якому у виступає залежною змінною, а х - незалежною (ознака-фактор). Фактично регресія виражається як у = f(x).

Які бувають типи зв'язків між змінними

Загалом, виділяється два протилежних типувзаємозв'язку: кореляційна та регресійна.

Перша характеризується рівноправністю умовних змінних. У разі достовірно невідомо, яка змінна залежить від інший.

Якщо ж між змінними немає рівноправності й умовах сказано, яка змінна пояснює, яка - залежна, можна говорити про наявність зв'язку другого типу. Для того, щоб побудувати рівняння лінійної регресії, необхідно буде з'ясувати, який тип зв'язку спостерігається.

Види регресій

На сьогоднішній день виділяють 7 різноманітних видів регресії: гіперболічна, лінійна, множинна, нелінійна, парна, зворотна, логарифмічно лінійна.

Гіперболічна, лінійна та логарифмічна

Рівняння лінійної регресії застосовують у статистиці для чіткого пояснення параметрів рівняння. Воно виглядає як у = с+т*х+Е. Гіперболічне рівняння має вигляд правильної гіперболи у = с + т / х + Е. Логарифмічно лінійне рівняннявиражає взаємозв'язок за допомогою логарифмічної функції: In у = In з + т * In x + In E.

Множинна та нелінійна

Два більше складних видурегресії - це множинна та нелінійна. Рівняння множинної регресії виражається функцією у = f(х 1 х 2 ... х с) + E. У цій ситуації у виступає залежною змінною, а х - що пояснює. Змінна Е – стохастична, вона включає вплив інших факторів у рівнянні. Нелінійне рівняннярегресії трохи суперечливо. З одного боку, щодо врахованих показників воно не лінійне, а з іншого боку, у ролі оцінки показників воно є лінійним.

Зворотні та парні види регресій

Зворотня - це такий вид функції, який необхідно перетворити на лінійний вигляд. У традиційних прикладних програмах вона має вигляд функції у = 1/с + т*х+Е. Парне рівняння регресії демонструє взаємозв'язок між даними як функції у = f(x) + Е. Так само, як і в інших рівняннях, у залежить від х, а Е - стохастичний параметр.

Поняття кореляції

Це показник, що демонструє існування взаємозв'язку двох явищ чи процесів. Сила взаємозв'язку виявляється як коефіцієнт кореляції. Його значення коливається у межах інтервалу [-1;+1]. Негативний показник говорить про наявність зворотнього зв'язку, Позитивний - про прямий. Якщо коефіцієнт набуває значення, що дорівнює 0, то взаємозв'язку немає. Чим ближче значеннядо 1 – тим сильніший зв'язок між параметрами, чим ближче до 0 – тим слабше.

Методи

Кореляційні параметричні методи можуть оцінити тісноту взаємозв'язку. Їх застосовують з урахуванням оцінки розподілу вивчення параметрів, підпорядковуються закону нормального розподілу.

Параметри рівняння лінійної регресії необхідні ідентифікації виду залежності, функції регресійного рівняння та оцінювання показників обраної формули взаємозв'язку. Як метод ідентифікації зв'язку використовується поле кореляції. Для цього всі наявні дані необхідно зобразити графічно. У прямокутній двовимірній системі координат необхідно нанести всі відомі дані. Так утворюється поле кореляції. Значення описуючого чинника відзначаються вздовж осі абсцис, тоді як значення залежного - вздовж осі ординат. Якщо між параметрами є функціональна залежність, вони вишиковуються у вигляді лінії.

Якщо коефіцієнт кореляції таких даних буде менше 30 %, можна говорити про практично повну відсутність зв'язку. Якщо він знаходиться між 30% і 70%, це говорить про наявність зв'язків середньої тісноти. 100% показник - свідчення функціонального зв'язку.

Нелінійне рівняння регресії як і, як і лінійне, необхідно доповнювати індексом кореляції (R).

Кореляція для множинної регресії

Коефіцієнт детермінації є показником квадрата множинної кореляції. Він говорить про тісноті взаємозв'язку представленого комплексу показників з ознакою, що досліджується. Він може говорити про характер впливу параметрів на результат. Рівняння множинної регресії оцінюють за допомогою цього показника.

Щоб обчислити показник множинної кореляції, необхідно розрахувати його індекс.

Метод найменших квадратів

Цей метод є способом оцінювання факторів регресії. Його суть полягає у мінімізуванні суми відхилень у квадраті, отриманих внаслідок залежності фактора від функції.

Парне лінійне рівняння регресії можна оцінити з допомогою такого методу. Цей тип рівнянь використовують у разі виявлення між показниками парної лінійної залежності.

Параметри рівнянь

Кожен параметр функції лінійної регресії несе певний зміст. Парне лінійне рівняння регресії містить два параметри: с і т. Параметр т демонструє середню зміну кінцевого показника функції у, за умови зменшення (збільшення) змінної х на одну умовну одиницю. Якщо змінна х – нульова, то функція дорівнює параметру с. Якщо ж змінна х не нульова, то фактор не несе в собі економічний сенс. Єдиний вплив на функцію має знак перед фактором с. Якщо там мінус, то можна сказати про уповільнену зміну результату порівняно з фактором. Якщо там плюс, то це свідчить про прискорену зміну результату.

Кожен параметр, що змінює значення рівняння регресії, можна виразити через рівняння. Наприклад, фактор с має вигляд с = y - тх.

Згруповані дані

Бувають такі умови завдання, у яких вся інформація групується за ознакою x, але для певної групи вказуються відповідні середні значення залежного показника. У разі середні значення характеризують, як змінюється показник, залежить від х. Таким чином, згрупована інформація допомагає знайти рівняння регресії. Її використовують як аналіз взаємозв'язків. Однак такий метод має свої недоліки. На жаль, середні показники досить часто зазнають зовнішніх коливань. Дані коливання є відображенням закономірності взаємозв'язку, вони лише маскують її «шум». Середні показники демонструють закономірності взаємозв'язку набагато гірше, ніж рівняння лінійної регресії. Однак їх можна застосовувати у вигляді бази для пошуку рівняння. Перемножуючи чисельність окремої сукупності на відповідну середню можна отримати суму в межах групи. Далі необхідно підбити всі отримані суми і знайти кінцевий показник. Трохи складніше робити розрахунки з показником суми ху. Якщо інтервали малі, можна умовно взяти показник х для всіх одиниць (у межах групи) однаковим. Слід перемножити його із сумою у, щоб дізнатися суму творів x на у. Далі всі суми підбиваються разом і виходить загальна сума ху.

Множинне парне рівняння регресії: оцінка важливості зв'язку

Як розглядалося раніше, множинна регресія має функцію виду у = f (x 1 x 2 ... x m) + E. Найчастіше таке рівняння використовують для вирішення проблеми попиту та пропозиції на товар, відсоткового доходу за викупленими акціями, вивчення причин та виду функції витрат виробництва. Її також активно застосовують у найрізноманітніших макроекономічних дослідженнях і розрахунках, а на рівні мікроекономіки таке рівняння застосовують трохи рідше.

Основним завданням множинної регресії є побудова моделі даних, що містять величезну кількість інформації, для того щоб надалі визначити, який вплив має кожен із факторів окремо та в їхній загальній сукупності на показник, який необхідно змоделювати, та його коефіцієнти. Рівняння регресії може набувати найрізноманітніших значень. При цьому для оцінки взаємозв'язку зазвичай використовується два типи функцій: лінійна та нелінійна.

Лінійна функція зображується у формі такого взаємозв'язку: у = а 0 + a 1 х 1 + а 2 х 2 + + + m x m . У цьому а2, a m , вважаються коефіцієнтами «чистої» регресії. Вони необхідні для характеристики середньої зміни параметра зі зміною (зменшенням або збільшенням) кожного відповідного параметра х на одну одиницю, з умовою стабільного значення інших показників.

Нелінійні рівняння мають, наприклад, вигляд статечної функціїу = ах 1 b1 х 2 b2 ... x m bm. У разі показники b 1 , b 2 ..... b m - називаються коефіцієнтами еластичності, демонструють, як зміниться результат (на скільки %) зі збільшенням (зменшенні) відповідного показника x 1 % і за стабільному показнику інших чинників.

Які фактори необхідно враховувати при побудові множинної регресії

Для того, щоб правильно побудувати множинну регресію, необхідно з'ясувати, які саме чинники слід звернути особливу увагу.

Необхідно мати певне розуміння природи взаємозв'язків між економічними факторами та модельованим. Чинники, які потрібно буде включати, повинні відповідати таким признакам:

  • Повинні бути підвладні кількісному виміру. Для того щоб використовувати фактор, який описує якість предмета, у будь-якому випадку слід надати йому кількісну форму.
  • Не повинна бути інтеркореляція факторів, або функціональний взаємозв'язок. Такі дії найчастіше призводять до незворотних наслідків – система звичайних рівняньстає не обумовленою, а це спричиняє її ненадійність і нечіткість оцінок.
  • У разі існування величезного показника кореляції немає способу для з'ясування ізольованого впливу факторів на остаточний результат показника, отже коефіцієнти стають неінтерпретованими.

Методи побудови

Існує безліч методів і способів, які пояснюють, яким чином можна вибрати фактори для рівняння. Проте ці методи будуються на відборі коефіцієнтів з допомогою показника кореляції. Серед них виділяють:

  • Спосіб виключення.
  • Спосіб включення.
  • Покроковий аналіз регресії.

Перший метод має на увазі відсів усіх коефіцієнтів із сукупного набору. Другий метод включає введення множини додаткових факторів. Ну а третій – відсів факторів, які були раніше застосовані для рівняння. Кожен із цих методів має право на існування. Вони мають свої плюси та мінуси, але вони всі по-своєму можуть вирішити питання відсіву непотрібних показників. Як правило, результати, одержані кожним окремим методом, досить близькі.

Методи багатовимірного аналізу

Такі способи визначення факторів базуються на розгляді окремих поєднаньвзаємопов'язаних ознак. Вони включають дискримінантний аналіз, розпізнавання видів, метод основних компонентів і аналіз кластерів. Крім того, існує факторний аналіз, однак він з'явився внаслідок розвитку способу компонент. Усі вони застосовуються у певних обставинах, за наявності певних умов та факторів.



Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.