Основи лінійної регресії. Проста лінійна регресія

Пакет MS Excel дозволяє при побудові рівняння лінійної регресії більшу частину роботи зробити дуже швидко. Важливо зрозуміти, як інтерпретувати отримані результати. Для побудови моделі регресії необхідно вибрати пункт Сервіс\Аналіз даних\Регресія (в Excel 2007 цей режим знаходиться в блоці Дані/Аналіз даних/Регресія). Потім отримані результати скопіювати блок для аналізу.

Вихідні дані:

Результати аналізу

Включати у звіт
Розрахунок параметрів рівняння регресії
Теоретичний матеріал
Рівняння регресії у стандартному масштабі
Множинний коефіцієнт кореляції (Індекс множинної кореляції)
Приватні коефіцієнти еластичності
Порівняльна оцінка впливу аналізованих факторів на результативну ознаку (d – коефіцієнти роздільної детермінації)

Перевірка якості збудованого рівняння регресії
Значимість коефіцієнтів регресії b i (t-статистика. критерій Стьюдента)
Значення рівняння загалом (F-статистика. Критерій Фішера). Коефіцієнт детермінації
Приватні F-критерії

Рівень значущості 0.005 0.01 0.025 0.05 0.1 0.25 0.4

Метод лінійної регресії дозволяє нам описувати пряму лінію, що максимально відповідає ряду впорядкованих пар (x, y). Рівняння для прямої лінії, відоме як лінійне рівняння, представлено нижче:

ŷ - очікуване значення у при заданому значенні х,

x - незалежна змінна,

a - відрізок на осі y для прямої лінії,

b - нахил прямої лінії.

На малюнку нижче це поняття представлено графічно:

На малюнку вище показана лінія, описана рівнянням = 2+0.5х. Відрізок на осі у це точка перетину лінією осі у; у разі а = 2. Нахил лінії, b, відношення підйому лінії до довжини лінії, має значення 0.5. Позитивний нахил означає, що лінія піднімається зліва направо. Якщо b = 0, лінія горизонтальна, а це означає, що між залежною та незалежною змінними немає жодного зв'язку. Інакше кажучи, зміна значення x впливає значення y.

Часто плутають ŷ та у. На графіку показано 6 упорядкованих пар точок та лінія, відповідно до даного рівняння

На цьому малюнку показана точка, що відповідає впорядкованій парі х = 2 і у = 4. Зверніть увагу, що очікуване значення у відповідно до лінії при х= 2 є ŷ. Ми можемо підтвердити це за допомогою наступного рівняння:

ŷ = 2 + 0.5х = 2 +0.5 (2) = 3.

Значення у являє собою фактичну точку, а значення - це очікуване значення у з використанням лінійного рівняння при заданому значенні х.

Наступний крок - визначити лінійне рівняння, що максимально відповідає набору впорядкованих пар, про це ми говорили в попередній статті, де визначали вид рівняння по .

Використання Excel для визначення лінійної регресії

Для того, щоб скористатися інструментом регресійного аналізу, вбудованого в Excel, необхідно активувати надбудову Пакет аналізу. Знайти її можна, перейшовши вкладкою Файл -> Параметри(2007+), у діалоговому вікні, що з'явилося. ПараметриExcelпереходимо у вкладку Надбудови.У полі Управлінняобираємо НадбудовиExcelі клацаємо Перейти.У вікні ставимо галочку навпроти Пакет аналізу,тиснемо ОК.

У вкладці Даніу групі Аналізз'явиться нова кнопка Аналіз даних.

Щоб продемонструвати роботу надбудови, скористаємося даними, де хлопець та дівчина ділять столик у ванній кімнаті. Введіть дані нашого прикладу з ванною в стовпці А та В чистого листа.

Перейдіть у вкладку Дані,у групі Аналізклацніть Аналіз даних.У вікні, що з'явилося Аналіз данихвиберіть Регресія, як показано на малюнку, і натисніть кнопку ОК.

Встановіть необхідні параметри регресії у вікні Регресія, як показано на малюнку:

Клацніть ОК.На малюнку нижче показано отримані результати:

Ці результати відповідають тим, які ми отримали шляхом самостійних обчислень у .

Регресійний аналізє одним із найбільш затребуваних методів статистичного дослідження. З його допомогою можна встановити ступінь впливу незалежних величинна залежну змінну. У функціоналі Microsoft Excelє інструменти, призначені щодо такого аналізу. Давайте розберемо, що вони являють собою і як ними користуватися.

Але для того, щоб використовувати функцію, що дозволяє провести регресійний аналіз, перш за все, потрібно активувати Пакет аналізу. Тільки тоді необхідні для цієї процедури інструменти з'являться на Стрічці Ексель.


Тепер, коли ми перейдемо у вкладку «Дані»на стрічці в блоці інструментів «Аналіз»ми побачимо нову кнопку – «Аналіз даних».

Види регресійного аналізу

Існує кілька видів регресій:

  • параболічна;
  • статечна;
  • логарифмічна;
  • експонентна;
  • показова;
  • гіперболічна;
  • лінійна регресія.

Про виконання останнього виду регресійного аналізу в Екселі ми докладніше поговоримо далі.

Лінійна регресія у програмі Excel

Внизу, як приклад, представлена ​​таблиця, в якій зазначено середньодобову температуру повітря на вулиці, та кількість покупців магазину за відповідний робочий день. Давайте з'ясуємо за допомогою регресійного аналізу, як саме погодні умовияк температури повітря можуть вплинути на відвідуваність торгового закладу.

Загальне рівняння регресії лінійного вигляду має такий вигляд: У = а0 + а1х1 +…+акхк. У цій формулі Yозначає змінну, вплив чинників яку ми намагаємося вивчити. У нашому випадку це кількість покупців. Значення x– це різні фактори, що впливають на змінну. Параметри aє коефіцієнтами регресії. Тобто саме вони визначають значущість того чи іншого чинника. Індекс kпозначає загальна кількістьцих факторів.


Розбір результатів аналізу

Результати регресійного аналізу виводяться у вигляді таблиці там, яке зазначено в настройках.

Одним із основних показників є R-квадрат. У ньому вказується якість моделі. У нашому випадку даний коефіцієнтдорівнює 0,705 чи близько 70,5%. Це прийнятний рівень якості. Залежність менше ніж 0,5 є поганою.

Ще один важливий показникрозташований у осередку на перетині рядка «Y-перетин»та стовпця «Коефіцієнти». Тут вказується яке значення буде у Y, а нашому випадку, це кількість покупців, за всіх інших чинниках рівних нулю. У цій таблиці це значення дорівнює 58,04.

Значення на перетині граф «Змінна X1»і «Коефіцієнти»показує рівень залежності Y від X. У нашому випадку це рівень залежності кількості клієнтів магазину від температури. Коефіцієнт 1,31 вважається досить високим показникомвпливу.

Як бачимо, за допомогою програми Microsoft Excel досить легко скласти таблицю регресійного аналізу. Але працювати з отриманими на виході даними і розуміти їх суть зможе лише підготовлена ​​людина.

Поняття регресії. Залежність між змінними величинами xі yможе бути описана різними способами. Зокрема, будь-яку форму зв'язку можна виразити рівнянням загального виду , де yрозглядається як залежна змінна, або функціївід іншої – незалежної змінної величини x, яка називається аргументом. Відповідність між аргументом та функцією може бути задана таблицею, формулою, графіком тощо. Зміна функції в залежності від зміни одного або кількох аргументів називається регресією. Всі засоби, які застосовуються для опису кореляційних зв'язків, становить зміст регресійного аналізу.

Для вираження регресії служать кореляційні рівняння, або рівняння регресії, емпіричні та теоретично обчислені ряди регресії, їх графіки, звані лініями регресії, а також коефіцієнти лінійної та нелінійної регресії.

Показники регресії виражають кореляційний зв'язок двосторонньо, враховуючи зміну усереднених значень ознаки Yпри зміні значень x iознаки X, і, навпаки, показують зміну середніх значень ознаки Xза зміненими значеннями y iознаки Y. Виняток становлять часові ряди, або ряди динаміки, що показують зміну ознак у часі. Регресія таких лав є односторонньою.

Різних форм та видів кореляційних зв'язків багато. Завдання зводиться до того, щоб у кожному конкретному випадку виявити форму зв'язку та висловити її відповідним кореляційним рівнянням, що дозволяє передбачити можливі зміни однієї ознаки Yна підставі відомих змін іншого X, пов'язаного з першим кореляційним.

12.1 Лінійна регресія

Рівняння регресії.Результати спостережень, проведених над тим чи іншим біологічним об'єктом за кореляційно пов'язаними ознаками xі y, можна зобразити точками на площині, побудувавши систему прямокутних координат. В результаті виходить деяка діаграма розсіювання, що дозволяє судити про форму і тісноту зв'язку між ознаками, що варіюють. Досить часто цей зв'язок виглядає у вигляді прямої або може бути апроксимований прямою лінією.

Лінійна залежність між змінними xі yописується рівнянням загального виду , де a, b, c, d,… – параметри рівняння, що визначають співвідношення між аргументами x 1 , x 2 , x 3 , …, x mта функцій.

У практиці враховують не всі можливі, а лише деякі аргументи, у найпростішому випадку – лише один:

У рівнянні лінійної регресії (1) a- вільний член, а параметр bвизначає нахил лінії регресії щодо осей прямокутних координат. В аналітичній геометрії цей параметр називають кутовим коефіцієнтом, а в біометрії – коефіцієнтом регресії. Наочне уявлення про цей параметр і положення ліній регресії Yпо Xі Xпо Yу системі прямокутних координат дає рис.1.

Мал. 1 Лінії регресії Y X і X Y у системі

прямокутних координат

Лінії регресії, як показано на рис.1, перетинаються в точці О (,), що відповідає середнім арифметичним значенням кореляційно пов'язаних один з одним ознак Yі X. При побудові графіків регресії по осі абсцис відкладають значення незалежної змінної X, а по осі ординат – значення залежної змінної, або функції Y. Лінія АВ, що проходить через точку О(,) відповідає повній (функціональній) залежності між змінними величинами Yі Xколи коефіцієнт кореляції . Чим сильніший зв'язок між Yі X, Тим ближчі лінії регресії до АВ, і, навпаки, чим слабкіший зв'язок між цими величинами, тим більше віддаленими виявляються лінії регресії від АВ. За відсутності зв'язок між ознаками лінії регресії виявляються під прямим кутом стосовно друг до друга і .

Оскільки показники регресії виражають кореляційний зв'язок двосторонньо, рівняння регресії (1) слід записувати так:

За першою формулою визначають усереднені значення за зміни ознаки Xна одиницю міри, по другий - усереднені значення при зміні на одиницю міри ознаки Y.

Коефіцієнт регресії.Коефіцієнт регресії показує, наскільки в середньому величина однієї ознаки yзмінюється за зміни на одиницю заходу іншого, кореляційно пов'язаного з Yознаки X. Цей показник визначають за формулою

Тут значення sмножать на розміри класових інтервалів λ , якщо їх знаходили за варіаційними рядами або кореляційними таблицями.

Коефіцієнт регресії можна обчислити минаючи розрахунок середніх квадратичних відхилень s yі s xза формулою

Якщо ж коефіцієнт кореляції невідомий, коефіцієнт регресії визначають так:

Зв'язок між коефіцієнтами регресії та кореляції.Порівнюючи формули (11.1) (тема 11) і (12.5), бачимо: в їх чисельнику одна й та сама величина, що вказує на наявність зв'язку між цими показниками. Цей зв'язок виражається рівністю

Таким чином, коефіцієнт кореляції дорівнює середній геометричній з коефіцієнтів b yxі b xy. Формула (6) дозволяє, по-перше, за відомими значеннями коефіцієнтів регресії b yxі b xyвизначати коефіцієнт регресії R xy, а по-друге, перевіряти правильність розрахунку цього показника кореляційного зв'язку R xyміж варіюючими ознаками Xі Y.

Як і коефіцієнт кореляції, коефіцієнт регресії характеризує лише лінійний зв'язок і супроводжується знаком плюс при позитивному та знаком мінус при негативному зв'язку.

Визначення параметрів лінійної регресії.Відомо, що сума квадратів відхилень варіант x iвід середньої є величина найменша, тобто. Ця теорема становить основу методу найменших квадратів. Щодо лінійної регресії [див. формулу (1)] на вимогу цієї теореми задовольняє деяка система рівнянь, званих нормальними:

Спільне вирішення цих рівнянь щодо параметрів aі bпризводить до наступних результатів:

;

;

, звідки в.

Враховуючи двосторонній характер зв'язку між змінними Yі Xформулу для визначення параметра аслід висловити так:

та . (7)

Параметр b, або коефіцієнт регресії, визначають за такими формулами:

Побудова емпіричних рядів регресії.За наявності великої кількостіспостережень регресійний аналіз починається із побудови емпіричних рядів регресії. Емпіричний ряд регресіїутворюється шляхом обчислення за значеннями однієї варіюючої ознаки Xсередніх значень іншого, пов'язаного кореляційно з Xознаки Y. Іншими словами, побудова емпіричних рядів регресії зводиться до знаходження групових середніх і з відповідних значень ознак Y і X.

Емпіричний ряд регресії – це подвійний ряд чисел, які можна зобразити точками на площині, та був, з'єднавши ці точки відрізками прямий, отримати емпіричну лінію регресії. Емпіричні ряди регресії, особливо їх графіки, звані лініями регресіїдають наочне уявлення про форму і тісність кореляційної залежності між варіюючими ознаками.

Вирівнювання емпіричних рядів регресії.Графіки емпіричних рядів регресії виявляються, як правило, не такими, що плавно йдуть, а ламаними лініями. Це пояснюється тим, що поряд з головними причинами, що визначають загальну закономірність у мінливості ознак, що корелює, на їх величині позначається вплив численних другорядних причин, що викликають випадкові коливання вузлових точок регресії. Щоб виявити основну тенденцію (тренд) сполученої варіації корелюваних ознак, потрібно замінити ламані лінії на гладкі лінії регресії, що плавно йдуть. Процес заміни ламаних ліній на плавно йдуть вирівнюванням емпіричних рядіві ліній регресій.

Графічний спосіб вирівнювання.Це найпростіший спосіб, що не вимагає обчислювальної роботи. Його суть зводиться до наступного. Емпіричний ряд регресії зображують як графіка у системі прямокутних координат. Потім візуально намічаються середні точки регресії, якими з допомогою лінійки чи лекала проводять суцільну лінію. Недолік цього способу очевидний: він не виключає впливу індивідуальних властивостей дослідника на результати вирівнювання емпіричних ліній регресії. Тому в тих випадках, коли потрібно більше висока точністьпри заміні ламаних ліній регресії на плавно йдуть, використовують інші способи вирівнювання емпіричних рядів.

Спосіб ковзної середньої.Суть цього способу зводиться до послідовного обчислення середніх арифметичних двох або трьох сусідніх членів емпіричного ряду. Цей спосіб особливо зручний у тих випадках, коли емпіричний ряд представлений великою кількістю членів, так що втрата двох з них - крайніх, що неминуче при цьому способі вирівнювання, помітно не вплине на його структуру.

Метод найменших квадратів.Цей метод запропоновано на початку ХІХ століття А.М. Лежандром та незалежно від нього К. Гауссом. Він дозволяє найточніше вирівнювати емпіричні ряди. Цей метод, як було показано вище, заснований на припущенні, що сума квадратів відхилень варіант x i від їх середньої є величина мінімальна, тобто. Звідси і назва методу, що застосовується не тільки в екології, а й у техніці. Метод найменших квадратів об'єктивний і універсальний, його застосовують у самих різних випадкахпри знайденні емпіричних рівнянь рядів регресії та визначенні їх властивостей.

p align="justify"> Вимога методу найменших квадратів полягає в тому, що теоретичні точки лінії регресії повинні бути отримані таким чином, щоб сума квадратів відхилень від цих точок для емпіричних спостережень y iбула мінімальною, тобто.

Обчислюючи відповідно до принципів математичного аналізу мінімум цього виразу та певним чином перетворюючи його, можна отримати систему так званих нормальних рівнянь, В яких невідомими величинами виявляються шукані параметри рівняння регресії, а відомі коефіцієнти визначаються емпіричними величинами ознак, зазвичай сумами їх значень та їх перехресних творів.

Множинна лінійна регресія.Залежність між кількома змінними величинами прийнято виражати рівнянням множинної регресії, яка може бути лінійноїі нелінійною. У найпростішому вигляді множинна регресія виражається рівнянням із двома незалежними змінними величинами ( x, z):

де a– вільний член рівняння; bі c- Параметри рівняння. Для знаходження параметрів рівняння (10) (за способом найменших квадратів) застосовують таку систему нормальних рівнянь:

Ряди динаміки. Вирівнювання рядів.Зміна ознак у часі утворює так звані тимчасові рядиабо ряди динаміки. Характерною особливістю таких рядів є те, що як незалежна змінна X тут завжди виступає фактор часу, а залежною Y – ознака, що змінюється. Залежно від рядів регресії залежність між змінними X і Y носить односторонній характер, оскільки чинник часу залежить від мінливості ознак. Незважаючи на зазначені особливості, ряди динаміки можна уподібнити до рядів регресії та обробляти їх одними і тими ж методами.

Як і ряди регресії, емпіричні ряди динаміки несуть на собі вплив не лише основних, а й численних другорядних (випадкових) факторів, що загасають ту. головну тенденціюу мінливості ознак, що мовою статистики називають трендом.

Аналіз рядів динаміки починається з виявлення форми тренду. Для цього часовий ряд зображують у вигляді лінійного графіка у системі прямокутних координат. При цьому по осі абсцис відкладають тимчасові точки (роки, місяці та інші одиниці часу), а по осі ординат – значення залежної змінної Y. За наявності лінійної залежності між змінними X та Y (лінійного тренду) для вирівнювання рядів динаміки способом найменших квадратів найбільш підходящим є рівняння регресії у вигляді відхилень членів ряду залежної змінної Y від середньої арифметичної низки незалежної змінної X:

Тут – параметр лінійної регресії.

Числові характеристики рядів динаміки.До основних узагальнюючих числових характеристик рядів динаміки відносять середню геометричнуі близьку до неї середню арифметичну величини. Вони характеризують середню швидкість, з якою змінюється величина залежної змінної за певні періоди часу:

Оцінкою мінливості членів низки динаміки служить середнє квадратичне відхилення. При виборі рівнянь регресії для опису рядів динаміки враховують форму тренду, яка може бути лінійною (або приведена до лінійної) та нелінійної. Про правильність вибору рівняння регресії зазвичай судять за подібністю емпірично спостережених і обчислених значень залежною змінною. Більш точним у вирішенні цього завдання є метод дисперсійного аналізу регресії (тема 12 п.4).

Кореляція рядів динаміки.Нерідко доводиться зіставляти динаміку тимчасових рядів, що паралельно йдуть, пов'язаних один з одним деякими загальними умовами, наприклад з'ясувати зв'язок між виробництвом сільськогосподарської продукції і зростанням поголів'я худоби за певний проміжок часу. У таких випадках характеристикою зв'язку між змінними X та Y служить коефіцієнт кореляції R xy (за наявності лінійного тренду).

Відомо, що тренд рядів динаміки, як правило, затушовується коливаннями членів ряду залежної змінної Y. Звідси виникає завдання двоякого роду: вимірювання залежності між рядами, що зіставляються, не виключаючи тренд, і вимірювання залежності між сусідніми членами одного і того ж ряду, виключаючи тренд. У першому випадку показником тісноти зв'язку між зіставлюваними рядами динаміки служить коефіцієнт кореляції(якщо зв'язок лінійний), у другому – коефіцієнт автокореляції. Ці показники мають різні значення, хоч і обчислюються за тими самими формулами (див. тему 11).

Неважко помітити, що на значенні коефіцієнта автокореляції позначається мінливість членів ряду залежної змінної: що менше члени ряду відхиляються від тренда, то вище коефіцієнт автокореляції, і навпаки.

У Excelє ще швидший та зручний спосібпобудувати графік лінійної регресії (і навіть основних видів нелінійних регресій, про що див. далі). Це можна зробити так:

1) виділити стовпці з даними Xі Y(Вони повинні розташовуватися саме в такому порядку!);

2) викликати Майстер діаграмта вибрати в групі ТипКрапковаі відразу натиснути Готово;

3) не скидаючи виділення з діаграми, вибрати пункт основного меню, що з'явилася Діаграма, в якому слід вибрати пункт Додати лінію тренду;

4) у діалоговому вікні, що з'явилося Лінія трендуу вкладці Типвибрати Лінійна;

5) у вкладці Параметриможна активувати перемикач Показувати рівняння на діаграміщо дозволить побачити рівняння лінійної регресії (4.4), в якому будуть обчислені коефіцієнти (4.5).

6) У цій же вкладці можна активувати перемикач Помістити на діаграму величину достовірності апроксимації (R^2). Ця величина є квадрат коефіцієнта кореляції (4.3) і показує, наскільки добре розраховане рівняння описує експериментальну залежність. Якщо R 2 близький до одиниці, теоретичне рівняння регресії добре описує експериментальну залежність (теорія добре узгоджується з експериментом), а якщо R 2 близький до нуля, це рівняння не придатне для опису експериментальної залежності (теорія не узгоджується з експериментом).

Внаслідок виконання описаних дій вийде діаграма з графіком регресії та її рівнянням.

§4.3. Основні види нелінійної регресії

Параболічна та поліноміальна регресії.

Параболічнійзалежністю величини Yвід величини Хназивається залежність, виражена квадратичною функцією(параболою 2-го порядку):

Це рівняння називається рівнянням параболічної регресії Yна Х. Параметри а, b, зназиваються коефіцієнтами параболічної регресії. Обчислення коефіцієнтів параболічної регресії завжди є громіздким, тому для розрахунків рекомендується використовувати комп'ютер.

Рівняння (4.8) параболічної регресії є окремим випадком більш загальної регресії, званої поліноміальної. поліноміальноїзалежністю величини Yвід величини Хназивається залежність, виражена поліномом n-ого порядку:

де числа а i (i=0,1,…, n) називаються коефіцієнтами поліноміальної регресії.

Ступенева регресія.

Ступіньноюзалежністю величини Yвід величини Хназивається залежність виду:

Це рівняння називається рівнянням статечної регресії Yна Х. Параметри аі bназиваються коефіцієнтами статечної регресії.

ln = ln a+b · ln x. (4.11)

Це рівняння визначає пряму на площині з логарифмічними координатними осями ln xі ln. Тому критерієм застосування статечної регресії служить вимога того, щоб точки логарифмів емпіричних даних ln x iта ln у iзнаходилися найближче до прямої (4.11).

Показова регресія.

Показовою(або експоненційною) залежністю величини Yвід величини Хназивається залежність виду:

(або). (4.12)

Це рівняння називається рівнянням показовою(або експоненційною) регресії Yна Х. Параметри а(або k) та bназиваються коефіцієнтами показової(або експоненційною) регресії.

Якщо прологарифмувати обидві частини рівняння статечної регресії, то вийде рівняння

ln = ln a+ln b(або ln = k x+ln b). (4.13)

Це рівняння описує лінійну залежністьлогарифма однієї величини ln від іншої величини x. Тому критерієм застосування статечної регресії служить вимога того, щоб точки емпіричних даних однієї величини x iта логарифми іншої величини ln у iзнаходилися найближче до прямої (4.13).

Логарифмічна регресія.

Логарифмічноюзалежністю величини Yвід величини Хназивається залежність виду:

=a+b · ln x. (4.14)

Це рівняння називається рівнянням логарифмічної регресії Yна Х. Параметри аі bназиваються коефіцієнтами логарифмічної регресії.

Гіперболічна регресія.

Гіперболічнійзалежністю величини Yвід величини Хназивається залежність виду:

Це рівняння називається рівнянням гіперболічної регресії Yна Х. Параметри аі bназиваються коефіцієнтами гіперболічної регресіїта визначаються методом найменших квадратів. Застосування цього методу призводить до формул:

У формулах (4.16-4.17) підсумовування проводиться за індексом iвід одиниці до кількості спостережень n.

На жаль, у Excelнемає функції, що обчислюють коефіцієнти гіперболічної регресії. У тих випадках, коли свідомо не відомо, що вимірювані величини пов'язані зворотною пропорційністю, рекомендується замість рівняння гіперболічної регресії шукати рівняння статечної регресії, так Excelє процедура її знаходження. Якщо між вимірюваними величинами передбачається гіперболічна залежність, то коефіцієнти її регресії доведеться обчислювати за допомогою допоміжних розрахункових таблиць і операцій підсумовування за формулами (4.16-4.17).



Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.