Основи лінійної регресії. Кореляція та регресія

Поняття регресії. Залежність між змінними величинами xі yможе бути описана різними способами. Зокрема, будь-яку форму зв'язку можна виразити рівнянням загального виду , де yрозглядається як залежна змінна, або функціївід іншої – незалежної змінної величини x, яка називається аргументом. Відповідність між аргументом та функцією може бути задана таблицею, формулою, графіком тощо. Зміна функції в залежності від зміни одного або кількох аргументів називається регресією. Всі засоби, які застосовуються для опису кореляційних зв'язків, становить зміст регресійного аналізу.

Для вираження регресії служать кореляційні рівняння, або рівняння регресії, емпіричні та теоретично обчислені ряди регресії, їх графіки, звані лініями регресії, а також коефіцієнти лінійної і не лінійної регресії.

Показники регресії виражають кореляційний зв'язок двосторонньо, враховуючи зміну усереднених значень ознаки Yпри зміні значень x iознаки X, і, навпаки, показують зміну середніх значень ознаки Xза зміненими значеннями y iознаки Y. Виняток становлять часові ряди, або ряди динаміки, що показують зміну ознак у часі. Регресія таких лав є односторонньою.

Різних форм та видів кореляційних зв'язків багато. Завдання зводиться до того, щоб у кожному конкретному випадку виявити форму зв'язку та висловити її відповідним кореляційним рівнянням, що дозволяє передбачити можливі зміни однієї ознаки Yна підставі відомих змін іншого X, пов'язаного з першим кореляційним.

12.1 Лінійна регресія

Рівняння регресії.Результати спостережень, проведених над тим чи іншим біологічним об'єктом за кореляційно пов'язаними ознаками xі y, можна зобразити точками на площині, побудувавши систему прямокутних координат. В результаті виходить деяка діаграма розсіювання, що дозволяє судити про форму і тісноту зв'язку між ознаками, що варіюють. Досить часто цей зв'язок виглядає у вигляді прямої або може бути апроксимований прямою лінією.

Лінійна залежність між змінними xі yописується рівнянням загального виду , де a, b, c, d,… – параметри рівняння, що визначають співвідношення між аргументами x 1 , x 2 , x 3 , …, x mта функцій.

У практиці враховують не всі можливі, а лише деякі аргументи, у найпростішому випадку – лише один:

У рівнянні лінійної регресії (1) a- вільний член, а параметр bвизначає нахил лінії регресії щодо осей прямокутних координат. В аналітичній геометрії цей параметр називають кутовим коефіцієнтом, а в біометрії – коефіцієнтом регресії. Наочне уявлення про цей параметр і положення ліній регресії Yпо Xі Xпо Yу системі прямокутних координат дає рис.1.

Мал. 1 Лінії регресії Y X і X Y у системі

прямокутних координат

Лінії регресії, як показано на рис.1, перетинаються в точці О (,), що відповідає середнім арифметичним значенням кореляційно пов'язаних один з одним ознак Yі X. При побудові графіків регресії по осі абсцис відкладають значення незалежної змінної X, а по осі ординат – значення залежної змінної, або функції Y. Лінія АВ, що проходить через точку О(,) відповідає повній (функціональній) залежності між змінними величинами Yі Xколи коефіцієнт кореляції . Чим сильніший зв'язок між Yі X, Тим ближчі лінії регресії до АВ, і, навпаки, чим слабкіший зв'язок між цими величинами, тим більше віддаленими виявляються лінії регресії від АВ. За відсутності зв'язок між ознаками лінії регресії виявляються під прямим кутом стосовно друг до друга і .

Оскільки показники регресії виражають кореляційний зв'язок двосторонньо, рівняння регресії (1) слід записувати так:

За першою формулою визначають усереднені значення за зміни ознаки Xна одиницю міри, по другий - усереднені значення при зміні на одиницю міри ознаки Y.

Коефіцієнт регресії.Коефіцієнт регресії показує, наскільки в середньому величина однієї ознаки yзмінюється за зміни на одиницю заходу іншого, кореляційно пов'язаного з Yознаки X. Цей показник визначають за формулою

Тут значення sмножать на розміри класових інтервалів λ , якщо їх знаходили за варіаційними рядами або кореляційними таблицями.

Коефіцієнт регресії можна обчислити минаючи розрахунок середніх квадратичних відхилень s yі s xза формулою

Якщо ж коефіцієнт кореляції невідомий, коефіцієнт регресії визначають так:

Зв'язок між коефіцієнтами регресії та кореляції.Порівнюючи формули (11.1) (тема 11) і (12.5), бачимо: в їх чисельнику одна й та сама величина, що вказує на наявність зв'язку між цими показниками. Цей зв'язок виражається рівністю

Таким чином, коефіцієнт кореляції дорівнює середній геометричній з коефіцієнтів b yxі b xy. Формула (6) дозволяє, по-перше, за відомими значеннями коефіцієнтів регресії b yxі b xyвизначати коефіцієнт регресії R xy, а по-друге, перевіряти правильність розрахунку цього показника кореляційного зв'язку R xyміж варіюючими ознаками Xі Y.

Як і коефіцієнт кореляції, коефіцієнт регресії характеризує лише лінійний зв'язок і супроводжується знаком плюс при позитивному та знаком мінус при негативному зв'язку.

Визначення параметрів лінійної регресії.Відомо, що сума квадратів відхилень варіант x iвід середньої є величина найменша, тобто. Ця теорема становить основу методу найменших квадратів. Щодо лінійної регресії [див. формулу (1)] на вимогу цієї теореми задовольняє деяка система рівнянь, званих нормальними:

Спільне вирішення цих рівнянь щодо параметрів aі bпризводить до наступних результатів:

;

;

, звідки в.

Враховуючи двосторонній характер зв'язку між змінними Yі Xформулу для визначення параметра аслід висловити так:

та . (7)

Параметр b, або коефіцієнт регресії, визначають за такими формулами:

Побудова емпіричних рядів регресії.При наявності великої кількостіспостережень регресійний аналізпочинається з побудови емпіричних рядів регресії. Емпіричний ряд регресіїутворюється шляхом обчислення за значеннями однієї варіюючої ознаки Xсередніх значень іншого, пов'язаного кореляційно з Xознаки Y. Іншими словами, побудова емпіричних рядів регресії зводиться до знаходження групових середніх і з відповідних значень ознак Y і X.

Емпіричний ряд регресії – це подвійний ряд чисел, які можна зобразити точками на площині, та був, з'єднавши ці точки відрізками прямий, отримати емпіричну лінію регресії. Емпіричні ряди регресії, особливо їх графіки, звані лініями регресіїдають наочне уявлення про форму і тісність кореляційної залежності між варіюючими ознаками.

Вирівнювання емпіричних рядів регресії.Графіки емпіричних рядів регресії виявляються, як правило, не такими, що плавно йдуть, а ламаними лініями. Це пояснюється тим, що поряд з головними причинами, що визначають загальну закономірність у мінливості ознак, що корелює, на їх величині позначається вплив численних другорядних причин, що викликають випадкові коливання вузлових точок регресії. Щоб виявити основну тенденцію (тренд) сполученої варіації корелюваних ознак, потрібно замінити ламані лінії на гладкі лінії регресії, що плавно йдуть. Процес заміни ламаних ліній на плавно йдуть вирівнюванням емпіричних рядіві ліній регресій.

Графічний спосіб вирівнювання.Це найпростіший спосіб, що не вимагає обчислювальної роботи. Його суть зводиться до наступного. Емпіричний ряд регресії зображують як графіка у системі прямокутних координат. Потім візуально намічаються середні точки регресії, якими з допомогою лінійки чи лекала проводять суцільну лінію. Недолік цього способу очевидний: він не виключає впливу індивідуальних властивостей дослідника на результати вирівнювання емпіричних ліній регресії. Тому в тих випадках, коли потрібно більше висока точністьпри заміні ламаних ліній регресії на плавно йдуть, використовують інші способи вирівнювання емпіричних рядів.

Спосіб ковзної середньої.Суть цього способу зводиться до послідовного обчислення середніх арифметичних двох або трьох сусідніх членів емпіричного ряду. Цей спосіб особливо зручний у тих випадках, коли емпіричний ряд представлений великою кількістю членів, так що втрата двох з них - крайніх, що неминуче при цьому способі вирівнювання, помітно не вплине на його структуру.

Метод найменших квадратів.Цей метод запропоновано на початку ХІХ століття А.М. Лежандром та незалежно від нього К. Гауссом. Він дозволяє найточніше вирівнювати емпіричні ряди. Цей метод, як було показано вище, заснований на припущенні, що сума квадратів відхилень варіант x i від їх середньої є величина мінімальна, тобто. Звідси і назва методу, що застосовується не тільки в екології, а й у техніці. Метод найменших квадратів об'єктивний і універсальний, його застосовують у самих різних випадкахпри знайденні емпіричних рівнянь рядів регресії та визначенні їх властивостей.

p align="justify"> Вимога методу найменших квадратів полягає в тому, що теоретичні точки лінії регресії повинні бути отримані таким чином, щоб сума квадратів відхилень від цих точок для емпіричних спостережень y iбула мінімальною, тобто.

Обчислюючи відповідно до принципів математичного аналізу мінімум цього виразу та певним чином перетворюючи його, можна отримати систему так званих нормальних рівнянь, В яких невідомими величинами виявляються шукані параметри рівняння регресії, а відомі коефіцієнти визначаються емпіричними величинами ознак, зазвичай сумами їх значень та їх перехресних творів.

Множинна лінійна регресія.Залежність між кількома змінними величинами прийнято виражати рівнянням множинної регресіїяка може бути лінійноїі нелінійною. У найпростішому вигляді множинна регресія виражається рівнянням із двома незалежними змінними величинами ( x, z):

де a– вільний член рівняння; bі c- Параметри рівняння. Для знаходження параметрів рівняння (10) (за способом найменших квадратів) застосовують таку систему нормальних рівнянь:

Ряди динаміки. Вирівнювання рядів.Зміна ознак у часі утворює так звані тимчасові рядиабо ряди динаміки. Характерною особливістю таких рядів є те, що як незалежна змінна X тут завжди виступає фактор часу, а залежною Y – ознака, що змінюється. Залежно від рядів регресії залежність між змінними X і Y носить односторонній характер, оскільки чинник часу залежить від мінливості ознак. Незважаючи на зазначені особливості, ряди динаміки можна уподібнити до рядів регресії та обробляти їх одними і тими ж методами.

Як і ряди регресії, емпіричні ряди динаміки несуть на собі вплив не лише основних, а й численних другорядних (випадкових) факторів, що загасають ту. головну тенденціюу мінливості ознак, що мовою статистики називають трендом.

Аналіз рядів динаміки починається з виявлення форми тренду. Для цього часовий ряд зображують у вигляді лінійного графіка у системі прямокутних координат. При цьому по осі абсцис відкладають тимчасові точки (роки, місяці та інші одиниці часу), а по осі ординат – значення залежної змінної Y. За наявності лінійної залежності між змінними X та Y (лінійного тренду) для вирівнювання рядів динаміки способом найменших квадратів найбільш підходящим є рівняння регресії у вигляді відхилень членів ряду залежної змінної Y від середньої арифметичної низки незалежної змінної X:

Тут – параметр лінійної регресії.

Числові характеристики рядів динаміки.До основних узагальнюючих числових характеристик рядів динаміки відносять середню геометричнуі близьку до неї середню арифметичну величини. Вони характеризують середню швидкість, з якою змінюється величина залежної змінної за певні періоди часу:

Оцінкою мінливості членів низки динаміки служить середнє квадратичне відхилення. При виборі рівнянь регресії для опису рядів динаміки враховують форму тренду, яка може бути лінійною (або приведена до лінійної) та нелінійної. Про правильність вибору рівняння регресії зазвичай судять за подібністю емпірично спостережених і обчислених значень залежною змінною. Точнішим у вирішенні цього завдання є метод дисперсійного аналізурегресії (тема 12 п.4).

Кореляція рядів динаміки.Нерідко доводиться зіставляти динаміку тимчасових рядів, що паралельно йдуть, пов'язаних один з одним деякими загальними умовами, наприклад з'ясувати зв'язок між виробництвом сільськогосподарської продукції і зростанням поголів'я худоби за певний проміжок часу. У таких випадках характеристикою зв'язку між змінними X та Y служить коефіцієнт кореляції R xy (за наявності лінійного тренду).

Відомо, що тренд рядів динаміки, як правило, затушовується коливаннями членів ряду залежної змінної Y. Звідси виникає завдання двоякого роду: вимірювання залежності між рядами, що зіставляються, не виключаючи тренд, і вимірювання залежності між сусідніми членами одного і того ж ряду, виключаючи тренд. У першому випадку показником тісноти зв'язку між зіставлюваними рядами динаміки служить коефіцієнт кореляції(якщо зв'язок лінійний), у другому – коефіцієнт автокореляції. Ці показники мають різні значення, хоч і обчислюються за тими самими формулами (див. тему 11).

Неважко помітити, що на значенні коефіцієнта автокореляції позначається мінливість членів ряду залежної змінної: що менше члени ряду відхиляються від тренда, то вище коефіцієнт автокореляції, і навпаки.

У попередніх нотатках предметом аналізу часто ставала окрема числова змінна, наприклад, прибутковість взаємних фондів, час завантаження Web-сторінки або обсяг споживання безалкогольних напоїв. У цій і наступних нотатках ми розглянемо методи передбачення значень числової змінної залежно від значень однієї чи кількох інших числових змінних.

Матеріал буде проілюстрований наскрізним прикладом. Прогнозування обсягу продажу у магазині одягу.Мережа магазинів зниженого в ціні одягу Sunflowers протягом 25 років постійно розширювалася. Проте на даний час компанія не має систематичного підходу до вибору нових торгових точок. Місце, де компанія збирається відкрити новий магазин, визначається з урахуванням суб'єктивних міркувань. Критеріями вибору є вигідні умови оренди або подання менеджера про ідеальне розташування магазину. Уявіть, що ви - керівник відділу спеціальних проектів та планування. Вам доручили розробити стратегічний планвідкриття нових магазинів. Цей план повинен містити прогноз річного обсягу продажів у магазинах, що знову відкриваються. Ви вважаєте, що торгівельна площабезпосередньо з обсягом виручки, і хочете врахувати цей факт у процесі прийняття рішення. Як розробити статистичну модель, яка дозволяє прогнозувати річний обсяг продажу на основі розміру нового магазину?

Як правило, для прогнозування значень змінної використовується регресійний аналіз. Його мета - розробити статистичну модель, що дозволяє передбачати значення залежної змінної, або відгуку, за значеннями принаймні однієї незалежної або пояснюючої змінної. У цьому замітці ми розглянемо просту лінійну регресію - статистичний метод, що дозволяє передбачати значення залежної змінної Yза значеннями незалежної змінної X. У наступних нотатках буде описана модель множинної регресії, призначена для передбачення значень незалежної змінної Yза значеннями кількох залежних змінних ( Х 1 , Х 2 , …, X k).

Завантажити нотатку у форматі або , приклади у форматі

Види регресійних моделей

де ρ 1 - Коефіцієнт автокореляції; якщо ρ 1 = 0 (немає автокореляції), D≈ 2; якщо ρ 1 ≈ 1 (позитивна автокореляція), D≈ 0; якщо ρ 1 = -1 (негативна автокореляція), D ≈ 4.

На практиці застосування критерію Дурбіна-Уотсона ґрунтується на порівнянні величини Dз критичними теоретичними значеннями d Lі d Uдля заданої кількості спостережень n, числа незалежних змінних моделі k(для простої лінійної регресії k= 1) та рівня значущості α. Якщо D< d L , гіпотеза про незалежність випадкових відхилень відкидається (отже, є позитивна автокореляція); якщо D > d U, гіпотеза не відкидається (тобто автокореляція відсутня); якщо d L< D < d U немає достатніх підстав для прийняття рішення. Коли розрахункове значення Dперевищує 2, то з d Lі d Uпорівнюється не сам коефіцієнт D, а вираз (4 – D).

Для обчислення статистики Дурбіна-Уотсона в Excel звернемося до нижньої таблиці на рис. 14 Виведення залишку. Чисельник у виразі (10) обчислюється за допомогою функції СУММКВРАЗН(масив1;масив2), а знаменник СУММКВ(масив) (рис. 16).

Мал. 16. Формули розрахунку статистики Дурбіна-Уотсона

У нашому прикладі D= 0,883. Основне питання полягає в наступному - яке значення статистики Дурбіна-Уотсона слід вважати досить малим, щоб зробити висновок про існування позитивної автокореляції? Необхідно співвіднести значення D з критичними значеннями ( d Lі d U), що залежать від числа спостережень nта рівня значущості α (рис. 17).

Мал. 17. Критичні значення статистики Дурбіна-Уотсона (фрагмент таблиці)

Таким чином, у задачі про обсяг продажу в магазині, що доставляє товари додому, існують одна незалежна змінна ( k= 1), 15 спостережень ( n= 15) та рівень значущості α = 0,05. Отже, d L= 1,08 та dU= 1,36. Оскільки D = 0,883 < d L= 1,08, між залишками існує позитивна автокореляція, метод найменших квадратів застосовувати не можна.

Перевірка гіпотез про нахил та коефіцієнт кореляції

Вище регресія застосовувалась виключно для прогнозування. Для визначення коефіцієнтів регресії та передбачення значення змінної Yпри заданій величинізмінної Xвикористовувався метод найменших квадратів. Крім того, ми розглянули середньоквадратичну помилку оцінки та коефіцієнт змішаної кореляції. Якщо аналіз залишків підтверджує, що умови застосування методу найменших квадратів не порушуються, і модель простої лінійної регресії є адекватною, на основі вибіркових даних можна стверджувати, що між змінними в генеральної сукупностіІснує лінійна залежність.

Застосуванняt -Критерію для нахилу.Перевіряючи, чи дорівнює нахил генеральної сукупності β 1 нулю, можна визначити, чи існує статистично значуща залежність між змінними Xі Y. Якщо ця гіпотеза відхиляється, можна стверджувати, що між змінними Xі YІснує лінійна залежність. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: β 1 = 0 (немає лінійної залежності), Н1: β 1 ≠ 0 (є лінійна залежність). За визначенням t-статистика дорівнює різниці між вибірковим нахилом та гіпотетичним значенням нахилу генеральної сукупності, поділеної на середньоквадратичну помилку оцінки нахилу:

(11) t = (b 1 β 1 ) / S b 1

де b 1 – нахил прямої регресії за вибірковими даними, β1 – гіпотетичний нахил прямої генеральної сукупності, , а тестова статистика tмає t-розподіл з n – 2ступенями свободи.

Перевіримо, чи існує статистично значуща залежність між розміром магазину та річним обсягом продажу при α = 0,05. t-критерій виводиться поряд з іншими параметрами під час використання Пакет аналізу(опція Регресія). Повністю результати роботи Пакету аналізу наведено на рис. 4 фрагмент, що відноситься до t-статистики - на рис. 18.

Мал. 18. Результати застосування t

Оскільки кількість магазинів n= 14 (див. рис.3), критичне значення t-Статистики при рівні значимості α = 0,05 можна знайти за формулою: t L=СТЬЮДЕНТ.ОБР(0,025;12) = –2,1788, де 0,025 – половина рівня значимості, а 12 = n – 2; t U=СТЬЮДЕНТ.ОБР(0,975;12) = +2,1788.

Оскільки t-статистика = 10,64> t U= 2,1788 (рис. 19), нульова гіпотеза Н 0відхиляється. З іншого боку, р-значення для Х= 10,6411, що обчислюється за формулою =1-СТЬЮДЕНТ.РАСП(D3;12;ІСТИНА), приблизно дорівнює нулю, тому гіпотеза Н 0знову відхиляється. Той факт, що рзначення майже дорівнює нулю, означає, що якби між розмірами магазинів і річним обсягом продажів не існувало реальної лінійної залежності, виявити її за допомогою лінійної регресії було б практично неможливо. Отже, між середнім річним обсягом продажів у магазинах та їх розміром існує статистично значуща лінійна залежність.

Мал. 19. Перевірка гіпотези про нахил генеральної сукупності при рівні значимості, що дорівнює 0,05, та 12 ступенях свободи

ЗастосуванняF -Критерію для нахилу.Альтернативним підходом до перевірки гіпотез про нахил простої лінійної регресії є використання F-Критерія. Нагадаємо, що F-Критерій застосовується для перевірки відносин між двома дисперсіями (докладніше див.). При перевірці гіпотези про нахил мірою випадкових помилок є дисперсія помилки (сума квадратів помилок, поділена на кількість ступенів свободи), тому F-Критерій використовує відношення дисперсії, що пояснюється регресією (тобто величини SSR, поділеної на кількість незалежних змінних k), до дисперсії помилок ( MSE = S YX 2 ).

За визначенням F-статистика дорівнює середньому квадрату відхилень, обумовлених регресією (MSR), поділеному на дисперсію помилки (MSE): F = MSR/ MSE, де MSR =SSR / k, MSE =SSE/(n- k - 1), k– кількість незалежних змінних у регресійній моделі. Тестова статистика Fмає F-розподіл з kі n– k – 1ступенями свободи.

При заданому рівні значення α вирішальне правилоформулюється так: якщо F > FUнульова гіпотеза відхиляється; в іншому випадку вона не відхиляється. Результати, оформлені як зведеної таблиці дисперсійного аналізу, наведено на рис. 20.

Мал. 20. Таблиця дисперсійного аналізу для перевірки гіпотези про статистичної значимостікоефіцієнта регресії

Аналогічно t-критерію F-критерій виводиться в таблицю під час використання Пакет аналізу(опція Регресія). Цілком результати роботи Пакет аналізунаведено на рис. 4, фрагмент, що відноситься до F-Статистиці - на рис. 21.

Мал. 21. Результати застосування F-критерію, отримані за допомогою Пакету аналізу Excel

F-статистика дорівнює 113,23, а р-значення близько до нуля (комірка ЗначимістьF). Якщо рівень значущості α дорівнює 0,05, визначити критичне значення F-розподілу з одним і 12 ступенями свободи можна за формулою F U= F.ОБР (1-0,05; 1; 12) = 4,7472 (рис. 22). Оскільки F = 113,23 > F U= 4,7472, причому р-значення близько до 0< 0,05, нулевая гипотеза Н 0відхиляється, тобто. Обсяг магазину був із його річним обсягом продажів.

Мал. 22. Перевірка гіпотези про нахилі генеральної сукупності при рівні значимості, що дорівнює 0,05, з одним і 12 ступенями свободи

Довірчий інтервал, що містить нахил β 1 .Для перевірки гіпотези про існування лінійної залежності між змінними можна побудувати довірчий інтервал, що містить нахил 1 і переконатися, що гіпотетичне значення 1 = 0 належить цьому інтервалу. Центром довірчого інтервалу, що містить нахил β 1 , є вибірковий нахил b 1 , а його межами - величини b 1 ±t n –2 S b 1

Як показано на рис. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =СТЬЮДЕНТ.ОБР(0,975;12) = 2,1788. Отже, b 1 ±t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, або + 1,328 ≤ β 1 ≤ +2,012. Таким чином, нахил генеральної сукупності з ймовірністю 0,95 лежить в інтервалі від +1,328 до +2,012 (тобто від 1328000 до 2012000 дол.). Оскільки ці величини більші за нуль, між річним обсягом продажів і площею магазину існує статистично значуща лінійна залежність. Якби довірчий інтервал містив нуль, між змінними не було б залежності. Крім того, довірчий інтервал означає, що кожне збільшення площі магазину на 1000 кв. футів призводить до збільшення середнього обсягу продажів на величину від 1328000 до 2012000 доларів.

Використанняt -Критерію для коефіцієнта кореляції.було введено коефіцієнт кореляції r, що є мірою залежності між двома числовими змінними. З його допомогою можна встановити, чи існує між двома змінними статистично значущий зв'язок. Позначимо коефіцієнт кореляції між генеральними сукупностями обох змінних символом ρ. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: ρ = 0 (немає кореляції), Н 1: ρ ≠ 0 (є кореляція). Перевірка існування кореляції:

де r = + , якщо b 1 > 0, r = – , якщо b 1 < 0. Тестовая статистика tмає t-розподіл з n – 2ступенями свободи.

У задачі про мережу магазинів Sunflowers r 2= 0,904, а b 1- +1670 (див. рис. 4). Оскільки b 1> 0, коефіцієнт кореляції між обсягом річних продажів та розміром магазину дорівнює r= +√0,904 = +0,951. Перевіримо нульову гіпотезу, яка стверджує, що між цими змінними немає кореляції, використовуючи t-Статистику:

При рівні значимості α = 0,05 нульову гіпотезу слід відхилити, оскільки t= 10,64> 2,1788. Таким чином, можна стверджувати, що між обсягом річних продажів та розміром магазину існує статистично значущий зв'язок.

Під час обговорення висновків щодо нахилу генеральної сукупності, довірчі інтервалита критерії для перевірки гіпотез є взаємозамінними інструментами. Проте обчислення довірчого інтервалу, що містить коефіцієнт кореляції, виявляється складнішою справою, оскільки вид вибіркового розподілу статистики. rзалежить від справжнього коефіцієнта кореляції.

Оцінка математичного очікування та передбачення індивідуальних значень

У цьому розділі розглядаються методи оцінки математичного очікування відгуку Yта передбачення індивідуальних значень Yпри заданих значеннях змінної X.

Побудова довірчого інтервалу.У прикладі 2 (див. вище розділ Метод найменших квадратів) регресійне рівняннядозволило передбачити значення змінної Y X. У задачі про вибір місця для торгової точки середній річний обсяг продажу магазині площею 4000 кв. футів дорівнював 7,644 млн. дол. Однак ця оцінка математичного очікування генеральної сукупності є точковою. для оцінки математичного очікування генеральної сукупності було запропоновано концепцію довірчого інтервалу. Аналогічно можна запровадити поняття довірчого інтервалу для математичного очікування відгукупри заданому значенні змінної X:

де , = b 0 + b 1 X i- Передбачене значення змінне Yпри X = X i, S YX- Середньоквадратична помилка, n- Обсяг вибірки, Xi- задане значення змінної X, µ Y|X = Xiматематичне очікуваннязмінної Yпри Х = Х i, SSX =

Аналіз формули (13) показує, що ширина довірчого інтервалу залежить від кількох факторів. При заданому рівні значущості зростання амплітуди коливань навколо лінії регресії, виміряне за допомогою середньоквадратичної помилки, призводить до збільшення ширини інтервалу. З іншого боку, як і слід було очікувати, збільшення обсягу вибірки супроводжується звуженням інтервалу. Крім того, ширина інтервалу змінюється в залежності від значень Xi. Якщо значення змінної Yпередбачається для величин Xблизьких до середнього значення , Довірчий інтервал виявляється вже, ніж при прогнозуванні відгуку для значень, далеких від середнього.

Припустимо, що, вибираючи місце для магазину, ми хочемо побудувати 95% довірчий інтервал для середнього річного обсягу продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів:

Отже, середній річний обсяг продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів, з 95%-ною ймовірністю лежить в інтервалі від 6,971 до 8,317 млн. дол.

Обчислення довірчого інтервалу для передбаченого значення.Крім довірчого інтервалу для математичного очікування відгуку при заданому значенні змінної Xчасто необхідно знати довірчий інтервал для передбаченого значення. Незважаючи на те, що формула для обчислення такого довірчого інтервалу дуже схожа на формулу (13), цей інтервал містить передбачене значення, а не оцінку параметра. Інтервал для передбаченого відгуку YX = Xiпри конкретному значенні змінної Xiвизначається за формулою:

Припустимо, що, вибираючи місце для торгової точки, ми хочемо побудувати 95% довірчий інтервал для передбаченого річного обсягу продажів у магазині, площа якого дорівнює 4000 кв. футів:

Отже, передбачений річний обсяг продажів у магазині, площа якого дорівнює 4000 кв. футів, з 95%-ной ймовірністю лежить в інтервалі від 5,433 до 9,854 млн. дол. Як бачимо, довірчий інтервал для передбаченого значення відгуку набагато ширший, ніж довірчий інтервал для його математичного очікування. Це тим, що мінливість при прогнозуванні індивідуальних значень набагато більше, ніж за оцінці математичного очікування.

Підводне каміння та етичні проблеми, пов'язані із застосуванням регресії

Проблеми, пов'язані з регресійним аналізом:

  • Ігнорування умов застосування методу найменших квадратів.
  • Помилкова оцінка умов застосування методу найменших квадратів.
  • Неправильний вибір альтернативних методів у разі порушення умов застосування методу найменших квадратів.
  • Застосування регресійного аналізу без глибоких знань про предмет дослідження.
  • Екстраполяція регресії за межі діапазону зміни змінної, що пояснює.
  • Плутанина між статистичною та причинно-наслідковою залежностями.

Широке поширення електронних таблиць та програмного забезпеченнядля статистичних розрахунків ліквідувало обчислювальні проблеми, що перешкоджали застосуванню регресійного аналізу. Однак це призвело до того, що регресійний аналіз стали застосовувати користувачі, які не мають достатньої кваліфікації та знань. Звідки користувачам знати про альтернативні методи, якщо багато хто з них взагалі не має жодного поняття про умови застосування методу найменших квадратів і не вміє перевіряти їх виконання?

Дослідник не повинен захоплюватися перемелюванням чисел - обчисленням зсуву, нахилу та коефіцієнта змішаної кореляції. Йому потрібні глибші знання. Проілюструємо це класичним прикладом, взятим із підручників. Анскомб показав, що це чотири набору даних, наведених на рис. 23, мають одні й самі параметри регресії (рис. 24).

Мал. 23. Чотири набори штучних даних

Мал. 24. Регресійний аналіз чотирьох штучних наборів даних; виконаний за допомогою Пакет аналізу(Клікніть на малюнку, щоб збільшити зображення)

Отже, з погляду регресійного аналізу, всі ці набори даних абсолютно ідентичні. Якби аналіз був на цьому закінчений, ми втратили б багато корисної інформації. Про це свідчать діаграми розкиду (рис. 25) та графіки залишків (рис. 26), побудовані для цих наборів даних.

Мал. 25. Діаграми розкиду для чотирьох наборів даних

Діаграми розкиду та графіки залишків свідчать про те, що ці дані відрізняються одна від одної. Єдиний набір, розподілений уздовж прямої лінії, - набір А. Графік залишків, обчислених за набором А, немає закономірності. Цього не можна сказати про набори Б, В та Г. Графік розкиду, побудований за набором Б, демонструє яскраво виражену квадратичну модель. Цей висновок підтверджується графіком залишків, які мають параболічну форму. Діаграма розкиду та графік залишків показують, що набір даних містить викид. У цій ситуації необхідно виключити викид із набору даних та повторити аналіз. Метод, що дозволяє виявляти та виключати викиди зі спостережень, називається аналізом впливу. Після виключення викиду результат повторної оцінки моделі може бути зовсім іншим. Діаграма розкиду, побудована за даними набору Р, ілюструє незвичайну ситуацію, у якій емпірична модель значно залежить від окремого відгуку ( Х 8 = 19, Y 8 = 12,5). Такі регресійні моделі необхідно обчислювати особливо ретельно. Отже, графіки розкиду та залишків є вкрай необхідним інструментомрегресійного аналізу та повинні бути його невід'ємна частина. Без них регресійний аналіз не заслуговує на довіру.

Мал. 26. Графіки залишків для чотирьох наборів даних

Як уникнути підводного каміння при регресійному аналізі:

  • Аналіз можливого взаємозв'язку між змінними Xі Yзавжди починайте з побудови діаграми розкиду.
  • Перш ніж інтерпретувати результати регресійного аналізу, перевіряйте умови його застосування.
  • Побудуйте графік залежності залишків від незалежної змінної. Це дозволить визначити, наскільки емпірична модель відповідає результатам спостереження, та виявити порушення сталості дисперсії.
  • Для перевірки припущення про нормальному розподіліпомилок використовуйте гістограми, діаграми «ствол та листя», блокові діаграми та графіки нормального розподілу.
  • Якщо умови застосування методу найменших квадратів не виконуються, використовуйте альтернативні методи(наприклад, моделі квадратичної чи множинної регресії).
  • Якщо умови застосування методу найменших квадратів виконуються, необхідно перевірити гіпотезу про статистичну значущість коефіцієнтів регресії та побудувати довірчі інтервали, що містять математичне очікування та передбачене значення відгуку.
  • Уникайте передбачати значення залежної змінної за межами діапазону зміни незалежної змінної.
  • Майте на увазі, що статистичні залежності не завжди є причинно-наслідковими. Пам'ятайте, що кореляція між змінними не означає наявності причинно-наслідкової залежності між ними.

РезюмеЯк показано на структурній схемі (рис. 27), у замітці описані модель простої лінійної регресії, умови її застосування та способи перевірки цих умов. Розглянуто t-Критерій для перевірки статистичної значущості нахилу регресії Для передбачення значень залежною змінною використано регресійну модель. Розглянуто приклад, пов'язаний із вибором місця для торгової точки, в якому досліджується залежність річного обсягу продажу від площі магазину. Отримана інформація дозволяє точніше вибрати місце для магазину та передбачити його річний обсяг продажу. У наступних нотатках буде продовжено обговорення регресійного аналізу, а також розглянуто моделі множинної регресії.

Мал. 27. Структурна схеманотатки

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 792–872

Якщо залежна змінна є категорійною, необхідно застосовувати логістичну регресію.

Коефіцієнти регресіїпоказують інтенсивність впливу чинників результативний показник. Якщо проведено попередню стандартизацію факторних показників, то b 0 дорівнює середньому значенню результативного показника в сукупності. Коефіцієнти b 1 , b 2 , ..., b n показують, наскільки одиниць рівень результативного показника відхиляється від середнього значення, якщо значення факторного показника відхиляються від середнього, рівного нулю, на одне стандартне відхилення. Отже, коефіцієнти регресії характеризують ступінь значимості окремих чинників підвищення рівня результативного показника. Конкретні значення коефіцієнтів регресії визначають за емпіричними даними згідно з методом найменших квадратів (в результаті розв'язання систем нормальних рівнянь).

Лінія регресії- лінія, яка найточніше відображає розподіл експериментальних точок на діаграмі розсіювання і крутість нахилу якої характеризує залежність між двома інтервальними змінними.

Лінія регресії найчастіше шукається у вигляді лінійної функції (лінійна регресія), найкращим чиномнаближає шукану криву. Робиться це за допомогою методу найменших квадратів, коли мінімізується сума квадратів відхилень реально спостерігаються від їх оцінок (маються на увазі оцінки за допомогою прямої лінії, що претендує на те, щоб представляти шукану регресійну залежність):

(M – обсяг вибірки). Цей підхід заснований на тому відомому факті, що сума, що фігурує в наведеному вираженні, приймає мінімальне значення саме для того випадку, коли .
57. Основні завдання теорії кореляції.

Теорія кореляції є апарат, що оцінює тісноту зв'язків між явищами, які перебувають у причинно-наслідкових відносинах. З допомогою теорії кореляції оцінюються стохастичні, але з причинні зв'язку. Автором спільно з Лукацькою М. Л. зроблено спробу отримати оцінки для причинних зв'язків. Проте питання причинно-наслідкових відносин явищ, у тому, як пізнати причину і слідство, залишається відкритим, і здається, що у формальному рівні він принципово не вирішимо.

Теорія кореляції та її застосовано до аналізу виробництва.

Теорія кореляції, що є одним із розділів математичної статистики, дозволяє зробити обґрунтовані припущення про можливі межі, в яких з відомим ступенем надійності буде знаходитись досліджуваний параметр, якщо інші статистично пов'язані з ним параметри отримають певні значення.

Теоретично кореляції прийнято виділяти два основні завдання.

Перше завданнятеорії кореляції – встановити форму кореляційного зв'язку, тобто. вид функції регресії (лінійна, квадратична і т.д.).

Друге завданнятеорії кореляції – оцінити тісноту (силу) кореляційного зв'язку.

Тіснота кореляційного зв'язку (залежності) на X оцінюється за величиною розсіювання значень навколо умовного середнього. Велике розсіювання свідчить про слабку залежність від X, мале розсіювання вказує на наявність сильної залежності.
58. Кореляційна таблиця та її числові показники.

На практиці в результаті незалежних спостережень над величинами X і Y, як правило, мають справу не з усією сукупністю всіх можливих пар значень цих величин, а лише з обмеженою вибіркою з генеральної сукупності, причому обсяг вибіркової n сукупності визначається як кількість наявних у вибірці пар.

Нехай величина Х у вибірці приймає значення x 1 , x 2 ,.... x m , де кількість значень цієї величини, що різняться між собою, причому в загальному випадкукожне їх у вибірці може повторюватися. Нехай величина Y у вибірці приймає значення y 1 , y 2 ,....y k , де k - кількість значень цієї величини, що розрізняються між собою, причому в загальному випадку кожне з них у вибірці також може повторюватися. У цьому випадку дані заносять до таблиці з урахуванням частот народження. Таку таблицю із групованими даними називають кореляційною.

Першим етапом статистичної обробки результатів є складання кореляційної таблиці.

Y\X x 1 x 2 ... x m n y
y 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm n

У першому рядку основної частини таблиці в порядку зростання перераховуються всі значення величини X, що зустрічаються у вибірці. У першому стовпці також у порядку зростання перераховуються всі значення значення величини Y, що зустрічаються у вибірці. ,...,m;j = 1,2,...,k) рівні кількості появ пари (x i ;y i) у вибірці. Наприклад, частота n 12 являє собою кількість появи у вибірці пари (x 1; y 1).

Також n xi n ij , 1≤i≤m, сума елементів i-го стовпця, n yj n ij , 1≤j≤k, - сума елементів j-го рядка і n xi = n yj =n

Аналоги формул, отримані за даними кореляційної таблиці, мають вигляд:


59. Емпірична та теоретична лінії регресії.

Теоретична лінія регресіїможе бути розрахована у разі за результатами окремих спостережень. Для вирішення системи нормальних рівнянь нам знадобляться ті ж дані: х, у, ху та хг. Ми маємо дані про обсяги виробництва цементу та обсяг основних виробничих фондів в 1958 р. Ставиться завдання: дослідити залежність між обсягом виробництва цементу (у натуральному вираженні) та обсягом основних фондів. [ 1 ]

Чим менша теоретична лінія регресії (розрахована за рівнянням) відхиляється від фактичної (емпіричної), тим менше середня помилкаапроксимації.

Процес знаходження теоретичної лінії регресії є вирівнювання емпіричної лінії регресії з урахуванням методу найменших квадратів.

Процес знаходження теоретичної лінії регресії називається вирівнюванням емпіричної лінії регресії і полягає у виборі та обґрунтуванні типу; кривою та розрахунку параметрів її рівняння.

Емпірична регресія будується за даними аналітичного або комбінаційного угруповань і є залежністю групових середніх значень ознаки-результату від групових середніх значень ознаки-фактора. Графічним уявленням емпіричної регресії - ламана лінія, Складена з точок, абсцисами яких є групові середні значення ознаки-фактора, а ординатами - групові середні значення ознаки-результату. Число точок дорівнює числу груп у групуванні.

Емпірична лінія регресії відбиває основну тенденцію аналізованої залежності. Якщо емпірична лінія регресії за своїм виглядом наближається до прямої лінії, можна припустити наявність прямолінійної кореляційної зв'язку між ознаками. А якщо лінія зв'язку наближається до кривої, це може бути пов'язано з наявністю криволінійного кореляційного зв'язку.
60. Вибіркові коефіцієнти кореляції та регресії.

Якщо залежність між ознаками на графіку вказує на лінійну кореляцію, розраховують коефіцієнт кореляції r, що дозволяє оцінити тісноту зв'язку змінних величин, і навіть з'ясувати, яка частка змін ознаки обумовлена ​​впливом основного ознаки, яка – впливом інших чинників. Коефіцієнт варіює в межах від -1 до +1. Якщо r=0, то зв'язок між ознаками відсутня. Рівність r=0 говорить лише про відсутність лінійної кореляційної залежності, але взагалі про відсутність кореляційної, а тим паче статистичної залежності. Якщо r= ±1, це означає наявність повної (функціональної) зв'язку. При цьому всі значення, що спостерігаються, розташовуються на лінії регресії, яка являє собою пряму.
Практична значущість коефіцієнта кореляції визначається його величиною, зведеною квадрат, що отримала назву коефіцієнта детермінації.
Регресія, що апроксимується (наближено описується) лінійною функцією y = kX + b. Для регресії У X рівняння регресії: `y x = ryx X + b; (1). Кутовий коефіцієнт ryx прямої регресії Y на X називається коефіцієнтом регресії Y на X.

Якщо рівняння (1) знаходиться за вибірковими даними, воно називається вибірковим рівнянням регресії. Відповідно, ryx - вибірковий коефіцієнтрегресії Y на X, а b - вибірковий вільний член рівняння. p align="justify"> Коефіцієнт регресії вимірює варіацію Y, що припадає на одиницю варіації X. Параметри рівняння регресії (коефіцієнти ryx і b) знаходяться методом найменших квадратів.
61. Оцінка значимості коефіцієнта кореляції та тісноти кореляційного зв'язку в генеральній сукупності

Значення коефіцієнтів кореляціїперевіряємось за критерієм Стьюдента:

де - середньоквадратична помилка коефіцієнта кореляції, що визначається за формулою:

Якщо розрахункове значення (вище табличного, можна зробити висновок у тому, що величина коефіцієнта кореляції є значимої. Табличні значення tзнаходять за таблицею значень критеріїв Стьюдента. При цьому враховуються кількість ступенів свободи (V = п - 1) і рівень довірчої ймовірності(В економічних розрахунках зазвичай 0,05 або 0,01). У нашому прикладі кількість ступенів свободи дорівнює: п - 1 = 40 - 1 = 39. При рівні довірчої ймовірності Р = 0,05; t= 2,02. Оскільки (фактичне у всіх випадках вище t-табличного, зв'язок між результативним та факторними показниками є надійним, а величина коефіцієнтів кореляції - значущою.

Оцінка коефіцієнта кореляції, Обчислена за обмеженою вибіркою, практично завжди відрізняється від нуля. Але з цього ще не випливає, що коефіцієнт кореляції генеральної сукупностітакож відмінний від нуля. Потрібно оцінити значущість вибіркової величини коефіцієнта або, відповідно до постановки завдань перевірки статистичних гіпотез, перевірити гіпотезу про рівність нуля коефіцієнта кореляції. Якщо гіпотеза Н 0 про рівність нулю коефіцієнта кореляції буде відкинуто, то вибірковий коефіцієнт значимий, а відповідні величини пов'язані лінійним співвідношенням. Якщо гіпотеза Н 0 буде прийнято, то оцінка коефіцієнта не значуща, і величини лінійно не пов'язані один з одним (якщо з фізичних міркувань фактори можуть бути пов'язані, то краще говорити про те, що з наявних ЕД цей взаємозв'язок не встановлений). Перевірка гіпотези про значення оцінки коефіцієнта кореляції вимагає знання розподілу цієї випадкової величини. Розподіл величини  ikвивчено тільки для окремого випадку, коли випадкові величини U jі U kрозподілені за нормальним законом.

Як критерій перевірки нульової гіпотези Н 0 застосовують випадкову величину . Якщо модуль коефіцієнта кореляції відносно далекий від одиниці, то величина tпри справедливості нульової гіпотези розподілено згідно із законом Стьюдента з n– 2 ступенями свободи. Конкуруюча гіпотеза Н 1 відповідає твердженню, що значення  ikне дорівнює нулю (більше або менше від нуля). Тому критична сфера двостороння.
62. Обчислення вибіркового коефіцієнта кореляції та побудова вибіркового рівняння прямої лінії регресії.

Вибірковий коефіцієнт кореляціїзнаходиться за формулою

де - вибіркові середні квадратичні відхиленнявеличин і .

Вибірковий коефіцієнт кореляції показує тісноту лінійного зв'язку між і : чим ближче до одиниці, тим сильніший лінійний зв'язок між і .

Проста лінійна регресія дозволяє знайти лінійну залежністьміж однією вхідною та однією вихідною змінними. Для цього визначається рівняння регресії - це модель, що відображає залежність значень Y, залежної величини Y від значень х, незалежної змінної х та генеральної сукупності, що описується рівнем:

де А0- вільний член рівняння регресії;

А1- Коефіцієнт рівняння регресії

Потім будується відповідна пряма, яка називається лінією регресії. Коефіцієнти А0 і А1, звані також параметрами моделі, вибираються таким чином, щоб сума квадратів відхилень точок, що відповідають реальним спостереженням даних від лінії регресії, була б мінімальною. Підбір коефіцієнтів проводиться у разі методу найменших квадратів. Іншими словами, проста лінійна регресія описує лінійну модель, яка найкраще апроксимує залежність між однією вхідною та однією вихідною змінними.

КОЕФІЦІЄНТ РЕГРЕСІЇ

- англ. coefficient, regression; ньому.Регресіїкоефізіент. Одна з характеристик зв'язку між залежною у та незалежною змінною х. К. н. показує, на скільки одиниць збільшується значення, прийняте у, якщо змінна x зміниться на одиницю своєї зміни. Геометрично До. є кутовим коефіцієнтом нахилу прямої лінії у.

Антіназі. Енциклопедія соціології, 2009

Дивитись що таке "КОЕФІЦІЄНТ РЕГРЕСІЇ" в інших словниках:

    коефіцієнт регресії- - [Л.Г.Суменко. Англо-російський словник з інформаційних технологій. М.: ДП ЦНДІС, 2003.] Тематики інформаційні технології загалом EN regression coefficient … Довідник технічного перекладача

    Коефіцієнт регресії- 35. Коефіцієнт регресії Параметр моделі регресійного аналізу Джерело: ГОСТ 2402680: Дослідницькі випробування. Планування експерименту. Терміни та визначення …

    коефіцієнт регресії- Коефіцієнт при незалежній змінній у рівнянні регресії … Словник соціологічної статистики

    КОЕФІЦІЄНТ РЕГРЕСІЇ- англ. coefficient, regression; ньому. Регресіїкоефізіент. Одна з характеристик зв'язку між залежною у та незалежною змінною х. К. н. показує, на скільки одиниць збільшується значення, прийняте у, якщо змінна x зміниться на… Тлумачний словникз соціології

    вибірковий коефіцієнт регресії– 2.44. вибірковий коефіцієнт регресії Коефіцієнт при змінній у рівнянні кривої або поверхні регресії Джерело: ГОСТ Р 50779.10 2000: Статистичні методи. Імовірність та основи статистики. Терміни та визначення … Словник-довідник термінів нормативно-технічної документації

    Частковий коефіцієнт регресії- статистична міра, що означає ступінь впливу незалежної змінної на залежну у ситуації, коли взаємовплив всіх інших змінних у моделі перебуває під контролем дослідника. Соціологічний словник Socium

    РЕГРЕСІЇ, ВАГА- Синонім поняття коефіцієнт регресії … Тлумачний словник з психології

    КОЕФІЦІЄНТ Спадкоємності- показник відносної частки генетичної мінливості у загальній фенотипічній варіації ознаки. Найбільш поширені такі методи оцінки успадкованості господарсько корисних ознак: де h2 коефіцієнт успадкованості; r внутрішньокласова… … Терміни та визначення, що використовуються в селекції, генетиці та відтворенні сільськогосподарських тварин

    - (R квадрат) це частка дисперсії залежною змінною, що пояснюється моделлю залежності, тобто пояснювальними змінними. Точніше це одиниця мінус частка непоясненої дисперсії (дисперсії випадкової помилки моделі, чи умовної… … Вікіпедія

    Коефіцієнт при незалежній змінній у рівнянні регресії. Так, напр., В рівнянні лінійної регресії, що зв'язує випадкові величини Yі X, Р. до. b0 і b1 рівні: де r кореляції коефіцієнт X і Y, . Обчислення оцінок Р. до. (вибірковий ... Математична енциклопедія

Книги

  • Введення в економетрику (CDpc), Яновський Леонід Петрович, Буховець Олексій Георгійович. Дано основи економетрики та статистичного аналізуодновимірних часових рядів. Велику увагу приділено класичній парній та множинні регресії, класичному та узагальненому методам.
  • Скорочення. Ефективний тренажер (CDpc), . Програма адресована користувачам, які бажають найкоротший термінопанувати методику швидкісного читання. Курс побудований за принципом "теорія – практика". Теоретичний матеріалта практичні…
Схожі статті

2023 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.