Основні характеристики регресійного аналізу. Кореляційно-регресійний аналіз в Excel: інструкція виконання

Що таке регресія?

Розглянемо дві безперервні змінні x = (x 1, x 2, .., x n), y = (y 1, y 2, ..., y n).

Розмістимо крапки на двовимірному графіку розсіювання та скажемо, що ми маємо лінійне співвідношенняякщо дані апроксимуються прямою лінією.

Якщо ми вважаємо, що yзалежить від x, причому зміни в yвикликаються саме змінами в x, ми можемо визначити лінію регресії (регресія yна x), яка найкраще описує прямолінійне співвідношення між цими двома змінними.

Статистичне використання слова " регресія " походить від явища, відомого як регресія до середнього, приписуваного серу Френсісу Гальтону (1889).

Він показав, що хоча вищі батьки мають тенденцію мати високих синів, середнє зростання синів менше, ніж у їхніх високих батьків. Середнє зростання синів " регресував " і " рухався назад " до середнього зростання всіх батьків у населенні. Таким чином, у середньому високі батьки мають нижчих (але все-таки високих) синів, а низькі батьки мають синів вищі (але все-таки досить низькі).

Лінія регресії

Математичне рівняння, яке оцінює лінію простий (парний) лінійної регресії:

xназивається незалежною змінною чи предиктором.

Y- Залежна змінна або змінна відгуку. Це значення, яке ми очікуємо для y(у середньому), якщо ми знаємо величину x, тобто. це «передбачене значення y»

  • a- вільний член (перетин) лінії оцінки; це значення Y, коли x=0(Рис.1).
  • b- Кутовий коефіцієнт або градієнт оціненої лінії; вона є величиною, на яку Yзбільшується в середньому, якщо ми збільшуємо xодну одиницю.
  • aі bназивають коефіцієнтами регресії оціненої лінії, хоча цей термін часто використовують тільки для b.

Парну лінійну регресію можна розширити, включивши до неї більше однієї незалежної змінної; у цьому випадку вона відома як множинна регресія.

Рис.1. Лінія лінійної регресії, що показує перетин a і кутовий коефіцієнт b (величину зростання Y при збільшенні x на одну одиницю)

Метод найменших квадратів

Ми виконуємо регресійний аналіз, використовуючи вибірку спостережень, де aі b- вибіркові оцінки істинних (генеральних) параметрів, α і β, які визначають лінію лінійної регресії у популяції ( генеральної сукупності).

Найбільш простим методомвизначення коефіцієнтів aі bє метод найменших квадратів (МНК).

Підганяння оцінюється, розглядаючи залишки (вертикальна відстань кожної точки від лінії, наприклад, залишок = спостережуваному y- Передбачений y, Мал. 2).

Лінію кращого припасування вибирають так, щоб сума квадратів залишків була мінімальною.

Мал. 2. Лінія лінійної регресії із зображеними залишками (вертикальні пунктирні лінії) кожної точки.

Припущення лінійної регресії

Отже, для кожної величини, що спостерігається, залишок дорівнює різниці і відповідного передбаченого Кожен залишок може бути позитивним або негативним.

Можна використовувати залишки для перевірки таких припущень, що лежать в основі лінійної регресії:

  • Залишки нормально розподілені з нульовим середнім значенням;

Якщо припущення лінійності, нормальності та/або постійної дисперсії сумнівні, ми можемо перетворити або розрахувати нову лінію регресії, для якої ці припущення задовольняються (наприклад, використовувати логарифмічне перетворення або ін.).

Аномальні значення (викиди) та точки впливу

"Впливове" спостереження, якщо воно опущене, змінює одну або більше оцінок параметрів моделі (тобто кутовий коефіцієнт або вільний член).

Викид (спостереження, що суперечить більшості значень у наборі даних) може бути "впливовим" спостереженням і може добре виявлятися візуально, під час огляду двовимірної діаграми розсіювання або графіка залишків.

І для викидів, і для "впливових" спостережень (крапок) використовують моделі як з їх включенням, так і без них звертають увагу на зміну оцінки (коефіцієнтів регресії).

При проведенні аналізу не варто відкидати викиди або точки впливу автоматично, оскільки звичайне ігнорування може вплинути на отримані результати. Завжди вивчайте причини появи цих викидів та аналізуйте їх.

Гіпотеза лінійної регресії

При побудові лінійної регресії перевіряється нульова гіпотеза про те, що генеральний кутовий коефіцієнт лінії регресії дорівнює нулю.

Якщо кутовий коефіцієнт лінії дорівнює нулю, між і немає лінійного співвідношення: зміна не впливає на

Для тестування нульової гіпотези про те, що справжній кутовий коефіцієнт дорівнює нулю, можна скористатися наступним алгоритмом:

Обчислити статистику критерію, рівну відношенню , яка підпорядковується розподілу зі ступенями свободи, де стандартна помилка коефіцієнта


,

- Оцінка дисперсії залишків.

Зазвичай, якщо досягнутий рівень значущості нульова гіпотеза відхиляється.


де процентна точка розподілу зі ступенями свободи що дає можливість двостороннього критерію

Це той інтервал, який містить генеральний кутовий коефіцієнт із ймовірністю 95%.

Для великих вибірок, скажімо, ми можемо апроксимувати значенням 1,96 (тобто статистика критерію буде прагнути до нормальному розподілу)

Оцінка якості лінійної регресії: коефіцієнт детермінації R 2

Через лінійне співвідношення і ми очікуємо, що змінюється, у міру того, як змінюється , і називаємо це варіацією, яка обумовлена ​​чи пояснюється регресією. Залишкова варіація має бути якнайменше.

Якщо це, то більшість варіації пояснюватиметься регресією, а точки лежатимуть близько до лінії регресії, тобто. лінія добре відповідає даним.

Долю загальної дисперсії, яка пояснюється регресією називають коефіцієнтом детермінаціїзазвичай виражають через відсоткове співвідношення і позначають R 2(У парній лінійній регресії це величина r 2, квадрат коефіцієнта кореляції), дозволяє суб'єктивно оцінити якість рівняння регресії.

Різниця є відсотком дисперсії який не можна пояснити регресією.

Немає формального тесту для оцінки ми змушені покластися на суб'єктивне судження, щоб визначити якість припасування лінії регресії.

Застосування лінії регресії для прогнозу

Можна застосовувати регресійну лінію для прогнозування значення за межею спостерігається діапазону (ніколи не екстраполюйте поза цими межами).

Ми передбачаємо середню величину для спостережуваних, які мають певне значення шляхом встановлення цього значення в рівняння лінії регресії.

Отже, якщо прогнозуємо як Використовуємо цю передбачену величину та її стандартну помилку, щоб оцінити довірчий інтервалдля істинної середньої величиниу популяції.

Повторення цієї процедури для різних величиндозволяє побудувати довірчі межі цієї лінії. Це смуга або область, яка містить справжню лінію, наприклад, з 95% вірогідністю.

Прості регресійні плани

Прості регресійні плани містять один безперервний предиктор. Якщо існує 3 спостереження зі значеннями предиктора P, наприклад, 7, 4 і 9, а план включає ефект першого порядку P, то матриця плану X матиме вигляд

а регресійне рівнянняз використанням P для X1 виглядає як

Y = b0 + b1 P

Якщо простий регресійний план містить ефект вищого порядкудля P , наприклад квадратичний ефект, значення в стовпці X1 в матриці плану будуть зведені в другий ступінь:

а рівняння набуде вигляду

Y = b0 + b1 P2

Сигма -обмежені та надпараметризовані методи кодування не застосовуються по відношенню до простих регресійних планів та інших планів, що містять тільки безперервні предиктори (оскільки просто не існує категоріальних предикторов). Незалежно від вибраного методу кодування, значення безперервних змінних збільшуються у відповідному ступені та використовуються як значення для змінних X . При цьому перекодування не виконується. Крім того, при описі регресійних планів можна опустити розгляд матриці плану X, а працювати тільки з регресійним рівнянням.

Приклад: простий регресійний аналіз

Цей приклад використовує дані, подані у таблиці:

Мал. 3. Таблиця вихідних даних.

Дані складені на основі порівняння переписів 1960 та 1970 у довільно обраних 30 округах. Назви округів представлені як імен спостережень. Інформація щодо кожної змінної представлена ​​нижче:

Мал. 4. Таблиця специфікацій змінних.

Завдання дослідження

Для цього прикладу будуть аналізуватися кореляція рівня бідності та ступінь, що передбачає відсоток сімей, які перебувають за межею бідності. Отже ми трактуватимемо змінну 3 (Pt_Poor ) як залежну змінну.

Можна висунути гіпотезу: зміна чисельності населення та відсоток сімей, які перебувають за межею бідності, пов'язані між собою. Здається розумним очікувати, що бідність веде до відтоку населення, отже, тут буде негативна кореляція між відсотком людей за межею бідності та зміною чисельності населення. Отже ми трактуватимемо змінну 1 (Pop_Chng ) як змінну-предиктор.

Перегляд результатів

Коефіцієнти регресії

Мал. 5. Коефіцієнти регресії Pt_Poor на Pop_Chng.

На перетині рядка Pop_Chng та стовпця Парам. не стандартизований коефіцієнт для регресії Pt_Poor на Pop_Chng дорівнює -0.40374. Це означає, що для кожного зменшення чисельності населення на одиницю є збільшення рівня бідності на.40374. Верхній та нижній (за замовчуванням) 95% довірчі межі для цього не стандартизованого коефіцієнтане включають нуль, отже коефіцієнт регресії значимо лише на рівні p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Розподіл змінних

Коефіцієнти кореляції можуть стати суттєво завищені або занижені, якщо в даних є великі викиди. Вивчимо розподіл залежної змінної Pt_Poor по округах. Для цього побудуємо гістограму змінної Pt_Poor.

Мал. 6. Гістограма змінної Pt_Poor.

Як можна помітити, розподіл цієї змінної помітно відрізняється від нормального розподілу. Тим не менш, хоча навіть два округи (два праві стовпці) мають високий відсоток сімей, які знаходяться за межею бідності, ніж очікувалося у разі нормального розподілу, здається, що вони знаходяться "всередині діапазону."

Мал. 7. Гістограма змінної Pt_Poor.

Це судження певною мірою суб'єктивне. Емпіричне правило свідчить, що викиди необхідно враховувати, якщо спостереження (або спостереження) не потрапляють до інтервалу (середнє ± 3 помножене на стандартне відхилення). У цьому випадку варто повторити аналіз з викидами і без, щоб переконатися, що вони не мають серйозного ефекту на кореляцію між членами сукупності.

Діаграма розсіювання

Якщо одна з гіпотез апріорі про взаємозв'язок між заданими змінними, її корисно перевірити на графіку відповідної діаграми розсіювання.

Мал. 8. Діаграма розсіювання.

Діаграма розсіювання показує явну негативну кореляцію (-.65) між двома змінними. На ній також показаний 95% довірчий інтервал для лінії регресії, тобто з 95% ймовірністю лінія регресії проходить між двома пунктирними кривими.

Критерії значимості

Мал. 9. Таблиця, що містить критерії значущості.

Критерій коефіцієнта регресії Pop_Chng підтверджує, що Pop_Chng сильно пов'язані з Pt_Poor , p<.001 .

Підсумок

У цьому прикладі було показано, як проаналізувати простий регресійний план. Була також представлена ​​інтерпретація нестандартизованих та стандартизованих коефіцієнтів регресії. Обговорено важливість вивчення розподілу відгуків залежною змінною, продемонстровано техніку визначення напрямку та сили взаємозв'язку між предиктором та залежною змінною.

А) Графічний аналіз простої лінійної регресії.

Просте лінійне рівняння регресії y = a + bx. Якщо між випадковими величинами У та X існує кореляційний зв'язок, то значення у = ý + ,

де y – теоретичне значення у, отримане з рівняння y = f(x),

 – похибка відхилення теоретичного рівняння від фактичних (експериментальних) даних.

Рівняння залежності середньої величини від х, тобто ý = f(x) називають рівнянням регресії. Регресійний аналіз складається з чотирьох етапів:

1) постановка завдання та встановлення причин зв'язку.

2) обмеження об'єкта досліджень, збирання статистичної інформації.

3) вибір рівняння зв'язку на основі аналізу та характеру зібраних даних.

4) розрахунок числових значень, показників кореляційного зв'язку.

Якщо дві змінні пов'язані таким чином, що зміна однієї змінної відповідає систематичній зміні іншої змінної, то для оцінки та вибору рівняння зв'язку між ними застосовують регресійний аналіз, якщо ці змінні відомі. На відміну від регресійного аналізу, кореляційний аналіз застосовують для аналізу тісноти зв'язку між X та У.

Розглянемо знаходження прямої при регресійному аналізі:

Теоретичне рівняння регресії.

Термін «проста регресія» вказує на те, що величина однієї змінної оцінюється на основі знань про іншу змінну. На відміну від простої, багатофакторна регресія застосовується для оцінки змінної на основі знання двох, трьох і більше змінних. Розглянемо графічний аналіз простої лінійної регресії.

Припустимо, є результати відбіркових випробувань за попереднім наймом на роботу та продуктивністю праці.

Результати відбору (100 балів), x

Продуктивність (20 балів), y

Нанісши крапки на графік, отримаємо діаграму (поле) розсіювання. Використовуємо її для аналізу результатів відбірних випробувань та продуктивності праці.

За діаграмою розсіювання проаналізуємо лінію регресії. У регресійному аналізі завжди вказуються хоча б дві змінні. Систематичне зміна однієї змінної пов'язані з зміною інший. основна ціль регресійного аналізуполягає в оцінці величини однієї змінної, якщо величина іншої змінної відома. Для повної задачі важливою є оцінка продуктивності праці.

Незалежною змінноюу регресійному аналізі називається величина, яка використовується як основа для аналізу іншої змінної. У разі – це результати відбіркових випробувань (по осі X).

Залежною змінноюназивається оцінювана величина (по осі У). У регресійному аналізі може бути лише одна залежна змінна та кілька незалежних змінних.

Для простого регресійного аналізу залежність можна у двокоординатної системі (х і у), по осі X – незалежна змінна, по осі У – залежна. Наносимо точки перетину таким чином, щоб на графіку було представлено пару величин. Графік називають діаграмою розсіювання. Її побудова – це другий етап регресійного аналізу, оскільки перший – це вибір аналізованих величин та збір даних вибірки. Отже, регресійний аналіз застосовується для статистичного аналізу. Зв'язок між вибірковими даними діаграми лінійний.

Для оцінки величини змінної у на основі змінної х необхідно визначити положення лінії, яка найкраще представляє зв'язок між х і у на основі розташування точок діаграми розсіювання. У прикладі це аналіз продуктивності. Лінія, проведена через точки розсіювання – лінія регресії. Одним із способів побудови лінії регресії, заснованому на візуальному досвіді, є спосіб побудови від руки. На нашій лінії регресії можна визначити продуктивність праці. При знаходженні рівняння лінії регресії

Найчастіше застосовують критерій найменших квадратів. Найбільш підходящою є та лінія, де сума квадратів відхилень мінімальна

Математичне рівняння лінії зростання представляє закон зростання арифметичної прогресії:

у = аbх.

Y = а + bх– наведене рівняння з одним параметром є найпростішим видом рівняння зв'язку. Воно прийнятне для середніх величин. Щоб точніше висловити зв'язок між хі у, вводиться додатковий коефіцієнт пропорційності bщо вказує нахил лінії регресії.

Б) Побудова теоретичної лінії регресії.

Процес її знаходження полягає у виборі та обґрунтуванні типу кривої та розрахунків параметрів а, b, зі т.д. Процес побудови називають вирівнюванням і запас кривих, пропонованих мат. аналізом, різноманітний. Найчастіше в економічних завданнях використовують сімейство кривих, рівняння, які виражаються багаточленами цілих позитивних ступенів.

1)
- Рівняння прямої,

2)
- Рівняння гіперболи,

3)
- Рівняння параболи,

де - ординати теоретичної лінії регресії.

Вибравши тип рівняння, необхідно знайти параметри, від яких це рівняння залежить. Наприклад, характер розташування точок у полі розсіювання показав, що теоретична лінія регресії є прямою.

Діаграма розсіювання дозволяє уявити продуктивність праці з допомогою регресійного аналізу. В економіці за допомогою регресійного аналізу передбачаються багато показників, що впливають на кінцевий продукт (з урахуванням ціноутворення).

В) Критерій найменших кадратів для знаходження прямої лінії.

Один із критеріїв, які ми могли б застосувати для відповідної лінії регресії на діаграмі розсіювання, ґрунтується на виборі лінії, для якої сума квадратів похибок буде мінімальною.

Близькість точок розсіювання до прямої вимірюється ординатами відрізків. Відхилення цих точок можуть бути позитивними та негативними, але сума квадратів відхилень теоретичної прямої від експериментальної завжди позитивна і має бути мінімальною. Факт розбіжності всіх точок розсіювання зі становищем лінії регресії свідчить про існування розбіжності між експериментальними і теоретичними даними. Таким чином, можна сказати, що жодна інша лінія регресії, крім тієї, яку знайшли, не може дати меншу суму відхилень між експериментальними та досвідченими даними. Отже, знайшовши теоретичне рівняння ý та лінію регресії, ми задовольняємо вимогам найменших квадратів.

Це робиться за допомогою рівняння зв'язку
, використовуючи формули для знаходження параметрів аі b. Взявши теоретичне значення
і позначивши ліву частину рівняння через f, отримаємо функцію
від невідомих параметрів аі b. Значення аі bбудуть задовольняти мінімум функції fта перебувають з рівнянь приватних похідних
і
. Це необхідна умоваОднак для позитивної квадратичної функції це є і достатньою умовою для знаходження аі b.

Виведемо з рівнянь похідних формули формули параметрів аі b:



отримаємо систему рівнянь:

де
- Середньоарифметичні похибки.

Підставивши числові значення, знайдемо параметри аі b.

Існує поняття
. Це коефіцієнт апроксимації.

Якщо е < 33%, то модель приемлема для дальнейшего анализа;

Якщо е> 33%, то беремо гіперболу, параболу тощо. Це дає право на аналіз у різних ситуаціях.

Висновок: за критерієм коефіцієнта апроксимації найбільш підходящою є та лінія, для яких

і жодна інша лінія регресії для нашого завдання не дає мінімум відхилень.

Г) Квадратична помилка оцінки, перевірка їхньої типовості.

Стосовно сукупності, у якої число параметрів дослідження менше 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Критерій Стьюдента. При цьому обчислюється фактичне значення t-критерія:

Звідси

де - Залишкова середньоквадратична похибка. Отримані t aі t bпорівнюють із критичним t kіз таблиці Стьюдента з урахуванням прийнятого рівня значущості ( = 0,01 = 99% або  = 0,05 = 95%). P = f = k 1 = m- Число параметрів досліджуваного рівняння (ступінь свободи). Наприклад, якщо y = a + bx; m = 2, k 2 = f 2 = p 2 = n – (m+ 1), де n– кількість досліджуваних ознак.

t a < t k < t b .

Висновок: за перевіреними на типовість параметрами рівняння регресії проводиться побудова математичної моделі зв'язку
. При цьому параметри застосованої в аналізі математичної функції (лінійна, гіпербола, парабола) набувають відповідних кількісних значень. Смисловий зміст одержаних таким чином моделей полягає в тому, що вони характеризують середню величину результативної ознаки
від факторної ознаки X.

Д) Криволінійна регресія.

Досить часто зустрічається криволінійна залежність, коли між змінними встановлюється співвідношення, що змінюється. Інтенсивність зростання (зменшення) залежить від рівня перебування X. Криволінійна залежність буває різних видів. Наприклад, розглянемо залежність між урожаєм та опадами. Зі збільшенням опадів за рівних природних умов інтенсивне збільшення врожаю, але до певної межі. Після критичної точки опади виявляються зайвими і врожайність катастрофічно падає. З прикладу видно, що спочатку зв'язок був позитивним, а потім негативним. Критична точка - оптимальний рівень ознаки X, якому відповідає максимальне чи мінімальне значення ознаки У.

В економіці такий зв'язок спостерігається між ціною та споживанням, продуктивністю та стажем.

Параболічна залежність.

Якщо дані показують, що збільшення факторної ознаки призводить до зростання результативної ознаки, то як рівняння регресії береться рівняння другого порядку (парабола).

. Коефіцієнти a,b,c перебувають з рівнянь приватних похідних:

Отримуємо систему рівнянь:

Види криволінійних рівнянь:

,

,

Має право припускати, що між продуктивністю праці та балами відбіркових випробувань існує криволінійна залежність. Це означає, що зі зростанням бальної системи продуктивність почне на якомусь рівні зменшуватися, тому пряма модель може бути криволінійною.

Третьою моделлю буде гіпербола, і у всіх рівняннях замість змінної х стоятиме вираз.

Поняття кореляції та регресії безпосередньо пов'язані між собою. У кореляційному та регресійному аналізі багато загальних обчислювальних прийомів. Вони використовуються для виявлення причинно-наслідкових співвідношень між явищами та процесами. Однак, якщо кореляційний аналіздозволяє оцінити силу та напрямок стохастичного зв'язку, то регресійний аналіз- ще й форму залежності.

Регресія може бути:

а) залежно від кількості явищ (змінних):

Простий (регресія між двома змінними);

Множинною (регресія між залежною змінною (y) і декількома змінними, що її пояснюють (х1, х2...хn);

б) залежно від форми:

Лінійною (відображається лінійною функцією, а між змінними, що вивчаються, існують лінійні співвідношення);

Нелінійний (відображається нелінійною функцією, між досліджуваними змінними зв'язок носить нелінійний характер);

в) характером зв'язку між включеними на розгляд змінними:

Позитивною (збільшення значення пояснюючої змінної призводить до збільшення значення залежної змінної та навпаки);

Негативною (зі збільшенням значення пояснюючої змінної значення пояснюваної змінної зменшується);

г) за типом:

Безпосередній (у разі причина надає прямий вплив на слідство, тобто залежна і пояснює змінні пов'язані безпосередньо друг з одним);

Непрямої (пояснювальна змінна надає опосередковану дію через третю чи низку інших змінних на залежну змінну);

Помилковий (нонсенс регресія) - може виникнути при поверхневому та формальному підході до досліджуваних процесів та явищ. Прикладом безглуздих є регресія, яка встановлює зв'язок між зменшенням кількості споживаного алкоголю нашій країні та зменшенням продажу прального порошку.

Під час проведення регресійного аналізу вирішуються такі основні завдання:

1. Визначення форми залежності.

2. Визначення функції регресії. Для цього використовують математичне рівняння того чи іншого типу, що дозволяє, по-перше, встановити загальну тенденцію зміни залежної змінної, а, по-друге, обчислити вплив пояснюючої змінної (або кількох змінних) на залежну змінну.

3. Оцінка невідомих значень залежною змінною. Отримана математична залежність (рівняння регресії) дозволяє визначати значення залежної змінної як у межах інтервалу заданих значень пояснюючих змінних, і поза ним. В останньому випадку регресійний аналіз виступає як корисний інструмент при прогнозуванні змін соціально-економічних процесів та явищ (за умови збереження існуючих тенденцій та взаємозв'язків). Зазвичай довжина тимчасового відрізка, який здійснюється прогнозування, вибирається трохи більше половини інтервалу часу, у якому проведено спостереження вихідних показників. Можна здійснити як пасивний прогноз, вирішуючи завдання екстраполяції, так і активний, ведучи міркування за відомою схемою "якщо ..., то" і підставляючи різні значення в одну або кілька змінних регресії, що пояснюють.



Для побудови регресіївикористовується спеціальний метод, який отримав назву методу найменших квадратів. Цей метод має переваги перед іншими методами згладжування: порівняно просте математичне визначення шуканих параметрів та хороше теоретичне обґрунтування з імовірнісної точки зору.

При виборі моделі регресії однією з суттєвих вимог до неї є забезпечення максимально можливої ​​простоти, що дозволяє отримати рішення з достатньою точністю. Тому для встановлення статистичних зв'язків спочатку, як правило, розглядають модель із класу лінійних функцій (як найпростішого з усіх можливих класів функцій):

де bi, b2 ... bj - Коефіцієнти, що визначають вплив незалежних змінних хij на величину yi; аi – вільний член; ei - випадкове відхилення, що відбиває вплив неврахованих факторів на залежну змінну; n – число незалежних змінних; N число спостережень, причому має дотримуватися умова (N. n+1).

Лінійна модельможе описувати дуже широкий клас різних завдань. Однак на практиці, зокрема в соціально-економічних системах, іноді важко застосування лінійних моделей через великі помилки апроксимації. Тому нерідко використовуються функції нелінійної множинної регресії, що допускають лінеаризацію. До них, наприклад, належить виробнича функція (статечна функція Кобба-Дугласа), яка знайшла застосування у різних соціально-економічних дослідженнях. Вона має вигляд:

де b 0 – нормувальний множник, b 1 … b j – невідомі коефіцієнти, e i – випадкове відхилення.

Використовуючи натуральні логарифми, можна перетворити це рівняння на лінійну форму:

Отримана модель дозволяє використовувати стандартні процедури лінійної регресії, описані вище. Побудувавши моделі двох видів (адитивні та мультиплікативні), можна вибрати найкращі та провести подальші дослідження з меншими помилками апроксимації.

Існує добре розвинена система підбору апроксимуючих функцій. методика групового обліку аргументів(МГУА).

Про правильність підібраної моделі можна судити за результатами дослідження залишків, що є різницею між величинами y i, що спостерігаються, і відповідними прогнозованими за допомогою регресійного рівняння величинами y i . В цьому випадку для перевірки адекватності моделірозраховується середня помилка апроксимації:

Модель вважається адекватною, якщо e знаходиться не більше 15%.

Особливо підкреслимо, що стосовно соціально-економічних систем далеко не завжди виконуються основні умови адекватності класичної регресійної моделі.

Не зупиняючись на всіх причинах неадекватності, назвемо лише мультиколінеарність- найскладнішу проблему ефективного застосування процедур регресійного аналізу щодо статистичних залежностей. Під мультиколінеарністюрозуміється наявність лінійного зв'язку між пояснювальними змінними.

Це явище:

а) спотворює сенс коефіцієнтів регресії за її змістовної інтерпретації;

б) знижує точність оцінювання (зростає дисперсія оцінок);

в) посилює чутливість оцінок коефіцієнтів до вибіркових даних (збільшення обсягу вибірки може сильно вплинути значення оцінок).

Існують різні прийоми зниження мультиколінеарності. Найбільш доступний спосіб - усунення однієї з двох змінних, якщо коефіцієнт кореляції між ними перевищує значення, що дорівнює абсолютній величині 0,8. Яку зі змінних залишити вирішують, виходячи із змістовних міркувань. Потім знову проводиться розрахунок коефіцієнтів регресії.

Використання алгоритму покрокової регресії дозволяє послідовно включати в модель однієї незалежної змінної і аналізувати значимість коефіцієнтів регресії і мультиколлинеарность змінних. Остаточно в досліджуваній залежності залишаються лише ті змінні, які забезпечують необхідну значущість коефіцієнтів регресії та мінімальний вплив мультиколлінеарності.

Регресійний аналіз є одним із найбільш затребуваних методів статистичного дослідження. З його допомогою можна встановити рівень впливу незалежних величин на залежну змінну. У функціоналі Microsoft Excel є інструменти, призначені щодо такого аналізу. Давайте розберемо, що вони являють собою і як ними користуватися.

Але для того, щоб використовувати функцію, що дозволяє провести регресійний аналіз, перш за все, потрібно активувати Пакет аналізу. Тільки тоді необхідні для цієї процедури інструменти з'являться на Стрічці Ексель.


Тепер, коли ми перейдемо у вкладку «Дані»на стрічці в блоці інструментів «Аналіз»ми побачимо нову кнопку – «Аналіз даних».

Види регресійного аналізу

Існує кілька видів регресій:

  • параболічна;
  • статечна;
  • логарифмічна;
  • експонентна;
  • показова;
  • гіперболічна;
  • Лінійна регресія.

Про виконання останнього виду регресійного аналізу в Екселі ми докладніше поговоримо далі.

Лінійна регресія у програмі Excel

Внизу, як приклад, представлена ​​таблиця, в якій зазначено середньодобову температуру повітря на вулиці, та кількість покупців магазину за відповідний робочий день. Давайте з'ясуємо за допомогою регресійного аналізу, як погодні умови у вигляді температури повітря можуть вплинути на відвідуваність торгового закладу.

Загальне рівняння регресії лінійного вигляду має такий вигляд: У = а0 + а1х1 +…+акхк. У цій формулі Yозначає змінну, вплив чинників яку ми намагаємося вивчити. У нашому випадку це кількість покупців. Значення x- Це різні фактори, що впливають на змінну. Параметри aє коефіцієнтами регресії. Тобто саме вони визначають значущість того чи іншого чинника. Індекс kпозначає загальну кількість цих факторів.


Розбір результатів аналізу

Результати регресійного аналізу виводяться у вигляді таблиці там, яке зазначено в настройках.

Одним із основних показників є R-квадрат. У ньому вказується якість моделі. У нашому випадку цей коефіцієнт дорівнює 0,705 або близько 70,5%. Це прийнятний рівень якості. Залежність менше ніж 0,5 є поганою.

Ще один важливий показник розташований у осередку на перетині рядка «Y-перетин»та стовпця «Коефіцієнти». Тут вказується яке значення буде у Y, а нашому випадку, це кількість покупців, за всіх інших чинниках рівних нулю. У цій таблиці це значення дорівнює 58,04.

Значення на перетині граф «Змінна X1»і «Коефіцієнти»показує рівень залежності Y від X. У нашому випадку це рівень залежності кількості клієнтів магазину від температури. Коефіцієнт 1,31 вважається досить високим показником впливу.

Як бачимо, за допомогою програми Microsoft Excel досить легко скласти таблицю регресійного аналізу. Але працювати з отриманими на виході даними і розуміти їх суть зможе лише підготовлена ​​людина.

Після того, як за допомогою кореляційного аналізу виявлено наявність статистичних зв'язків між змінними та оцінено ступінь їх тісноти, зазвичай переходять до математичного опису конкретного виду залежностей з використанням регресійного аналізу. З цією метою підбирають клас функцій, що пов'язує результативний показник у і аргументи х 1, х 2, ..., х к відбирають найбільш інформативні аргументи, обчислюють оцінки невідомих значень параметрів рівняння зв'язку та аналізують властивості отриманого рівняння.

Функція f(х 1, х 2, ..., х к) описує залежність середнього значення результативної ознаки від заданих значень аргументів, називається функцією (рівнянням) регресії. Термін «регресія» (лат. -Regression-відступ, повернення до чого-небудь) введений англійським психологом і антропологом Ф.Гальтон і пов'язаний виключно зі специфікою одного з перших конкретних прикладів, в якому це поняття було використано. Так, обробляючи статистичні дані у зв'язку з аналізом спадковості зростання, Ф. Гальтон виявив, що й батьки відхиляються від середнього зростання всіх батьків на x дюймів, їх сини відхиляються від середнього зростання всіх синів менше, ніж x дюймів. Виявлену тенденцію було названо «регресією до середнього стану». З того часу термін «регресія» широко використовується в статистичній літературі, хоча в багатьох випадках він недостатньо точно характеризує поняття статистичної залежності.

Для точного опису рівняння регресії необхідно знати закон розподілу результативного показника. У статистичній практиці зазвичай доводиться обмежуватися пошуком відповідних апроксимацій для невідомої істинної функції регресії, так як дослідник не має в своєму розпорядженні точного знання умовного закону розподілу ймовірностей аналізованого результатуючого показника при заданих значеннях аргументу х.

Розглянемо взаємини між істинною f(х) = М(у1х), мо дельною регресією? та оцінкою y регресії. Нехай результативний показник пов'язаний з аргументом х співвідношенням:

де - е випадкова величина, має нормальний закон розподілу, причому Ме = 0 і D е = у 2 . Справжня функція регресії у разі має вигляд: f(х) = М(у/х) = 2х 1.5 .

Припустимо, що точний вид істинного рівняння регресії нам не відомий, але ми маємо дев'ять спостережень над двовимірною випадковою величиною, пов'язаною співвідношенням уi = 2х1,5 + е, і представленої на рис. 1

Малюнок 1 - Взаємне розташування істиною f(х) та теоретичної? моделі регресії

Розташування крапок на рис. 1 дозволяє обмежитися класом лінійних залежностей виду? = 0 + 1 x. З допомогою методу найменших квадратів знайдемо оцінку рівняння регресії у = b 0 +b 1 x. Для порівняння на рис. 1 наводяться графіки істинної функції регресії у=2х 1,5 , теоретичної апроксимуючої функції регресії? = 0 + 1 x .

Оскільки ми помилилися у виборі класу функції регресії, а це досить часто зустрічається у практиці статистичних досліджень, то наші статистичні висновки та оцінки виявляться помилковими. І як би ми не збільшували обсяг спостережень, наша вибіркова оцінка не буде близька до справжньої функції регресії f (х). Якщо ми правильно вибрали клас функцій регресії, то неточність в описі f(х) за допомогою? пояснювалася б лише обмеженістю вибірки.

З метою найкращого відновлення за вихідними статистичними даними умовного значення результативного показника у(х) та невідомої функції регресії f(х) = М(у/х) найчастіше використовують такі критерії адекватності (функції втрат).

Метод найменших квадратів. Відповідно до нього мінімізується квадрат відхилення значень результативного показника у, (i = 1,2,..., п) від модельних значень,? = f(х i), де, х i - значення вектора аргументів у i-му спостереженні: ?

Метод найменших модулів. Згідно з ним мінімізується сума абсолютних відхилень значень результативного показника від модульних значень. І отримуємо? = f(х i), середньоабсолютну медіанну регресію? |y i - f(x i)| >min.

Регресійним аналізом називається метод статистичного аналізузалежності випадкової величини у від змінних х j = (j=1,2,..., к), що розглядаються в регресійному аналізі як не випадкові величининезалежно від істинного закону розподілу х j.

Зазвичай передбачається, що випадкова величина має нормальний закон розподілу з умовним математичним очікуванням у, що є функцією від аргументів х/ (/= 1, 2,..., к) і постійною, не залежить від аргументів, дисперсією у 2 .

Загалом лінійна модель регресійного аналізу має вигляд:

Y = У k j=0в jц j(x 1 , x 2 . . .. ,x k)+Е

де ц j - деяка функція його змінних - x1, x2. . .. , x k , Е - випадкова величина з нульовим математичним очікуванням та дисперсією у 2 .

У регресійному аналізі вид рівняння регресії вибирають виходячи з фізичної сутностідосліджуваного явища та результатів спостереження.

Оцінки невідомих параметрів рівняння регресії знаходять зазвичай шляхом найменших квадратів. Нижче зупинімося докладніше на цій проблемі.

Двовимірне лінійне рівняннярегресії. Нехай на підставі аналізу досліджуваного явища передбачається, що в «середньому» є лінійна функціявід х, тобто є рівняння регресії

у = М (у / х) = в 0 + в 1 х)

де М(у1х) - умовне математичне очікування випадкової величини при заданому х; 0 і 1 - невідомі параметри генеральної сукупності, які слід оцінити за результатами вибіркових спостережень.

Припустимо, що з оцінки параметрів 0 і 1 з двовимірної генеральної сукупності (х, у) взята вибірка обсягом n, де (х, у,) результат i-го спостереження (i = 1, 2,..., n) . У цьому випадку модель регресійного аналізу має вигляд:

y j = 0 + 1 x+е j .

де е j .- незалежні нормально розподілені випадкові величини з нульовим математичним очікуванням та дисперсією у 2, тобто М е j. = 0;

D е j .= у 2 всім i = 1, 2,..., n.

Згідно з методом найменших квадратів як оцінки невідомих параметрів у 0 і в 1 слід брати такі значення вибіркових характеристик b 0 і b 1 , які мінімізують суму квадратів відхилень значень результативної ознаки у i від умовної математичного очікування? i

Методику визначення впливу показників маркетингу з прибутку підприємства розглянемо з прикладу сімнадцяти типових підприємств, мають середні розміри і показники господарську діяльність.

Під час вирішення завдання враховувалися такі характеристики, виявлені в результаті анкетного опитуванняяк найбільш значущі (важливі):

* інноваційна діяльність підприємства;

* планування асортименту виробленої продукції;

* формування цінової політики;

* Взаємини з громадськістю;

* Система збуту;

* Система стимулювання працівників.

На основі системи порівнянь за факторами були побудовані квадратні матрицісуміжності, у яких обчислювалися значення відносних пріоритетів за кожним чинником: інноваційна діяльність підприємства, планування асортименту виробленої продукції, формування цінової політики, реклама, стосунки з громадськістю, система збуту, система стимулювання працівників.

Оцінки пріоритетів за фактором «відносини з громадськістю» отримані в результаті анкетування фахівців підприємства. Прийнято такі позначення: > (краще), > (краще або однаково), = (однаково),< (хуже или одинаково), <

Далі вирішувалося завдання комплексної оцінки рівня маркетингу підприємства. При розрахунку показника було визначено значимість (вага) розглянутих приватних ознак і вирішувалося завдання лінійного згортання приватних показників. Обробка даних проводилася за спеціально розробленими програмами.

p align="justify"> Далі розраховується комплексна оцінка рівня маркетингу підприємства - коефіцієнт маркетингу, який вноситься в таблиці 1. Крім того, в названу таблицю включені показники, що характеризують підприємство в цілому. Дані таблиці будуть використані щодо регресійного аналізу. Результативною ознакою є прибуток. Як факторні ознаки поряд з коефіцієнтом маркетингу використані такі показники: обсяг валової продукції, вартість основних фондів, чисельність працівників, коефіцієнт спеціалізації.

Таблиця 1 - Вихідні дані для регресійного аналізу


За даними таблиці та на основі факторів з найбільш суттєвими значеннями коефіцієнтів кореляції були побудовані регресійні функції залежності прибутку від факторів.

Рівняння регресії в нашому випадку набуде вигляду:

Про кількісний вплив розглянутих вище чинників на величину прибутку говорять коефіцієнти рівняння регресії. Вони показують, скільки тисяч рублів змінюється її величина за зміни факторного ознаки однією одиницю. Як випливає з рівняння, збільшення коефіцієнта комплексу маркетингу одну одиницю дає приріст прибутку на 1547,7 тис. крб. Це свідчить, що у вдосконаленні маркетингової діяльності криється величезний потенціал поліпшення економічних показників підприємств.

При дослідженні ефективності маркетингу найбільш цікавою і найважливішою факторною ознакою є фактор Х5 - коефіцієнт маркетингу. Відповідно до теорії статистики гідність наявного рівняння множинної регресії є можливість оцінювати ізольований вплив кожного фактора, у тому числі фактора маркетингу.

Результати проведеного регресійного аналізу мають і ширше застосування, ніж розрахунку параметрів рівняння. Критерій віднесення (КЕФ) підприємств до відносно кращих або відносно гірших грунтується на відносному показнику результату:

де Y фактi – фактична величина i-го підприємства, тис. руб.;

Y розчі - величина прибутку i-го підприємства, отримана розрахунковим шляхом за рівнянням регресії

У термінах розв'язуваного завдання величина зветься «коефіцієнт ефективності». Діяльність підприємства можна визнати ефективною у випадках, коли величина коефіцієнта більше одиниці. Це означає, що фактичний прибуток більший за прибуток, усереднений за вибіркою.

Фактичні та розрахункові значення прибутку представлені в табл. 2.

Таблиця 2 - Аналіз результативної ознаки у регресійній моделі

Аналіз таблиці показує, що у нашому випадку діяльність підприємств 3, 5, 7, 9, 12, 14, 15, 17 за період, що розглядається, можна визнати успішною.

Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.