Навіщо застосовується метод найменших квадратів. Лінійна регресія. Використання методу найменших квадратів (МНК). Деякі програми МНК

  • Вступний урок безкоштовно;
  • Велика кількість досвідчених викладачів (нейтивів та російськомовних);
  • Курси НЕ визначений термін (місяць, півроку, рік), але в конкретну кількість занять (5, 10, 20, 50);
  • Понад 10 000 задоволених клієнтів.
  • Вартість одного заняття з російськомовним викладачем від 600 рублів, з носієм мови - від 1500 рублів

Сутність методу найменших квадратів полягає у відшуканні параметрів моделі тренда, яка найкраще описує тенденцію розвитку якогось випадкового явища у часі чи просторі (тренд – це лінія, що й характеризує тенденцію цього розвитку). Завдання методу найменших квадратів (МНК) зводиться до знаходження не просто якоїсь моделі тренду, а до знаходження кращої чи оптимальної моделі. Ця модель буде оптимальною, якщо сума квадратичних відхилень між фактичними величинами, що спостерігаються, і відповідними ним розрахунковими величинами тренда буде мінімальною (найменшою):

де - квадратичне відхилення між фактичною величиною, що спостерігається.

та відповідною їй розрахунковою величиною тренду,

Фактичне (спостерігається) значення досліджуваного явища,

Розрахункове значення моделі тренду,

Число спостережень за явищем, що вивчається.

МНК самостійно застосовується досить рідко. Як правило, найчастіше його використовують лише як необхідний технічний прийом при кореляційних дослідженнях. Слід пам'ятати, що інформаційною основою МНК може бути лише достовірний статистичний ряд, причому число спостережень не повинно бути менше 4-х, інакше процедури, що згладжують МНК, можуть втратити здоровий глузд.

Інструментарій МНК зводиться до таких процедур:

Перша процедура. З'ясовується, чи взагалі існує якась тенденція зміни результативної ознаки при зміні обраного фактора-аргументу, або іншими словами, чи є зв'язок між « у » та « х ».

Друга процедура. Визначається, яка лінія (траєкторія) здатна найкраще описати чи охарактеризувати цю тенденцію.

Третя процедура.

приклад. Допустимо, ми маємо інформацію про середню врожайність соняшнику по досліджуваному господарству (табл. 9.1).

Таблиця 9.1

Номер спостереження

Врожайність, ц/га

Оскільки рівень технології при виробництві соняшнику в нашій країні за останні 10 років практично не змінився, отже, мабуть, коливання врожайності в аналізований період дуже залежали від коливання погодно-кліматичних умов. Чи це так?

Перша процедура МНК. Перевіряється гіпотеза про існування тенденції зміни врожайності соняшнику залежно від зміни погодно-кліматичних умов за 10 років, що аналізуються.

У цьому прикладі за « y » Доцільно прийняти врожайність соняшнику, а за « x » - Номер спостережуваного року в аналізованому періоді. Перевірку гіпотези про існування будь-якого взаємозв'язку між « x » та « y » можна виконати двома способами: вручну та за допомогою комп'ютерних програм. Звісно, ​​за наявності комп'ютерної техніки дана проблема вирішується сама собою. Але щоб краще зрозуміти інструментарій МНК доцільно виконати перевірку гіпотези про існування зв'язку між « x » та « y » вручну, коли під рукою знаходяться лише ручка та звичайний калькулятор. У таких випадках гіпотезу про існування тенденції найкраще перевірити візуальним способом щодо розташування графічного зображення аналізованого ряду динаміки - кореляційного поля:

Кореляційне поле в нашому прикладі розташоване навколо лінії, що повільно зростає. Це вже само собою говорить про існування певної тенденції в зміні врожайності соняшника. Не можна говорити про наявність будь-якої тенденції лише тоді, коли кореляційне поле схоже на коло, коло, строго вертикальну або строго горизонтальну хмару, або ж складається з хаотично розкиданих точок. В інших випадках слід підтвердити гіпотезу про існування взаємозв'язку між « x » та « y », та продовжити дослідження.

Друга процедура МНК. Визначається, яка лінія (траєкторія) здатна найкраще описати чи охарактеризувати тенденцію зміни врожайності соняшника за аналізований період.

За наявності комп'ютерної техніки вибір оптимального тренда відбувається автоматично. При «ручній» обробці вибір оптимальної функції здійснюється, як правило, візуальним способом – розташування кореляційного поля. Тобто, на вигляд графіка підбирається рівняння лінії, яка найкраще підходить до емпіричного тренду (до фактичної траєкторії).

Як відомо, у природі існує величезна різноманітність функціональних залежностей, тому візуальним способом проаналізувати навіть незначну їх частину – вкрай важко. На щастя, в реальній економічній практиці більшість взаємозв'язків досить точно можуть бути описані або параболою, або гіперболою, або прямою лінією. У зв'язку з цим, при «ручному» варіанті вибору кращої функції, можна обмежитися тільки цими трьома моделями.

Гіперболу:

Парабола другого порядку: :

Неважко помітити, що у нашому прикладі найкраще тенденцію зміни врожайності соняшника за аналізовані 10 років характеризує пряма лінія, тому рівнянням регресії буде пряма рівняння.

Третя процедура. Розраховуються параметри регресійного рівняння, що характеризує цю лінію, або іншими словами визначається аналітична формула, що описує кращу модель тренду.

Знаходження значень параметрів рівняння регресії, у разі параметрів і , є серцевиною МНК. Цей процес зводиться до вирішення системи нормальних рівнянь.

(9.2)

Ця система рівнянь досить легко вирішується методом Гаусса. Нагадаємо, що в результаті рішення в нашому прикладі знаходяться значення параметрів і . Таким чином, знайдене рівняння регресії матиме такий вигляд:

Наблизимо функцію многочленом 2-го ступеня. Для цього обчислимо коефіцієнти нормальної системи рівнянь:

, ,

Складемо нормальну систему найменших квадратів, яка має вигляд:

Рішення системи легко перебуває: , .

Таким чином, многочлен другого ступеня виявлено: .

Теоретична довідка

Повернутися на сторінку<Введение в вычислительную математику. Примеры>

Приклад 2. Знаходження оптимального ступеня багаточлену.

Повернутися на сторінку<Введение в вычислительную математику. Примеры>

Приклад 3. Виведення нормальної системи рівнянь знаходження параметрів емпіричної залежності.

Виведемо систему рівнянь для визначення коефіцієнтів та функції , що здійснює середньоквадратичну апроксимацію заданої функції за точками. Складемо функцію і запишемо для неї необхідну умову екстремуму:

Тоді нормальна система набуде вигляду:

Отримали лінійну систему рівнянь щодо невідомих параметрів і легко вирішується.

Теоретична довідка

Повернутися на сторінку<Введение в вычислительную математику. Примеры>

приклад.

Експериментальні дані про значення змінних хі унаведено у таблиці.

В результаті їх вирівнювання отримано функцію

Використовуючи метод найменших квадратів, апроксимувати ці дані лінійною залежністю y=ax+b(Знайти параметри аі b). З'ясувати, яка з двох ліній краще (у сенсі способу менших квадратів) вирівнює експериментальні дані. Зробити креслення.

Суть методу найменших квадратів (МНК).

Завдання полягає у знаходженні коефіцієнтів лінійної залежності, при яких функція двох змінних аі bнабуває найменшого значення. Тобто, за даними аі bсума квадратів відхилень експериментальних даних від знайденої прямої буде найменшою. У цьому суть методу найменших квадратів.

Таким чином, рішення прикладу зводиться до знаходження екстремуму функції двох змінних.

Висновок формул знаходження коефіцієнтів.

Складається та вирішується система із двох рівнянь із двома невідомими. Знаходимо приватні похідні функції за змінними аі b, Прирівнюємо ці похідні до нуля.

Вирішуємо отриману систему рівнянь будь-яким методом (наприклад методом підстановкиабо методом Крамера) і отримуємо формули для знаходження коефіцієнтів методом найменших квадратів (МНК).

За даними аі bфункція набуває найменшого значення. Доказ цього факту наведено нижче в кінці сторінки.

Ось і весь спосіб найменших квадратів. Формула для знаходження параметра aмістить суми , , , та параметр n- Кількість експериментальних даних. Значення цих сум рекомендуємо обчислювати окремо.

Коефіцієнт bзнаходиться після обчислення a.

Настав час згадати про вихідний приклад.

Рішення.

У нашому прикладі n=5. Заповнюємо таблицю для зручності обчислення сум, що входять до формул шуканих коефіцієнтів.

Значення у четвертому рядку таблиці отримані множенням значень 2-го рядка на значення 3-го рядка для кожного номера i.

Значення у п'ятому рядку таблиці отримані зведенням у квадрат значень другого рядка для кожного номера i.

Значення останнього стовпця таблиці – це суми значень рядків.

Використовуємо формули методу найменших квадратів для знаходження коефіцієнтів аі b. Підставляємо у них відповідні значення з останнього стовпця таблиці:

Отже, y = 0.165x+2.184- Шукана апроксимуюча пряма.

Залишилося з'ясувати, яка з ліній y = 0.165x+2.184або краще апроксимує вихідні дані, тобто провести оцінку шляхом найменших квадратів.

Оцінка похибки способу менших квадратів.

Для цього потрібно обчислити суми квадратів відхилень вихідних даних від цих ліній і менше значення відповідає лінії, яка краще в сенсі методу найменших квадратів апроксимує вихідні дані.

Оскільки , то пряма y = 0.165x+2.184краще наближає вихідні дані.

Графічна ілюстрація методу найменших квадратів (МНК).

На графіках все чудово видно. Червона лінія – це знайдена пряма y = 0.165x+2.184, синя лінія – це , Рожеві точки - це вихідні дані.

Навіщо це потрібно, до чого всі ці апроксимації?

Я особисто використовую для вирішення завдань згладжування даних, задач інтерполяції та екстраполяції (у вихідному прикладі могли б попросити знайти значення спостережуваної величини yпри x=3або при x=6методом МНК). Але докладніше поговоримо про це пізніше в іншому розділі сайту.

На початок сторінки

Доведення.

Щоб при знайдених аі bфункція приймала найменше значення, необхідно, щоб у цій точці матриця квадратичної форми диференціала другого порядку для функції була позитивно визначеною. Покажемо це.

Диференціал другого порядку має вигляд:

Тобто

Отже, матриця квадратичної форми має вигляд

причому значення елементів не залежать від аі b.

Покажемо, що матриця є позитивно визначеною. Для цього потрібно, щоб кутові мінори були позитивними.

Кутовий мінор першого порядку . Нерівність сувора, оскільки точки несупадні. Надалі це матимемо на увазі.

Кутовий мінор другого порядку

Доведемо, що методом математичної індукції.

Висновок: знайдені значення аі bвідповідають найменшому значенню функції , отже, є параметрами для методу найменших квадратів.

Нема коли розбиратися?
Замовте рішення

На початок сторінки

Розробка прогнозу з допомогою методу найменших квадратів. Приклад розв'язання задачі

Екстраполяція — це метод наукового дослідження, який ґрунтується на поширенні минулих та справжніх тенденцій, закономірностей, зв'язків на майбутній розвиток об'єкта прогнозування. До методів екстраполяції відносяться метод ковзної середньої, метод експоненційного згладжування, метод найменших квадратів.

Сутність методу найменших квадратів полягає в мінімізації суми квадратичних відхилень між спостережуваними та розрахунковими величинами. Розрахункові величини перебувають за підібраним рівнянням – рівнянням регресії. Чим менша відстань між фактичними значеннями та розрахунковими, тим точніший прогноз, побудований на основі рівняння регресії.

Теоретичний аналіз сутності явища, що вивчається, зміна якого відображається тимчасовим рядом, служить основою для вибору кривої. Іноді беруться до уваги міркування характері зростання рівнів ряду. Так, якщо зростання випуску продукції очікується в арифметичній прогресії, згладжування проводиться по прямій. Якщо ж виявляється, що зростання йде в геометричній прогресії, то згладжування треба проводити за показовою функцією.

Робоча формула методу найменших квадратів : У t+1 = а * Х + b, де t + 1 – прогнозний період; Уt+1 – прогнозований показник; a та b - коефіцієнти; Х - умовне позначення часу.

Розрахунок коефіцієнтів a і b здійснюється за такими формулами:

де, УФ - фактичні значення низки динаміки; n – число рівнів часового ряду;

Згладжування часових рядів шляхом найменших квадратів служить відображення закономірності розвитку досліджуваного явища. В аналітичному вираженні тренда час сприймається як незалежна змінна, а рівні низки виступають як функція цієї незалежної змінної.

Розвиток явища залежить немає від цього, скільки років минуло з відправного моменту, як від того, які чинники впливали його розвиток, у напрямі і з якою інтенсивністю. Звідси ясно, що розвиток явища у часі постає як наслідок цих чинників.

Правильно встановити тип кривої, тип аналітичної залежності від часу – одне з найскладніших завдань передпрогнозного аналізу .

Підбір виду функції, що описує тренд, параметри якої визначаються методом найменших квадратів, проводиться в більшості випадків емпірично шляхом побудови ряду функцій і порівняння їх між собою за величиною середньоквадратичної помилки, що обчислюється за формулою:

де УФ - фактичні значення низки динаміки; Ур - розрахункові (згладжені) значення низки динаміки; n – число рівнів часового ряду; р - Число параметрів, що визначаються у формулах, що описують тренд (тенденцію розвитку).

Недоліки методу найменших квадратів :

  • при спробі описати економічне явище, що вивчається, за допомогою математичного рівняння, прогноз буде точний для невеликого періоду часу і рівняння регресії слід перераховувати в міру надходження нової інформації;
  • складність підбору рівняння регресії, яка можна розв'язати при використанні типових комп'ютерних програм.

Приклад застосування методу найменших квадратів для розробки прогнозу

Завдання . Є дані, що характеризують рівень безробіття у регіоні, %

  • Побудуйте прогноз рівня безробіття в регіоні на листопад, грудень, січень місяці, використовуючи методи: ковзного середнього, експоненційного згладжування, найменших квадратів.
  • Розрахуйте помилки отриманих прогнозів під час використання кожного методу.
  • Порівняйте отримані результати, зробіть висновки.

Рішення методом найменших квадратів

Для вирішення складемо таблицю, в якій будемо проводити необхідні розрахунки:

ε = 28,63/10 = 2,86% точність прогнозувисока.

Висновок : Порівнюючи результати, отримані при розрахунках методом ковзної середньої , методом експоненційного згладжування і методом найменших квадратів, можна сказати, що відносна середня помилка при розрахунках методом експоненційного згладжування потрапляє в межі 20-50%. Це означає, що точність прогнозу у разі є лише задовільною.

У першому та третьому випадку точність прогнозу є високою, оскільки середня відносна помилка менша за 10%. Але метод ковзних середніх дозволив отримати більш достовірні результати (прогноз на листопад – 1,52%, прогноз на грудень – 1,53%, прогноз на січень – 1,49%), оскільки середня відносна помилка під час використання цього найменша – 1 13%.

Метод найменших квадратів

Інші статті на цю тему:

Список використаних джерел

  1. Науково-методичні рекомендації з питань діагностики соціальних ризиків та прогнозування викликів, загроз та соціальних наслідків. Російський національний соціальний університет. Москва. 2010;
  2. Володимирова Л.П. Прогнозування та планування в умовах ринку: Навч. допомога. М: Видавничий Дім «Дашков і Ко», 2001;
  3. Новікова Н.В., Поздєєва О.Г. Прогнозування національної економіки: Навчально-методичний посібник. Єкатеринбург: Вид-во Урал. держ. екон. ун-ту, 2007;
  4. Слуцкін Л.М. Курс МБА з прогнозування у бізнесі. М: Альпіна Бізнес Букс, 2006.

Програма МНК

Введіть дані

Дані та апроксимація y = a + b x

i- Номер експериментальної точки;
x i- значення фіксованого параметра у точці i;
y i- значення параметра, що вимірюється в точці i;
ω i- вага виміру в точці i;
y i, розрах.- різниця між виміряним та обчисленим за регресією значенням yу точці i;
S x i (x i)- Оцінка похибки x iпри вимірі yу точці i.

Дані та апроксимація y = k x

i x i y i ω i y i, розрах. Δy i S x i (x i)

Клацніть за графіком,

Інструкція користувача онлайн-програми МНК.

У полі даних введіть на кожному окремому рядку значення `x` та `y` в одній експериментальній точці. Значення повинні відокремлюватися символом пробілу (пробілом або знаком табуляції).

Третім значенням може бути вага точки `w`. Якщо вага точки не вказана, то вона дорівнює одиниці. У переважній більшості випадків ваги експериментальних точок невідомі чи обчислюються, тобто. всі експериментальні дані вважаються рівнозначними. Іноді ваги в досліджуваному інтервалі значень точно не рівнозначні і навіть можуть бути обчислені теоретично. Наприклад, в спектрофотометрії ваги можна обчислити за простими формулами, щоправда, в основному, цим все нехтують для зменшення трудовитрат.

Дані можна вставити через буфер обміну з електронної таблиці офісних пакетів, наприклад Excel з Microsoft Офісу або Calc з Оупен Офісу. Для цього в електронній таблиці виділіть діапазон даних, що копіюються, скопіюйте в буфер обміну і вставте дані в поле даних на цій сторінці.

Для розрахунку за методом найменших квадратів необхідно не менше двох точок для визначення двох коефіцієнтів `b` - тангенса кута нахилу прямої та `a` - значення, що відсікається прямою на осі `y`.

Для оцінки похибки коефіцієнтів регресії, що розраховуються, потрібно задати кількість експериментальних точок більше двох.

Метод найменших квадратів (МНК).

Чим більша кількість експериментальних точок, тим точніша статистична оцінка коефіцінетів (за рахунок зниження коефіцінету Стьюдента) і тим ближча оцінка до оцінки генеральної вибірки.

Отримання значень у кожній експериментальній точці часто пов'язане зі значними трудовитратами, тому часто проводять компромісне число експериментів, які дає зручну оцінку і не призведе до надмірних витрат праці. Як правило, кількість експериментів точок для лінійної МНК залежності з двома коефіцієнтами вибирає в районі 5-7 точок.

Коротка теорія методу найменших квадратів для лінійної залежності

Допустимо у нас є набір експериментальних даних у вигляді пар значень [`y_i`, `x_i`], де `i` - номер одного експериментального виміру від 1 до `n`; `y_i` - значення виміряної величини в точці `i`; `x_i` - значення параметра, що задається в точці `i`.

Як приклад можна розглянути дію закону Ома. Змінюючи напругу (різницю потенціалів) між ділянками електричного ланцюга, ми заміряємо величину струму, що проходить цією ділянкою. Фізика нам дає залежність, знайдену експериментально:

`I = U/R`,
де `I` - сила струму; `R` - опір; `U` - напруга.

У цьому випадку `y_i` у нас вимірювана величина струму, а `x_i` - значення напруги.

Як інший приклад розглянемо поглинання світла розчином речовини у розчині. Хімія дає нам формулу:

`A = ε l C`,
де `A` - оптична щільність розчину; `ε` - коефіцієнт пропускання розчиненої речовини; `l` – довжина шляху при проходженні світла через кювету з розчином; `C` - концентрація розчиненої речовини.

У цьому випадку `y_i` у нас вимірювана величина відптичної щільності `A`, а `x_i` - значення концентрації речовини, яку ми задаємо.

Ми розглядатимемо випадок, коли відносна похибка в завданні `x_i` значно менша, відносної похибки вимірювання `y_i`. Також ми будемо припускати, що це виміряні величини `y_i` випадкові і нормально розподілені, тобто. підкоряються нормальному закону розподілу.

У разі лінійної залежності `y` від `x`, ми можемо написати теоретичну залежність:
`y = a + b x`.

З геометричної точки зору, коефіцієнт `b` позначає тангенс кута нахилу лінії до осі `x`, а коефіцієнт `a` - значення `y` у точці перетину лінії з віссю `y` (при `x = 0`).

Знаходження параметрів лінії регресії.

В експерименті виміряні значення `y_i` не можуть точно лягти на теоретичну пряму через помилки виміру, що завжди притаманні реальному життю. Тому лінійне рівняння потрібно представити системою рівнянь:
`y_i = a + b x_i + ε_i` (1),
де `ε_i` - невідома помилка вимірювання `y` в `i`-ому експерименті.

Залежність (1) також називають регресією, тобто. залежністю двох величин одна від одної зі статистичною значимістю.

Завданням відновлення залежності є знаходження коефіцієнтів `a` та `b` по експериментальних точках [`y_i`, `x_i`].

Для знаходження коефіцієнтів `a` та `b` зазвичай використовується метод найменших квадратів(МНК). Він є окремим випадком принципу максимальної правдоподібності.

Перепишемо (1) у вигляді `ε_i = y_i - a - b x_i`.

Тоді сума квадратів помилок буде
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Принципом МНК (методу найменших квадратів) є мінімізація суми (2) щодо параметрів `a` та `b`.

Мінімум досягається, коли приватні похідні від суми (2) за коефіцієнтами `a` та `b` дорівнюють нулю:
`frac(partial Φ)(partial a) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial a) = 0`
`frac(partial Φ)(partial b) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial b) = 0`

Розкриваючи похідні, отримуємо систему із двох рівнянь із двома невідомими:
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Розкриваємо дужки та переносимо незалежні від шуканих коефіцієнтів суми в іншу половину, отримаємо систему лінійних рівнянь:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

Вирішуючи, отриману систему, знаходимо формули для коефіцієнтів `a` та `b`:

a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

Ці формули мають рішення, коли `n > 1` (лінію можна побудувати не менш ніж за 2-ма точками) і коли детермінант `D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1) ^ (n) x_i) ^ 2! = 0 `, тобто. коли точки `x_i` в експерименті розрізняються (тобто коли лінія не вертикальна).

Оцінка похибок коефіцієнтів лінії регресії

Для більш точної оцінки похибки обчислення коефіцієнтів `a` та `b` бажано велика кількість експериментальних точок. При `n = 2` оцінити похибку коефіцієнтів неможливо, т.к. апроксимуюча лінія однозначно проходитиме через дві точки.

Похибка випадкової величини `V` визначається законом накопичення помилок
`S_V^2 = sum_(i=1)^p (frac(partial f)(partial z_i))^2 S_(z_i)^2`,
де `p` - число параметрів `z_i` з похибкою `S_(z_i)`, які впливають на похибку `S_V`;
`f` - функція залежності `V` від `z_i`.

Розпишемо закон накопичення помилок для похибки коефіцієнтів `a` та `b`
`S_a^2 = sum_(i=1)^(n)(frac(partial a)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial a )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial a)(partial y_i))^2`,
`S_b^2 = sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial b) )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 `,
т.к. `S_(x_i)^2 = 0` (ми раніше зробили застереження, що похибка `x` зневажливо мала).

`S_y^2 = S_(y_i)^2` - похибка (дисперсія, квадрат стандартного відхилення) у вимірі `y` у припущенні, що похибка однорідна для всіх значень `y`.

Підставляючи в отримані вирази формули для розрахунку `a` та `b` отримаємо

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) `(4.2)

У більшості реальних експериментів значення Sy не вимірюється. Для цього потрібно проводити кілька паралельних вимірів (дослідів) в одній або кількох точках плану, що збільшує час (і, можливо, вартість) експерименту. Тому зазвичай вважають, що відхилення 'y' від лінії регресії вважатимуться випадковим. Оцінку дисперсії `y` у цьому випадку вважають за формулою.

`S_y^2 = S_(y, ост)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Дільник `n-2` з'являється тому, що у нас знизилося число ступенів свободи через розрахунок двох коефіцієнтів з цієї ж вибірки експериментальних даних.

Таку оцінку ще називають залишковою дисперсією щодо лінії регресії `S_(y, ост)^2`.

Оцінка значущості коефіцієнтів проводиться за критерієм Стьюдента

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Якщо розраховані критерії `t_a`, `t_b` менше табличних критеріїв `t(P, n-2)`, то вважається, що відповідний коефіцієнт незначно відрізняється від нуля із заданою ймовірністю `P`.

Для оцінки якості опису лінійної залежності, можна порівняти `S_(y, ост)^2` та `S_(bar y)` щодо середнього з використанням критерію Фішера.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i=) 1)^n y_i) /n)^2) (n-1)` - вибіркова оцінка дисперсії `y` щодо середнього.

Для оцінки ефективності рівняння регресії для опису залежності розраховують коефіцієнт Фішера
`F = S_(bar y) / S_(y, ост)^2`,
який порівнюють з табличним коефіцієнтом Фішера `F(p, n-1, n-2)`.

Якщо `F > F(P, n-1, n-2)`, вважається статистично значущим з ймовірністю `P` різницю між описом залежності `y = f(x)` за допомогою урівняння регресії та описом за допомогою середнього. Тобто. регресія краще описує залежність, ніж розкид `y` щодо середнього.

Клацніть за графіком,
щоб додати значення до таблиці

Метод найменших квадратів. Під методом найменших квадратів розуміється визначення невідомих параметрів a, b, c, прийнятої функціональної залежності

Під методом найменших квадратів розуміється визначення невідомих параметрів a, b, c,…прийнятої функціональної залежності

y = f(x, a, b, c, …),

які б забезпечували мінімум середнього квадрата (дисперсії) помилки

, (24)

де x i, y i - Сукупність пар чисел, отриманих з експерименту.

Оскільки умовою екстремуму функції кількох змінних є умова рівності нулю її похідних, то параметри a, b, c,…визначаються із системи рівнянь:

; ; ; … (25)

Необхідно пам'ятати, що метод найменших квадратів застосовується для вибору параметрів після того, як вид функції y = f(x)визначено.

Якщо з теоретичних міркувань не можна зробити жодних висновків про те, якою має бути емпірична формула, то доводиться керуватися наочними уявленнями, насамперед графічним зображенням спостережених даних.

Насправді найчастіше обмежуються такими видами функций:

1) лінійна ;

2) квадратична a.

Після вирівнювання отримаємо функцію наступного виду: g(x) = x + 1 3 + 1 .

Ми можемо апроксимувати ці дані за допомогою лінійної залежності y = a x + b, обчисливши відповідні параметри. Для цього нам потрібно буде застосувати так званий метод найменших квадратів. Також потрібно зробити креслення, щоб перевірити, яка лінія краще вирівнюватиме експериментальні дані.

У чому полягає МНК (метод найменших квадратів)

Головне, що нам потрібно зробити, – знайти такі коефіцієнти лінійної залежності, при яких значення функції двох змінних F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 буде найменшим. Інакше кажучи, при певних значеннях a і b сума квадратів відхилень представлених даних від прямої буде мати мінімальне значення. У цьому полягає сенс методу найменших квадратів. Все, що нам треба зробити для вирішення прикладу, – це знайти екстремум функції двох змінних.

Як вивести формули для обчислення коефіцієнтів

Для того щоб вивести формули для обчислення коефіцієнтів, потрібно скласти та вирішити систему рівнянь із двома змінними. Для цього ми обчислюємо окремі похідні вирази F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 по a та b і прирівнюємо їх до 0 .

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

Для вирішення системи рівнянь можна використовувати будь-які методи, наприклад підстановку або метод Крамера. У результаті маємо вийти формули, з допомогою яких обчислюються коефіцієнти методом найменших квадратів.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n

Ми вирахували значення змінних, при яких функція
F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 прийме мінімальне значення. У третьому пункті ми доведемо, чому воно є таким.

І це застосування методу найменших квадратів практично. Його формула, яка застосовується для пошуку параметра a включає ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , а також параметр
n – їм зазначено кількість експериментальних даних. Радимо вам обчислювати кожну суму окремо. Значення коефіцієнта b обчислюється відразу після a.

Звернемося знову до вихідного прикладу.

Приклад 1

Тут у нас n дорівнює п'яти. Щоб було зручніше обчислювати потрібні суми, що входять до формул коефіцієнтів, заповнимо таблицю.

i = 1 i = 2 i = 3 i = 4 i = 5 ∑ i = 1 5
x i 0 1 2 4 5 12
y i 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Рішення

Четвертий рядок включає дані, отримані при множенні значень з другого рядка на значення третього для кожного окремого i . П'ятий рядок містить дані з другого, зведені у квадрат. В останньому стовпці наводяться суми значень окремих рядків.

Скористаємося методом найменших квадратів, щоб обчислити потрібні нам коефіцієнти a і b. Для цього підставимо потрібні значення з останнього стовпця та підрахуємо суми:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n 8 - 12 · 12 , 9 5 · 46 - 12 2 b = 12 , 9 - a · 12 5 ⇒ a ≈ 0 , 165 b ≈ 2 , 184

У нас вийшло, що потрібна пряма апроксимує виглядатиме як y = 0 , 165 x + 2 , 184 . Тепер нам треба визначити, яка лінія краще апроксимувати дані – g(x) = x + 1 3 + 1 або 0 , 165 x + 2 , 184 . Зробимо оцінку за допомогою методу найменших квадратів.

Щоб обчислити похибку, нам треба знайти суми квадратів відхилень даних від прямих σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 і σ ​​2 = ∑ i = 1 n (y i - g (x i)) 2 , мінімальне значення буде відповідати більш відповідної лінії.

σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0, 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0 , 096

Відповідь:оскільки σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0,165 x + 2,184.

Метод найменших квадратів наочно показано на графічній ілюстрації. За допомогою червоної лінії відзначено пряму g(x) = x + 1 3 + 1, синю – y = 0, 165 x + 2, 184 . Вихідні дані позначені рожевими крапками.

Пояснимо, навіщо саме потрібні наближення такого виду.

Вони можуть бути використані в завданнях, що вимагають згладжування даних, а також у тих, де дані треба інтерполювати або екстраполювати. Наприклад, у задачі, розібраній вище, можна було б знайти значення спостерігається величини y при x = 3 або x = 6 . Таким прикладам ми присвятили окрему статтю.

Доказ методу МНК

Щоб функція прийняла мінімальне значення при обчислених a і b потрібно, щоб у цій точці матриця квадратичної форми диференціала функції виду F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 була позитивно визначеною. Покажемо, як це має виглядати.

Приклад 2

Ми маємо диференціал другого порядку наступного виду:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2 b

Рішення

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Інакше кажучи, можна записати так: d 2 F (a; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 · 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

Ми отримали матрицю квадратичної форми виду M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

У цьому випадку значення окремих елементів не змінюватимуться залежно від a та b. Чи ця матриця є позитивно визначеною? Щоб відповісти на це питання, перевіримо, чи є її кутові мінори позитивними.

Обчислюємо кутовий мінор першого порядку: 2 ∑ i = 1 n (xi) 2 > 0 . Оскільки точки x i не збігаються, то нерівність є суворою. Матимемо це на увазі при подальших розрахунках.

Обчислюємо кутовий мінор другого порядку:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (xi) 2 - ∑ i = 1 n x i 2

Після цього переходимо до доказу нерівності n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 за допомогою математичної індукції.

  1. Перевіримо, чи буде ця нерівність справедливою за довільного n . Візьмемо 2 і підрахуємо:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

У нас вийшла правильна рівність (якщо значення x 1 і x 2 не співпадатимуть).

  1. Зробимо припущення, що це нерівність буде правильним для n , тобто. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – справедливо.
  2. Тепер доведемо справедливість при n + 1, тобто. що (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0, якщо правильно n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Обчислюємо:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n · x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n · x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = 1 n (x i) 2 = = ∑ i = 1 n (xi) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 +. . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2+. . . + (x n – 1 – x n) 2 > 0

Вираз, укладений у фігурні дужки, буде більше 0 (виходячи з того, що ми припускали в пункті 2), та інші доданки будуть більшими за 0, оскільки всі вони є квадратами чисел. Ми довели нерівність.

Відповідь:знайдені a і b відповідатимуть найменшому значенню функції F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 , отже, є шуканими параметрами методу найменших квадратів (МНК).

Якщо ви помітили помилку в тексті, будь ласка, виділіть її та натисніть Ctrl+Enter

Метод найменших квадратіввикористовується для оцінки параметрів рівняння регресії.

Одним із методів вивчення стохастичних зв'язків між ознаками є регресійний аналіз.
Регресійний аналіз є висновок рівняння регресії, за допомогою якого знаходиться середня величина випадкової змінної (ознака-результату), якщо величина іншої (або інших) змінних (ознак-факторів) відома. Він включає такі етапи:

  1. вибір форми зв'язку (виду аналітичного рівняння регресії);
  2. оцінку параметрів рівняння;
  3. оцінку якості аналітичного рівняння регресії
Найчастіше для опису статистичного зв'язку ознак використовується лінійна форма. Увага до лінійного зв'язку пояснюється чіткою економічною інтерпретацією її параметрів, обмеженою варіацією змінних і тим, що здебільшого нелінійні форми зв'язку до виконання розрахунків перетворять (шляхом логарифмування чи заміни змінних) в лінійну форму.
У разі лінійного парного зв'язку рівняння регресії набуде вигляду: y i =a+b·x i +u i . Параметри даного рівняння а та b оцінюються за даними статистичного спостереження x та y. Результатом такої оцінки є рівняння: , де - оцінки параметрів a і b - значення результативної ознаки (змінної), отримане за рівнянням регресії (розрахункове значення).

Найчастіше для оцінки параметрів використовують Метод найменших квадратів (МНК).
Метод найменших квадратів дає найкращі (заможні, ефективні та незміщені) оцінки параметрів рівняння регресії. Але тільки в тому випадку, якщо виконуються певні передумови щодо випадкового члена (u) та незалежної змінної (x) (див. передумови МНК).

Завдання оцінювання параметрів лінійного парного рівняння методом найменших квадратівполягає в наступному: отримати такі оцінки параметрів , при яких сума квадратів відхилень фактичних значень результативної ознаки - y i від розрахункових значень - мінімальна.
Формально критерій МНКможна записати так: .

Класифікація методів найменших квадратів

  1. Метод найменших квадратів.
  2. Метод максимальної правдоподібності (для нормальної класичної лінійної моделі регресії постулюється нормальність регресійних залишків).
  3. Узагальнений метод найменших квадратів ОМНК застосовується у разі автокореляції помилок та у разі гетероскедастичності.
  4. Метод зважених найменших квадратів (частка ОМНК з гетероскедастичними залишками).

Проілюструємо суть класичного методу найменших квадратів графічно. Для цього побудуємо точковий графік за даними спостережень (x i , y i , i = 1; n) у прямокутній системі координат (такий точковий графік називають кореляційним полем). Спробуємо підібрати пряму лінію, яка найближче розташована до точок кореляційного поля. Відповідно до методу найменших квадратів лінія вибирається так, щоб сума квадратів відстаней по вертикалі між точками кореляційного поля та цією лінією була б мінімальною.

Математичний запис даної задачі: .
Значення y i x i =1...n нам відомі, це дані спостережень. У функції S вони є константи. Змінними у цій функції є оцінки параметрів - , . Щоб визначити мінімум функції двох змінних потрібно обчислити приватні похідні цієї функції у кожному з властивостей і прирівняти їх нулю, тобто. .
В результаті отримаємо систему з двох нормальних лінійних рівнянь:
Вирішуючи цю систему, знайдемо шукані оцінки параметрів:

Правильність розрахунку параметрів рівняння регресії може бути перевірена порівнянням сум (можлива деяка розбіжність через заокруглення розрахунків).
Для розрахунку оцінок параметрів можна побудувати таблицю 1.
Знак коефіцієнта регресії b вказує напрямок зв'язку (якщо b >0, зв'язок прямий, якщо b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Формально значення параметра - середнє значення y при х рівному нулю. Якщо ознака-фактор немає і може мати нульового значення, то вищевказане трактування параметра немає сенсу.

Оцінка тісноти зв'язку між ознаками здійснюється за допомогою коефіцієнта лінійної парної кореляції - r x, y. Він може бути розрахований за формулою: . Крім того, коефіцієнт лінійної парної кореляції може бути визначений через коефіцієнт регресії b: .
Область допустимих значень лінійного коефіцієнта парної кореляції від -1 до +1. Знак коефіцієнта кореляції вказує напрямок зв'язку. Якщо r x, y >0, то зв'язок прямий; якщо r x, y<0, то связь обратная.
Якщо цей коефіцієнт по модулю близький до одиниці, то зв'язок між ознаками може бути інтерпретований як досить тісний лінійний. Якщо його модуль дорівнює одиниці r x , y = 1, то зв'язок між ознаками функціональна лінійна. Якщо ознаки х і y лінійно незалежні, то r x y близький до 0.
Для розрахунку r x, y можна також використовувати таблицю 1.

Для оцінки якості отриманого рівняння регресії розраховують теоретичний коефіцієнт детермінації - R 2 yx:

,
де d 2 - Пояснена рівнянням регресії дисперсія y;
e 2 - залишкова (непояснена рівнянням регресії) дисперсія y;
s 2 y - загальна (повна) дисперсія y.
Коефіцієнт детермінації характеризує частку варіації (дисперсії) результативної ознаки y, що пояснюється регресією (а, отже, і фактором х), у загальній варіації (дисперсії) y. Коефіцієнт детермінації R 2 yx набуває значення від 0 до 1. Відповідно величина 1-R 2 yx характеризує частку дисперсії y , викликану впливом інших неврахованих у моделі факторів та помилками специфікації.
При парній лінійній регресії R 2 yx = r 2 yx.

Метод найменших квадратів (МНК, англ. Ordinary Least Squares, OLS)- математичний метод, застосовуваний на вирішення різних завдань, заснований на мінімізації суми квадратів відхилень деяких функцій від шуканих змінних. Він може використовуватися для «вирішення» перевизначених систем рівнянь (коли кількість рівнянь перевищує кількість невідомих), для пошуку рішення у разі звичайних (не перевизначених) нелінійних систем рівнянь, для апроксимації точкових значень певної функції. МНК є одним з базових методів регресійного аналізу для оцінки невідомих параметрів регресійних моделей за вибірковими даними.

Енциклопедичний YouTube

    1 / 5

    ✪ Метод найменших квадратів. Тема

    ✪ Метод найменших квадратів, урок 1/2. Лінійна функція

    ✪ Економетрика. Лекція 5. Метод найменших квадратів

    ✪ Мітін І. В. - Обробка результатів фіз. експерименту - Метод найменших квадратів (Лекція 4)

    ✪ Економетрика: Суть методу найменших квадратів #2

    Субтитри

Історія

На початок ХІХ ст. вчені не мали певних правил для вирішення системи рівнянь, в якій число невідомих менше, ніж число рівнянь; до цього часу використовувалися приватні прийоми, що залежали від виду рівнянь і від дотепності обчислювачів, і тому різні обчислювачі, виходячи з тих самих даних спостережень, приходили до різних висновків. Гаусс (1795) належить перше застосування методу, а Лежандр (1805) незалежно відкрив і опублікував його під сучасною назвою (фр. Méthode des moindres quarrés). Лаплас пов'язав метод з теорією ймовірностей, а американський математик Едрейн (1808) розглянув його теоретико-імовірнісні додатки. Метод поширений і вдосконалений подальшими дослідженнями Енке, Бесселя, Ганзена та інших.

Сутність методу найменших квадратів

Нехай x (\displaystyle x)- набір n (\displaystyle n)невідомих змінних (параметрів), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- Сукупність функцій від цього набору змінних. Завдання полягає у підборі таких значень x (\displaystyle x), щоб значення цих функцій були максимально близькими до деяких значень y i (\displaystyle y_(i)). Фактично йдеться про «вирішенні» перевизначеної системи рівнянь f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1, …, m (\displaystyle i=1,\ldots,m)у вказаному сенсі максимальної близькості лівої та правої частин системи. Сутність МНК полягає у виборі як «заходи близькості» суми квадратів відхилень лівих і правих частин | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Таким чином, сутність МНК може бути виражена таким чином:

∑ i e i 2 = ∑ i (y i − fi (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rightarrow \min _(x)).

Якщо система рівнянь має рішення, то мінімум суми квадратів дорівнюватиме нулю і можуть бути знайдені точні рішення системи рівнянь аналітично або, наприклад, різними чисельними методами оптимізації. Якщо система перевизначена, тобто, кажучи нестрого, кількість незалежних рівнянь більша за кількість шуканих змінних, то система не має точного рішення і метод найменших квадратів дозволяє знайти деякий «оптимальний» вектор x (\displaystyle x)у сенсі максимальної близькості векторів y (\displaystyle y)і f(x) (\displaystyle f(x))або максимальної близькості вектора відхилень e (\displaystyle e)нанівець (близькість розуміється у сенсі евклідова відстані).

Приклад - система лінійних рівнянь

Зокрема, метод найменших квадратів може використовуватися для вирішення системи лінійних рівнянь

A x = b (\displaystyle Ax = b),

де A (\displaystyle A)прямокутна матриця розміру m × n , m > n (\displaystyle m\times n,m>n)(тобто число рядків матриці A більше кількості шуканих змінних).

Така система рівнянь у випадку немає решения. Тому цю систему можна «вирішити» лише у сенсі вибору такого вектора. x (\displaystyle x), щоб мінімізувати відстань між векторами A x (\displaystyle Ax)і b (\displaystyle b). Для цього можна застосувати критерій мінімізації суми квадратів різниць лівої та правої частин рівнянь системи, тобто (A x − b) T (A x − b) → min x (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min _(x)). Неважко показати, що вирішення цього завдання мінімізації призводить до вирішення наступної системи рівнянь

x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).

МНК у регресійному аналізі (апроксимація даних)

Нехай є n (\displaystyle n)значень деякої змінної y (\displaystyle y)(це можуть бути результати спостережень, експериментів тощо) та відповідних змінних x (\displaystyle x). Завдання полягає в тому, щоб взаємозв'язок між y (\displaystyle y)і x (\displaystyle x)апроксимувати деякою функцією, відомою з точністю до деяких невідомих параметрів b (\displaystyle b), тобто фактично визначити найкращі значення параметрів b (\displaystyle b), що максимально наближають значення f (x, b) (\displaystyle f(x,b))до фактичних значень y (\displaystyle y). Фактично це зводиться до випадку «вирішення» перевизначеної системи рівнянь щодо b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

У регресійному аналізі та зокрема в економетриці використовуються ймовірнісні моделі залежності між змінними

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

де ε t (\displaystyle \varepsilon _(t))- так звані випадкові помилкимоделі.

Відповідно, відхилення значень, що спостерігаються y (\displaystyle y)від модельних f (x, b) (\displaystyle f(x,b))передбачається вже у самій моделі. Сутність МНК (звичайного, класичного) у тому, щоб знайти такі параметри b (\displaystyle b), При яких сума квадратів відхилень (помилок, для регресійних моделей їх часто називають залишками регресії) e t (\displaystyle e_(t))буде мінімальною:

b ^ O S = arg ⁡ min b RS S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

де RS S (\displaystyle RSS)- англ. Residual Sum of Squares визначається як:

RS (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

У випадку вирішення цього завдання може здійснюватися чисельними методами оптимізації (мінімізації). У цьому випадку говорять про нелінійному МНК(NLS або NLLS - англ. Non-Linear Least Squares). У багатьох випадках можна одержати аналітичне рішення. Для вирішення задачі мінімізації необхідно знайти стаціонарні точки функції RS S (b) (\displaystyle RSS(b)), продиференціювавши її за невідомими параметрами b (\displaystyle b), прирівнявши похідні до нуля і вирішивши отриману систему рівнянь:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).

МНК у разі лінійної регресії

Нехай регресійна залежність є лінійною:

t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Нехай y- вектор-стовпець спостережень пояснюваної змінної, а X (\displaystyle X)- це (n × k) (\displaystyle ((n\times k)))-матриця спостережень чинників (рядки матриці - вектори значень чинників у цьому спостереженні, по стовпчикам - вектор значень даного чинника переважають у всіх спостереженнях). Матричне представлення лінійної моделі має вигляд:

y = X b + ε (\displaystyle y=Xb+\varepsilon).

Тоді вектор оцінок змінної, що пояснюється, і вектор залишків регресії дорівнюватимуть

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat(y))=Xb,\quad e=y-(\hat(y))=y-Xb).

відповідно сума квадратів залишків регресії дорівнюватиме

RS = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Диференціюючи цю функцію за вектором параметрів b (\displaystyle b)і прирівнявши похідні до нуля, отримаємо систему рівнянь (у матричній формі):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

У розшифрованій матричній формі ця система рівнянь виглядає так:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b t b ∑ x t 2 y t ∑ x t 3 y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_(tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ sum x_(t2)x_(tk)\\\sum x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix)),)де всі суми беруться за всіма допустимими значеннями t (\displaystyle t).

Якщо модель включена константа (як завжди), то x t 1 = 1 (\displaystyle x_(t1)=1)при всіх t (\displaystyle t)тому у лівому верхньому кутку матриці системи рівнянь знаходиться кількість спостережень n (\displaystyle n), а інших елементах першого рядка і першого стовпця - просто суми значень змінних: ∑ x t j (\displaystyle \sum x_(tj))та перший елемент правої частини системи - ∑ y t (\displaystyle \sum y_(t)).

Вирішення цієї системи рівнянь і дає загальну формулу МНК-оцінок для лінійної моделі:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle(\hat(b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac(1)(n))X^(T)X\right)^(-1)(\frac(1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Для аналітичних цілей виявляється корисним останнє уявлення цієї формули (у системі рівнянь при розподілі на n замість сум фігурують середні арифметичні). Якщо у регресійній моделі дані центровані, то цьому поданні перша матриця має сенс вибіркової ковариационной матриці чинників, а друга - вектор ковариаций чинників із залежною змінною. Якщо дані ще й нормованіна СКО (тобто зрештою стандартизовано), то перша матриця має сенс вибіркової кореляційної матриці факторів, другий вектор - вектора вибіркових кореляцій факторів із залежною змінною.

Важлива властивість МНК-оцінок для моделей з константою- лінія побудованої регресії проходить через центр тяжкості вибіркових даних, тобто виконується рівність:

y ? (\hat(b))_(j)(\bar(x))_(j)).

Зокрема, у крайньому випадку, коли єдиним регресором є константа, отримуємо, що МНК-оцінка єдиного параметра (власне константи) дорівнює середньому значенню змінної, що пояснюється. Тобто середнє арифметичне, відоме своїми добрими властивостями із законів великих чисел, також є МНК-оцінкою – задовольняє критерію мінімуму суми квадратів відхилень від неї.

Найпростіші окремі випадки

У разі парної лінійної регресії y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t))Коли оцінюється лінійна залежність однієї змінної від іншої, формули розрахунку спрощуються (можна обійтися без матричної алгебри). Система рівнянь має вигляд:

(1 x x x x 2) (a b) = (y x x y) (displaystyle (begin(pmatrix)1) (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\b\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end(pmatrix))).

Звідси нескладно знайти оцінки коефіцієнтів:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y − − x ¯ y ¯ x 2 − − x 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases)) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat(a))=(\bar(y))-b(\bar(x)).\end(cases)))

Незважаючи на те, що в загальному випадку моделі з константою краще, в деяких випадках з теоретичних міркувань відомо, що константа a (\displaystyle a)повинна дорівнювати нулю. Наприклад, у фізиці залежність між напругою та силою струму має вигляд U = I ⋅ R (\displaystyle U=I\cdot R); Вимірюючи напругу і силу струму, необхідно оцінити опір. У такому разі йдеться про модель y = b x (\displaystyle y = bx). У цьому випадку замість системи рівнянь маємо єдине рівняння

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Отже, формула оцінки єдиного коефіцієнта має вигляд

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y x 2 (displaystyle (hat (b))= )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Випадок поліноміальної моделі

Якщо дані апроксимуються поліноміальною функцією регресії однієї змінної f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), то, сприймаючи ступеня x i (\displaystyle x^(i))як незалежні фактори для кожного i (\displaystyle i)можна оцінити параметри моделі, виходячи із загальної формули оцінки параметрів лінійної моделі. Для цього в загальну формулу достатньо врахувати, що за такої інтерпретації x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)і x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Отже, матричні рівняння в даному випадку набудуть вигляду:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x t 2 … ∑ n x t k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … ] = [ ∑ n y t ∑ n x t y t ⋮ ∑ n x t k y t ]. (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ sum \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

Статистичні властивості МНК оцінок

Насамперед, зазначимо, що для лінійних моделей МНК-оцінки є лінійними оцінками, як це випливає з вищенаведеної формули. Для незміщеності МНК-оцінок необхідно і достатньо виконання найважливішої умови регресійного аналізу: умовне за факторами математичне очікування випадкової помилки має бути рівне нулю. Ця умова, зокрема, виконана, якщо

  1. математичне очікування випадкових помилок дорівнює нулю, та
  2. фактори та випадкові помилки - незалежні, випадкові, величини.

Друга умова - умова екзогенності факторів - важлива. Якщо це властивість не виконано, можна вважати, що будь-які оцінки будуть вкрай незадовільними: де вони навіть заможними (тобто навіть дуже великий обсяг даних Демшевського не дозволяє отримати якісні оцінки у разі). У класичному випадку робиться сильніша припущення про детермінованість факторів, на відміну від випадкової помилки, що автоматично означає виконання умови екзогенності. У випадку для спроможності оцінок достатньо виконання умови екзогенності разом із збіжністю матриці V x (\displaystyle V_(x))до деякої невиродженої матриці зі збільшенням обсягу вибірки до нескінченності.

Для того, щоб крім спроможності та незміщеності, оцінки (звичайного) МНК були ще й ефективними (найкращими в класі лінійних незміщених оцінок) необхідно виконання додаткових властивостей випадкової помилки:

Дані припущення можна сформулювати для коваріаційної матриці вектора випадкових помилок V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Лінійна модель, що задовольняє такі умови, називається класичною. МНК-оцінки для класичної лінійної регресії є незміщеними, заможними та найбільш ефективними оцінками в класі всіх лінійних незміщених оцінок (в англомовній літературі іноді вживають абревіатуру BLUE (Best Linear Unbiased Estimator) - найкраща лінійна незміщена оцінка; у вітчизняній літературі частіше наводиться теорема Гаусса-Маркова). Як неважко показати, ковариационная матриця вектора оцінок коефіцієнтів дорівнюватиме:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat(b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Ефективність означає, що ця ковариационная матриця є «мінімальної» (будь-яка лінійна комбінація коефіцієнтів, і зокрема самі коефіцієнти, мають мінімальну дисперсію), тобто у класі лінійних незміщених оцінок оцінки МНК-найкращі. Діагональні елементи цієї матриці – дисперсії оцінок коефіцієнтів – важливі параметри якості отриманих оцінок. Однак розрахувати матрицю коваріації неможливо, оскільки дисперсія випадкових помилок невідома. Можна довести, що незміщеною та заможною (для класичної лінійної моделі) оцінкою дисперсії випадкових помилок є величина:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Підставивши це значення формулу для ковариационной матриці і отримаємо оцінку ковариационной матриці. Отримані оцінки також є незміщеними та заможними. Важливо також те, що оцінка дисперсії помилок (а отже дисперсій коефіцієнтів) та оцінки параметрів моделі є незалежними випадковими величинами, що дозволяє отримати тестові статистики для перевірки гіпотез про коефіцієнти моделі.

Необхідно відзначити, що якщо класичні припущення не виконані, МНК-оцінки параметрів не є найбільш ефективними і де W (\displaystyle W)- Деяка симетрична позитивно визначена вагова матриця. Звичайний МНК є окремим випадком даного підходу, коли вагова матриця пропорційна одиничній матриці. Як відомо, для симетричних матриць (або операторів) є розкладання W = P T P (\displaystyle W=P^(T)P). Отже, вказаний функціонал можна подати так e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), тобто цей функціонал можна як суму квадратів деяких перетворених «залишків». Отже, можна назвати клас методів найменших квадратів - LS-методи (Least Squares).

Доведено (теорема Айткена), що для узагальненої лінійної регресійної моделі (у якій на коварійну матрицю випадкових помилок не накладається жодних обмежень) найефективнішими (у класі лінійних незміщених оцінок) є оцінки т.з. узагальненого МНК (ОМНК, GLS - Generalized Least Squares)- LS-метода з ваговою матрицею, що дорівнює зворотній коварійній матриці випадкових помилок: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Можна показати, що формула ОМНК оцінок параметрів лінійної моделі має вигляд

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat(b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Коваріаційна матриця цих оцінок відповідно дорівнюватиме

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat(b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

Фактично сутність ОМНК полягає у певному (лінійному) перетворенні (P) вихідних даних та застосуванні звичайного МНК до перетворених даних. Ціль цього перетворення - для перетворених даних випадкові помилки вже задовольняють класичним припущенням.

Зважений МНК

У випадку діагональної вагової матриці (а значить і матриці коварійної випадкових помилок) маємо так званий зважений МНК (WLS - Weighted Least Squares). У даному випадку мінімізується зважена сума квадратів залишків моделі, тобто кожне спостереження отримує «вагу», обернено пропорційну дисперсії випадкової помилки в даному спостереженні: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2)))(\ sigma _(t)^(2)))). Фактично дані перетворюються зважуванням спостережень (розподілом на величину, пропорційну передбачуваному стандартному відхилення випадкових помилок), а зваженим даним застосовується звичайний МНК.

ISBN 978-5-7749-0473-0.

  • Економетрики. Підручник/За ред. Єлісєєвої І. І. - 2-ге вид. - М.: Фінанси та статистика, 2006. - 576 с. - ISBN 5-279-02786-3.
  • Александрова Н. В.Історія математичних термінів, понять, позначень: словник-довідник. - 3-тє вид. - М.: ЛКІ, 2008. - 248 с. - ISBN 978-5-382-00839-4.І.В Мітін, Русаков В.С. Аналіз та обробка експериментальних даних-5-е видання-24с.
  • Схожі статті

    2023 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.