Помилка апроксимації онлайн калькулятор. Перевірка гіпотез щодо коефіцієнтів лінійного рівняння регресії

Фактичні значення цікавої для нас величини відрізняються від розрахованих за рівнянням регресії. Чим менше ця відмінність, чим ближче розраховані значення підходять до емпіричних даних, тим краща якістьмоделі. Величина відхилень фактичних та розрахункових значень змінної величини по кожному спостереженню є помилкою апроксимації. Оскільки відхилення може бути величиною як позитивної, і негативної, то помилки апроксимації кожного спостереження прийнято визначати у відсотках по модулю.

Відхилення () розглядаються як абсолютна помилкаапроксимації, тоді – відносна помилка апроксимації.

Середня помилка апроксимації визначається як середнє арифметичне: . Іноді користуються визначенням середньої помилкиапроксимації, що мають вигляд .

Кінець роботи -

Ця тема належить розділу:

Економетрика

На сайті сайт читайте: економічних спеціальностей.

Якщо вам потрібно додатковий матеріална цю тему, або Ви не знайшли те, що шукали, рекомендуємо скористатися пошуком по нашій базі робіт:

Що робитимемо з отриманим матеріалом:

Якщо цей матеріал виявився корисним для Вас, Ви можете зберегти його на свою сторінку в соціальних мережах:

Всі теми цього розділу:

Склад вихідної інформації
Основною базою вихідної інформаціїдля економетричних досліджень служать дані статистики чи дані бухгалтерського обліку. Досліджувані економетрикою взаємозв'язки стохастичні за своєю природою, т.

Інтерполяційний поліном Лагранжа
Нехай є залежність y = f(x) між величинами x та y, для якої нам відомі окремі точки (xi, yi), i = 0,1,2,…,

Випадок 1.
Через одну точку (x0, y0) можна провести пучок прямих y = y0+b(x-x0) (2.1) (а також вертикальну пря)

Випадок 2
Через дві різні точки (x0, y0), (x1, y1) проходить одна і лише одна пряма. Якщо x0 ¹

Випадок 3.
Багаточлен другого ступеня ( квадратична функція), графік якої проходить через три точки (x0, y0), (x1, y1), (x2

Випадок n.
Тепер ясно, що інтерполяційний поліном Лагранжа n-го ступеня, графік якого проходить через n+1 точку (xi,yi), i=0,1,2,…,n, можна записати у ви

Парна лінійна регресія. Метод найменших квадратів
Нехай є n пар чисел (xi, yi), i = 1,2, ..., n, щодо яких передбачається, що вони відповідають лінійної залежностіміж величинами x та y:

Множинна лінійна регресія
Парна регресія може дати хороший результат при моделюванні, якщо вплив інших факторів, що впливають на об'єкт дослідження, можна знехтувати. Але, існує зазвичай кілька

Нелінійні моделі
Ми вивчили застосування методу найменших квадратіввизначення параметрів, які входять у функціональні залежності лінійно. Тому для них у параграфах 3 і 4 вийшли сист

Системи одночасних економетричних рівнянь
Об'єктом статистичного вивченняу соціально-економічних науках є складні системи. Вимірювання тісноти зв'язків між змінними, побудова ізольованих рівнянь регресії

Складові тимчасового ряду
Тимчасовий ряд x(t) – це безліч значень величини x, відповідальних послідовності моментів часу t, тобто. це функція t®x(t), яка зазвичай вважає

Визначення складових часового ряду
Одним із найпоширеніших способів моделювання тенденції тимчасового ряду є побудова аналітичної функції, Що характеризує залежність послідовних значень

При цьому коефіцієнти ak, bk дорівнюватимуть
Якщо функція x (t) парна, тобто. виконується рівність x(-t) = x(t), то в

Тимчасовий ряд як випадковий процес
Нехай значення економічного показника x(t) у будь-який момент часу t є випадковою величиною X(t). Припустимо, що слу

Моделі ARIMA
В економетриці аналіз часових рядів з використанням оцінки спектральної щільності (спектральний аналіз) відіграє, як правило, допоміжну роль, допомагаючи встановити періоди хара

Облік сезонних складових
Узагальнення моделі ARIMA, що дозволяють врахувати періодичні (сезонні) складові тимчасового ряду, було запропоновано Дж. Боксом і Г. Дженкінсом. Цей метод реалізований у системі

Аналіз похибок вихідної інформації
Значення економічних показниківзазвичай відомі неточно, із деякою похибкою. Розглянемо основні правила обробки даних, що містять похибки або помилки вимірювань. Пус

Довірчі інтервали
Введемо випадкову величину. (13.1) Неважко перевірити, що xÎN(0,1), внаслідок ч

Розрахунок похибок
Емпіричні дані часто піддаються математичній обробці - над ними виконуються арифметичні операції складання, віднімання, множення та поділу, у деяких випадках

Коефіцієнт детермінації
Коефіцієнт детермінації характеризує якість регресійної моделі. Значеннярізних величин

, получ
Принцип максимальної правдоподібності. Побудова регресійних моделей при гетероскедастичності помилок Для знаходження невідомих величин за результатами вимірювань, що містятьвипадкові похибки

, служить спосіб найменших квадратів (МНК). Визначувані величини зазвичай пов'язані рівняннями, що утворюють
Статистичні гіпотези

У попередніх параграфах розглядалася методика моделювання взаємозв'язків економічних показників та процесів. З допомогою отриманих рівнянь регресії моделювалася цей зв'язок.
F – статистика

Значимість регресійної моделі визначається за допомогою F-критерію Фішера. Для цього обчислюється відношення
T – статистика Для оцінки значущостіокремих параметрів

регресійної моделі y=a+bx+e їх величина порівнюється зі стандартною помилкою. При цьому розраховується так званий

Міністерство сільського господарства РФ

Федеральне державне бюджетне освітнє

установа вищої професійної освіти

«Пермська державна сільськогосподарська академія

імені академіка Д.Н.Прянішнікова»

Кафедра фінансів, кредиту та економічного аналізу


    Контрольна робота з дисципліни «Економетрика» Варіант – 10

    Помилки апроксимації та її визначення………………………………….3

    Аналітичний спосіб вирівнювання часового ряду і використовувані при цьому функції……………………………………………………………..4

    1. Практична частина……………………………………………………….....11

      Завдання 1………………………………………………………………11

Завдання 2……………………………………………….……………...19

  1. Список використаної литературы……………………………………….....25

Помилки апроксимації та її визначення.Середня помилка апроксимації

- Це середнє відхилення розрахункових даних від фактичних. Вона визначається у відсотках за модулем. Фактичні значення результативної ознаки від теоретичних. Чим менше ця відмінність, тим ближчі теоретичні значення підходять до емпіричних даних, цеКраща якість

Оскільки може бути як величиною позитивної, і негативної, то помилки апроксимації кожного спостереження прийнято визначати у відсотках по модулю. Відхилення можна як абсолютну помилку апроксимації, і як відносну помилку апроксимації. Щоб мати загальне судження якості моделі з відносних відхилень по кожному спостереженню, визначають середню помилку апроксимації як середню арифметичну просту.

Середню помилку апроксимації розрахують за такою формулою:

Можливе й інше визначення середньої помилки апроксимації:

Якщо А?10-12%, то можна говорити про хорошу якість моделі.

  1. Аналітичний спосіб вирівнювання часового ряду та функції, що використовуються при цьому.

Найдосконалішим прийомом виявлення основний тенденції розвитку у лавах динаміки є аналітичне вирівнювання. При вивченні загальної тенденціїметодом аналітичного вирівнювання виходять з того, що зміни рівнів динаміки можуть бути з тим чи іншим ступенем точності наближення виражені певними математичними функціями. Вигляд рівняння визначається характером динаміки розвитку конкретного явища. На практиці за наявним тимчасовим рядом задають вигляд і знаходять параметри функції y=f(t), а потім аналізують поведінку відхилень від тенденції. Найчастіше при вирівнюванні використовуються такі залежності: лінійна, параболічна та експоненційна. У багатьох випадках моделювання рядів динаміки за допомогою поліномів або експоненційної функції не дає задовільних результатів, оскільки в рядах динаміки помітні періодичні коливання навколо загальної тенденції. У разі слід використовувати гармонійний аналіз (гармоніки низки Фур'є). Застосування саме цього методу переважно, оскільки він визначає закон, за яким можна досить точно спрогнозувати значення рівнів ряду.

Метою ж аналітичного вирівнювання динамічного рядує визначення аналітичної чи графічної залежності y=f(t). Функцію y=f(t) вибирають таким чином, щоб вона давала змістовне пояснення досліджуваного процесу. Це можуть бути різні функції.

Системи рівнянь виду y=f(t) для оцінки параметрів поліномів МНК

(клікабельно)

Графічне подання поліномів n-порядку

1. Якщо зміна рівнів низки характеризується рівномірним збільшенням (зменшенням) рівнів, коли абсолютні ланцюгові прирости близькі за величиною, тенденцію розвитку характеризує рівняння прямої лінії.

2. Якщо в результаті аналізу типу тенденції динаміки встановлено криволінійну залежність приблизно з постійним прискоренням, то форма тенденції виражається рівнянням параболи другого порядку.

3. Якщо зростання рівнів ряду динаміки відбувається в геометричній прогресії, тобто. ланцюгові коефіцієнти зростання більш менш постійні, вирівнювання ряду динаміки ведеться за показовою функцією.

Після вибору виду рівняння необхідно визначити параметри рівняння. Найпоширеніший спосіб визначення параметрів рівняння - це метод найменших квадратів, в якому рішенням приймається точка мінімуму суми квадратів відхилень між теоретичними (вирівняними за обраним рівнянням) і емпіричними рівнями.

Вирівнювання по прямій (визначення лінії тренду) має вираз: yt=a0+a1t

t-умовне позначення часу;

а 0 і a1-параметри прямої.

Параметри прямої перебувають із розв'язання системи рівнянь:

Система рівнянь спрощується, якщо значення t підібрати так, щоб їх сума дорівнювала Σt = 0, тобто початок відліку часу перенести в середину періоду, що розглядається. Якщо до перенесення точки відліку t = 1, 2, 3, 4, то після перенесення:

якщо число рівнів ряду непарне t = -4 -3 -2 -1 0+1+2+3+4

якщо число рівнів ряду парне t = -7 -5 -3 -1 +1 +3 +5 +7

Таким чином, ∑t у непарній мірі завжди дорівнюватиме нулю.

Аналогічно перебувають параметри параболи 2-го порядку з розв'язання системи рівнянь:

Вирівнювання за середнім абсолютним приростом або середнім коефіцієнтом зростання:

Δ-середній абсолютний приріст;

К-середній коефіцієнт зростання;

У0-початковий рівень ряду;

Уn-кінцевий рівень ряду;

t-порядковий номер рівня, починаючи з нуля.

Побудувавши рівняння регресії, проводять оцінку його надійності. Значимість обраного рівняння регресії, параметрів рівняння та коефіцієнта кореляції слід оцінити, застосувавши критичні методи оцінки:

F-критерій Фішера, t-критерій Стьюдента, при цьому розрахункові значення критеріїв порівнюються з табличними (критичними) при заданому рівні значущості і числі ступенів свободи. Fфакт > Fтеор - рівняння регресії адекватно.

n – число спостережень (рівнів ряду), m – число параметрів рівняння (моделі) регресії.

Перевірка адекватності рівняння регресії (якості моделі загалом) здійснюється з допомогою середньої помилки апроксимації, величина якої має перевищувати 10-12% (рекомендовано).

5. З використанням F-критерію встановлено, що отримане рівняння парної регресії в цілому є статистично незначним, і неадекватно описує явище зв'язку величини щомісячної пенсії, що вивчається, з величиною прожиткового мінімуму х.

6. Сформовано економетричну модель множинної лінійної регресії, що пов'язує величину чистого доходу умовної фірми з оборотом капіталу х1 і використаним капіталом х2

7. Шляхом розрахунку коефіцієнтів еластичності показано, що з зміні обороту капіталу на 1% величина чистого доходу копанні змінюється на 0,0008%, а за зміні використаного капіталу 1% величина чистого доходу підприємства змінюється на 0,56%.

8. З використанням t-критерію виконано оцінку статистичної значущості коефіцієнтів регресії Встановлено, що пояснювальна змінна х 1 є статистично незначною і її можна виключити з рівняння регресії, водночас пояснювальна змінна х 2 є статистично значущою.

9. З використанням F-критерію встановлено, що отримане рівняння парної регресії в цілому є статистично значущим, і адекватно описує явище, що вивчається зв'язку величини чистого доходу умовної фірми з оборотом капіталу х 1 і використаним капіталом х 2 .

10. Розраховано середню помилку апроксимації статистичних даних лінійним рівнянням множинної регресії, яка становила 29,8%. Показано, за рахунок якого спостереження у статистичній базі величина цієї помилки перевищує допустиме значення.

14. Побудова моделі парної регресії без використання EXCEL.

Використовуючи статистичний матеріал, наведений у таблиці 3.5, необхідно:

2.Оцінити тісноту зв'язку за допомогою показників кореляції та детермінації.

3. Використовуючи коефіцієнт еластичності, визначити рівень зв'язку факторного ознаки з результативним.

4.Визначити середню помилку апроксимації.

5.Оцінити за допомогою F-критерію Фішера статистичну надійність моделювання.

Таблиця 3.5. Вихідні дані.

Частка грошових доходів, спрямованих на приріст заощаджень у вкладах, позиках, сертифікатах та на купівлю валюти, у загальній сумі середньодушового грошового доходу, %

Середньомісячна нарахована заробітна плата, у.

Калузька

Костромська

Орловська

Рязанська

Смоленська

Для визначення невідомих параметрів b 0 , b 1 рівняння парної лінійної регресіївикористовуємо стандартну систему нормальних рівнянь, яка має вигляд

(3.7)

Для вирішення цієї системи спочатку необхідно визначити значення величин Sх2 і Sху. Ці значення визначаємо із таблиці вихідних даних, доповнюючи її відповідними колонками (таблиця 3.6).

Таблиця 3.6. До розрахунку коефіцієнтів регресії.

Тоді система (3.7) набуває вигляду

Виражаючи з першого рівняння b 0 і підставляючи отриманий вираз у друге рівняння отримаємо:

Виробляючи почленное множення та розкриваючи дужки, отримаємо:

Остаточно рівняння парної лінійної регресії, що пов'язує величину частки грошових доходів населення, спрямованих на приріст заощаджень з величиною середньомісячної нарахованої заробітної плати х має вигляд:

Так, як побудовано рівняння парної лінійної регресії, то визначаємо лінійний коефіцієнт кореляції залежно від:

де значення середньоквадратичних відхилень відповідних параметрів.

Для розрахунку лінійного коефіцієнта кореляції в залежності (3.9) виконаємо проміжні розрахунки.

Підставляючи значення знайдених параметрів у вираз (3.9) отримаємо

.

Отримане значення лінійного коефіцієнта кореляції свідчить про наявність слабкого зворотного статистичного зв'язку між величиною частки грошових доходів населення, спрямованих на приріст заощаджень у та величини середньомісячної нарахованої заробітної плати х.

Коефіцієнт детермінації дорівнює , Що означає, що тільки 9,6% пояснюється регресією пояснює змінної на величину у. Відповідно величина 1-рівна 90,4% характеризує частку дисперсії змінної, викликану впливом всіх інших, неврахованих в економетричної моделі пояснюють змінних.

Коефіцієнт еластичності дорівнює

Отже, при зміні величини середньомісячної нарахованої заробітної плати на 1% величина частки грошових доходів населення, спрямованих на приріст заощаджень, також знижується на 1%, причому при збільшенні заробітної плати спостерігається зниження величини частки грошових доходів населення, спрямованих на приріст заощаджень. Цей висновок суперечить здоровому глузду і може бути пояснений лише некоректністю сформованої математичної моделі.

Розрахуємо середню помилку апроксимації.

Таблиця 3.7. До розрахунку середньої помилки апроксимації.

Отримане значення перевищує (12...15)%, що свідчить про суттєвість середнього відхилення розрахункових даних від фактичних, за якими побудовано економетричну модель.

Надійність статистичного моделювання виконаємо на основі F-критерію Фішера. Теоретичне значення критерію Фішера F розрахунків визначається зі співвідношення значень факторної та залишкової дисперсій, розрахованих на один ступінь свободи за формулою

де n-число спостережень;

m-число пояснюючих змінних (для прикладу, що розглядається, m m =1).

Критичне значення F крит визначається за статистичними таблицями і рівня значимості a = 0,05 дорівнює 10,13. Так як F розрах

15. Побудова моделі множинної регресії без використання EXCEL.

Використовуючи статистичний матеріал, наведений у таблиці 3.8, необхідно:

1. Побудувати лінійне рівняння множинної регресії, пояснити економічний зміст параметрів.

2. Дати порівняльну оцінку тісноти зв'язку факторів із результативною ознакою за допомогою середніх (загальних) коефіцієнтів еластичності.

3. Оцінити статистичну значимістькоефіцієнтів регресії за допомогою t-критерію та нульову гіпотезу про не значущість рівняння за допомогою F-критерію.

4. Оцінити якість рівняння у вигляді визначення середньої помилки апроксимації.

Таблиця 3.8. Вихідні дані.

Чистий дохід, млн. дол.

Оборот капіталу млн. дол.

Використаний капітал,млн. дол. США

Для визначення невідомих параметрів b 0 , b 1 , b 2 рівняння множинної лінійної регресії використовуємо стандартну систему нормальних рівнянь, що має вигляд

(3.11)

Для вирішення цієї системи спочатку необхідно визначити значення величин Sх12, Sх22, Sх1у, Sх2у, Sх1х2. Ці значення визначаємо із таблиці вихідних даних, доповнюючи її відповідними колонками (таблиця 3.9).

Таблиця 3.9. До розрахунку коефіцієнтів регресії.

Тоді система (3.11) набуває вигляду

Для вирішення даної системи скористаємося методом Гауса, який полягає в послідовному виключенні невідомих: ділимо перше рівняння системи на 10, потім множимо отримане рівняння на 370,6 і віднімаємо його з другого рівняння системи, далі множимо отримане рівняння на 158,20 третього рівняння системи Повторюючи вказаний алгоритм для перетворених другого та третього рівнянь системи отримаємо:

Þ Þ

Þ .

Після перетворення маємо:

Тоді остаточно залежність чистого доходу від обороту капіталу та використаного капіталу у вигляді лінійного рівняннямножинної регресії має вигляд:

З отриманого економетричного рівняння видно, що зі збільшенням капіталу, що використовується, чистий дохід збільшується і навпаки зі збільшенням обороту капіталу, чистий дохід зменшується. Крім того, що більша величина коефіцієнта регресії, то значніший вплив пояснюючої змінної на залежну змінну. У аналізованому прикладі величина коефіцієнта регресії більше ніж величина коефіцієнта Отже, використовуваний капітал значно впливає на чистий дохід, ніж оборот капіталу. Для кількісної оцінки зазначеного висновку визначимо окремі коефіцієнти еластичності.

Аналіз отриманих результатів також показує, що більший вплив на чистий дохід надає капітал. Так, при збільшенні використовуваного капіталу на 1% чистий дохід збільшується на 1,17%. У той самий час зі зростанням обороту капіталу 1%, чистий дохід знижується на 0,5%.

Теоретичне значення критерію Фішера F розрах.

Величина критичного значення F крит визначається за статистичними таблицями і для рівня значущості a = 0,05 дорівнює 4,74. Оскільки F расч > F критий, то нульова гіпотеза відкидається, і отримане рівняння регресії приймається статистично значимим.

Оцінка статистичної значущості коефіцієнтів регресії іпоt-критерію зводиться до зіставлення чисельного значення цих коефіцієнтів з величиною їх випадкових помилок і залежно:

Робоча формула для розрахунку теоретичного значення t-статистики має вигляд:

, (3.13)

де парні коефіцієнти кореляції та коефіцієнт множинної кореляції розраховуються за залежністю:

Тоді теоретичні (розрахункові) значення t-статистик відповідно дорівнюють:

Оскільки критичне значення t-статистики, визначене за статистичними таблицями для рівня значущості a=0,05 дорівнює t крит =2,36 більше абсолютної величиничим = - 1,798, то нульова гіпотеза не відкидається і пояснювальна змінна х 1 є статистично незначною і її можна виключити з рівняння регресії. І навпаки, для другого коефіцієнта регресії > t критий (3,3 >2,36), і пояснювальна змінна х 2 є статистично значущою.

Розрахуємо середню помилку апроксимації.

Таблиця 3.10. До розрахунку середньої помилки апроксимації.

Тоді середня помилка апроксимації дорівнює

Отримане значення вбирається у допустимого межі рівного (12…15)%.

16. Історія розвитку теорії вимірів

Спочатку ТІ розвивалася як теорія психофізичних вимірів. У повоєнних публікаціях американський психолог С.С. Стівене основну увагу приділяв шкалам виміру. У другій половині XX ст. сфера застосування ТІ швидко розширюється. Один із томів випущеної в США у 50-х роках «Енциклопедії психологічних наук» називався «Психологічні виміри». Укладачі цієї публікації розширили сферу застосування ТІ з психофізики на психологію загалом. У статті цієї збірки «Основи теорії вимірювань» виклад йшов на абстрактно-математичному рівні, без прив'язки до будь-якої конкретної галузі застосування. У ній наголос було зроблено на «гомоморфізмах емпіричних систем з відносинами в числові» (у ці математичні терміни тут вдаватися не потрібно), і математична складність викладу зросла проти роботами С.С. Стівенса.

В одній із перших вітчизняних статей з ТІ (кінець 60-х років) було встановлено, що бали, які присвоюються експертами при оцінці об'єктів експертизи, як правило, виміряно у порядковій шкалі. Роботи, що з'явилися на початку 70-х років, призвели до суттєвого розширення сфери використання ТІ. Її застосовували до педагогічної кваліметрії (вимірювання якості знань учнів), у системних дослідженнях, у різних завданнях теорії експертних оцінок, для агрегування показників якості продукції, у соціологічних дослідженнях та ін.

Як дві основні проблеми ТІ поряд із встановленням типу шкали вимірювання конкретних даних було висунуто пошук алгоритмів аналізу даних, результат роботи яких не змінюється при будь-якому допустимому перетворенні шкали (тобто є інваріантним щодо цього перетворення). Порядковими шкалами в географії є ​​бофортова шкала вітрів ("штиль", "слабкий вітер", "помірний вітер" тощо), шкала сили землетрусів. Очевидно, не можна стверджувати, що землетрус у 2 бали (лампа хитнулася під стелею) рівно в 5 разів слабше, ніж землетрус у 10 балів (повне руйнування всього на поверхні землі).

У медицині порядковими шкалами є шкала стадій гіпертонічної хвороби (за М'ясниковим), шкала ступенів серцевої недостатності (за Стражесько-Василенко-Лангом), шкала ступеня вираженості коронарної недостатності (за Фогельсоном), і т.д. Усі ці шкали побудовані за схемою: захворювання не виявлено; перша стадія захворювання; друга стадія; третя стадія... Іноді виділяють стадії 1а, 16 та інших. Кожна стадія має властиву лише їй медичну характеристику. При описі груп інвалідності числа використовують у протилежному порядку: найважча – перша група інвалідності, потім – друга, найлегша – третя.

Номери будинків також виміряні у порядковій шкалі – вони показують, у якому порядку стоять будинки вздовж вулиці. Номери томів у зібранні творів письменника чи номери справ у архіві підприємства зазвичай пов'язані з хронологічним порядком створення.

При оцінці якості продукції та послуг, у так званій кваліметрії (буквальний переклад – вимір якості) популярні порядкові шкали. Зокрема, одиниця продукції оцінюється як придатна чи придатна. При ретельнішому аналізі використовується шкала з трьома градаціями: є значні дефекти - присутні лише незначні дефекти - немає дефектів. Іноді застосовують чотири градації: є критичні дефекти (які унеможливлюють використання) - є значні дефекти - присутні лише незначні дефекти - немає дефектів. Аналогічний сенс має сортність продукції. вищий сорт, Перший сорт, другий сорт,...

При оцінці екологічних впливів перша, найбільш узагальнена оцінка - зазвичай порядкова, наприклад: природне середовище стабільне - природне середовище пригноблене (деградує). Аналогічна еколого-медична шкала: немає вираженого на здоров'я людей - відзначається негативний вплив здоров'я.

Порядкова шкала використовують і в інших областях. В економетриці це насамперед різноманітні методи експертних оцінок.

Усі шкали виміру ділять на дві групи – шкали якісних ознак та шкали кількісних ознак. Порядкова шкала та шкала найменувань – основні шкали якісних ознак, тому у багатьох конкретних областях результати якісного аналізу можна розглядати як вимірювання за цими шкалами. Шкали кількісних ознак – це шкали інтервалів, відносин, різниць, абсолютна. За шкалою інтервалів вимірюють величину потенційної енергії або координати точки на прямій. У цих випадках на шкалі не можна відзначити ні природний початок відліку, ні природну одиницю виміру. Дослідник повинен сам задати точку відліку та сам вибрати одиницю вимірювання. Допустимими перетвореннями у шкалі інтервалів є лінійні зростаючі перетворення, тобто. лінійні функції. Температурні шкали Цельсія та Фаренгейта пов'язані саме такою залежністю: °С = 5/9 (°F - 32), де °С - температура (у градусах) за шкалою Цельсія, a °F - температура за шкалою Фаренгейта.

З кількісних шкал найбільш поширеними у науці та практиці є шкали відносин. Вони є природне початок відліку - нуль, тобто. відсутність величини, але немає природної одиниці виміру. За шкалою відносин виміряно більшість фізичних одиниць: маса тіла, довжина, заряд, і навіть ціни економіки. Допустимими перетвореннями у шкалі відносин є подібні (змінюють лише масштаб). Іншими словами, лінійні зростаючі перетворення без вільного члена, наприклад, перерахунок цін з однієї валюти в іншу за фіксованим курсом. Припустимо, ми порівнюємо економічну ефективність двох інвестиційних проектів, використовуючи ціни на рублях. Нехай перший проект виявився кращим за другий. Тепер перейдемо на валюту Китаю – юані, використовуючи фіксований курс перерахунку. Очевидно, перший проект має знову виявитися вигіднішим, ніж другий. Проте алгоритми розрахунку автоматично не забезпечують виконання цієї умови, і треба перевіряти, що воно виконане. Результати подібної перевірки середніх величин описані нижче.

У шкалі різниць є одиниця виміру, але немає природного початку відліку. Час вимірюється за шкалою різниць, якщо рік (або добу - від полудня до полудня) приймаємо природною одиницею вимірювання, і за шкалою інтервалів загальному випадку. На рівні знань природного початку відліку вказати не можна. Дату створення світу різні автори розраховують по-різному, як і момент Різдва Христового.

Тільки для абсолютної шкали результати вимірювань - числа у звичайному значенні слова, наприклад, кількість людей у ​​кімнаті. Для абсолютної шкали допустимим є лише тотожне перетворення.

У процесі розвитку відповідної галузі знання тип шкали може змінюватись. Так, спочатку температура вимірювалася за порядковою шкалою (холодніше – тепліше). Потім – за інтервальною (шкали Цельсія, Фаренгейта, Реомюра). Нарешті, після відкриття абсолютного нуля температуру вважатимуться виміряної за шкалою відносин (шкала Кельвіна). Слід зазначити, що серед фахівців іноді є розбіжності щодо того, за якими шкалами слід вважати виміряними ті чи інші реальні величини. Інакше кажучи, процес вимірювання включає і визначення типу шкали (разом із обгрунтуванням вибору певного типу шкали). Крім перерахованих шести основних типів шкал, іноді використовують інші шкали.

17. Інваріантні алгоритми та середні величини.

Сформулюємо основну вимогу до алгоритмів аналізу даних у ТІ: висновки, зроблені з урахуванням даних, виміряних у шкалі певного типу, повинні змінюватися при допустимому перетворенні шкали виміру цих даних. Іншими словами, висновки мають бути інваріантними по відношенню до допустимих перетворень шкали.

Таким чином, одна з основних цілей теорії вимірів – боротьба із суб'єктивізмом дослідника при приписуванні чисельних значень реальним об'єктам. Так, відстані можна вимірювати в аршинах, метрах, мікронах, милях, парсеках та інших одиницях виміру. Масу (вага) - у пудах, кілограмах, фунтах та ін. Ціни на товари та послуги можна вказувати у юанях, рублях, тенге, гривнях, латах, кронах, марках, доларах США та інших валютах (за умови заданих курсів перерахунку). Підкреслимо дуже важливе, хоча цілком очевидна обставина: вибір одиниць виміру залежить від дослідника, тобто. суб'єктивний. Статистичні висновки можуть бути адекватні реальності лише тоді, коли вони не залежать від того, яку одиницю виміру віддасть перевагу дослідник, коли вони інваріантні щодо допустимого перетворення шкали. З багатьох алгоритмів економетричного аналізу даних цій умові задовольняють лише деякі. Покажемо це з прикладу порівняння середніх величин.

Нехай Х 1, Х 2, .., Х n - вибірка обсягу n. Часто використовують середнє арифметичне. Використання середнього арифметичного настільки звичне, що друге слово в терміні часто опускають і говорять про середню зарплату, середній дохід та інші середні для конкретних економічних даних, маючи на увазі під «середнім» середнє арифметичне. Така традиція може спричинити помилкові висновки. Покажемо це з прикладу розрахунку середньої зарплати (середнього доходу) працівників умовного підприємства. Зі 100 працівників лише 5 мають заробітну плату, її перевищує, а зарплата решти 95 істотно менша за середню арифметичну. Причина очевидна – заробітна плата однієї людини – генерального директора – перевищує заробітну плату 95 працівників – низькокваліфікованих та висококваліфікованих робітників, інженерів та службовців. Ситуація нагадує описану в відомому оповіданніпро лікарню, в якій 10 хворих, з них у 9 температура 40 ° С, а один вже відмучився, лежить у морзі з температурою 0 ° С. Тим часом середня температура по лікарні дорівнює 36 ° С – краще не буває!

Таким чином, середнє арифметичне можна використовувати лише для досить однорідних сукупностей (без великих викидів у той чи інший бік). А які середні використати для опису заробітної плати? Цілком природно використовувати медіану - середнє арифметичне 50-го та 51-го працівника, якщо їх заробітні платирозташовані в порядку невтрати. Спочатку йдуть зарплати 40 низькокваліфікованих робітників, а згодом - з 41-го до 70-го працівника - заробітні плати висококваліфікованих робітників. Отже, медіана потрапляє саме на них і дорівнює 200. У 50 працівників заробітна плата не перевищує 200, і у 50 - не менше 200, тому медіана показує «центр», біля якого групується основна маса досліджуваних величин. Ще одна середня величина - мода, що найчастіше зустрічається. У цьому випадку це вести низькокваліфікованих робочих, тобто. 100. Таким чином, для опису зарплати маємо три середні величини – моду (100 одиниць), медіану (200 одиниць) та середню арифметичну (400 одиниць).

Для розподілів доходів і заробітної плати, що спостерігаються в реальному житті, справедлива та ж закономірність: мода менше медіани, а медіана менше середнього арифметичного.

Навіщо в економіці використовуються середні величини? Зазвичай у тому, щоб замінити сукупність чисел одним числом, щоб порівнювати сукупності з допомогою середніх. Нехай, наприклад, Y 1 , Y 2 ,..., Y n - сукупність оцінок експертів, виставлених одному об'єкту експертизи (наприклад, одному з варіантів стратегічного розвитку фірми), Z 1, Z 2 ,..., Z n -другому (іншому варіанті такого розвитку). Як порівнювати ці сукупності? Очевидно, найпростіший спосіб – за середніми значеннями.

А як вираховувати середні? Відомі різні видисередніх величин: середня арифметична, медіана, мода, середня геометрична, середня гармонійна, середня квадратична. Нагадаємо, що загальне поняттясередньої величини запроваджено французьким математиком першої половини ХІХ ст. академіком О. Коші. Воно таке: середньою величиною є будь-яка функція Ф(Х 1 , Х 2 ,..., Х n) така, що при всіх можливих значеннях аргументів значення цієї функції не менше, ніж мінімальне чисел Х 1, Х 2 ,... , Х n і не більше, ніж максимальне з цих чисел. Усі перелічені вище види середніх є середніми по Коші.

При допустимому перетворенні шкали значення середньої величиниочевидно, змінюється. Але висновки про те, для якої сукупності середнє більше, а для якої - менше, не повинні змінюватися (відповідно до вимог інваріантності висновків, прийнятої як основна вимога в ТІ). Сформулюємо відповідне математичне завдання пошуку виду середніх величин, результат порівняння яких є стійким щодо допустимих перетворень шкали.

Нехай Ф(Х 1 Х 2 ,..., Х n) - середнє за Кошиком. Нехай середнє за першою сукупністю менше середнього за другою сукупністю: тоді згідно з ТІ для стійкості результату порівняння середніх необхідно, щоб для будь-якого допустимого перетворення g з групи допустимих перетворень у відповідній шкалі було справедливо, що середнє перетворених значень з першої сукупності також було менше середнього перетворених значень для другої сукупності. Причому сформульована умова має бути вірною для будь-яких двох сукупностей Y 1 , Y 2 ,...,Y n і Z 1 , Z 2 ,..., Z n і, нагадаємо, будь-якого допустимого перетворення. Середні величини, що задовольняють сформульованій умові, назвемо допустимими (у відповідній шкалі). Згідно з ТІ тільки такими середніми можна користуватися при аналізі думок експертів та інших даних, виміряних у шкалі, що розглядається.

За допомогою математичної теорії, Розвиненою в 1970-х роках, вдається описати вид допустимих середніх в основних шкалах. Відомо, що з даних, виміряних у шкалі найменувань, якості середнього годиться лише мода.

18. Середні величини у порядковій шкалі

Розглянемо опрацювання думок експертів, виміряних у порядковій шкалі. Справедливим є наступне твердження.

Теорема1 . З усіх середніх по Коші допустимими середніми у порядковій шкалі є лише члени варіаційного ряду(порядкові статистики).

Теорема 1 справедлива за умови, що середнє Ф(Х 1 Х 2 ,..., Х n) є безперервною (за сукупністю змінних) та симетричною функцією. Останнє означає, що з перестановці аргументів значення функції Ф(Х 1 Х 2 ,..., Х n) не змінюється. Ця умова є цілком природною, бо середню величину ми знаходимо для сукупності (множини), а не для послідовності. Безліч не змінюється залежно від цього, як і послідовності ми перераховуємо його елементи.

Відповідно до теореми 1 як середній для даних, виміряних у порядковій шкалі, можна використовувати, зокрема медіану (при непарному обсязі вибірки). При парному обсязі слід застосовувати один із двох центральних членів варіаційного ряду - як їх іноді називають, ліву медіану або праву медіану. Моду теж можна використовувати – вона завжди є членом варіаційного ряду. Але ніколи не можна розраховувати середнє арифметичне, середнє геометричне тощо.

Справедлива наступна теорема.

Теорема 2. Нехай Y 1 , Y 2 ,...,Y m - незалежні однаково розподілені випадкові величини з функцією розподілу F(x), a Z 1, Z 2 ,..., Z n - незалежні однаково розподілені випадкові величини з функцією розподілу Н(х), причому вибірки Y 1 , Y 2 ,...,Y m і Z 1 , Z 2 ,..., Z n незалежні між собою та MY X > MZ X . Для того, щоб ймовірність події прагнула до 1 при min(m, n) для будь-якої строго зростаючої безперервної функції g, що задовольняє умові | g i | X необхідно і достатньо, щоб при всіх х виконувалася нерівність F(x)< Н(х), причем существовало число х 0 , для которого F(x 0)

Примітка.Умова з верхньою межею має суто внутрішньоматематичний характер. Фактично функція g - довільне допустиме перетворення на порядковій шкалі.

Відповідно до теореми 2 середнім арифметичним можна користуватися і в порядковій шкалі, якщо порівнюються вибірки з двох розподілів, що задовольняють наведену в теоремі нерівність. Простіше кажучи, одна з функцій розподілу має завжди лежати над іншою. Функції розподілу не можуть перетинатися, їм дозволяється лише торкатися один одного. Ця умова виконана, наприклад, якщо функції розподілу відрізняються лише зсувом:

F(x) = Н(х + ∆)

за деякого ∆.

Остання умова виконується, якщо два значення деякої величини вимірюються за допомогою одного і того ж засобу виміру, у якого розподіл похибок не змінюється при переході від виміру одного значення величини до вимірювання іншого.

Середні за Колмогоровим

Узагальненням кількох із перерахованих вище середніх є середнє за Колмогоровим. Для чисел Х 1, Х 2 ,..., Х n середнє за Колмогоровим обчислюється за формулою

G((F(X l) + F(X 2)+...F(X n))/n),

де F - строго монотонна функція (тобто строго зростаюча або строго спадна),

G – функція, зворотна до F.

Серед середніх за Колмогоровим - багато добре відомих персонажів. Так, якщо F(x) = х, то середнє за Колмогоровим - це середнє арифметичне, якщо F(x) = lnx, то середнє геометричне, якщо F(x) = 1/х, то середнє гармонійне, якщо F(x) = х 2 то середнє квадратичне, і т.д. Середнє по Колмогорову - окремий випадок середнього по Коші. З іншого боку, такі популярні середні, як медіана та мода, не можна уявити у вигляді середніх за Колмогоровим. У монографії доведено такі твердження.

Теорема3 . При справедливості деяких внутрішньоматематичних умов регулярності в шкалі інтервалів із усіх середніх за Колмогоровим допустимим є лише середнє арифметичне. Таким чином, середня геометрична або середня квадратична температура (в шкалі Цельсія) або відстаней не мають сенсу. Як середнє треба застосовувати середнє арифметичне. А також можна використовувати медіану чи моду.

Теорема 4. При справедливості деяких внутрішньоматематичних умов регулярності в шкалі відносин із усіх середніх за Колмогоровим допустимими є лише статечні середні з F(x) = х с, і середнє геометричне.

Зауваження. Середнє геометричне є межею статечних середніх при >0.

Чи є середні за Колмогоровим, якими не можна користуватися в шкалі стосунків? Звичайно є. Наприклад F(x) = е х.

Аналогічно середнім величинам можуть бути вивчені інші статистичні характеристики - показники розкиду, зв'язку, відстані та ін. Неважко показати, наприклад, що коефіцієнт кореляції не змінюється за будь-якого допустимого перетворення в піалі інтервалів, як і відношення дисперсій, дисперсія не змінюється в шкалі різниць, коефіцієнт варіації - в шкалі відносин, і т.д.

Наведені вище результати про середні величини широко застосовуються, причому у економіці, менеджменті, теорії експертних оцінок чи соціології, а й у інженерному справі, наприклад, для аналізу методів агрегування датчиків в АСУ ТП доменних печей. Велике прикладне значення ТІ у завданнях стандартизації та управління якістю, зокрема у кваліметрії, де отримані цікаві теоретичні результати. Так, наприклад, будь-яка зміна коефіцієнтів вагомості одиничних показників якості продукції призводить до зміни упорядкування виробів за середньозваженим показником (ця теорема доведена проф. В.В. Подіновським). Отже, наведені вище короткі відомості про ТІ та її методи об'єднують у певному сенсі економіку, соціологію та інженерні науки і є адекватним апаратом для вирішення найскладніших проблем, що не піддавалися раніше ефективному аналізу, навіть т.ч. відкривається шлях до побудови реалістичних моделей та вирішення завдання прогнозу.

22. Парна лінійна регресія

Звернемося тепер до докладнішого вивчення найпростішого випадку парної лінійної регресії. Лінійна регресія описується найпростішою функціональною залежністю у вигляді рівняння прямої лінії та характеризується прозорою інтерпретацією параметрів моделі (коефіцієнтів рівняння). Права частина рівняння дозволяє за заданими значеннями регресора (що пояснює змінної) отримати теоретичні (розрахункові) значення результативного змінного. Ці значення іноді називають також прогнозованими (у тому ж сенсі), тобто. одержуваними за теоретичними формулами. Однак при висуванні гіпотези про характер залежності ще залишаються невідомими коефіцієнти рівняння. Взагалі, отримання наближених значень цих коефіцієнтів можливе різними методами.

Але найважливішим і найпоширенішим є метод найменших квадратів (МНК). Він заснований (як пояснювалося) на вимогі мінімізації суми квадратів відхилень фактичних значень результативної ознаки від розрахункових (теоретичних). Замість теоретичних значень (для їх отримання) підставляють праві частини рівняння регресії у суму квадратів відхилень, а потім знаходять похідні приватні від цієї функції (суми квадратів відхилень фактичних значень результативної ознаки від теоретичних). Ці приватні похідні беруться не за змінними х і у, а параметрами а і b. Приватні похідні прирівнюють до нуля і після нескладних, але громіздких перетворень отримують систему нормальних рівнянь визначення параметрів. Коефіцієнт при змінному х, тобто. b називається коефіцієнтом регресії, він показує середнє зміна результату із зміною чинника однією одиницю. Параметр а може мати економічної інтерпретації, особливо, якщо знак цього коефіцієнта негативний.

Парна лінійна регресія використовується вивчення функції споживання. Коефіцієнт регресії функції споживання використовується для розрахунку мультиплікатора. Майже завжди рівняння регресії доповнюється показником тісноти зв'язку. Для найпростішого випадку лінійної регресії цим показником тісноти зв'язку є лінійний коефіцієнткореляції. Але так як лінійний коефіцієнт кореляції характеризує тісноту зв'язку ознак у лінійній форміто близькість абсолютної величини лінійного коефіцієнта кореляції до нуля ще не є показником відсутності зв'язку між ознаками.

Саме при іншому виборі специфікації моделі і у вигляді залежності фактичний зв'язок може виявитися досить близьким до одиниці. А ось якість підбору лінійної функції визначається за допомогою квадрата лінійного коефіцієнта кореляції – коефіцієнт детермінації. Він характеризує частку дисперсії результативної ознаки у, що пояснюється регресією в загальної дисперсіїрезультативної ознаки. Розмір, що доповнює коефіцієнт детермінації до 1 характеризує частку дисперсії, викликану впливом інших чинників, не врахованих моделі (залишкової дисперсії).

Парна регресія є рівнянням зв'язку двох змінних у них наступного виду:

де у – залежна змінна (результативна ознака), а х – незалежна змінна (що пояснює змінна, або ознака-фактор). Буває лінійна регресія та нелінійна регресія. Лінійна регресія описується рівнянням виду:

y = a+ bx + .

Нелінійна регресія у свою чергу може бути нелінійною щодо включених в аналіз пояснюючих змінних, але лінійною за параметрами, що оцінюються. А може бути регресія нелінійна за параметрами, що оцінюються. Як приклади регресії, нелінійної по змінних, що пояснюють, але лінійної за оцінюваними параметрами можна вказати поліноміальні залежності різних ступенів (багаточлени) і рівносторонню гіперболу.

Нелінійною регресією за оцінюваними параметрами є статечна щодо параметра (параметр стоїть у показнику ступеня) залежність, показова залежність, де параметр стоїть на підставі ступеня та експоненційна залежність, коли вся лінійна залежність цілком перебуває у показнику експоненти. Зазначимо, що у всіх цих трьох випадках випадковий компонент (випадковий залишок)  входить до праву частинурівняння як сомножителя, а чи не як доданку, тобто. мультиплікативно! Середнє відхилення розрахункових значень результативної ознаки від фактичних характеризується середньою помилкою апроксимації. Вона виявляється у відсотках і має перевищувати 7-8%. Ця середня помилка апроксимації є просто вираженою у відсотках середньої відносних величин різниць фактичних та розрахункових значень.

Важливе значення має середній коефіцієнт еластичності, який є важливою характеристикою багатьох економічних явищ і процесів. Він обчислюється як добуток значення похідної даної функціональної залежності на відношення середньої величини х до середньої величини у. Коефіцієнт еластичності показує на скільки відсотків в середньому за сукупністю зміниться результат від своєї середньої величини при зміні фактора х на 1% від його (фактора х) середнього значення.

З парною регресією та з множинною регресією (коли є безліч факторів) і з залишковою дисперсією тісно пов'язані завдання дисперсійного аналізу. Дисперсійний аналіздосліджує дисперсію залежною змінною. У цьому загальна сума квадратів відхилень розбивається на частини. Перше доданок це сума квадратів відхилень, обумовлена ​​регресією, або пояснена (факторна). Друге доданок це залишкова сума квадратів відхилень, непояснена факторною регресією.

Частку дисперсії, що пояснюється регресією, у спільній дисперсії результативної ознаки у характеризує коефіцієнт (індекс) детермінації, який є не що інше як відношення суми квадратів відхилень, обумовленої регресією до загальної суми квадратів відхилень (першого доданку до всієї суми).

Коли параметри моделі (коефіцієнти за невідомих) визначаються за допомогою методу найменших квадратів, то, по суті, знаходяться (у процесі отримання оцінок) деякі випадкові величини. p align="justify"> Особливу важливість представляє оцінка коефіцієнта регресії, який є деякою особливою формою випадкової величини. Властивості цієї випадкової величини залежать від властивостей залишкового члена в рівнянні (моделі). Розглянемо для моделі парної лінійної регресії пояснювальну змінну х як невипадкову екзогенну змінну. Це лише означає, що значення змінної х у всіх спостереженнях можна вважати заздалегідь заданими і ніяк не пов'язаними з досліджуваною залежністю. Таким чином, фактична величина змінної, що пояснюється, складається з двох складових: невипадкової і випадкової складової (залишкового члена).

З іншого боку коефіцієнт регресії, що визначається за методом найменших квадратів (МНК) дорівнює приватному від поділу коваріації змінних х та у дисперсію змінної х. Тому він також містить довільну складову. Адже коваріація залежить від значень змінної у, де значення змінної у залежать від значень випадкового залишкового члена . Далі неважко показати, що коваріація змінних х і у дорівнює добутку оцінюваного коефіцієнта регресії бета () на дисперсію змінного х, складеному з підступністю змінних х і . Таким чином, оцінка коефіцієнта регресії бета дорівнює самому цьому невідомому коефіцієнту регресії, складеному з приватним від поділу коваріації змінних х і  на дисперсію змінного х. Тобто. оцінка коефіцієнта регресії отримана за будь-якою вибіркою подається у вигляді суми двох доданків: постійної величини, що дорівнює справжньому значенню коефіцієнта  (бета), і з випадкової складової, що залежить від коваріації змінних х і .

23. Математичні умови Гауса-Маркова та їх застосування.

Щоб регресійний аналіз, заснований на звичайному МНК, давав найкращі результати, випадковий член повинен задовольняти чотирма умовами Гауса-Маркова.

Математичне очікування випадкового члена дорівнює нулю, тобто. він є незміщеним. Якщо рівняння регресії включає постійне доданок, то природно вважати виконаним таку вимогу, оскільки це постійне доданок і має враховувати будь-яку систематичну тенденцію у значеннях змінної у, яку навпаки не повинні містити пояснюють змінні рівняння регресії.

Дисперсія випадкового члена постійна всім спостережень.

Коваріація значень випадкових величин, Що утворюють вибірку повинна дорівнювати нулю, тобто. відсутній систематичний зв'язок між значеннями випадкового члена у будь-яких двох конкретних спостереженнях. Випадкові члени повинні бути незалежними один від одного.

Закон розподілу випадкового члена має бути незалежним від пояснюючих змінних.

Понад те, у багатьох застосуваннях пояснюють змінні є стохастичними, тобто. не мають випадкової складової. Значення будь-якої незалежної змінної у кожному спостереженні має вважатися екзогенним, що повністю визначається зовнішніми причинами, що не враховуються в рівнянні регресії.

Разом із зазначеними умовами Гауса-Маркова припускають також, що випадковий член має нормальний розподіл. Воно справедливе за дуже широких умов і ґрунтується на так званій центральній граничній теоремі (ЦПТ). Суть цієї теореми в тому, що якщо випадкова величина є загальним результатом взаємодії великої кількості інших випадкових величин, жодна з яких не переважає вплив на поведінку цього загального результату, то така результуюча випадкова величина буде описуватися приблизно нормальним розподілом. Ця близькість до нормальному розподілудозволяє використовувати для отримання оцінок нормальний розподіл і є у певному сенсі його узагальненням розподіл Стьюдента, яке відрізняється помітно від нормального головним чином так званих «хвостах», тобто. за малих значень обсягу вибірки. Важливо також, що й випадковий член буде розподілено нормально, те й коефіцієнти регресії також буде розподілено за нормальним законом.

Встановлена ​​регресійна крива (рівняння регресії) дозволяє вирішити завдання так званого точкового прогнозу. У таких розрахунках береться деяке значення x поза дослідженим інтервалом спостережень і підставляється в праву частину рівняння регресії (процедура екстраполяції). Т.к. вже відомі оцінки для коефіцієнтів регресії, можна розрахувати відповідне взятому значенню величини x значення пояснюваної змінної у. Природно, що відповідно до змісту передбачення (прогнозу) розрахунки проводяться вперед (в область майбутніх значень).

Однак оскільки коефіцієнти були визначені з певною похибкою, то інтерес не представляє точкова оцінка(точковий прогноз) для результативної ознаки, а знання того, у яких межах з певною ймовірністю лежатимуть значення результативної ознаки, що відповідає взятому значенню фактора х.

Для цього розраховується величина стандартної помилки (середньоквадратичного відхилення). Вона може бути отримана в дусі вже щойно сказаного в такий спосіб. У рівняння лінійної регресії підставляється вираз вільного члена з оцінок через середні величини. Тоді виходить, що стандартна помилка залежить від помилки середньої результативного фактора і адитивно від помилки коефіцієнта регресії b. Просто квадрат цієї стандартної помилки дорівнює суміквадрата помилки середнього величини у та добутку квадрата помилки коефіцієнта регресії на квадрат відхилення величини фактора х та його середнього. Далі перший доданок згідно із законами статистики дорівнює приватному від поділу дисперсії генеральної сукупності на величину (обсяг) вибірки.

Замість невідомої дисперсії як оцінку використовується вибіркова дисперсія. Відповідно помилка коефіцієнта регресії визначається як окреме від поділу вибіркової дисперсії на дисперсію фактора х. Можна отримати величину стандартної помилки (середнього квадратичного відхилення) та інших міркувань, більш незалежних від моделі лінійної регресії. Для цього використовується поняття середньої помилки та граничної помилки та зв'язок між ними.

Але і після отримання стандартної помилки залишається питання про межі, в яких лежатиме прогнозне значення. Інакше кажучи про інтервал похибки вимірювання, у природному у багатьох випадках припущенні, що середина цього інтервалу дається розрахованим (середнім) значенням результативного фактора. Тут на допомогу приходить центральна гранична теорема, яка і вказує з якою ймовірністю невідома величина знаходиться в межах цього довірчого інтервалу.

Фактично формула стандартної помилки незалежно від цього як і як вона отримана характеризує помилку становища лінії регресії. Величина стандартної помилки досягає мінімуму при збігу значення фактора x із середнім значенням фактора.

24. Статистична перевірка гіпотез та оцінка значущості лінійної регресії за критерієм Фішера.

Коли знайдено рівняння лінійної регресії, проводиться оцінка значимості як рівняння загалом, і окремих його параметрів. Оцінка значущості рівняння регресії загалом можна виконувати з допомогою різних критеріїв. Досить поширеним та ефективним є застосування F-критерію Фішера. У цьому висувається нульова гіпотеза Н про, що коефіцієнт регресії дорівнює нулю, тобто. b=0, і, отже, фактор х не впливає на результат у. Безпосереднім розрахунком F-критерію передує аналіз дисперсії. Центральне місце в ньому займає розкладання загальної суми квадратів відхилень змінної у від середнього значення на дві частини - «пояснену» і «непояснену»:

Загальна сума квадратів відхилень індивідуальних значень результативної ознаки від середнього значення у викликана впливом безлічі факторів.

Умовно розділимо всю сукупність причин на дві групи: фактор х, що вивчається, та інші фактори. Якщо чинник впливає результат, то лінія регресії на графіці паралельна осі ОХ і у=у. Тоді вся дисперсія результативної ознаки обумовлена ​​впливом інших факторів і загальна сума квадратів відхилень збігатиметься з залишковою. Якщо ж інші фактори не впливають на результат, то пов'язаний з х функціонально і залишкова сума квадратів дорівнює нулю. І тут сума квадратів відхилень, пояснена регресією, збігається із загальною сумою квадратів. Оскільки в повному обсязі точки поля кореляції лежать лінії регресії, завжди має місце їх розкид як зумовлений впливом чинника x, тобто. регресією у по х, і викликаний дією інших причин (непояснена варіація). Придатність лінії регресії для прогнозу залежить від цього, яка частина загальної варіації ознаки припадає на пояснену варіацію.

Очевидно, що якщо сума квадратів відхилень, обумовлена ​​регресією, буде більшою від залишкової суми квадратів, то рівняння регресії статистично значуще і фактор х істотно впливає на результат. Це рівнозначно тому, що коефіцієнт детермінації наближатиметься до одиниці. Будь-яка сума квадратів відхилень пов'язані з числом ступенів свободи, тобто. числом свободи незалежного варіювання ознаки. Число ступенів свободи пов'язане з числом одиниць сукупності або з числом констант, що визначаються за нею. Стосовно досліджуваної проблеми число ступенів свободи має показати, скільки незалежних відхилень з n можливих [(у 1 -у),(у 2 -у),...(у n -у)] потрібно для утворення цієї суми квадратів. Так, загальної суми квадратів ∑(у-у ср) 2 потрібно (n-1) незалежних відхилень, т.к. за сукупністю з n одиниць після розрахунку середнього рівня вільно варіюють лише (n-1) кількість відхилень. При розрахунку поясненої чи факторної суми квадратів ∑(у-у ср) 2 використовуються теоретичні (розрахункові) значення результативної ознаки у*, знайдені лінією регресії: у(х)=а+bх.

Повернемося тепер до розкладання загальної суми квадратів відхилень результативного чинника від середньої цієї величини. Ця сума містить дві вже визначені вище частини: суму квадратів відхилень, пояснену регресією та іншу суму, що називається залишкова сума квадратів відхилень. З таким розкладанням пов'язаний аналіз дисперсії, який прямо відповідає принципове питання: як оцінити значимість рівняння регресії загалом та її окремих параметрів? Воно ж значною мірою визначає сенс цього питання. Для оцінки значущості рівняння регресії загалом використовується критерій Фішера (F-критерій). Відповідно до підходу, запропонованому Фішером, висувається нульова гіпотеза: коефіцієнт регресії дорівнює нулю, тобто. величина b = 0. Це означає, що фактор Х не впливає на результат Y.

Згадаймо, що майже завжди отримані в результаті статистичного дослідження точки не лягають точно на лінію регресії. Вони розпорошені, будучи віддалені більш-менш сильно від лінії регресії. Таке розсіювання обумовлено впливом інших, відмінних від пояснюючого фактора Х, факторів, що не враховуються в рівнянні регресії. При розрахунку поясненої чи факторної суми квадратів відхилень використовуються теоретичні значення результативної ознаки, знайдені по лінії регресії.

Для заданого набору значень змінних Y і Х розрахункове значення середньої величини Y є у лінійній регресії функцією лише одного параметра – коефіцієнта регресії. Відповідно до цього факторна сума квадратів відхилень має число ступенів свободи, що дорівнює 1. А число ступенів свободи залишкової суми квадратів відхилень при лінійній регресії дорівнює n-2.

Отже, розділивши кожну суму квадратів відхилень у вихідному розкладі на своє число ступенів свободи, отримуємо середній квадрат відхилень (дисперсію на один ступінь свободи). Далі розділивши факторну дисперсію на один ступінь свободи на залишкову дисперсію на один ступінь свободи отримуємо критерій для перевірки нульової гіпотези так зване F-відношення, або однойменний критерій. Саме при справедливості нульової гіпотези факторна і залишкова дисперії виявляються просто рівними один одному.

Для відхилення нульової гіпотези, тобто. прийняття протилежної гіпотези, що виражає факт значущості (наявності) досліджуваної залежності, а чи не просто випадкового збігуфакторів, що імітує залежність, яка фактично не існує, необхідно використовувати таблиці критичних значень зазначеного відношення. По таблицях з'ясовують критичну (порогову) величину критерію Фішера. Вона називається також теоретичною. Потім перевіряють, порівнюючи її з обчисленим за даними спостережень відповідним емпіричним (фактичним) значенням критерію, чи перевищує фактична величина відношення критичну величину таблиць.

Докладніше це робиться так. Вибирають цей рівень ймовірності наявності нульової гіпотези і знаходять за таблицями критичне значення F-критерію, у якому ще може відбуватися випадкове розбіжність дисперсій на 1 ступінь свободи, тобто. максимальне значення. Потім обчислене значення відношення F-визнається достовірним (тобто виражає відмінність фактичної та залишкової дисперсій), якщо це відношення більше табличного. Тоді нульова гіпотеза відхиляється (невірно, що відсутні ознаки зв'язку) і навпаки приходимо до висновку, що зв'язок є і є суттєвим (має невипадковий, значущий характер).

У разі, якщо величина відношення виявляється меншою від табличного, то ймовірність нульової гіпотези виявляється вище за заданий рівень (який вибирався спочатку) і нульова гіпотеза не може бути відхилена без помітної небезпеки отримати невірний висновок про наявність зв'язку. Відповідно рівняння регресії вважається у своїй незначним.

Сама величина F-критерію пов'язана з коефіцієнтом детермінації. Крім оцінки значимості рівняння регресії загалом оцінюють також значимість окремих параметрів рівняння регресії. При цьому визначають стандартну помилку коефіцієнта регресії за допомогою емпіричного фактичного середньоквадратичного відхилення та емпіричної дисперсії на один ступінь свободи. Після цього використовують розподіл Стьюдента для перевірки суттєвості коефіцієнта регресії до розрахунку його довірчих інтервалів.

Оцінка значущості коефіцієнтів регресії та кореляції за допомогою t-критерію Стьюдента виконується за допомогою зіставлення значень цих величин та величини стандартної помилки. Величина помилки параметрів лінійної регресії та коефіцієнта кореляції визначається за такими формулами:

де S - середньоквадратичне залишкове вибіркове відхилення,

r xy - Коефіцієнт кореляції.

Відповідно величина стандартної помилки, що передбачається по лінії регресії, дається формулою:

Відповідні відношення значень величин коефіцієнтів регресії та кореляції до їхньої стандартної помилки утворюють так звану t-статистику, а порівняння відповідного табличного (критичного) значення її та її фактичного значення дозволяє прийняти або відкинути нульову гіпотезу. Але далі для розрахунку довірчого інтервалу знаходиться гранична помилка для кожного показника як добуток табличного значення статистики t на середню випадкову помилку відповідного показника. По суті трохи інакше ми вже фактично записали її щойно вище. Потім отримують межі довірчих інтервалів: нижню межу відніманням з відповідних коефіцієнтів (фактично середніх) відповідної граничної помилки, а верхню межу – додаванням.

У лінійній регресії ∑(y x -y ср) 2 = b 2 ∑(x-x ср) 2 . У цьому неважко переконатися, звернувшись до формули лінійного коефіцієнта кореляції: r 2 ху = b 2 * 2 x / 2 y

де 2 y - загальна дисперсія ознаки у;

σ 2 x - дисперсія ознаки у обумовлена ​​фактором х. Відповідно сума квадратів відхилень, зумовлених лінійною регресією, становитиме:

∑(y x -y ср) 2 = b 2 ∑(x-x ср) 2 .

Оскільки при заданому обсязі спостережень з х і факторна сума квадратів при лінійній регресії залежить тільки від однієї константи коефіцієнта регресії b, то дана сума квадратів має один ступінь свободи. Розглянемо змістовну сторону розрахункового значення ознаки, тобто. у х. Величина у x визначається за рівнянням лінійної регресії: у x = a + b x.

Параметр а можна визначити як а=у-bх. Підставивши вираз параметра в лінійну модель, отримаємо: y x ​​= y-bx + bx ср = y-b (x-x ср).

При заданому наборі змінних у них розрахункове значення у них є в лінійній регресії функцією лише одного параметра - коефіцієнта регресії. Відповідно і факторна сума квадратів відхилень має число ступенів свободи, що дорівнює 1.

Існує рівність між числом ступенів свободи загальної, факторної та залишкової сумами квадратів. Число ступенів свободи залишкової суми квадратів при лінійній регресії становить (n-2). Число ступенів свободи для загальної суми квадратів визначається числом одиниць, і оскільки ми використовуємо середню обчислену за даними вибірки, втрачаємо один ступінь свободи, тобто. (n-1). Отже, маємо дві рівності: для сум та числа ступенів свободи. А це, у свою чергу, повертає нас знову до порівнянних дисперсій на один ступінь свободи, відношення яких і дає критерій Фішера.

25. Оцінка значимості окремих параметрів рівняння регресії та коефіцієнтів за критерієм Стьюдента.

27. Лінійна та нелінійна регресіята методи їх дослідження.

Лінійна регресія та методи її дослідження та оцінки не мали б такого важливого значення, якби крім цього дуже важливого, але все ж таки найпростішого випадку, ми не отримували з їх допомогою інструменту аналізу складніших нелінійних залежностей. Нелінійні регресії можна розділити на два істотно різних класу. Першим і більш простим є клас нелінійних залежностей, в яких є нелінійність щодо пояснюючих змінних, але які залишаються лінійними за параметрами, що входять до них і підлягають оцінці. Сюди входять поліноми різних ступенів та рівностороння гіпербола.

Така нелінійна регресія за включеними до пояснення змінним простим перетворенням (заміною) змінних легко зводиться до звичайної лінійної регресії нових змінних. Тому оцінка параметрів у разі виконується просто МНК, оскільки залежності лінійні за параметрами. Так, важливу роль в економіці грає нелінійна залежність, що описується рівносторонньою гіперболою:

Її параметри добре оцінюються МНК і сама така залежність характеризує зв'язок питомих витратсировини, палива, матеріалів з обсягом продукції, що виробляється, часом обігом товарів і всіх цих факторів з величиною товарообігу. Наприклад, крива Філіпса характеризує нелінійне співвідношення між нормою безробіття та відсотком приросту заробітної плати.

Зовсім по-іншому справи з регресією, нелінійною за оцінюваними параметрами, наприклад, ступеневою функцією, в якій сам ступінь (її показник) є параметром, або залежить від параметра. Також це може бути показова функція, де основою ступеня є параметр та експоненційна функція, в якій знову ж таки показник містить параметр або комбінацію параметрів. Цей клас, своєю чергою, ділиться на два підкласи: до одного ставляться зовні нелінійні, але з суті внутрішньо лінійні. У цьому випадку можна привести модель до лінійного вигляду за допомогою перетворень. Однак, якщо модель внутрішньо нелінійна, то вона не може бути зведена до лінійної функції.

Таким чином, лише моделі внутрішньо нелінійні у регресійному аналізі вважаються справді нелінійними. Всі інші, що зводяться до лінійних за допомогою перетворень, такими не вважаються і саме вони розглядаються найчастіше в економетричних дослідженнях. У той самий час це означає неможливості дослідження економетриці істотно нелінійних залежностей. Якщо модель внутрішньо нелінійна за параметрами, для оцінки параметрів використовуються ітеративні процедури, успішність яких залежить від виду рівняння особливостей застосовуваного ітеративного методу.

Повернемося до залежностей, що наводяться до лінійних. Якщо вони нелінійні і за параметрами і змінними, наприклад, виду у = а помноженому на ступінь Х, показник якої і є параметр - (бета):

Очевидно, таке співвідношення легко перетворюється на лінійне рівняння простим логарифмуванням.

Після запровадження нових змінних, що позначають логарифми, виходить лінійне рівняння. Тоді процедура оцінювання регресії полягає у обчисленні нових змінних кожного спостереження шляхом взяття логарифмів від вихідних значень. Потім оцінюється регресійна залежність нових змінних. Для переходу до вихідних змінних слід взяти антилогарифм, тобто фактично повернутися до самих ступенів замість їх показників (адже логарифм і є показник ступеня). Аналогічно може розглядатися випадок показових чи експоненційних функцій.

Для суттєво нелінійної регресії неможливе застосування звичайної процедури оцінювання регресії, оскільки відповідна залежність не може бути перетворена на лінійну. Загальна схема дій у своїй така:

1. Приймаються деякі правдоподібні вихідні параметри;

2. Обчислюються передбачені значення Y за фактичними значеннями з використанням цих значень параметрів;

3. Обчислюються залишки всім спостережень у вибірці і потім сума квадратів залишків;

4. Вносяться невеликі зміни до однієї чи більше оцінки параметрів;

5. Обчислюються нові передбачені значення Y, залишки та сума квадратів залишків;

6. Якщо сума квадратів залишків менша, ніж раніше, то нові оцінки параметрів краще колишніх і їх слід використовувати як нову відправну точку;

7. Кроки 4, 5 та 6 повторюються знову доти, доки не виявиться неможливим внести такі зміни в оцінки параметрів, які призвели б до зміни суми залишків квадратів;

8. Робиться висновок у тому, що величина суми квадратів залишків мінімізована і кінцеві оцінки параметрів є оцінками методом найменших квадратів.

Серед нелінійних функцій, які можуть бути приведені до лінійного виглядув економетриці широко використовується статечна функція. Параметр b у ній має чітке тлумачення, будучи коефіцієнтом еластичності. У моделях, нелінійних за оцінюваними параметрами, але що приводяться до лінійного вигляду, МНК застосовується до перетворених рівнянь. Практичне застосування логарифмування та відповідно експоненти можливе тоді, коли результативна ознака не має негативних значень. При дослідженні взаємозв'язків серед функцій, що використовують логарифм результативної ознаки, в економетриці переважають статечні залежності (криві попиту та пропозиції, виробничі функції, криві освоєння для характеристики зв'язку між трудомісткістю продукції, масштабами виробництва, залежність ВНД від рівня зайнятості, криві Енгеля).

28. Зворотна модель та її використання

Іноді використовується так звана зворотна модель, що є внутрішньо нелінійною, але в ній, на відміну від рівносторонньої гіперболи, перетворенню піддається не пояснююча змінна, а результативна ознака Y. Тому зворотна модель виявляється внутрішньо нелінійною і вимога МНК виконується не для фактичних значень результативної ознаки а для них обернених значень. На особливу увагу заслуговує дослідження кореляції для нелінійної регресії. У випадку парабола другого ступеня як і поліноми вищого порядку, при лінеаризації набуває вигляду рівняння множинної регресії. Якщо ж нелінійне щодо змінної змінної рівняння регресії при лінеаризації приймає форму лінійного рівняння парної регресії, то для оцінки тісноти зв'язку може бути використаний лінійний коефіцієнт кореляції.

Якщо перетворення рівняння регресії у лінійну форму пов'язані із залежною змінною (результативним ознакою), то лінійний коефіцієнт кореляції за перетвореними значеннями ознак дає лише наближену оцінку зв'язку і чисельно не збігається з індексом кореляції. Слід пам'ятати, що з розрахунку індексу кореляції використовуються суми квадратів відхилень результативного ознаки Y, а чи не їх логарифмів. Оцінка значущості індексу кореляції виконується як і оцінка надійності (значимості) коефіцієнта кореляції. Сам індекс кореляції, як і індекс детермінації, використовується для перевірки значущості в цілому рівняння нелінійної регресії за F-критерієм Фішера.

Зазначимо, що можливість побудови нелінійних моделей як за допомогою приведення їх до лінійного вигляду, так і шляхом використання нелінійної регресії, з одного боку підвищує універсальність регресійного аналізу. А з іншого – суттєво ускладнює завдання дослідника. Якщо обмежуватися парним регресійним аналізом, можна побудувати графік спостережень Y і Х як діаграму розкиду. Часто кілька різних нелінійних функцій приблизно відповідають спостереженням, якщо вони лежать на певній кривій. Але у разі множинного регресійного аналізу такий графік збудувати неможливо.

При розгляді альтернативних моделей з тим самим визначенням залежної змінної процедура вибору порівняно проста. Можна оцінювати регресію на основі всіх можливих функцій, які можна уявити і вибирати функцію, яка найбільше пояснює зміни залежної змінної. Зрозуміло, що коли лінійна функція пояснює приблизно 64% ​​дисперсії, а гіперболічна – 99,9%, очевидно слід вибирати останню. Але коли різні моделівикористовують різні функціональні форми, проблема вибору моделі суттєво ускладнюється.

29. Використання тесту Бокса-Кокса.

Більш загальним чином при розгляді альтернативних моделей з одним і тим самим визначенням залежної змінної вибір простий. Найрозумніше оцінювати регресію на основі всіх можливих функцій, зупиняючись на функції, що найбільше пояснює зміни залежної змінної. Якщо коефіцієнт детермінації вимірює в одному випадку пояснену регресією частку дисперсії, а в іншому – пояснену регресією частку дисперсії логарифму цієї залежної змінної, то вибір робиться без труднощів. Інша річ, коли ці значення для двох моделей дуже близькі і проблема вибору суттєво ускладнюється.

Тоді слід застосовувати стандартну процедуру як тест Бокса-Кокса. Якщо потрібно лише порівняти моделі з використанням результативного фактора та його логарифму у вигляді варіанта залежною зміною, то застосовують варіант тесту Зарембки. У ньому пропонується перетворення масштабу спостережень Y, при якому забезпечується можливість безпосереднього порівняння середньоквадратичної помилки (СКО) у лінійній та логарифмічній моделях. Відповідна процедура включає такі кроки:

    Обчислюється середнє геометричне значень Y у вибірці, що збігається з експонентою середнього арифметичних значеньлогарифму від Y;

    Перераховуються спостереження Y таким чином, що вони поділяються на отримане на першому етапі значення;

    Оцінюється регресія для лінійної моделі з використанням перелічених значень Y замість вихідних значень Y і для логарифмічної моделі з використанням логарифму від перерахованих значень Y. Тепер значення СКО для двох регресій можна порівняти і тому модель з меншою сумою квадратів відхилень забезпечує кращу відповідність до істинної;

    Для перевірки того, що одна з моделей не забезпечує значно кращу відповідність, можна використовувати добуток половини числа спостережень на логарифм відношення значень СКО в перерахованих регресії з подальшим взяттям абсолютного значення цієї величини.

30. Поняти інтеркореляції та мультиколінеарності факорів.

34. Основи МНК та обґрунтованість його застосування.

Звернемося тепер до основ МНК, обґрунтованості його застосування (у тому числі до завдань множинної регресії) та найважливіших властивостей оцінок, що отримуються за допомогою МНК. Почнемо з того, що поряд із аналітичною залежністю у правій частині регресійного рівняння важливу роль відіграє ще випадковий член. Ця випадкова компонента є величиною, що не спостерігається. Самі статистичні перевірки параметрів регресії та показників кореляції засновані на передумовах, що не перевіряються, про розподіл цієї випадкової складової множинної регресії. Ці припущення носять лише попередній характер. Тільки після побудови рівняння регресії проводять перевірку наявності в оцінок випадкових залишків (емпіричні аналоги випадкової складової) передбачуваних апріорі властивостей. Фактично, коли оцінені параметри моделі, то розраховують різниці теоретичних і фактичних значень результативного ознаки, щоб у такий спосіб оцінити саму випадкову складову. Важливо мати на увазі, що це лише вибіркова реалізація невідомого залишку заданого рівняння.

Коефіцієнти регресії, отримані із системи нормальних рівнянь, це вибіркові оцінки сили зв'язку. Зрозуміло, що практичне значення вони мають лише тоді, коли є незміщеними. Нагадаємо, що в цьому випадку середнє залишків дорівнює нулю, або, що те ж саме, середнє оцінки дорівнює самому параметру, що оцінюється. Тоді залишки не будуть накопичуватися при великому числівибіркових оцінювань, а сам знайдений параметр регресії можна розглядати як середній великої кількостінезміщених оцінок.

З іншого боку, оцінки повинні мати найменшу дисперсію, тобто. бути ефективними і тоді з'являється можливість переходу від малопридатних точкових оцінок до інтервального оцінювання. Нарешті, довірчі інтервали застосовні з великим ступенем ефективності, коли можливість отримання оцінки на заданій відстані від істинного (невідомого) значення параметра близька до одиниці. Такі оцінки називаються заможними та властивість спроможності характеризується збільшенням їх точності зі збільшенням обсягу вибірки.

Однак умова спроможності не виконується автоматично і залежить від виконання наступних двох важливих вимог. По-перше, самі залишки би мало бути стохастичними з максимально вираженою випадковістю, тобто. всі очевидно функціональні залежності повинні бути включені саме в аналітичну компоненту множинної регресії, і до того ж значення залишків повинні бути розподілені незалежно один від одного для різних вибірок (відсутність автокореляції залишків). Друге, не менше важлива вимогаполягає в однаковості дисперсії кожного відхилення (залишку) для всіх значень змінних Х (гомоскедастичність). Тобто. гомоскедастичність виражається сталістю дисперсії всім спостережень:

Навпаки, гетероскедастичність полягає у порушенні такої сталості дисперсії для різних спостережень. У цьому випадку апріорна (до спостережень) можливість отримання сильно відхилених величин з різним теоретичним розподілом випадкового члена для різних спостережень у вибірці буде відносно висока.

Автокореляція залишків або наявність кореляції між залишками поточних та попередніх (наступних) спостережень вбачається за величиною звичайного лінійного коефіцієнта кореляції. Якщо він істотно відрізняється від нуля, то залишки автокорельовані і, отже, функція густини ймовірності (розподілу залишків) залежить від точки спостереження та від розподілу значень залишків в інших точках спостереження. Зручно визначати автокореляцію залишків за наявною статистичною інформацією за наявності упорядкованості спостережень за фактором Х. Відсутність автокореляції залишків забезпечує спроможність та ефективність оцінок коефіцієнтів регресії.

35. Гомоскедастичність та гетероскедастичність, автокореляція залишків, узагальнений метод найменших квадратів (ОМНК).

Однаковість дисперсій залишків для всіх значень змінних Х, або гомоскедастичність також необхідна для отримання за МНК заможних оцінок параметрів регресії. Невиконання умови гомоскедастичності призводить до так званої гетероскедастичності. Вона може призводити до зміщення оцінок коефіцієнтів регресії. Гетероскедастичність головним чином позначатиметься на зменшенні ефективності оцінок коефіцієнтів регресії. Особливо важко стає при цьому користуватися формулою стандартної помилки коефіцієнта регресії, використання якої передбачає єдину дисперсію залишків для будь-яких значень фактора. Що ж до незміщеності оцінок коефіцієнтів регресії, вона, насамперед, залежить від незалежності залишків і самих величин чинників.

Досить наочним, щоправда несуворим і потребує навички способом перевірки гомоскедастичності є графічне вивчення характеру залежності залишків від середньої обчисленої (теоретичної) результативної ознаки, або відповідних полів кореляції. Суворішими є аналітичні методи дослідження та оцінки гетероскедастичності. При значній наявності гетероскедастичності доцільно замість МНК використовувати узагальнений МНК (ОМНК).

Крім вимог до множинної регресії, що випливають із застосування МНК, необхідно дотримуватись також умов на змінні, що включаються до моделі. До таких, перш за все, належать вимоги щодо кількості факторів моделі за заданим обсягом спостережень (1 до 7). Інакше параметри регресії виявляться статистично незначущими. З погляду ефективності застосування відповідних чисельних методівпри реалізації МНК необхідно, щоб число спостережень перевищувало кількість оцінюваних параметрів (у системі рівнянь число рівнянь більше числа змінних, що розшукуються).

Найбільш істотним досягненням економетрики є значний розвиток самих методів оцінювання невідомих параметрів та удосконалення критеріїв виявлення статичної значущості ефектів, що розглядаються. У цьому плані неможливість або недоцільність використання традиційного МНК через гетероскедастичність, що проявляється в тій чи іншій мірі, призвела до розробки узагальненого МНК (ОМНК). Фактично при цьому коригується модель, зміна її специфікації, перетворюються вихідні дані для забезпечення незміщеності, ефективності та спроможності оцінок коефіцієнтів регресії.

Передбачається, що середнє залишків дорівнює нулю, але їх дисперсія вже не є постійною, а пропорційна величинам К i , де ці величини є коефіцієнтами пропорційності, різні для різних значеньфактора х. Таким чином, саме ці коефіцієнти (величини К i) характеризують неоднорідність дисперсії. Природно вважається, що величина дисперсії, що входить загальним множником при цих коефіцієнтах пропорційності, невідома.

Вихідна модель після введення цих коефіцієнтів рівняння множинної регресії продовжує залишатися гетероскедастической (точніше кажучи, такими є залишкові величини моделі). Нехай ці залишкові величини (залишки) є автокорельованими. Введемо нові змінні, що виходять розподілом вихідних змінних моделі, зафіксованих в результаті i-го спостереження, на квадратний корінь з коефіцієнтів пропорційності До i . Тоді отримаємо нове рівняння у перетворених змінних, у якому вже залишки будуть гомоскедастичними. Найновіші змінні – це зважені старі (вихідні) змінні.

Тому оцінка параметрів отриманого таким чином нового рівняння з гомоскедастичними залишками зводитиметься до виваженого МНК (по суті це і є ОМНК). При використанні замість самих змінних регресії їх відхилення від середніх виразів для коефіцієнтів регресії набувають простого і стандартизованого (єдиноподібного) вигляду, що незначно відрізняється для МНК і ОМНК поправним множником 1/К в чисельнику і знаменнику дробу, що дає коефіцієнт регресії.

Слід мати на увазі, що параметри перетвореної (скоригованої) моделі суттєво залежать від того, яка концепція покладена за основу коефіцієнтів пропорційності К i . Часто вважають, що залишки просто пропорційні значенням фактора. Найпростіший вид модель приймає у разі, коли приймається гіпотеза у тому, що помилки пропорційні значенням останнього по порядку чинника. Тоді ОМНК дозволяє підвищити вагу спостережень з меншими значеннями перетворених змінних щодо параметрів регресії порівняно з роботою стандартного МНК з початковими вихідними змінними. Але ці нові змінні вже набувають іншого економічного змісту.

Гіпотеза про пропорційності залишків величині чинника цілком може мати реальне обгрунтування. Нехай обробляється деяка недостатньо однорідна сукупність даних, наприклад, що включає великі та дрібні підприємства одночасно. Тоді більшим об'ємним значенням фактора може відповідати і велика дисперсія результативної ознаки та велика дисперсія залишкових величин. Далі використання ОМНК та відповідний перехід до відносним величинамне просто знижує варіацію фактора, а й зменшує дисперсію помилки. Тим самим реалізується найпростіший випадок обліку та корекції гетероскедастичності у регресійних моделях за допомогою застосування ОМНК.

Викладений вище підхід до реалізації ОМНК як виваженого МНК є досить практичним – він реалізується і має прозору економічну інтерпретацію. Звичайно, це не найзагальніший підхід і в контексті математичної статистики, що служить теоретичною основою економетрики, нам пропонується значно суворіший метод, що реалізує ОМНК у самому загальному вигляді. У ньому необхідно знати підступну матрицю вектора помилок (стовпця залишків). А це в практичних ситуаціях зазвичай несправедливо, і знайти цю матрицю як таку буває неможливо. Тому доводиться, взагалі кажучи, якимось чином оцінювати матрицю, що шукається, щоб використовувати замість самої матриці таку оцінку у відповідних формулах. Тим самим описаний варіант реалізації ОМНК представляє одну з таких оцінок. Іноді його називають доступним узагальненим МНК.

Треба враховувати також, що коефіцієнт детермінації не може бути задовільним заходом якості припасування при використанні ОМНК. Повертаючись до застосування ОМНК, зазначимо також, що достатню спільність має метод використання стандартних відхилень (стандартних помилок) у формі Уайта (так звані заможні стандартні помилки за наявності гетероскедастичності). Цей метод застосовується за умови діагональності матриці підступів вектора помилок. Якщо ж є автокореляція залишків (помилок), як у матриці підступів і поза головною діагоналі є ненульові елементи (коефіцієнти), слід застосовувати більш загальний метод стандартних помилок у вигляді Невье-Веста. При цьому є суттєве обмеження: ненульові елементи, крім головної діагоналі, знаходяться тільки на сусідніх діагоналях, що віддаляються від головної діагоналі не більше ніж на певну величину.

Зі сказаного ясно, що необхідно мати можливість перевіряти дані на гетероскедастичність. Цій меті служать наведені нижче тести. Вони перевіряється основна гіпотеза про рівність дисперсій залишків проти альтернативної гіпотези (про нерівність цих гіпотез). Крім того, є апріорні структурні обмеження щодо характеру гетероскедастичності. У тесті Голдфелда-Куандта зазвичай використовується припущення про пряму залежність дисперсії помилки (залишку) від величини деякої незалежної змінної. Схема застосування цього тесту така. Спочатку дані впорядковуються за зменшенням тієї незалежної змінної, щодо якої є підозра на гетероскедастичність. Потім у цьому впорядкованому наборі даних виключаються кілька середніх спостережень, де слово «кілька» означає приблизно чверть (25%) загальної кількостівсіх спостережень. Далі проводяться дві незалежні регресії для перших із останніх (після виконаного виключення) середніх спостережень і двох останніх з цих середніх спостережень, що залишилися. Після цього будуються два відповідні залишки. Нарешті, складається F-статистика Фішера і якщо вірна гіпотеза, що досліджується, то F дійсно є розподілом Фішера з відповідними ступенями свободи. Тоді велика величина цієї статистики означає, що гіпотезу, що перевіряється, необхідно відкинути. Без кроку виключення спостережень потужність цього тесту зменшується.

Тест Бреуша-Пагана застосовується у випадках, коли апріорно передбачається, що дисперсії залежить від деяких додаткових змінних. Спочатку проводиться звичайна (стандартна) регресія та виходить вектор залишків. Потім будується оцінка дисперсії. Далі проводиться регресія квадрата вектора залишків поділеного на емпіричну дисперсію (оцінку дисперсії). Для неї (регресії) знаходять пояснену частину варіації. А для цієї поясненої частини варіації, поділеної навпіл, будується статистика. Якщо вірна нульова гіпотеза (справедлива відсутність гетероскедастичності), то ця величина має розподіл хі-квадрат. Якщо ж тест, навпаки, виявив гетероскедастичність, то вихідна модель перетворюється поділом компонентів вектора залишків на відповідні компоненти незалежних змінних.

36. Метод стандартних відхилень у вигляді Уайта.

Можна зробити такі висновки. Застосування ОМНК за наявності гетероскедастичності зводиться до мінімізації суми завислих квадратів відхилень. Використання доступного ОМНК пов'язане з необхідністю наявності великої кількості спостережень, що перевищує кількість параметрів, що оцінюються. Найбільш сприятливим для застосування ОМНК є той випадок, коли помилка (залишки) пропорційна одній з незалежних змінних і оцінки, що отримуються, є заможними. Якщо все ж таки в моделі з гетероскедастичністю доводиться застосовувати не ОМНК, а стандартний МНК, то для отримання заможних оцінок можна використовувати оцінки помилок у формі Уайта або Нев'є-Веста.

При аналізі часових рядів часто доводиться враховувати статистичну залежність спостережень різні моменти часу. У цьому випадку припущення про некорелювання помилок не виконується. Розглянемо просту модель, в якій помилки утворюють авторегресійний процес першого порядку. У цьому випадку помилки задовольняють простому рекурентному співвідношенню, у правій частині якого одна з доданків це послідовність незалежних нормально розподілених випадкових величин з нульовим середнім та постійною дисперсією. Друге доданок цей добуток параметра (коефіцієнта авторегресії) на значення залишків у попередній момент часу. Сама послідовність значень помилок (залишків) утворює стаціонарний випадковий процес. Стаціонарний випадковий процес характеризується сталістю своїх характеристик у часі, зокрема, середньої та дисперсії. При цьому коваріаційна матриця, що цікавить нас (її члени), легко виписується за допомогою ступенів параметра.

Оцінювання моделі з авторегресією для відомого параметра виконується за допомогою ОМНК. І тут досить просто звести вихідну модель нехитрим перетворенням до моделі, помилки якої задовольняють умовам стандартної регресійної моделі. Дуже рідко, але все ж таки зустрічається ситуація, в якій параметр авторегресії відомий. Отже, взагалі необхідно виконувати оцінювання за невідомого параметра авторегресії. Існують три найбільш уживані процедури такого оцінювання. Метод Кохрейна-Оркатта, процедура Хілдрета-Лу та метод Дарбіна.

Загалом справедливі такі висновки. Аналіз часових рядів потребує корекції звичайного МНК, оскільки помилки у разі, зазвичай, коррелированы. Часто ці помилки утворюють стаціонарний авторегресійний процес першого порядку. МНК-оцінки для авторегресії першого порядку незміщені, заможні, але неефективні. При відомому коефіцієнті авторегресії ОМНК зводиться до простих перетворень (корекції) вихідної системи і потім застосування стандартного МНК. Якщо, що частіше має місце, коефіцієнт авторегресії невідомий, є кілька процедур доступного ОМНК, які полягають в оцінюванні невідомого параметра (коефіцієнта), після чого застосовують ті ж перетворення, що і в попередньому випадку відомого параметра.

37. Поняття про тест Бреуша-Пагана, тест Гольдфельдта-Квандта


Емпіричні коефіцієнти регресії b 0 , b 1 визначатимемо за допомогою інструмента «Регресія» надбудови «Аналіз даних» табличного процесора MS Excel.

Алгоритм визначення коефіцієнтів ось у чому.

1. Вхідні дані в табличний процесор MS Excel.

2. Викликаємо над будівництво Аналіз даних (рисунок 2).

3. Вибираємо інструмент аналізу Регресія (рисунок 3).

4. Заповнюємо відповідні позиції вікна Регресія (рис. 4).

5. Натискаємо кнопку ОК вікна Регресія та отримуємо протокол розв'язання задачі (рисунок 5)


Рисунок 3 – Вибір інструменту Регресія




Рисунок 4 – Вікно Регресія

Рисунок 5 – Протокол розв'язання задачі

З малюнка 5 видно, що емпіричні коефіцієнти регресії відповідно дорівнюють

b 0 = 223,

b 1 = 0,0088.

Тоді рівняння парної лінійної регресії, що пов'язує величину щомісячної пенсії з величиною прожиткового мінімуму має вигляд

.(3.2)

Далі, відповідно до завдання необхідно оцінити тісноту статистичного зв'язку між величиною прожиткового мінімуму х та величиною щомісячної пенсії у. Цю оцінку можна зробити за допомогою коефіцієнта кореляції. Величина цього коефіцієнта малюнку 5 позначена як множинний R і дорівнює 0,038. Оскільки теоретично величина даного коефіцієнтазнаходиться в межах від -1 до +1, то можна зробити висновок про не суттєвість статистичного зв'язку між величиною прожиткового мінімуму х і величиною щомісячної пенсії у.

Параметр «R – квадрат», представлений малюнку 5 є квадрат коефіцієнта кореляції і називається коефіцієнтом детермінації. Розмір даного коефіцієнта характеризує частку дисперсії залежної змінної у, пояснену регресією (що пояснює змінної х). Відповідно величина 1- характеризує частку дисперсії змінної у, викликану впливом решти, неврахованих в економетричної моделі пояснюють змінних. З малюнка 5 видно, частка всіх неврахованих в отриманої економетричної моделі пояснюючих змінних приблизно становить 1- 0,00145 = 0,998 чи 99,8%.



на наступному етапі, Відповідно до завдання необхідно визначити ступінь зв'язку пояснюючої змінної х із залежною змінною у, використовуючи коефіцієнт еластичності. Коефіцієнт еластичності для моделі парної лінійної регресії визначається як:

Отже, за зміни прожиткового мінімуму на 1% величина щомісячної пенсії змінюється на 0,000758%.

. (3.4)

Для цього вихідну таблицю 1 доповнюємо двома колонками, в яких визначаємо значення розраховані з використанням залежності (3.2) і значення різниці .

Таблиця 3.2. Розрахунок середньої помилки апроксимації.

Тоді середня помилка апроксимації дорівнює

.

З практики відомо, що значення середньої помилки апроксимації не повинно перевищувати (12...15)%

на останньому етапівиконаємо оцінку статистичної надійності моделювання за допомогою F - критерію Фішера. Для цього виконаємо перевірку нульової гіпотези Н 0 про статистичну не значущість отриманого рівняння регресії за умовою:

якщо за заданому рівні значимості a = 0,05 теоретичне (розрахункове) значення F-критерію більше його критичного значення F крит (табличного), то нульова гіпотеза відкидається, і отримане рівняння регресії приймається значним.

З малюнка 5 випливає, що F розрахунок = 0,0058. Критичне значення F-критерію визначаємо за допомогою використання статистичної функції FРАСПОБР (рисунок 6). Вхідними параметрамифункції є рівень значущості (імовірність) і число ступенів свободи 1 і 2. Для моделі парної регресії число ступенів свободи відповідно дорівнює 1 (одна змінна, що пояснює) і n-2 = 6-2=4.



Малюнок 6 – Вікно статистичної функції FРАСПОБР

З малюнка 6 видно, що критичне значення F-критерію дорівнює 7,71.

Так як F розрах< F крит, то нулевая гипотеза не отвергается и полученное регресійне рівняннястатистично незначимо.

13. Побудова моделі множинної регресії з використанням EXCEL.

Відповідно до варіанта завдання, використовуючи статистичний матеріал, необхідно.

1. Побудувати лінійне рівняння множинної регресії пояснити економічний зміст параметрів.

2. Дати порівняльну оцінку тісноти зв'язку факторів із результативною ознакою за допомогою середніх (загальних) коефіцієнтів еластичності.

3. Оцінити статистичну значущість коефіцієнтів регресії за допомогою t-критерію Стьюдента та нульову гіпотезу про значущість рівняння за допомогою F-критерію.

4. Оцінити якість рівняння у вигляді визначення середньої помилки апроксимації.

Вихідні дані для побудови моделі парної регресії наведено у таблиці 3.3.

Таблиця 3.3. Вихідні дані.

Чистий дохід, млн. доларів США у Оборот капіталу, мол. дол. США, х 1 Використаний капітал, мол. дол. США, х 2
6,6 6,9 83,6
2,7 93,6 25,4
1,6 10,0 6,4
2,4 31,5 12,5
3,3 36,7 14,3
1,8 13,8 6,5
2,4 64,8 22,7
1,6 30,4 15,8
1,4 12,1 9,3
0,9 31,3 18,9

Технологія побудови рівняння регресії аналогічна алгоритму, викладеному у пункті 3.1. Протокол побудови рівняння регресії показано малюнку 7.

ВИСНОВОК ПІДСУМКІВ
Регресійна статистика
Множинний R 0,901759207
R-квадрат 0,813169667
Нормований R-квадрат 0,759789572
Стандартна помилка 0,789962026
Спостереження
Дисперсійний аналіз
df MS F
Регресія 9,50635999 15,23357468
Залишок 0,624040003
Разом
Коефіцієнти t-статистика
Y-перетин 1,113140304 2,270238114
Змінна X 1 -0,000592199 -0,061275574
Змінна X 2 0,063902851 5,496523193

Малюнок 7. Виведення підсумків.

Серед різних методівпрогнозування не можна виділити апроксимацію. З її допомогою можна проводити приблизні підрахунки та обчислювати заплановані показники, шляхом заміни вихідних об'єктів більш прості. В Екселі теж існує можливість використання цього методу для прогнозування та аналізу. Давайте розглянемо, як цей метод можна застосувати у програмі вбудованими інструментами.

Найменування даного методу походить від латинського слова proxima - "найближча" Саме наближення шляхом спрощення та згладжування відомих показників, вибудовування їх у тенденцію і є його основою. Але даний методможна використовувати як для прогнозування, але й дослідження вже існуючих результатів. Адже апроксимація є, по суті, спрощенням вихідних даних, а спрощений варіант легше дослідити.

Головний інструмент, за допомогою якого проводиться згладжування в Excel, - це побудова лінії тренду. Суть у тому, що у основі вже існуючих показників добудовується графік функції майбутні періоди. Основне призначення лінії тренду, як не важко здогадатися, це складання прогнозів чи виявлення загальної тенденції.

Але вона може бути побудована із застосуванням одного з п'яти видів апроксимації:

  • Лінійний;
  • експоненційної;
  • Логарифмічній;
  • поліноміальної;
  • Ступіньної.

Розглянемо кожен із варіантів докладніше окремо.

Спосіб 1: лінійне згладжування

Насамперед, давайте розглянемо найпростіший варіант апроксимації, а саме за допомогою лінійної функції. На ньому ми зупинимося найдокладніше, тому що викладемо загальні моменти характерні і для інших способів, а саме побудова графіка та деякі інші нюанси, на яких при розгляді наступних варіантів вже не зупинятимемося.

Насамперед, побудуємо графік, на підставі якого проводитимемо процедуру згладжування. Для побудови графіка візьмемо таблицю, де помісячно зазначена собівартість одиниці виробленої підприємством, і відповідна прибуток у цьому періоді. Графічна функція, яку ми побудуємо, відображатиме залежність збільшення прибутку від зменшення собівартості продукції.


Згладжування, яке використовується в даному випадку, описується наступною формулою:

У нашому випадку формула приймає такий вид:

y=-0,1156x+72,255

Розмір достовірності апроксимації в нас дорівнює 0,9418 , що досить прийнятним результатом, характеризує згладжування, як достовірне.

Спосіб 2: експоненційна апроксимація

Тепер давайте розглянемо експоненційний тип апроксимації Ексель.


Загальний вигляд функції згладжування при цьому такий:

де e– це основа натурального логарифму.

У нашому випадку формула прийняла таку форму:

y=6282,7*e^(-0,012*x)

Спосіб 3: логарифмічне згладжування

Тепер настала черга розглянути метод логарифмічної апроксимації.


У загальному вигляді формула згладжування виглядає так:

де ln- Це величина натурального логарифму. Звідси і найменування способу.

У нашому випадку формула набуває такого вигляду:

y=-62,81ln(x)+404,96

Спосіб 4: поліноміальне згладжування

Настала черга розглянути метод поліноміального згладжування.


Формула, яка описує даний типзгладжування, набрала наступного вигляду:

y=8E-08x^6-0,0003x^5+0,3725x^4-269,33x^3+109525x^2-2E+07x+2E+09

Спосіб 5: статечне згладжування

На завершення розглянемо метод статечної апроксимації в Excel.


Цей спосіб ефективно використовується у випадках інтенсивної зміни даних функції. Важливо врахувати, що цей варіант застосовується лише за умови, що функція та аргумент не приймають негативних або нульових значень.

Загальна формула, що описує цей метод має такий вигляд:

У нашому випадку вона виглядає так:

y = 6E+18x^(-6,512)

Як бачимо, при використанні конкретних даних, які ми застосовували для прикладу, найбільший рівень достовірності показав метод поліноміальної апроксимації з поліномом шостою ( 0,9844 ), найменший рівень достовірності у лінійного методу (0,9418 ). Але це зовсім не означає, що така тенденція буде при використанні інших прикладів. Ні, рівень ефективності у наведених вище методів може значно відрізнятися, залежно від конкретного виду функції, для якої будуватиметься лінія тренду. Тому, якщо для цієї функції обраний метод найефективніший, це зовсім не означає, що він також буде оптимальним і в іншій ситуації.

Якщо ви поки що не можете відразу визначити, ґрунтуючись на наведених вище рекомендаціях, який вид апроксимації підійде саме у вашому випадку, тобто сенс спробувати всі методи. Після побудови лінії тренду та перегляду її рівня достовірності можна буде вибрати оптимальний варіант.



Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.