Множинний коефіцієнт кореляції та коефіцієнт детермінації. Обчислення лінійної регресії

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика
Регресійна статистика
Множинний R 0,998364
R-квадрат 0,99673
Нормований R-квадрат 0,996321
Стандартна помилка 0,42405
Спостереження 10

Спочатку розглянемо верхню частинурозрахунків, подану в таблиці 8.3а - регресійну статистику.

Величина R-квадрат, звана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

Найчастіше значення R-квадрат перебуває між цими значеннями, званими екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадрату близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість побудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

Множинний R- Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) та залежної змінної (Y).

Множинний R дорівнює квадратного кореняз коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний R дорівнює коефіцієнту кореляції Пірсона. Справді, множинний R у нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії
Коефіцієнти Стандартна помилка t-статистика
Y-перетин 2,694545455 0,33176878 8,121757129
Змінна X 1 2,305454545 0,04668634 49,38177965
* Наведено усічений варіант розрахунків

Тепер розглянемо середню частинурозрахунків, подану в таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії(Коефіцієнта b).

Якщо знак при коефіцієнт регресії- Позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнт регресії- негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки
Спостереження Передбачене Y Залишки Стандартні залишки
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення

Спробуємо спершу знайти відповідь на кожне з позначених нами питань у ситуації, коли наша каузальна модель містить все дві незалежні змінні.

Множинна кореляція R та коефіцієнт детермінація R2

Для оцінки сукупного зв'язку всіх незалежних змінних із залежною змінною використовується множинний коефіцієнт кореляції R. Відмінність коефіцієнта множинної кореляції R від біваріативного коефіцієнта кореляції г у тому, що може бути лише позитивним. Для двох незалежних змінних він може бути оцінений таким чином:

p align="justify"> Коефіцієнт множинної кореляції може бути визначений і в результаті оцінки приватних коефіцієнтів регресії, що становлять рівняння (9.1). Для двох змінних це рівняння, очевидно, прийме наступний вигляд:

(9.2)

Якщо наші незалежні змінні будуть трансформовані в одиниці стандартного нормального розподілу, або Z-розподілу, рівняння (9.2), очевидно, набуде наступного вигляду:

(9.3)

У рівнянні (9.3) коефіцієнт β означає стандартизоване значення коефіцієнта регресії Ст.

Самі стандартизовані коефіцієнти регресії можуть бути обчислені за такими формулами:

Тепер формула для обчислення коефіцієнта множинної кореляції виглядатиме так:

Ще одним способом оцінки коефіцієнта кореляції R є обчислення біваріативного коефіцієнта кореляції r між значеннями залежної змінної У та відповідними їм значеннями, обчисленими на підставі рівняння лінійної регресії(9.2). Іншими словами, величина R може бути оцінена наступним чином:

Поряд із цим коефіцієнтом ми можемо оцінити, як і у разі простої регресії, величину R 2, яку прийнято ще позначати як коефіцієнт детермінації Як і в ситуації оцінки зв'язку між двома змінними, коефіцієнт детермінації R 2 показує, який відсоток дисперсії залежної змінної Y , тобто. , Виявляється пов'язаним з дисперсією всіх незалежних змінних - . Іншими словами, оцінка коефіцієнта детермінації може бути здійснена наступним чином:

Також ми можемо оцінити відсоток залишкової дисперсії залежною змінною, нс пов'язаний з жодною з незалежних змінних 1 – R 2. Квадратний корінь цієї величини, тобто. величина , так само, як і у випадку біваріативної кореляції, називають коефіцієнтом відчуження.

Кореляція частини

Коефіцієнт детермінації R 2 демонструє, який відсоток дисперсії залежною змінною може бути пов'язаний з дисперсією всіх незалежних змінних, включених до каузальної моделі. Чим більший цей коефіцієнт, тим значимішою є висунута нами каузальна модель. Якщо цей коефіцієнт виявляється не надто великим, то і внесок досліджуваних нами змінних загальну дисперсіюзалежною змінною також виявляється незначним. Насправді, проте, часто потрібно як оцінити сукупний внесок всіх змінних, а й окремий внесок кожної з аналізованих нами незалежних змінних. Такий внесок може бути визначений як кореляція частини.

Як ми знаємо, у разі біваріативної кореляції відсоток дисперсії залежної змінної, пов'язаний з дисперсією незалежної змінної, може бути позначений як r 2. Однак частина цієї дисперсії у разі дослідження ефектів кількох незалежних змінних виявляється обумовлена ​​одночасно дисперсією незалежної змінної, яку ми використовуємо як контрольну. Наочно ці співвідношення показано на рис. 9.1.

Мал. 9.1. Співвідношення дисперсій залежною (Y ) та двох незалежних (X 1іХ 2) змінних у кореляційний аналізз двома незалежними змінними

Як показано на рис. 9.1, вся дисперсія Y , пов'язана з двома нашими незалежними змінними, складається з трьох частин, позначених а, b і с. Частини а і b дисперсії Y належать окремо дисперсії двох незалежних змінних – Х 1 і Х 2. У той же час дисперсія частини з одночасно пов'язує і дисперсію залежною змінною У, і дисперсію двох наших змінних X. Отже, щоб оцінити зв'язок змінної X 1 зі змінною Y, яка не обумовлена ​​впливом змінної Х 2 на змінну Y необхідно з величини R" 2 відняти величину квадрата кореляції Y з Х 2:

(9.6)

Аналогічним чином можна оцінити частину кореляції У з Х 2, яка не обумовлена ​​її кореляцією з Х 1.

(9.7)

Величина sr в рівняннях (9.6) та (9.7) і є шукана нами кореляція частини.

Визначити кореляцію частини можна також у термінах звичайної біваріативної кореляції:

Інакше кореляція частини називається напівпарціальною кореляцією. Ця назва означає, що при розрахунку кореляції ефект другої незалежної змінної усувається стосовно значень першої незалежної змінної, але нс усувається по відношенню до залежної змінної. Ефект Х 1 як би коригується за допомогою значень Х 2, так що коефіцієнт кореляції розраховується не між Y і X 1 а між Y і , причому значення розраховуються на основі значень Х 2 так, як було розглянуто у розділі, присвяченому простій лінійній регресії (див. підпункт 7.4.2). Таким чином, виявляється справедливим таке співвідношення:

Для того щоб оцінити кореляцію однієї незалежної змінної із залежною змінною без впливу інших незалежних змінних як на саму незалежну змінну, так і на залежну змінну, в регресійному аналізі використовується поняття приватної кореляції.

Приватні кореляції

Приватна, або парціальна, кореляція визначається в математичній статистиці через пропорцію дисперсії залежної змінної, пов'язаної з дисперсією цієї незалежної змінної, по відношенню до всієї дисперсії цієї залежної змінної, за винятком тієї її частини, яка пов'язана з дисперсією інших незалежних змінних. Формально для випадку двох незалежних змінних це можна виразити так:

Самі значення приватної кореляції рr можуть бути знайдені на основі значень біваріативної кореляції:

Приватна кореляція, таким чином, може бути визначена як звичайна біваріативна кореляція між скоригованими значеннями як залежною, так і незалежною змінною. Безпосередньо корекція здійснюється відповідно до значення незалежної змінної, що виступає в якості контрольної. Іншими словами, приватна кореляція між залежною змінною Y та незалежною змінною X i може бути визначена як звичайна кореляція між значеннями та значеннями , причому значення і передбачаються на основі значень другої незалежної змінної Х 2.

Множинний коефіцієнт кореляціївикористовується як міра ступеня тісноти статистичного зв'язку між результуючим показником (залежною змінною) yта набором пояснюючих (незалежних) змінних або, інакше кажучи, оцінює тісноту спільного впливу факторів на результат.

Множинний коефіцієнт кореляції може бути обчислений за рядом формул 5 , у тому числі:

    з використанням матриці парних коефіцієнтів кореляції

, (3.18)

де  r- визначник матриці парних коефіцієнтів кореляції y,
,

r 11 - визначник матриці міжфакторної кореляції
;

. (3.19)

Для моделі, в якій є дві незалежні змінні, формула (3.18) спрощується

. (3.20)

Квадрат множинного коефіцієнтакореляції дорівнює коефіцієнт детермінації R 2 . Як і у випадку парної регресії, R 2 свідчить про якість регресійної моделі та відображає частку загальної варіації результуючої ознаки y, пояснену зміною функції регресії f(x) (див. 2.4). Крім того, коефіцієнт детермінації може бути знайдений за формулою

. (3.21)

Однак використання R 2 у випадку множинної регресіїне цілком коректним, оскільки коефіцієнт детермінації зростає при додаванні регресорів в модель. Це тому, що залишкова дисперсія зменшується при введенні додаткових змінних. І якщо число факторів наблизиться до спостережень, то залишкова дисперсія дорівнюватиме нулю, і коефіцієнт множинної кореляції, а значить і коефіцієнт детермінації, наблизяться до одиниці, хоча насправді зв'язок між факторами і результатом і здатність рівняння регресії, що пояснює, можуть бути значно нижчими.

Для того щоб отримати адекватну оцінку того, наскільки добре варіація результуючої ознаки пояснюється варіацією кількох факторних ознак, застосовують скоригований коефіцієнт детермінації

(3.22)

Коригований коефіцієнт детермінації завжди менший R 2 . Крім того, на відміну від R 2 , який завжди позитивний,
може набувати і негативне значення.

Приклад (продовження прикладу 1). Розрахуємо множинний коефіцієнт кореляції, згідно з формулою (3.20):

Величина множинного коефіцієнта кореляції, що дорівнює 0,8601, свідчить про сильний взаємозв'язок вартості перевезення з вагою вантажу та відстанню, на яку він перевозиться.

Коефіцієнт детермінації дорівнює: R 2 =0,7399.

Скоригований коефіцієнт детермінації розраховуємо за формулою (3.22):

=0,7092.

Зауважимо, що величина скоригованого коефіцієнта детермінації відрізняється від величини коефіцієнта детермінації.

Таким чином, 70,9% варіації залежної змінної (вартості перевезення) пояснюється варіацією незалежних змінних (вагою вантажу та відстанню перевезення). Інші 29,1% варіації залежної змінної пояснюються чинниками, неврахованими у моделі.

Величина скоригованого коефіцієнта детермінації досить велика, отже, ми змогли врахувати моделі найбільш істотні чинники, що визначають вартість перевезення. 

Міністерство освіти і науки Російської Федерації

Федеральне державне автономне освітня установавищої професійної освіти

Далекосхідний федеральний університет

Школа економіки та менеджменту

Кафедра бізнес-інформатики та економіко-математичних методів

ЛАБОРАТОРНА РОБОТА

з дисципліни «Імітаційне моделювання»

Спеціальність 080801.65 « прикладна інформатика(в економіці)»

РЕГРЕСІЙНИЙ АНАЛІЗ

Рудакова

Уляна Анатоліївна

м. Владивосток

ЗВІТ

Завдання: розглянути процедуру регресійного аналізу на основі даних (ціна продажу та житлова площа) про 23 об'єкти нерухомості.

Режим роботи "Регресія" служить для розрахунку параметрів рівняння лінійної регресії та перевірки його адекватності досліджуваного процесу.

Для вирішення задачі регресійного аналізу у MS Excel вибираємо в меню Сервіскоманду Аналіз данихта інструмент аналізу " Регресія".

У діалоговому вікні задаємо наступні параметри:

1. Вхідний інтервал Y- це діапазон даних за результативною ознакою. Він має складатися з одного стовпця.

2. Вхідний інтервал X- це діапазон осередків, що містять значення факторів (незалежних змінних). Число вхідних діапазонів (стовпців) має бути не більше 16.

.Прапорець Мітки, встановлюється в тому випадку, якщо в першому рядку діапазону стоїть заголовок.

5. Константа нуль.Цей прапорець необхідно встановити, якщо лінія регресії має пройти через початок координат (а 0=0).

6. Вихідний інтервал/ Новий робочий лист/ Нова робоча книга -вказати адресу верхнього лівого осередку вихідного діапазону.

.Прапорці в групі Залишкивстановлюються, якщо необхідно увімкнути у вихідний діапазон відповідні стовпці або графіки.

.Прапорець Графік нормальної ймовірності необхідно зробити активним, якщо потрібно вивести на лист точковий графік залежності значень Y, що спостерігаються, від автоматично формованих інтервалів персентилів.

Після натискання кнопки ОК у вихідному діапазоні отримуємо звіт.

За допомогою набору засобів аналізу даних виконаємо регресійний аналізвихідних даних.

Інструмент аналізу "Регресія" застосовується для вибору параметрів рівняння регресії за допомогою методу найменших квадратів. Регресія використовується для аналізу впливу на окрему залежну змінну значень однієї або кількох незалежних змінних.

ТАБЛИЦЯ РЕГРЕСІЙНА СТАТИСТИКА

Величина множинний R- це корінь із коефіцієнта детермінації (R-квадрат). Також його називають індексом кореляції чи множинним коефіцієнтом кореляції. Виражає ступінь залежності незалежних змінних (X1, X2) та залежної змінної (Y) і дорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці. У нашому випадку він дорівнює 0,7, що говорить про суттєвого зв'язкуміж змінними.

Величина R-квадрат (коефіцієнт детермінації), називана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

У разі величина R-квадрат дорівнює 0,48 , тобто. майже 50%, що говорить про слабке припасування регресійної прямої до вихідних даних. знайдена величина R-квадрат = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

Нормований R-квадрат- це той самий коефіцієнт детермінації, але скоригований величину вибірки.

Норм.R-квадрат=1-(1-R-квадрат)*((n-1)/(n-k)),

регресійний аналіз лінійний рівняння

де n – число спостережень; k – число параметрів. Нормований R-квадрат краще використовувати у разі додавання нових регресорів (факторів), т.к. при їх збільшенні також збільшуватиметься значення R-квадрат, проте це не буде свідчити про поліпшення моделі. Так як у нашому випадку отримана величина дорівнює 0,43 (що відрізняється від R-квадрат всього на 0,05), то можна говорити про високу довіру коефіцієнта R-квадрат.

Стандартна помилкапоказує якість апроксимації (наближення) результатів спостережень. У разі помилка дорівнює 5,1. Розрахуємо у відсотках: 5,1/(57,4-40,1)=0,294 ≈ 29% (Модель вважається кращою, коли стандартна помилка становить<30%)

Спостереження- вказується кількість значень, що спостерігаються (23).

ТАБЛИЦЯ ДИСПЕРСІЙНИЙ АНАЛІЗ

Для отримання рівняння регресії визначається -статистика - характеристика точності рівняння регресії, що є відношенням тієї частини дисперсії залежною змінною яка пояснена рівнянням регресії до непоясненої (залишкової) частини дисперсії.

У стовпці df- наводиться кількість ступенів свободи k.

Для залишку це величина, що дорівнює n-(m+1), тобто. число вихідних точок (23) мінус число коефіцієнтів (2) та мінус вільний член (1).

У стовпці SS- Суми квадратів відхилень від середнього значення результуючого ознаки. У ньому представлені:

Регресійна сума квадратів відхилень від середнього значення результуючої ознаки теоретичних значень, розрахованих за регресійним рівнянням.

Залишкова сума відхилень вихідних значень від теоретичних значень.

Загальна сума квадратів відхилень вихідних значень від результуючої ознаки.

Чим більша регресійна сума квадратів відхилень (або чим менша залишкова сума), тим краще регресійне рівняння апроксимує хмару вихідних точок. У разі залишкова сума становить близько 50%. Отже, рівняння регресії дуже слабко апроксимує хмару вихідних точок.

У стовпці MS- незміщені вибіркові дисперсії, регресійна та залишкова.

У стовпці Fобчислено значення критеріальної статистики для перевірки значущості рівняння регресії.

Для здійснення статистичної перевірки значущості рівняння регресії формулюється нульова гіпотеза про відсутність зв'язку між змінними (всі коефіцієнти при змінних дорівнюють нулю) і вибирається рівень значущості.

Рівень значущості - це припустима ймовірність припуститися помилки першого роду - відкинути в результаті перевірки правильну нульову гіпотезу. У даному випадку зробити помилку першого роду означає визнати за вибіркою наявність зв'язку між змінними в генеральної сукупностіколи насправді її там немає. Зазвичай рівень важливості приймається рівним 5%. Порівнюючи отримане значення = 9,4 з табличним значенням = 3,5 (число ступенів свободи 2 і 20 відповідно) можна говорити, що рівняння регресії значимо (F>Fкр).

У стовпці значимість Fобчислюється ймовірність одержаного значення критеріальної статистики. Так як у нашому випадку це значення = 0,00123, що менше 0,05 можна говорити про те, що рівняння регресії (залежність) значимо з ймовірністю 95%.

Два вище описані стовпи показують надійність моделі в цілому.

Наступна таблиця містить коефіцієнти для регресорів та їх оцінки.

Рядок Y-перетин не пов'язаний ні з яким регресором, це вільний коефіцієнт.

У стовпці коефіцієнтизаписано значення коефіцієнтів рівняння регресії. Таким чином, вийшло рівняння:

Y=25,6+0,009X1+0,346X2

Регресійне рівняння має проходити через центр хмари вихідних точок: 13,02≤M(b)≤38,26

Далі порівнюємо попарно значення стовпців Коефіцієнти та Стандартна помилка.Видно, що в нашому випадку всі абсолютні значення коефіцієнтів перевершують значення стандартних помилок. Це може свідчити про значущість регресорів, проте це грубий аналіз. Стовпець t-статистика містить більш точну оцінку значущості коефіцієнтів.

У стовпці t-статистикамістяться значення t-критерію, розраховані за формулою:

t=(Коефіцієнт)/(Стандартна помилка)


n-(k+1)=23-(2+1)=20

По таблиці Стьюдента знаходимо значення tтабл = 2,086. Порівнюючи

t з tтабл отримуємо, що коефіцієнт регресора X2 незначний.

Стовпець p-значенняпредставляє ймовірність того, що критичне значення статистики критерію (статистики Стьюдента) перевищить значення, обчислене за вибіркою. У цьому випадку порівнюємо p-значенняіз вибраним рівнем значущості (0.05). Видно, що незначним вважатимуться лише коефіцієнт регресора X2=0.08>0,05

У стовпцях нижні 95% та верхні 95% наводяться межі довірчих інтервалівіз надійністю 95%. Для кожного коефіцієнта свої межі: Коефіцієнтtтабл*Стандартна помилка

Довірчі інтервали будуються лише статистично значимих величин.

ТАБЛИЦЯ ВИСНОВОК ЗАЛИШКУ

Залишок - Це відхилення окремої точки (спостереження) від лінії регресії (передбаченого значення).

Припущення про нормальність залишківдопускає, що розподіл різниці передбачених та спостережуваних значень є нормальним. Для візуального визначення характеру розподілу включаємо функцію графік залишків.

На графіках залишків відображаються різниці між вихідними значеннями Y та обчисленими за функцією регресії для кожного значення компонента змінної X1 та X2. Він застосовується для визначення, чи є прийнятною апроксимуюча пряма.

Графік підбору може бути використаний для отримання наочного уявлення про лінію регресії.

Стандартні залишки – нормовані залишки на оцінку їх стандартного відхилення.

Множинний коефіцієнт кореляції трьох змінних – це показник тісноти лінійного зв'язку між однією з ознак (літера індексу перед тире) та сукупністю двох інших ознак (літери індексу після тире):

; (12.7)

(12.8)

Ці формули дозволяють легко обчислити численні коефіцієнти кореляції при відомих значенняхкоефіцієнтів парної кореляції r xy , r xz та r yz.

Коефіцієнт Rне від'ємний і завжди знаходиться в межах від 0 до 1. При наближенні Rдо одиниці ступінь лінійного зв'язку трьох ознак збільшується. Між коефіцієнтом множинної кореляції, наприклад R y-xz, та двома коефіцієнтами парної кореляції r yxі r yzіснує таке співвідношення: кожен з парних коефіцієнтів не може перевищувати по абсолютної величини R y-xz.

Квадрат коефіцієнта множинної кореляції R 2називається коефіцієнтом множинної детермінації. Він показує частку варіації залежної змінної під впливом факторів, що вивчаються.

Значимість множинної кореляції оцінюється за
F-Критерію:

, (12.9)

n- Обсяг вибірки,

k- Число ознак; у нашому випадку k = 3.

Теоретичне значення F-Крітерію беруть з таблиці додатків для ν 1 = k-1 і ν 2 = n-kступенів свободи та прийнятого рівня значущості. Нульова гіпотеза про рівність множинного коефіцієнта кореляції в сукупності нулю ( H 0:R= 0) приймається, якщо F факт.< F табл . і відкидається, якщо F факт. ≥ F табл.

Кінець роботи -

Ця тема належить розділу:

Математична статистика

Установа освіти.. гомельська державний університет.. імені франциска скорини юм жученко..

Якщо вам потрібно додатковий матеріална цю тему, або Ви не знайшли те, що шукали, рекомендуємо скористатися пошуком по нашій базі робіт:

Що робитимемо з отриманим матеріалом:

Якщо цей матеріал виявився корисним для Вас, Ви можете зберегти його на свою сторінку в соціальних мережах:

Всі теми цього розділу:

Навчальний посібник
для студентів вузів, які навчаються за спеціальністю 1-31 01 01 «Біологія» Гомель 2010

Предмет та метод математичної статистики
Предмет математичної статистики – вивчення властивостей масових явищу біології, економіці, техніці та інших галузях. Ці явища зазвичай видаються складними, внаслідок різноманітності (варієрів

Поняття випадкової події
Статистична індукція чи статистичні висновки як головна складова частинаметоду дослідження масових явищ, які мають свої відмінні риси. Статистичні висновки роблять із чисельно

Імовірність випадкової події
Числова характеристика випадкової події, Що володіє тим властивістю, що для будь-якої досить великої серії випробувань частота події лише незначно відрізняється від цієї характеристики.

Обчислення ймовірностей
Часто виникає необхідність одночасно складати та множити ймовірності. Наприклад, потрібно визначити можливість випадання 5 очок при одночасному киданні 2 кубиків. Шукана сума віроят

Поняття випадкової змінної
Визначивши поняття ймовірності та з'ясувавши її основні властивості, перейдемо до розгляду одного з найважливіших понять теорії ймовірностей – поняття випадкової змінної. Припустимо, що в результаті

Дискретні випадкові змінні
Випадкова змінна дискретна, якщо сукупність можливих її значень кінцева, або принаймні піддається числення. Припустимо, що випадкова змінна X може набувати значення x1

Безперервні випадкові змінні
На противагу дискретним випадковим змінним, розглянутим у попередньому підрозділі, сукупність можливих значень безперервної випадкової змінної не тільки не кінцева, а й не піддається

Математичне очікування та дисперсія
Часто виникає необхідність охарактеризувати розподіл випадкової змінної за допомогою одного-двох числових показників, що виражають найістотніші властивості цього розподілу. До таких

Моменти
Велике значення у математичній статистиці мають звані моменти розподілу випадкової змінної. У математичному очікуванніВеликі значення випадкової величини враховуються недостатньо.

Біноміальний розподіл та вимір ймовірностей
У цьому темі розглянемо основні типи розподілу дискретних випадкових змінних. Припустимо, що ймовірність настання деякої випадкової події А при одиничному випробуванні дорівнює

Прямокутний (рівномірний) розподіл
Прямокутний (рівномірний) розподіл - найпростіший типбезперервних розподілів. Якщо випадкова змінна X може набувати будь-яке дійсне значення в інтервалі (а, b), де а і b – дейст

Нормальний розподіл
Нормальний розподіл грає основну роль математичної статистики. Це ні в якому разі не є випадковим: в об'єктивній дійсності дуже часто зустрічаються різні ознаки

Логарифмічно нормальний розподіл
Випадкова змінна Y має логарифмічний характер. нормальний розподілз параметрами μ та σ, якщо випадкова змінна X = lnY має нормальний розподіл з тими самими параметрами μ та &

Середні величини
З усіх групових властивостей найбільше теоретичне та практичне значеннямає середній рівень, що вимірюється середньою величиною ознаки. Середня величина ознаки - поняття дуже глибоке,

Загальні властивості середніх величин
Для правильного використання середніх величин необхідно знати властивості цих показників: серединне розташування, абстрактність та єдність сумарної дії. За своїм чисельним значенням

Середня арифметична
Середня арифметична, володіючи загальними властивостямисередніх величин, має свої особливості, які можна виразити такими формулами:

Середній ранг (непараметрична середня)
Середній ранг визначається таких ознак, котрим ще не знайдено способи кількісного виміру. За ступенем прояву таких ознак об'єкти можуть бути ранжовані, тобто розташовані

Зважена середня арифметична
Зазвичай, щоб розрахувати середню арифметичну, складають усі значення ознаки та отриману суму ділять на число варіантів. У цьому випадку кожне значення, входячи в суму, збільшує її на повну

Середня квадратична
Середня квадратична обчислюється за формулою: , (6.5) Вона дорівнює кореню квадратному із суми

Медіана
Медіаною називають таке значення ознаки, яке поділяє всю групу на дві рівні частини: одна частина має значення ознаки менше, ніж медіана, а інша більша. Наприклад, якщо має

Середня геометрична
Щоб отримати середню геометричну для групи з n даними, потрібно всі варіанти перемножити і з отриманого твору витягти корінь n-йступеня:

Середня гармонійна
Середня гармонійна розраховується за такою формулою. (6.14) Для п'яти варіантів: 1, 4, 5, 5 сер.

Число ступенів свободи
Число ступенів свободи дорівнює числу елементів вільного розмаїття групи. Воно дорівнює числу всіх наявних елементів вивчення без обмежень різноманітності. Наприклад, для дослідження

Коефіцієнт варіації
Стандартне відхилення- Величина іменована, виражена в тих же одиницях виміру, як і середня арифметична. Тому для порівняння різних ознак, виражених у різних одиницях з

Ліміти та розмах
Для швидкої та приблизної оцінки ступеня різноманітності часто застосовуються найпростіші показники: lim = (min max) – ліміти, тобто найменше і найбільше значенняознаки, p =

Нормоване відхилення
Зазвичай ступінь розвитку ознаки визначається шляхом його вимірювання та виражається певним іменованим числом: 3 кг ваги, 15 см довжини, 20 зачіпок на крилі у бджіл, 4% жиру в молоці, 15 кг настригу

Середня та сигма сумарної групи
Іноді буває необхідно визначити середню та сигму для сумарного розподілу, складеного з кількох розподілів. При цьому відомі не самі розподіли, а лише їхні середні та сигми.

Скошеність (асиметрія) та крутість (ексцес) кривої розподілу
Для більших вибірок (n > 100) обчислюють ще два статистичні показники. Скошеність кривої називається асиметрією:

Варіаційний ряд
Принаймні збільшення чисельності досліджуваних груп дедалі більше проявляється та закономірність у різноманітності, що у нечисленних групах була прихована випадкової формою свого прояви.

Гістограма та варіаційна крива
Гістограма – це варіаційний рядпредставлений у вигляді діаграми, в якій різна величиначастот зображується різною висотою стовпчиків. Гістограма розподілу даних представлена ​​на р

Достовірність розходження розподілів
Статистична гіпотеза - це певне припущення про розподіл ймовірностей, що лежить в основі вибірки даних, що спостерігається. Перевірка статистичної гіпотези – це процес прийняття

Критерій по асиметрії та ексцесу
Деякі ознаки рослин, тварин та мікроорганізмів при об'єднанні об'єктів у групи дають розподіли, що значно відрізняються від нормального. У тих випадках, коли якісь при

Генеральна сукупність та вибірка
Весь масив особин певної категорії називається генеральною сукупністю. Обсяг генеральної сукупності визначається завданнями дослідження. Якщо вивчається якийсь вид диких живий

Репрезентативність
Безпосереднє вивчення групи відібраних об'єктів дає насамперед первинний матеріал і характеристику самої вибірки. Усі вибіркові дані та зведені показники мають значення як

Помилки репрезентативності та інші помилки досліджень
Оцінка генеральних параметрів за вибірковими показниками має особливості. Частина ніколи не може повністю охарактеризувати все ціле, тому характеристика генеральної сукупності

Довірчі кордони
Визначати величину помилок репрезентативності необхідно у тому, щоб вибіркові показники використовувати ще й знаходження можливих значень генеральних параметрів. Цей процес називається про

Загальний порядок оцінки
Три величини, необхідні оцінки генерального параметра, – вибірковий показник (), критерій надійності

Оцінка середньої арифметичної
Оцінка середньої величинимає на меті встановити величину генеральної середньої для вивченої категорії об'єктів. Потрібна для цієї мети помилка репрезентативності визначається за формулою:

Оцінка середньої різниці
У деяких дослідженнях як первинні дані береться різниця двох вимірювань. Це може бути у випадку, коли кожна особина вибірки вивчається у двох станах – або у різному віці, або п

Недостовірна та достовірна оцінка середньої різниці
Такі результати вибіркових досліджень, за якими не можна отримати жодного певної оцінкигенерального параметра (або він більший за нуль, або менше, або дорівнює нулю), називаються недостовірними.

Оцінка різниці генеральних середніх
У біологічних дослідженнях особливе значеннямає різницю двох величин. По різниці ведеться порівняння різних популяцій, рас, порід, сортів, ліній, сімейств, дослідних та контрольних груп (метод гр

Критерій достовірності різниці
При тому великому значенні, яке має для дослідників отримання достовірних різниць, з'являється необхідність опанувати методи, що дозволяють визначити – чи достовірна отримана, реально

Репрезентативність щодо якісних ознак
Якісні ознаки зазвичай не можуть мати градацій прояву: вони або є, або не є у кожної з особин, наприклад, підлога, комолость, наявність або відсутність яких-небудь особливостей, уродс

Достовірність різниці часток
Достовірність різниці вибіркових часток визначається як і, як й у різниці середніх: (10.34)

Коефіцієнт кореляції
Багато дослідженнях потрібно вивчити кілька ознак у тому взаємної зв'язку. Якщо вести таке дослідження стосовно двох ознак, можна помітити, що мінливість однієї ознаки н

Помилка коефіцієнта кореляції
Як і будь-яка вибіркова величина, коефіцієнт кореляції має свою помилку репрезентативності, що обчислюється для великих вибірок за формулою:

Достовірність вибіркового коефіцієнта кореляції
Критерій вибіркового коефіцієнтакореляції визначається за такою формулою: (11.9) де:

Довірчі межі коефіцієнта кореляції
Довірчі межі генерального значення коефіцієнта кореляції знаходяться загальним способомза формулою:

Достовірність різниці двох коефіцієнтів кореляції
Достовірність різниці коефіцієнтів кореляції визначається так само, як і достовірність різниці середніх, за звичайною формулою

Рівняння прямолінійної регресії
Прямолінійна кореляціявідрізняється тим, що при цій формі зв'язку кожному з однакових змін першої ознаки відповідає цілком певна і теж однакова в середньому зміна іншого

Помилки елементів рівняння прямолінійної регресії
У рівнянні простої прямолінійної регресії: у = а + bх виникають три помилки репрезентативності. 1 Помилка коефіцієнта регресії:

Приватний коефіцієнт кореляції
Приватний коефіцієнт кореляції - це показник, що вимірює ступінь сполученості двох ознак при постійному значеннітретього. Математична статистикадозволяє встановити кореляцію

Лінійне рівняння множинної регресії
Математичне рівняння для прямолінійної залежності між трьома змінними називається множинним лінійним рівняннямплощини регресії. Воно має такий загальний вигляд:

Кореляційне ставлення
Якщо зв'язок між явищами, що вивчаються, істотно відхиляється від лінійної, що легко встановити за графіком, то коефіцієнт кореляції непридатний як міра зв'язку. Він може вказати на відсутність

Властивості кореляційного відношення
Кореляційне відношення вимірює ступінь кореляції за будь-якої її форми. Крім того, кореляційне відношення має низку інших властивостей, що становлять великий інтерес у статистичному

Помилка репрезентативності кореляційного відношення
Ще не розроблено точної формули помилки репрезентативності кореляційного відношення. Зазвичай формула, що наводиться в підручниках, має недоліки, якими не завжди можна знехтувати. Ця формула не уч

Критерій лінійності кореляції
Для визначення ступеня наближення криволінійної залежності до прямолінійної використовується критерій F, що обчислюється за формулою:

Дисперсійний комплекс
Дисперсійний комплекс – це сукупність градацій із залученими для дослідження даними та середніми з даних щодо кожної градації (приватні середні) та по всьому комплексу (загальна середня).

Статистичні впливи
Статистичне вплив – це відбиток у розмаїтті результативного ознаки того розмаїття чинника (його градацій), що у дослідженні. Для оцінки впливу фактора нео

Факторіальний вплив
Факторіальний вплив – це простий або комбінований статистичний вплив факторів, що вивчаються. В однофакторних комплексах вивчається простий вплив одного фактора при певних органах.

Однофакторний дисперсійний комплекс
Дисперсійний аналіз розроблено та введено в практику сільськогосподарських та біологічних досліджень англійським ученим Р. А. Фішером, який відкрив закон розподілу відносин середніх квадратів

Багатофакторний дисперсійний комплекс
Ясне уявлення про математичної моделі дисперсійного аналізуполегшує розуміння необхідних обчислювальних операцій, особливо при обробці даних багатофакторних дослідів, в яких більше

Перетворення
Правильне використаннядисперсійного аналізу для обробки експериментального матеріалу передбачає однорідність дисперсій за варіантами (вибірками), нормальний або близький до нього розподіл у

Показники сили впливу
Визначення сили впливів за їх результатами потрібно в біології, сільському господарстві, медицині для вибору найбільш ефективних засобіввпливу, для дозування фізичних та хімічних агентів – ст.

Помилка репрезентативності основного показника сили впливу
Точну формулу помилки основного показника сили впливу ще не знайдено. В однофакторних комплексах, коли помилка репрезентативності визначається лише для одного факторіального показника

Граничні значення показників сили впливу
Основний показник сили впливу дорівнює частці одного доданку від усієї суми доданків. Крім того, цей показник дорівнює квадрату кореляційного відношення. З цих двох причин показник сили вл

Достовірність впливів
Основний показник сили впливу, отриманий у вибірковому дослідженні, характеризує, перш за все, той ступінь впливу, який реально, насправді, виявився у групі досліджених об'єктів.

Дискримінантний аналіз
Дискримінантний аналіз є одним із методів багатовимірного статистичного аналізу. Мета дискримінантного аналізу полягає в тому, щоб на основі виміру різних характеристик(ознак, пара

Постановка задачі, методи розв'язання, обмеження
Припустимо, є n об'єктів з m характеристиками. Через війну вимірів кожен об'єкт характеризується вектором x1 ... xm, m >1. Завдання полягає в тому, що

Припущення та обмеження
Дискримінантний аналіз «працює» у виконанні низки припущень. Припущення про те, що величини, що спостерігаються - вимірювані характеристики об'єкта - мають нормальний розподіл. Це

Алгоритм дискримінантного аналізу
Вирішення завдань дискримінації (дискримінантний аналіз) полягає у розбиття всього вибіркового простору (множини реалізації всіх аналізованих багатовимірних) випадкових величин) на деяке число

Кластерний аналіз
Кластерний аналіз поєднує різні процедури, що використовуються щодо класифікації. В результаті застосування цих процедур вихідна сукупність об'єктів поділяється на кластери чи групи

Методи кластерного аналізу
У практиці зазвичай реалізуються агломеративні методи кластеризації. Зазвичай перед початком класифікації дані стандартизуються (віднімається середнє і проводиться поділ на корінь квадратний)

Алгоритм кластерного аналізу
Кластерний аналіз – це сукупність методів класифікації багатовимірних спостережень чи об'єктів, заснованих на визначенні поняття відстані між об'єктами з наступним виділенням їх груп, &

Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.