Як визначити довірчий інтервал. Довірчий інтервал. Абетка медичної статистики. Глава III

Довірчий інтервал– граничні значення статистичної величини, яка із заданою довірчою ймовірністю γ буде в цьому інтервалі при вибірці більшого обсягу. Позначається як P(θ - ε. На практиці вибирають довірчу ймовірність γ з досить близьких до одиниці значень γ = 0.9, γ = 0.95, γ = 0.99.

Призначення сервісу. За допомогою цього сервісу визначаються:

  • довірчий інтервал для генерального середнього; довірчий інтервал для дисперсії;
  • довірчий інтервал для середнього квадратичного відхилення; довірчий інтервал для генеральної частки;
Отримане рішення зберігається в файлі Word(Див. приклад). Нижче наведено відеоінструкцію, як заповнювати вихідні дані.

Приклад №1. У колгоспі із загального стада у 1000 голів овець вибірковій контрольній стрижці зазнали 100 овець. В результаті було встановлено середній настриг вовни 4,2 кг на одну вівцю. Визначити з ймовірністю 0,99 середню квадратичну помилку вибірки щодо середнього настригу вовни однією вівцю і межі, у яких укладена величина настрига, якщо дисперсія дорівнює 2,5 . Вибірка неповторна.
Приклад №2. З партії імпортованої продукції посаді Московської Північної митниці було взято як випадкової повторної вибірки 20 проб продукту «А». В результаті перевірки встановлено середню вологість продукту «А» у вибірці, яка дорівнювала 6 % при середньому квадратичному відхиленні 1 %.
Визначте з ймовірністю 0,683 межі середньої вологості продукту в усій партії імпортованої продукції.
Приклад №3. Опитування 36 студентів показало, що середня кількість підручників, прочитаних ними за навчальний рік, виявилося рівним 6. Вважаючи, що кількість підручників, прочитаних студентом за семестр, має нормальний закон розподілу із середнім квадратичним відхиленням, рівним 6, знайти: А) з надійністю 0,99 інтервальну оцінку для математичного очікуванняцієї випадкової величини; Б) з якою ймовірністю можна стверджувати, що середня кількість підручників, прочитаних студентом за семестр, обчислена за даною вибіркою, відхилиться від математичного очікування з абсолютної величинине більше ніж на 2.

Класифікація довірчих інтервалів

По виду оцінюваного параметра:

За типом вибірки:

  1. Довірчий інтервал для безкінечної вибірки;
  2. Довірчий інтервал для кінцевої вибірки;
Вибірка називається повторноюякщо відібраний об'єкт перед вибором наступного повертається в генеральну сукупність. Вибірка називається безповторноюякщо відібраний об'єкт у генеральну сукупність не повертається. Насправді зазвичай мають справу з безповторними вибірками.

Розрахунок середньої помилки вибірки при випадковому відборі

Розбіжність між значеннями показників, отриманих за вибіркою, та відповідними параметрами генеральної сукупностіназивається помилкою репрезентативності.
Позначення основних параметрів генеральної та вибіркової сукупності.
Формули середньої помилки вибірки
повторний відбірбезповторний відбір
для середньоїдля часткидля середньоїдля частки
Співвідношення між межею помилки вибірки (Δ), що гарантується з деякою ймовірністю Р(t),і середньою помилкоювибірки має вигляд: або Δ = t·μ, де t- Коефіцієнт довіри, що визначається залежно від рівня ймовірності Р(t) по таблиці інтегральної функції Лапласа.

Формули розрахунку чисельності вибірки при власне-випадковому способі відбору

"Катрен-Стиль" продовжує публікацію циклу Костянтина Кравчика про медичну статистику. У попередніх статтях автор стосувався пояснення таких понять, як і .

Костянтин Кравчик

Математик-аналітик. Фахівець у галузі статистичних досліджень у медицині та гуманітарних науках

Місто Москва

Дуже часто у статтях з клінічним дослідженнямможна зустріти загадкове словосполучення: «довірчий інтервал» (95% ДІ або 95% CI - confidence interval). Наприклад, у статті може бути написано: «Для оцінки значущості відмінностей використовували t-критерій Стьюдента з розрахунком 95% довірчого інтервалу».

Якого ж значення «95% довірчого інтервалу» і навіщо його розраховувати?

Що таке довірчий інтервал? - Це діапазон, в якому знаходяться справжні середні значення у генеральній сукупності. А що, бувають несправжні середні значення? У певному сенсі так, бувають. Ми пояснювали, що неможливо виміряти цікавий параметр у всій генеральній сукупності, тому дослідники задовольняються обмеженою вибіркою. У цій вибірці (наприклад, за масою тіла) є одне середнє значення (певна вага), за яким ми і судимо про середнє значення у всій генеральній сукупності. Однак навряд чи Середня вагау вибірці (особливо невеликий) збігається із середньою вагою у генеральній сукупності. Тому більш правильно розраховувати та користуватися діапазоном середніх значень генеральної сукупності.

Наприклад, уявимо, що 95% довірчий інтервал (95% ДІ) по гемоглобіну становить від 110 до 122 г/л. Це означає, що з ймовірністю 95% справжнє середнє значення по гемоглобіну в генеральній сукупності перебуватиме в межах від 110 до 122 г/л. Іншими словами, ми не знаємо середній показникгемоглобіну в генеральній сукупності, але можемо з 95% ймовірністю вказати діапазон значень для цієї ознаки.

Довірчий інтервал особливо доречний для різниці середніх значеннях між групами або, як це називають, у розмірі ефекту.

Припустимо, ми порівнювали ефективність двох препаратів заліза: давно присутнього на ринку і щойно зареєстрованого. Після курсу терапії оцінили концентрацію гемоглобіну в досліджуваних групах пацієнтів, і статистична програма нам визнала, що різниця між середніми значеннями двох груп з ймовірністю 95% знаходиться в діапазоні від 1,72 до 14,36 г/л (табл. 1).

Табл. 1. Критерій для незалежних вибірок
(порівнюються групи за рівнем гемоглобіну)

Трактувати це слід так: у частини пацієнтів генеральної сукупності, яка приймає новий препарат, гемоглобін буде вищим у середньому на 1,72–14,36 г/л, ніж у тих, хто приймав уже відомий препарат.

Іншими словами, в генеральній сукупності різниця в середніх значеннях по гемоглобіну у груп з 95% ймовірністю знаходиться в цих межах. Судити, багато це чи мало буде вже дослідник. Сенс всього цього в тому, що ми працюємо не з одним середнім значенням, а з діапазоном значень, отже ми більш достовірно оцінюємо різницю за параметром між групами.

У статистичних пакетах, на розсуд дослідника, можна самостійно звужувати чи розширювати межі довірчого інтервалу. Знижуючи ймовірність довірчого інтервалу, ми звужуємо діапазон середніх. Наприклад, при 90% ДІ діапазон середніх (або різниці середніх) буде вже, ніж при 95%.

І навпаки, збільшення ймовірності до 99% розширює діапазон значень. При порівнянні груп нижня межа ДІ може перетнути нульову позначку. Наприклад, якщо ми розширили межі довірчого інтервалу до 99%, то межі інтервалу розташувалися від –1 до 16 г/л. Це означає, що в генеральній сукупності є групи, відмінність середніх між якими за ознакою, що вивчається, дорівнює 0 (М = 0).

З допомогою довірчого інтервалу можна перевіряти статистичні гіпотези. Якщо довірчий інтервал перетинає нульове значення, то нульова гіпотеза, яка передбачає, що групи не відрізняються за параметром, що вивчається, вірна. Приклад описаний вище, коли ми розширили межі до 99%. Десь у генеральній сукупності у нас знайшлися групи, які не відрізнялися.

95% довірчий інтервал різниці по гемоглобіну, (г/л)


На малюнку у вигляді лінії зображено 95% довірчий інтервал різниці середніх значень по гемоглобіну між двома групами. Лінія проходить нульову позначку, отже, має місце різниця між середніми значеннями, що дорівнює нулю, що підтверджує нульову гіпотезу про те, що групи не відрізняються. Діапазон різниці між групами лежить від -2 до 5 г/л. Це означає, що гемоглобін може знизитися на 2 г/л, так і підвищитися на 5 г/л.

Довірчий інтервал - дуже важливий показник. Завдяки йому можна подивитися, чи були відмінності в групах дійсно за рахунок різниці середніх або за рахунок великої вибірки, тому що при великій вибірці шанси знайти відмінності більше, ніж за малої.

Насправді це може виглядати так. Ми взяли вибірку в 1000 осіб, виміряли рівень гемоглобіну та виявили, що довірчий інтервал різниці середніх лежить від 1,2 до 1,5 г/л. Рівень статистичної значущості у своїй p

Ми бачимо, що концентрація гемоглобіну підвищилася, але практично непомітно, отже, статистична значущість з'явилася за рахунок обсягу вибірки.

Довірчий інтервал може бути вирахований як для середніх значень, але й пропорцій (і відносин ризиків). Наприклад, нас цікавить довірчий інтервал пропорцій пацієнтів, які досягли ремісії, приймаючи розроблені ліки. Припустимо, що 95% ДІ для пропорцій, тобто для частки таких пацієнтів, лежить в межах 0,60-0,80. Таким чином, ми можемо сказати, що наші ліки надають терапевтичний ефектвід 60 до 80% випадків.

Побудуємо в MS EXCEL довірчийінтервал для оцінки середнього значення розподілу у разі відомого значеннядисперсії.

Зрозуміло, вибір рівня довіриповністю залежить від розв'язуваного завдання. Так, ступінь довіри авіапасажира до надійності літака, безсумнівно, має бути вищим за ступінь довіри покупця до надійності електричної лампочки.

Формулювання завдання

Припустимо, що з генеральної сукупностімає взята вибіркарозміру n. Передбачається, що стандартне відхилення цього розподілу відомо. Необхідно на підставі цієї вибіркиоцінити невідоме середнє значення розподілу(μ, ) та побудувати відповідний двосторонній довірчий інтервал.

Точкова оцінка

Як відомо з , статистика(позначимо її Х ср) є незміщеною оцінкою середньогоцією генеральної сукупностіта має розподіл N(μ;σ 2 /n).

Примітка: Що робити, якщо потрібно збудувати довірчий інтервалу разі розподілу, який не є нормальним?У цьому випадку на допомогу приходить , яка говорить, що за достатньо великому розмірі вибірки n із розподілу що не є нормальним, вибірковий розподіл статистики Х порбуде приблизновідповідати нормальному розподілуіз параметрами N(μ;σ 2 /n).

Отже, точкова оцінка середнього значення розподілуу нас є – це середнє значення вибірки, тобто. Х ср. Тепер займемося довірчим інтервалом.

Побудова довірчого інтервалу

Зазвичай, знаючи розподіл та його параметри, ми можемо обчислити ймовірність того, що випадкова величина набуде значення заданого нами інтервалу. Зараз зробимо навпаки: знайдемо інтервал, до якого випадкова величина потрапить з заданою ймовірністю. Наприклад, із властивостей нормального розподілувідомо, що з ймовірністю 95%, випадкова величина, розподілена по нормальному закону, потрапить в інтервал приблизно +/- 2 від середнього значення(Див. статтю про ). Цей інтервал, послужить нам прототипом для довірчого інтервалу.

Тепер розберемося, чи ми знаємо розподіл , щоб визначити цей інтервал? Для відповіді на запитання ми маємо вказати форму розподілу та його параметри.

Форму розподілу ми знаємо – це нормальний розподіл(нагадаємо, що йдеться про вибірковому розподілі статистики Х ср).

Параметр μ нам невідомий (його якраз потрібно оцінити за допомогою довірчого інтервалу), але у нас є його оцінка Х пор,обчислена на основі вибірки,яку можна використати.

Другий параметр – стандартне відхилення вибіркового середнього будемо вважати відомим, Він дорівнює σ/√n.

Т.к. ми не знаємо μ, то будуватимемо інтервал +/- 2 стандартних відхиленьне від середнього значення, а від відомої його оцінки Х ср. Тобто. при розрахунку довірчого інтервалуми не будемо вважати, що Х српотрапить в інтервал +/- 2 стандартних відхиленьвід μ з ймовірністю 95%, а вважатимемо, що інтервал +/- 2 стандартних відхиленьвід Х срз ймовірністю 95% накриє μ - Середня генеральна сукупність,з якого взято вибірка. Ці два твердження еквівалентні, але друге твердження нам дозволяє побудувати довірчий інтервал.

Крім того, уточнимо інтервал: випадкова величина, розподілена по нормальному закону, з ймовірністю 95% потрапляє в інтервал +/- 1,960 стандартних відхилень,а не+/- 2 стандартних відхилень. Це можна розрахувати за допомогою формули =НОРМ.СТ.ОБР((1+0,95)/2), Див. файл прикладу Лист Інтервал.

Тепер ми можемо сформулювати ймовірнісне твердження, яке послужить нам для формування довірчого інтервалу:
«Ймовірність того, що середня генеральна сукупністьзнаходиться від середньої вибіркив межах 1,960 « стандартних відхилень вибіркового середнього», дорівнює 95%».

Значення ймовірності, згадане у твердженні, має спеціальну назву , який пов'язаний зрівнем значимості α (альфа) простим виразом рівень довіри =1 . У нашому випадку рівень значущості α =1-0,95=0,05 .

Тепер на основі цього ймовірнісного твердження запишемо вираз для обчислення довірчого інтервалу:

де Z α/2 стандартного нормального розподілу(Таке значення випадкової величини z, що P(z>=Z α/2 )=α/2).

Примітка: Верхній α/2-квантильвизначає ширину довірчого інтервалув стандартних відхиленнях вибіркового середнього. Верхній α/2-квантиль стандартного нормального розподілузавжди більше 0, що дуже зручно.

У нашому випадку при α=0,05, верхній α/2-квантиль дорівнює 1,960. Для інших рівнів значення α (10%; 1%) верхній α/2-квантиль Z α/2 можна обчислити за допомогою формули =НОРМ.СТ.ОБР(1-α/2) або, якщо відомий рівень довіри, =НОРМ.СТ.ОБР((1+ур.довіри)/2).

Зазвичай при побудові довірчих інтервалів для оцінки середньоговикористовують тільки верхній α/2-квантильі не використовують нижній α/2-квантиль. Це можливо тому, що стандартне нормальний розподілсиметрично щодо осі х ( щільність його розподілусиметрична щодо середнього, тобто. 0). Тому немає потреби обчислювати нижній α/2-квантиль(його називають просто α /2-квантиль), т.к. він дорівнює верхньому α/2-квантилюзі знаком мінус.

Нагадаємо, що, незважаючи на форму розподілу величини х, відповідна випадкова величина Х сррозподілено приблизно нормально N(μ;σ 2 /n) (див. статтю про ). Отже, в загальному випадку, вищезгадане вираз для довірчого інтервалує лише наближеним. Якщо величина х розподілена по нормальному закону N(μ;σ 2 /n), то вираз для довірчого інтервалує точним.

Розрахунок довірчого інтервалу в MS EXCEL

Розв'яжемо завдання.
Час відгуку електронного компонента на вхідний сигнал є важливою характеристикоюпристрої. Інженер хоче збудувати довірчий інтервал для середнього часу відгуку при рівні довіри 95%. З попереднього досвідуІнженер знає, що стандартне відхилення час відгуку становить 8 мсек. Відомо, що з оцінки часу відгуку інженер зробив 25 вимірів, середнє значення становило 78 мсек.

Рішення: Інженер хоче знати час відгуку. електронного пристроюале він розуміє, що час відгуку не фіксованою, а випадковою величиною, яка має свій розподіл. Отже, найкраще, на що він може розраховувати, це визначити параметри та форму цього розподілу.

На жаль, з умови завдання форма розподілу часу відгуку нам не відома (вона не обов'язково має бути нормальним). , цього розподілу також невідомо. Відомо лише його стандартне відхиленняσ=8. Тому, поки ми не можемо порахувати ймовірності та побудувати довірчий інтервал.

Однак, незважаючи на те, що ми не знаємо розподілу часу окремого відгуку, ми знаємо, що згідно ЦПТ, вибірковий розподіл середнього часу відгукує приблизно нормальним(вважатимемо, що умови ЦПТвиконуються, т.к. розмір вибіркидосить великий (n=25)) .

Більш того, середняцього розподілу дорівнює середнього значеннярозподілу одиничного відгуку, тобто. μ. А стандартне відхиленняцього розподілу (σ/√n) можна обчислити за формулою =8/КОРІНЬ(25) .

Також відомо, що інженером було отримано точкова оцінкапараметра μ дорівнює 78 мсек (Х пор). Тому, ми можемо обчислювати ймовірності, т.к. нам відома форма розподілу ( нормальне) та його параметри (Х ср і σ/√n).

Інженер хоче знати математичне очікуванняμ розподілу часу відгуку. Як було сказано вище, це μ дорівнює математичному очікуванню вибіркового розподілу середнього часу відгуку. Якщо ми скористаємося нормальним розподілом N(Х ср; σ/√n), то шукане μ перебуватиме в інтервалі +/-2*σ/√n з ймовірністю приблизно 95%.

Рівень значущостідорівнює 1-0,95 = 0,05.

Нарешті, знайдемо лівий та правий кордон довірчого інтервалу.
Ліва межа: =78-НОРМ.СТ.ОБР(1-0,05/2)*8/КОРІНЬ(25) = 74,864
Права межа: =78+НОРМ.СТ.ОБР(1-0,05/2)*8/КОРІНЬ(25)=81,136

Ліва межа: =НОРМ.ОБР(0,05/2; 78; 8/КОРІНЬ(25))
Права межа: =НОРМ.ОБР(1-0,05/2; 78; 8/КОРІНЬ(25))

Відповідь: довірчий інтервалпри рівні довіри 95% та σ=8мсекдорівнює 78+/-3,136 мсек.

У файл прикладу на аркуші Сигмавідома створена форма для розрахунку та побудови двостороннього довірчого інтервалудля довільних вибірокіз заданим σ та рівнем значимості.

Функція ДОВЕРИТ.НОРМ()

Якщо значення вибіркизнаходяться в діапазоні B20: B79 , а рівень значущостідорівнює 0,05; то формула MS EXCEL:
=СРЗНАЧ(B20:B79)-ДОВЕРИТ.НОРМ(0,05;σ; РАХУНОК(B20:B79))
поверне лівий кордон довірчого інтервалу.

Цей же кордон можна обчислити за допомогою формули:
=СРЗНАЧ(B20:B79)-НОРМ.СТ.ОБР(1-0,05/2)*σ/КОРІНЬ(РАХУНОК(B20:B79))

Примітка: Функція ДОВЕРИТ.НОРМ() з'явилася в MS EXCEL 2010. У попередніх версіях MS EXCEL використовувалася функція ДОВЕРИТ() .

У попередніх підрозділах ми розглянули питання щодо оцінки невідомого параметра аодним числом. Така оцінка називається "точковою". У ряді завдань потрібно не тільки знайти параметр авідповідне чисельне значення, але й оцінити його точність та надійність. Потрібно знати, до яких помилок може призвести заміна параметра айого точковою оцінкою аі з яким ступенем впевненості можна очікувати, що ці помилки не вийдуть за певні межі?

Такі завдання особливо актуальні при малій кількості спостережень, коли точкова оцінка а взначною мірою випадкова і наближена заміна а на а може призвести до серйозних помилок.

Щоб дати уявлення про точність та надійність оцінки а,

в математичної статистикикористуються так званими довірчими інтервалами та довірчими ймовірностями.

Нехай для параметра аотримана з досвіду незміщена оцінка а.Ми хочемо оцінити можливу при цьому помилку. Призначимо деяку досить велику ймовірність р (наприклад, р = 0,9, 0,95 або 0,99) таку, що подію з ймовірністю р можна вважати практично достовірною, і знайдемо таке значення s, для якого

Тоді діапазон практично можливих значень помилки, що виникає під час заміни ана а, буде ± s; великі по абсолютній величині помилки з'являтимуться лише з малою ймовірністю а = 1 - р. Перепишемо (14.3.1) у вигляді:

Рівність (14.3.2) означає, що з ймовірністю р невідоме значення параметра апотрапляє в інтервал

При цьому слід зазначити одну обставину. Раніше ми неодноразово розглядали можливість потрапляння випадкової величини в заданий невипадковий інтервал. Тут справа інакша: величина ане випадкова, зате випадковий інтервал/р. Випадково його становище на осі абсцис, що визначається його центром а; випадкова взагалі і довжина інтервалу 2s, оскільки величина s обчислюється, як правило, за дослідними даними. Тому в даному випадкукраще буде тлумачити величину р не як ймовірність «попадання» точки ав інтервал/р, а як ймовірність того, що випадковий інтервал/р накриє точку а(Рис. 14.3.1).

Рис. 14.3.1

Імовірність р прийнято називати довірчою ймовірністю, а інтервал / р - довірчим інтервалом.Межі інтервалу If. а х = а- s та а 2 = а +а називаються довірчими межами.

Дамо ще одне тлумачення поняттю довірчого інтервалу: його можна як інтервал значень параметра а,сумісних з досвідченими даними і не суперечать їм. Справді, якщо домовитися вважати подію з ймовірністю а = 1-р практично неможливим, то значення параметра а, котрим а - а> s, слід визнати такими, що суперечать досвідченим даним, а ті, для яких |а - а a t na 2 .

Нехай для параметра ає незміщена оцінка а.Якби нам був відомий закон розподілу величини а, Завдання знаходження довірчого інтервалу була б дуже проста: достатньо було б знайти таке значення s, для якого

Труднощі полягає в тому, що закон розподілу оцінки азалежить від закону розподілу величини Xі, отже, від його невідомих параметрів (зокрема, і від параметра а).

Щоб обійти цю скруту, можна застосувати наступний грубо наближений прийом: замінити у виразі для s невідомі параметри їх точковими оцінками. При порівняно великому числідослідів п(близько 20...30) цей прийом зазвичай дає задовільні за точністю результати.

Як приклад розглянемо завдання про довірчий інтервал для математичного очікування.

Нехай зроблено п X,характеристики якої - математичне очікування тта дисперсія D- Невідомі. Для цих параметрів отримано оцінки:

Потрібно побудувати довірчий інтервал/р, відповідний довірчої ймовірностір, для математичного очікування твеличини X.

При вирішенні цього завдання скористаємося тим, що величина тявляє собою суму пнезалежних однаково розподілених випадкових величин X hі відповідно до центральної граничної теореми за досить великого пїї закон розподілу близький до нормального. Насправді навіть за відносно невеликій кількості доданків (близько 10...20) закон розподілу суми можна приблизно вважати нормальним. Виходитимемо з того, що величина трозподілено за нормальним законом. Характеристики цього закону – математичне очікування та дисперсія – рівні відповідно ті

(Див. розділ 13 підрозділ 13.3). Припустимо, що величина Dнам відома і знайдемо таку величину Єр, для якої

Застосовуючи формулу (6.3.5) глави 6, виразимо ймовірність у лівій частині (14.3.5) через нормальну функцію розподілу

де - середнє квадратичне відхилення оцінки т.

З рівняння

знаходимо значення Sp:

де arg Ф * (х) - функція, зворотна Ф * (х),тобто. таке значення аргументу, при якому нормальна функція розподілу дорівнює х.

Дисперсія D,через яку виражена величина а 1П, нам точно не відома; як її орієнтовне значення можна скористатися оцінкою D(14.3.4) та покласти приблизно:

Таким чином, наближено вирішено завдання побудови довірчого інтервалу, який дорівнює:

де gp визначається формулою (14.3.7).

Щоб уникнути при обчисленні s p зворотного інтерполювання у таблицях функції Ф*(л), зручно скласти спеціальну таблицю (табл. 14.3.1), де наводяться значення величини

залежно від нар. Величина (р визначає для нормального закону число середніх квадратичних відхилень, яке потрібно відкласти вправо і вліво від центру розсіювання для того, щоб ймовірність попадання в отриману ділянку дорівнювала р.

Через величину 7 р довірчий інтервал виражається у вигляді:

Таблиця 14.3.1

Приклад 1. Проведено 20 дослідів над величиною X;результати наведено у табл. 14.3.2.

Таблиця 14.3.2

Потрібно знайти оцінку для математичного очікування від величини Xта побудувати довірчий інтервал, що відповідає довірчій ймовірності р = 0,8.

Рішення.Маємо:

Вибравши за початок відліку л: = 10, за третьою формулою (14.2.14) знаходимо незміщену оцінку D :

За табл. 14.3,1 знаходимо

Довірчі кордони:

Довірчий інтервал:

Значення параметра т,що лежать у цьому інтервалі, є сумісними з досвідченими даними, наведеними в табл. 14.3.2.

Аналогічним способом може бути побудований довірчий інтервал для дисперсії.

Нехай зроблено пнезалежних дослідів над випадковою величиною Xз невідомими параметрами від Л і для дисперсії Dотримано незміщену оцінку:

Потрібно приблизно побудувати довірчий інтервал для дисперсії.

З формули (14.3.11) видно, що величина Dявляє собою

суму пвипадкових величин виду. Ці величини не є

незалежними, тому що до кожної з них входить величина т,залежить від решти. Однак, можна показати, що при збільшенні пзакон розподілу їхньої суми теж наближається до нормального. Практично при п= 20...30 він може вважатися нормальним.

Припустимо, що це так, і знайдемо характеристики цього закону: математичне очікування та дисперсію. Оскільки оцінка D- незміщена, то М [D] = D.

Обчислення дисперсії D Dпов'язано з порівняно складними викладками, тому наведемо її вираз без висновку:

де ц 4 - четвертий центральний момент величини X.

Щоб скористатися цим виразом, потрібно підставити значення ц 4 і D(хоча б наближені). Замість Dможна скористатися його оцінкою D.У принципі четвертий центральний момент також можна замінити його оцінкою, наприклад величиною виду:

але така заміна дасть вкрай невисоку точність, тому що взагалі при обмеженій кількості досвідів моменти високого порядкувизначаються з великими помилками. Однак практично часто буває, що вид закону розподілу величини Xвідомий наперед: невідомі лише його параметри. Тоді можна спробувати виразити ц 4 через D.

Візьмемо випадок, що найбільш часто зустрічається, коли величина Xрозподілено за нормальним законом. Тоді її четвертий центральний момент виражається через дисперсію (див. Розділ 6 підрозділ 6.2);

та формула (14.3.12) дає або

Заміняючи на (14.3.14) невідоме Dйого оцінкою D, отримаємо: звідки

Момент ц 4 можна виразити через Dтакож і в деяких інших випадках, коли розподіл величини Xперестав бути нормальним, але його відомий. Наприклад, для закону рівномірної щільності(див. розділ 5) маємо:

де (а, Р) - інтервал, у якому заданий закон.

Отже,

За формулою (14.3.12) отримаємо: звідки знаходимо приблизно

У випадках, коли вид закону розподілу величини 26 невідомий, при орієнтовній оцінці величини а/) рекомендується все ж таки користуватися формулою (14.3.16), якщо немає спеціальних підстав вважати, що цей закон сильно відрізняється від нормального (має помітний позитивний або негативний ексцес) .

Якщо орієнтовне значення а/) тим чи іншим способом отримано, можна побудувати довірчий інтервал для дисперсії аналогічно тому, як ми будували його для математичного очікування:

де величина в залежності від заданої ймовірності р знаходиться по таблиці. 14.3.1.

Приклад 2. Знайти приблизно 80% довірчий інтервал для дисперсії випадкової величини Xв умовах прикладу 1, якщо відомо, що величина Xрозподілено згідно із законом, близьким до нормального.

Рішення.Розмір залишається тієї ж, що у табл. 14.3.1:

За формулою (14.3.16)

За формулою (14.3.18) знаходимо довірчий інтервал:

Відповідний інтервал значень середнього квадратичного відхилення: (0,21; 0,29).

14.4. Точні методи побудови довірчих інтервалів для параметрів випадкової величини, розподіленої за нормальним законом

У попередньому підрозділі ми розглянули грубо наближені методи побудови довірчих інтервалів для математичного очікування та дисперсії. Тут ми дамо уявлення про точні методи вирішення того ж завдання. Підкреслимо, що для точного знаходження довірчих інтервалів необхідно знати заздалегідь вид закону розподілу величини X,тоді як застосування наближених методів це обов'язково.

Ідея точних методівпобудови довірчих інтервалів зводиться до наступного. Будь-який довірчий інтервал знаходиться з умови, що виражає ймовірність виконання деяких нерівностей, в які входить оцінка, що нас цікавить а.Закон розподілу оцінки ау загальному випадку залежить від невідомих параметрів величини X.Однак іноді вдається перейти в нерівності від випадкової величини адо будь-якої іншої функції спостережених значень Х п Х 2 , ..., X п.закон розподілу якої не залежить від невідомих параметрів, а залежить тільки від кількості дослідів та від виду закону розподілу величини X.Такі випадкові величини грають велику рольу математичній статистиці; вони найбільш докладно вивчені для нормального розподілу величини X.

Наприклад, доведено, що при нормальному розподілівеличини Xвипадкова величина

підкоряється так званому закону розподілу Ст'юдентаз п- 1 ступенями свободи; щільність цього закону має вигляд

де Г(х) - відома гамма-функція:

Доведено також, що випадкова величина

має «розподіл %2» з п- 1 ступенями свободи (див. розділ 7), щільність якого виражається формулою

Не зупиняючись на висновках розподілів (14.4.2) та (14.4.4), покажемо, як їх можна застосувати при побудові довірчих інтервалів для параметрів ти D .

Нехай зроблено пнезалежних дослідів над випадковою величиною X,розподіленої за нормальним законом із невідомими параметрами тіо.Для цих параметрів отримано оцінки

Потрібно збудувати довірчі інтервалидля обох параметрів, що відповідають довірчій ймовірності р.

Побудуємо спочатку довірчий інтервал для математичного очікування. Природно, цей інтервал взяти симетричним відносно т; позначимо s p половину довжини інтервалу. Величину s p потрібно вибрати так, щоб виконувалася умова

Спробуємо перейти у лівій частині рівності (14.4.5) від випадкової величини тдо випадкової величини Т,розподіленої згідно із законом Стьюдента. І тому помножимо обидві частини нерівності |m-w?|

на позитивну величину: або, використовуючи позначення (14.4.1),

Знайдемо таке число/р, що Величина/р знайдеться з умови

З формули (14.4.2) видно, що (1) - парна функціятому (14.4.8) дає

Рівність (14.4.9) визначає величину/р залежно від р. Якщо мати у своєму розпорядженні таблицю значень інтегралу

то величину/р можна знайти зворотним інтерполюванням у таблиці. Проте зручніше скласти заздалегідь таблицю значень/р. Така таблиця дається у додатку (табл. 5). У цій таблиці наведено значення залежно від довірчої ймовірності р та числа ступенів свободи п- 1. Визначивши/р за табл. 5 і вважаючи

ми знайдемо половину ширини довірчого інтервалу/р та сам інтервал

Приклад 1. Зроблено 5 незалежних дослідів над випадковою величиною X,розподіленої нормально з невідомими параметрами тта о. Результати дослідів наведено у табл. 14.4.1.

Таблиця 14.4.1

Знайти оцінку тдля математичного очікування і побудувати для нього 90%-й довірчий інтервал/р (тобто інтервал, що відповідає довірчій ймовірності р=0,9).

Рішення.Маємо:

За таблицею 5 додатки для п - 1 = 4 і р = 0,9 знаходимо звідки

Довірчий інтервал буде

Приклад 2 Для умов прикладу 1 підрозділу 14.3, припускаючи величину Xрозподілено нормально, знайти точний довірчий інтервал.

Рішення.За таблицею 5 додатка знаходимо при п - 1 = 19ір =

0,8/р = 1,328; звідси

Порівнюючи з рішенням прикладу 1 підрозділу 14.3 (е р = 0,072), переконуємося, що розбіжність дуже незначна. Якщо зберегти точність до другого знака після коми, то довірчі інтервали, знайдені точним та наближеним методами, збігаються:

Перейдемо до побудови довірчого інтервалу дисперсії. Розглянемо незміщену оцінку дисперсії

і висловимо випадкову величину Dчерез величину V(14.4.3), що має розподіл х 2 (14.4.4):

Знаючи закон розподілу величини V,можна знайти інтервал / (1, в який вона потрапляє із заданою ймовірністю р.).

Закон розподілу k n _ x (v)величини I 7 має вигляд, зображений на рис. 14.4.1.

Рис. 14.4.1

Виникає питання: як вибрати інтервал/р? Якби закон розподілу величини Vбув симетричним (як нормальний закон чи розподіл Стьюдента), природно було взяти інтервал /р симетричним щодо математичного очікування. В даному випадку закон до п х (v)несиметричний. Умовимося вибирати інтервал /р так, щоб ймовірність виходу величини Vза межі інтервалу вправо та вліво (заштриховані площі на рис. 14.4.1) були однакові та рівні

Щоб побудувати інтервал/р з такою властивістю, скористаємось табл. 4 додатки: у ній наведені числа у)такі, що

для величини V,що має х 2 -розподіл з г ступенями свободи. У нашому випадку г = п- 1. Зафіксуємо г = п- 1 і знайдемо у відповідному рядку табл. 4 два значення х 2 -одне, що відповідає ймовірності інше - ймовірності Позначимо ці

значення у 2і xl?Інтервал має у 2 ,своїм лівим, а у ~правим кінцем.

Тепер знайдемо по інтервалу /р шуканий довірчий інтервал /|, для дисперсії з межами D, та D 2 ,який накриває крапку Dз ймовірністю р:

Побудуємо такий інтервал /(, = (?> ь А), який накриває точку Dтоді і лише тоді, коли величина Vпотрапляє в інтервал/р. Покажемо, що інтервал

задовольняє цю умову. Справді, нерівності рівносильні нерівностям

а ці нерівності виконуються з ймовірністю р. Таким чином, довірчий інтервал дисперсії знайдено і виражається формулою (14.4.13).

Приклад 3. Знайти довірчий інтервал дисперсії в умовах прикладу 2 підрозділу 14.3, якщо відомо, що величина Xрозподілено нормально.

Рішення.Маємо . За таблицею 4 додатки

знаходимо при г = п - 1 = 19

За формулою (14.4.13) знаходимо довірчий інтервал для дисперсії

Відповідний інтервал для середнього відхилення квадратичного: (0,21; 0,32). Цей інтервал лише трохи перевищує отриманий у прикладі 2 підрозділу 14.3 наближеним методом інтервал (0,21; 0,29).

  • На малюнку 14.3.1 розглядається довірчий інтервал, симетричний щодо а. Загалом, як ми побачимо далі, це необов'язково.

З цієї статті ви дізнаєтесь:

    Що таке довірчий інтервал?

    В чому суть правила 3-х сигм?

    Як можна застосувати ці знання практично?

В наш час через надлишок інформації, пов'язаної з великим асортиментом товарів, напрямів продажу, співробітників, напрямів діяльності тощо, буває важко виділити головнеНа що, в першу чергу, варто звернути увагу і докласти зусиль для управління. Визначення довірчого інтервалута аналіз виходу за його межі фактичних значень - методика, яка допоможе вам виділити ситуації, що впливають зміну тенденцій.Ви зможете розвивати позитивні фактори та знизити вплив негативних. Ця технологія застосовується у багатьох відомих світових компаніях.

Існують так звані " оповіщення", які інформують керівниківпро те, що чергове значення у певному напрямку вийшло за довірчий інтервал. Що це означає? Це сигнал, що сталася якась нестандартна подія, яка, можливо, змінить існуючу тенденцію у цьому напрямі. Це сигналдо того, щоб розібратисяу ситуації та зрозуміти, що на неї вплинуло.

Наприклад, розглянемо кілька ситуацій. Ми розрахували прогноз продажу з межами прогнозу за 100 товарними позиціями на 2011 рік за місяцями та у березні фактичні продажі:

  1. По « Соняшниковій олії» пробили верхню межу прогнозу та не потрапили у довірчий інтервал.
  2. За «Сухими дріжджами» вийшли за нижню межу прогнозу.
  3. По « Вівсяним кашам» пробили верхню межу.

За іншими товарами фактичні продажі опинилися у межах заданих меж прогнозу. Тобто. їх продаж опинився в рамках очікувань. Отже, ми виділили 3 товари, які вийшли за кордони, і почали розбиратися, що вплинуло на вихід за кордони:

  1. По «Соняшниковій олії» ми увійшли до нової торговельну мережуяка дала нам додатковий обсяг продажів, що призвело до виходу за верхній кордон. Для цього товару варто перерахувати прогноз до кінця року з урахуванням прогнозу продажу цієї мережі.
  2. За «Сухими дріжджами» машина застрягла на митниці, і утворився дефіцит у рамках 5 днів, що вплинуло на зниження продажів та вихід за нижній кордон. Можливо, варто розібратися, що спричинило і постаратися не повторювати цю ситуацію.
  3. За «Вівсяними Кашами» було запущено захід зі стимулювання збуту, який дав значний приріст продажів та призвів до виходу за межі прогнозу.

Ми виділили 3 фактори, які вплинули на вихід за межі прогнозу. У житті їх може бути набагато більше. Для підвищення точності прогнозування та планування фактори, які призводять до того, що фактичні продажі можуть вийти за межі прогнозу, варто виділити та будувати прогнози та плани щодо них окремо. А потім враховувати їхній вплив на основний прогноз продажів. Також можна регулярно оцінювати вплив даних факторів і змінювати ситуацію на краще рахунок зменшення впливу негативних та збільшення впливу позитивних факторів.

За допомогою довірчого інтервалу ми можемо:

  1. Виділити напрямки, куди варто звернути увагу, т.к. у цих напрямках відбулися події, які можуть вплинути на зміна тенденції.
  2. Визначити факториякі реально впливають на зміну ситуації.
  3. Прийняти зважене рішення(Наприклад, про закупівлі, при плануванні і т.д.).

Тепер розглянемо, що таке довірчий інтервал та як його розрахувати в Excel на прикладі.

Що таке довірчий інтервал?

Довірчий інтервал – це межі прогнозу (верхня та нижня), в рамки яких із заданою ймовірністю (сигма)попадуть фактичні значення.

Тобто. ми розраховуємо прогноз - це наш основний орієнтир, але ми розуміємо, що фактичні значення навряд чи на 100% дорівнюватимуть нашому прогнозу. І виникає питання, у які межіможуть потрапити фактичні значення, якщо існуюча тенденція збережеться? І на це запитання нам допоможе відповісти розрахунок довірчого інтервалу, тобто. - верхньої та нижньої межі прогнозу.

Що таке ймовірність сигма?

При розрахункудовірчого інтервалу ми можемо задати ймовірність влученняфактичних значень у задані межі прогнозу. Як це зробити? Для цього ми задаємо значення сигма і, якщо сигма дорівнюватиме:

    3 сигма- то, ймовірність попадання чергового фактичного значення довірчий інтервал складуть 99,7%, або 300 до 1, або існує 0,3% ймовірності виходу за кордон.

    2 сигма- те, ймовірність попадання чергового значення кордону становить ≈ 95,5 %, тобто. шанси приблизно 20 до 1, чи існує 4,5% ймовірності виходу за кордон.

    1 сигма- те, ймовірність - 68,3%, тобто. шанси приблизно 2 до 1 або існує 31,7% ймовірність того, що чергове значення вийде за межі довірчого інтервалу.

Ми сформулювали правило 3 сигм,яке говорить, що ймовірність влученнячергового випадкового значення у довірчий інтерваліз заданим значенням три сигма складає 99.7%.

Великим російським математиком Чебишевим було доведено теорема у тому, що є 10% ймовірність виходу межі прогнозу із заданим значенням три сигма. Тобто. ймовірність попадання в довірчий інтервал 3 сигма складе мінімум 90%, тоді як спроба розрахувати прогноз і його межі «на око» загрожує значно суттєвішими помилками.

Як самостійно розрахувати довірчий інтервал у Excel?

Розрахунок довірчого інтервалу в Excel (тобто верхньої та нижньої межі прогнозу) розглянемо на прикладі. У нас є часовий ряд - продаж за місяцями за 5 років. Див. вкладений файл.

Для розрахунку меж прогнозу розрахуємо:

  1. Прогноз продажів().
  2. Сигма – середньоквадратичне відхиленнямоделі прогнозу від фактичних значень
  3. Три сигми.
  4. Довірчий інтервал.

1. Прогноз продажів.

=(RC[-14] (Дані в часовому ряду)- RC[-1] (Значення моделі))^2(у квадраті)


3. Підсумуємо кожного місяця значення відхилень з 8 етапу Сума((Xi-Ximod)^2), тобто. підсумуємо січневі, люті... для кожного року.

Для цього скористаємося формулою = СУМІСЛИ()

СУМІСЛИ (масив з номерами періодів усередині циклу (для місяців від 1 до 12); посилання на номер періоду в циклі; посилання на масив з квадратами різниці вихідних даних та значень періодів)


4. Розрахуємо середньоквадратичне відхилення для кожного періоду в циклі від 1 до 12 (10 етап у вкладеному файлі).

Для цього із значення розрахованого на 9 етапі ми витягуємо корінь і ділимо на кількість періодів у цьому циклі мінус 1 = КОРІНЬ((Сума(Xi-Ximod)^2/(n-1))

Скористаємося формулами в Excel = КОРІНЬ (R8 (посилання на (Сума(Xi-Ximod)^2)/(ПОЛІЧИЛИ($O$8:$O$67 (Посилання на масив з номерами циклу); O8 (Посилання на конкретний номер циклу, які рахуємо в масиві))-1))

За допомогою формули Excel = РАХУНКИми вважаємо кількість n


Розрахувавши середньоквадратичне відхилення фактичних даних від моделі прогнозу, ми набули значення сигму для кожного місяця - етап 10 у вкладеному файлі .

3. Розрахуємо 3 сигми.

На 11 етапі задаємо кількість сигм – у нашому прикладі «3» (11 етап у вкладеному файлі):

Також зручні для практики значення сигму:

1,64 сигма - 10% ймовірність виходу за межу (1 шанс із 10);

1,96 сигма - 5% ймовірність виходу за межі (1 шанс із 20);

2,6 сигма - 1% ймовірність виходу за межі (1 шанс зі 100).

5) Розраховуємо три сигмиДля цього ми значення «сигма» для кожного місяця множимо на «3».

3.Визначаємо довірчий інтервал.

  1. Верхня межа прогнозу- прогноз продажів з урахуванням зростання та сезонності + (плюс) 3 сигми;
  2. Нижня межа прогнозу- прогноз продажів з урахуванням зростання та сезонності – (мінус) 3 сигми;

Для зручності розрахунку довірчого інтервалу на тривалий період (див. вкладений файл) скористаємося формулою Excel = Y8 + ВПР (W8; $ U $ 8: $ V $ 19; 2; 0), де

Y8- прогноз продажів;

W8- Номер місяця, для якого будемо брати значення 3-х сигма;

Тобто. Верхня межа прогнозу= "прогноз продажів" + "3 сигма" (у прикладі, ВПР(номер місяця; таблиця зі значеннями 3-х сигма; стовпець, з якого витягуємо значення сигма дорівнює номеру місяця у відповідному рядку;0)).

Нижня межа прогнозу= "Прогноз продажів" мінус "3 сигма".

Отже, ми розрахували довірчий інтервал Excel.

Тепер у нас є прогноз та діапазон із межами в межах, якого із заданою ймовірністю сигма потраплять фактичні значення.

У цій статті ми розглянули, що таке сигма та правило трьох сигм, як визначити довірчий інтервал і для чого ви можете використовувати цю методикуна практиці.

Точних вам прогнозів та успіхів!

Чим Forecast4AC PRO може допомогти вампри розрахунку довірчого інтервалу?:

    Forecast4AC PRO автоматично розрахує верхню або нижню межі прогнозу більш ніж 1000 часових рядів одночасно;

    Можливість аналізу меж прогнозу порівняно з прогнозом, трендом та фактичними продажами на графіку одним натисканням клавіші;

У програмі Forcast4AC PRO можна задати значення сигма від 1 до 3.

Приєднуйся до нас!

Завантажуйте безкоштовні програми для прогнозування та бізнес-аналізу:


  • Novo Forecast Lite- автоматичний розрахунок прогнозув Excel.
  • 4analytics - ABC-XYZ-аналізта аналіз викидів у Excel.
  • Qlik Sense Desktop та QlikViewPersonal Edition - BI-системи для аналізу та візуалізації даних.

Тестуйте можливості платних рішень:

  • Novo Forecast PRO- прогнозування Excel для великих масивів даних.
Схожі статті

2022 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.