Як знайти довірчий інтервал Довірчий інтервал. Абетка медичної статистики. Глава III

У статистиці існує два види оцінок: точкові та інтервальні. Точкова оцінкає окремою вибірковою статистикою, яка використовується для оцінки параметра генеральної сукупності. Наприклад, вибіркове середнє - це точкова оцінка математичного очікуваннягенеральної сукупності, а вибіркова дисперсія S 2- точкова оцінка дисперсії генеральної сукупності σ 2. було показано, що середнє вибіркове є незміщеною оцінкою математичного очікування генеральної сукупності. Вибіркове середнє називається незміщеним, оскільки середнє значення всіх вибіркових середніх (при тому самому обсязі вибірки n) дорівнює математичному очікуванню генеральної сукупності.

Для того щоб вибіркова дисперсія S 2стала незміщеною оцінкою дисперсії генеральної сукупності σ 2, знаменник вибіркової дисперсії слід покласти рівним n – 1 , а не n. Інакше висловлюючись, дисперсія генеральної сукупності є середнім значенням різноманітних вибіркових дисперсій.

Оцінюючи параметрів генеральної сукупності слід пам'ятати, що вибіркові статистики, такі як , залежить від конкретних вибірок. Щоб врахувати цей факт, для отримання інтервальної оцінкиматематичного очікування генеральної сукупності аналізують розподіл вибіркових середніх (докладніше див.). Побудований інтервал характеризується певним довірчим рівнем, який є ймовірністю того, що справжній параметр генеральної сукупності оцінений правильно. Аналогічні довірчі інтервали можна застосовувати для оцінки частки ознаки рта основної розподіленої маси генеральної сукупності.

Завантажити нотатку у форматі або , приклади у форматі

Побудова довірчого інтервалу для математичного очікування генеральної сукупності за відомого стандартного відхилення

Побудова довірчого інтервалу для частки ознаки у генеральній сукупності

У цьому розділі поняття довірчого інтервалу поширюється на дані категорій. Це дозволяє оцінити частку ознаки у генеральній сукупності рза допомогою вибіркової частки рS= Х/n. Як вказувалося, якщо величини nрі n(1 – р)перевищують число 5, біномний розподілможна апроксимувати нормальним. Отже, для оцінки частки ознаки у генеральній сукупності рможна побудувати інтервал, довірчий рівень якого дорівнює (1 – α)х100%.

де pS- вибіркова частка ознаки, рівна Х/n, тобто. кількості успіхів, поділеному на обсяг вибірки, р- частка ознаки у генеральній сукупності, Z- критичне значення стандартизованого нормального розподілу, n- Обсяг вибірки.

приклад 3.Припустимо, що з інформаційної системивилучено вибірку, що складається зі 100 накладних, заповнених протягом останнього місяця. Припустимо, що 10 із цих накладних складено з помилками. Таким чином, р= 10/100 = 0,1. Довірчого рівня 95% відповідає критичне значення Z = 1,96.

Таким чином, ймовірність того, що від 4,12% до 15,88% накладних містять помилки, дорівнює 95%.

Для заданого обсягу вибірки довірчий інтервал, Що містить частку ознаки в генеральній сукупності, здається ширшим, ніж для безперервної випадкової величини. Це тим, що вимірювання безперервної випадкової величини містять більше інформації, ніж вимірювання категорійних даних. Інакше висловлюючись, категорійні дані, які набувають лише два значення, містять недостатньо інформації з метою оцінки параметрів їх розподілу.

Уобчислення оцінок, вилучених із кінцевої генеральної сукупності

Оцінка математичного очікування.Поправочний коефіцієнт кінцевої генеральної сукупності ( fpc) використовувався зменшення стандартної помилки в раз. При обчисленні довірчих інтервалів для оцінок параметрів генеральної сукупності поправний коефіцієнт застосовується у ситуаціях, коли вибірки отримують без повернення. Таким чином, довірчий інтервал для математичного очікування, що має довірчий рівень, рівний (1 – α)х100%, обчислюється за такою формулою:

приклад 4.Щоб проілюструвати застосування поправочного коефіцієнта для кінцевої генеральної сукупності, повернемося до завдання про обчислення довірчого інтервалу для середньої суми накладних, розглянутої вище в прикладі 3. Припустимо, що за місяць у компанії виписуються 5000 накладних, причому X̅= 110,27 дол., S= 28,95 дол., N = 5000, n = 100, α = 0,05, t 99 = 1,9842. За формулою (6) отримуємо:

Оцінка частки ознаки.При виборі без повернення довірчий інтервал для частки ознаки, що має довірчий рівень, рівний (1 – α)х100%, обчислюється за такою формулою:

Довірчі інтервали та етичні проблеми

При вибірковому дослідженні генеральної сукупності та формулюванні статистичних висновків часто виникають етичні проблеми. Основна з них – як узгоджуються довірчі інтервали та точкові оцінки вибіркових статистик. Публікація точкових оцінок без вказівки відповідних довірчих інтервалів (як правило, що мають 95% довірчий рівень) та обсягу вибірки, на основі яких вони отримані, може породити непорозуміння. Це може створити в користувача враження, що точкова оцінка - саме те, що йому необхідно, щоб передбачити властивості всієї генеральної сукупності. Таким чином, необхідно розуміти, що в будь-яких дослідженнях в основу повинні бути поставлені не точкові, а інтервальні оцінки. Крім того, особливу увагуслід приділяти правильному виборуобсягів вибірки

Найчастіше об'єктами статистичних маніпуляцій стають результати соціологічних опитувань населення з тих чи інших політичних проблем. При цьому результати опитування виносять на перші сторінки газет, а помилку вибіркового дослідження та методологію статистичного аналізудрукують десь у середині. Щоб довести обґрунтованість одержаних точкових оцінок, необхідно вказувати обсяг вибірки, на основі якої вони отримані, межі довірчого інтервалу та його рівень значущості.

Наступна замітка

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 448–462

Центральна гранична теоремастверджує, що з досить великому обсязі вибірок вибірковий розподіл середніх можна апроксимувати нормальним розподілом. Це властивість залежить від виду розподілу генеральної сукупності.

Розум полягає не лише у знанні, а й у вмінні докладати знання на ділі. (Арістотель)

Довірчі інтервали

Загальний огляд

Взявши вибірку із популяції, ми отримаємо точкову оцінкупараметра, що цікавить нас, і обчислимо стандартну помилку для того, щоб вказати точність оцінки.

Однак, для більшості випадків стандартна помилкаяк така не прийнятна. Набагато корисніше поєднати цей захід точності з інтервальної оцінкою для параметра популяції.

Це можна зробити, використовуючи знання про теоретичний розподіл ймовірності вибіркової статистики (параметра) для того, щоб обчислити довірчий інтервал (CI - Confidence Interval, ДІ - Довірчий інтервал) для параметра.

Взагалі, довірчий інтервал розширює оцінки обидві сторони деякою величиною, кратною стандартної помилки (даного параметра); два значення (довірчі межі), що визначають інтервал, зазвичай відокремлюють комою і укладають у дужки.

Довірчий інтервал для середнього

Використання нормального розподілу

Вибірковий середній має нормальний розподіл, якщо обсяг вибірки великий, тому можна застосувати знання про нормальному розподіліпід час розгляду вибіркового середнього.

Зокрема, 95% розподілу вибіркових середніх перебуває у межах 1,96 стандартних відхилень (SD) середньої популяції.

Коли ми маємо лише одну вибірку, ми називаємо це стандартною помилкою середнього (SEM) і обчислюємо 95% довірчого інтервалу для середнього таким чином:

Якщо повторити цей експеримент кілька разів, то інтервал міститиме справжнє середнє популяції в 95% випадків.

Зазвичай це довірчий інтервал як, наприклад, інтервал значень, у якого з довірчою ймовірністю 95% перебуває справжнє середнє популяції (генеральне середнє).

Хоча це не цілком строго (середнє у популяції є фіксоване значення і тому не може мати ймовірність, віднесену до нього) таким чином інтерпретувати довірчий інтервал, але концептуально зручніше для розуміння.

Використання t-розподілу

Можна використовувати нормальний розподіл, якщо знати значення дисперсії у популяції. Крім того, коли обсяг вибірки невеликий, вибіркове середнє відповідає нормальному розподілу, якщо дані, що лежать в основі популяції, нормально розподілені.

Якщо дані, що лежать в основі популяції, розподілені ненормально та/або невідома генеральна дисперсія (дисперсія в популяції), середнє вибіркове підпорядковується t-розподілу Стьюдента.

Обчислюємо 95% довірчий інтервал для генерального середнього у популяції наступним чином:

Де - процентна точка (процентиль) t-розподіл Стьюдента з (n-1) ступенями свободи, яка дає двосторонню ймовірність 0,05.

Взагалі вона забезпечує ширший інтервал, ніж при використанні нормального розподілу, оскільки враховує додаткову невизначеність, яку вводять, оцінюючи стандартне відхиленняпопуляції та/або через невеликий обсяг вибірки.

Коли обсяг вибірки великий (близько 100 і більше), різниця між двома розподілами ( t-Стьюдентата нормальним) незначна. Проте завжди використовують t-розподіл при обчисленні довірчих інтервалів, навіть якщо об'єм вибірки великий.

Зазвичай вказують 95% ДІ. Можна обчислити інші довірчі інтервали, наприклад, 99% ДІ для середнього.

Замість твору стандартної помилки та табличного значення t-розподілу, який відповідає двосторонній ймовірності 0,05, множать її (стандартну помилку) на значення, яке відповідає двосторонній ймовірності 0,01. Це ширший довірчий інтервал, ніж у випадку 95%, оскільки він відображає збільшену довіру до того, що інтервал дійсно включає середню популяцію.

Довірчий інтервал для пропорції

Вибірковий розподіл пропорцій має біномний розподіл. Однак якщо обсяг вибірки nрозумно великий, тоді вибірковий розподіл пропорції приблизно нормально із середнім.

Оцінюємо вибірковим ставленням p=r/n(де r- кількість індивідуумів у вибірці з цікавими для нас характерними особливостями), і стандартна помилка оцінюється:

95% довірчий інтервал для пропорції оцінюється:

Якщо обсяг вибірки невеликий (зазвичай коли npабо n(1-p)менше 5 ), тоді необхідно використовувати біномне розподіл для того, щоб обчислити точні довірчі інтервали.

Зауважте, що якщо pвиражається у відсотках, то (1-p)замінюють на (100-p).

Інтерпретація довірчих інтервалів

При інтерпретації довірчого інтервалу нас цікавлять такі питання:

Наскільки широкий довірчий інтервал?

Широкий довірчий інтервал свідчить про те, що оцінка неточна; тонкий вказує на точну оцінку.

Ширина довірчого інтервалу залежить від розміру стандартної помилки, яка, своєю чергою, залежить від обсягу вибірки і під час розгляду числової змінної від мінливості даних дають ширші довірчі інтервали, ніж дослідження численного набору даних небагатьох змінних.

Чи включає ДІ якісь значення, що становлять особливий інтерес?

Можна перевірити, чи можливе значення для параметра популяції в межі довірчого інтервалу. Якщо так, то результати узгоджуються з цим можливим значенням. Якщо ні, то малоймовірно (для 95% довірчого інтервалу шанс майже 5%), що параметр має це значення.

Довірчий інтервал для математичного очікування - це такий обчислений за даними інтервал, який з певною ймовірністю містить математичне очікування генеральної сукупності. Природною оцінкою для математичного очікування є середнє арифметичне її спостережених значень. Тому далі протягом уроку ми користуватимемося термінами "середнє", "середнє значення". У завданнях розрахунку довірчого інтервалу найчастіше потрібна відповідь типу "Довірчий інтервал середнього числа [величина у конкретній задачі] знаходиться від [менше значення] до [більше значення]". З допомогою довірчого інтервалу можна оцінювати як середні значення, а й питому вагу тієї чи іншої ознаки генеральної сукупності. Середні значення, дисперсія, стандартне відхилення та похибка, через які ми будемо приходити до нових визначень та формул, розібрані на уроці Характеристики вибірки та генеральної сукупності .

Точкова та інтервальна оцінки середнього значення

Якщо середнє значення генеральної сукупності оцінюється числом (точкою), то оцінку невідомої середньої величиниГенеральної сукупності приймається конкретне середнє, яке розраховане на вибірку спостережень. У разі значення середнього вибірки - випадкової величини - не збігається із середнім значенням генеральної сукупності. Тому, вказуючи середнє значення вибірки, одночасно потрібно вказувати помилку вибірки. В якості міри помилки вибірки використовується стандартна помилка, яка виражена в тих самих одиницях виміру, що і середнє. Тому найчастіше використовується наступний запис: .

Якщо оцінку середнього потрібно пов'язати з певною ймовірністю, то параметр генеральної сукупності, що цікавить, потрібно оцінювати не одним числом, а інтервалом. Довірчим інтервалом називають інтервал, у якому з певною ймовірністю Pперебуває значення оцінюваного показника генеральної сукупності. Довірчий інтервал, у якому з ймовірністю P = 1 - α знаходиться випадкова величина , розраховується так:

α = 1 - P, який можна знайти у додатку до практично будь-якої книги зі статистики.

Насправді середнє значення генеральної сукупності і дисперсія невідомі, тому дисперсія генеральної сукупності замінюється дисперсією вибірки , а середнє генеральної сукупності - середнім значенням вибірки . Таким чином, довірчий інтервал у більшості випадків розраховується так:

Формулу довірчого інтервалу можна використовувати для оцінки середньої генеральної сукупності, якщо

відоме стандартне відхилення генеральної сукупності;
або стандартне відхилення генеральної сукупності невідоме, але обсяг вибірки – більше 30.

Середнє значення вибірки є незміщеною оцінкою середньої генеральної сукупності. У свою чергу, дисперсія вибірки не є незміщеною оцінкою дисперсії генеральної сукупності. Для отримання незміщеної оцінки дисперсії генеральної сукупності у формулі дисперсії вибірки обсяг вибірки nслід замінити на n-1.

приклад 1.Зібрано інформацію зі 100 випадково обраних кафе в деякому місті про те, що середня кількість працівників у них становить 10,5 зі стандартним відхиленням 4,6. Визначити довірчий інтервал 95% від числа працівників кафе.

де - критичне значення стандартного нормального розподілу рівня значимості α = 0,05 .

Таким чином, довірчий інтервал 95% середньої кількості працівників кафе становив від 9,6 до 11,4.

приклад 2.Для випадкової вибірки з генеральної сукупності з 64 спостережень обчислено такі сумарні величини:

сума значень у спостереженнях,

сума квадратів відхилення значень від середнього .

Обчислити довірчий інтервал 95% для математичного очікування.

обчислимо стандартне відхилення:

обчислимо середнє значення:

Підставляємо значення вираз для довірчого інтервалу:

де - критичне значення стандартного нормального розподілу рівня значимості α = 0,05 .

Отримуємо:

Таким чином, довірчий інтервал 95% для математичного очікування цієї вибірки становив від 7,484 до 11,266.

приклад 3.Для випадкової вибірки з генеральної сукупності зі 100 спостережень обчислено середнє значення 15,2 та стандартне відхилення 3,2. Обчислити довірчий інтервал 95% для математичного очікування, потім довірчий інтервал 99%. Якщо потужність вибірки та її варіація залишаються незмінними, а збільшується довірчий коефіцієнт, то довірчий інтервал звузиться чи розшириться?

Підставляємо дані значення вираз для довірчого інтервалу:

де - критичне значення стандартного нормального розподілу рівня значимості α = 0,05 .

Отримуємо:

Таким чином, довірчий інтервал 95% для середньої даної вибірки становив від 14,57 до 15,82.

Знову підставляємо дані значення вираз для довірчого інтервалу:

де - критичне значення стандартного нормального розподілу рівня значимості α = 0,01 .

Отримуємо:

Таким чином, довірчий інтервал 99% для середньої даної вибірки становив від 14,37 до 16,02.

Як бачимо, при збільшенні довірчого коефіцієнта збільшується також критичне значення стандартного нормального розподілу, а отже початкова і кінцева точки інтервалу розташовані далі від середнього, і таким чином довірчий інтервал для математичного очікування збільшується.

Точкова та інтервальна оцінки частки

Питома вага деякої ознаки вибірки можна інтерпретувати як точкову оцінку питомої ваги pцієї ж ознаки в генеральній сукупності. Якщо ж цю величину потрібно пов'язати з ймовірністю, слід розрахувати довірчий інтервал частки pознаки у генеральній сукупності з ймовірністю P = 1 - α :

приклад 4.У деякому місті два кандидати Aі Bпретендують на посаду мера Випадково було опитано 200 жителів міста, з яких 46% відповіли, що голосуватимуть за кандидата A, 26% - за кандидата Bта 28% не знають, за кого голосуватимуть. Визначити довірчий інтервал 95% для частки жителів міста, які підтримують кандидата A.

Довірчий інтервал прийшов до нас із галузі статистики. Це певний діапазон, який слугує для оцінки невідомого параметра з високим ступенем надійності. Найпростіше це пояснити на прикладі.

Припустимо, слід досліджувати якусь випадкову величину, наприклад, швидкість відгуку сервера на запит клієнта. Щоразу, коли користувач набирає адресу конкретного сайту, сервер реагує на це різною швидкістю. Таким чином, час відгуку, що досліджується, має випадковий характер. Так ось, довірчий інтервал дозволяє визначити межі цього параметра, і потім можна буде стверджувати, що з ймовірністю 95% сервера буде знаходитися в розрахованому нами діапазоні.

Або ж потрібно дізнатися, якій кількості людей відомо про торговій марціфірми. Коли буде підрахований довірчий інтервал, можна буде, наприклад, сказати що з 95% часткою ймовірності частка споживачів, знають про цю перебуває у діапазоні від 27% до 34%.

З цим терміном тісно пов'язана така величина, як довірча ймовірність. Вона є ймовірністю того, що шуканий параметр входить у довірчий інтервал. Від цієї величини залежить те, наскільки більшим виявиться наш пошуковий діапазон. Що більше значення вона набуває, то вже стає довірчий інтервал, і навпаки. Зазвичай її встановлюють 90%, 95% або 99%. Величина 95% найпопулярніша.

на даний показниктакож впливає дисперсія спостережень і Його визначення ґрунтується на тому припущенні, що досліджувана ознака підкоряється. Це твердження відоме також як Закон Гауса. Згідно з ним, нормальним називається такий розподіл усіх ймовірностей безперервної випадкової величини, який можна описати щільністю ймовірностей. Якщо припущення про нормальний розподіл виявилося помилковим, то оцінка може виявитися неправильною.

Спочатку розберемося з тим, як обчислити довірчий інтервал. Тут можливі два випадки. Дисперсія (ступінь розкиду випадкової величини) може бути відома чи ні. Якщо вона відома, то наш довірчий інтервал обчислюється за допомогою наступної формули:

хср - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - ознака,

t - параметр таблиці розподілу Лапласа,

σ – квадратний корінь дисперсії.

Якщо дисперсія невідома, її можна розрахувати, якщо нам відомі всі значення шуканої ознаки. Для цього використовується така формула:

σ2 = х2ср - (хср)2 де

х2ср - середнє значення квадратів досліджуваної ознаки,

(ХСР)2 - квадрат даної ознаки.

Формула, за якою в цьому випадку розраховується довірчий інтервал, трохи змінюється:

хср - t * s / (sqrt (n))<= α <= хср + t*s / (sqrt(n)), где

хср - вибіркове середнє,

α - ознака,

t - параметр, який знаходять за допомогою таблиці розподілу Стьюдента t = t(?;n-1),

sqrt(n) - квадратний корінь загального обсягу вибірки,

s – квадратний корінь дисперсії.

Розглянь такий приклад. Припустимо, що за результатами 7 вимірів було визначено досліджуваного ознаки, що дорівнює 30 і дисперсія вибірки, що дорівнює 36. Потрібно знайти з ймовірністю 99% довірчий інтервал, який містить справжнє значення параметра, що вимірюється.

Спочатку визначимо чому t: t = t (0,99; 7-1) = 3.71. Використовуємо наведену вище формулу, отримуємо:

хср - t * s / (sqrt (n))<= α <= хср + t*s / (sqrt(n))

30 - 3.71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Довірчий інтервал дисперсії розраховується як у випадку з відомим середнім, так і тоді, коли немає жодних даних про математичне очікування, а відомо лише значення точкової незміщеної оцінки дисперсії. Ми не наводитимемо тут формули його розрахунку, оскільки вони досить складні і за бажання їх завжди можна знайти в мережі.

Відзначимо лише, що довірчий інтервал зручно визначати за допомогою програми Excel або мережевого сервісу, що так і називається.

Схожі статті

Обговорюють:

Альбом типових рішень прокладка кабелевих трас Схема складування кабельних лотків автокад:Транскрипт 1 Альбом типових рішень Прокладка кабеленесучих трас Типові...
Проектування зовнішніх водопровідних та каналізаційних мереж:Водопостачання та каналізація будівельних об'єктів – найбільш необхідне...
УДК класифікатор - що означає і навіщо потрібен:У багатьох російських науково-технічних видавництвах та редакціях журналів,...
Зі скільки в Росії починається вечір:Жарознижувальні засоби для дітей призначаються педіатром. Але бувають ситуації...