Обсяг вибірки опитування. Вибірки. Типи вибірок. Розрахунок помилки вибірки

Після того, як визначено метод дослідження та розроблено інструмент, визначаються параметри дослідження: тип, склад та властивості вибірки та її обсяг. Для визначення типу вибірки треба скористатися таблицями у лекціях: визначити обсяг та властивості генеральної сукупності, потім вибрати модель вибірки.

Таблиця обсягів вибірок дозволяє визначити обсяг вибірок, виходячи із заздалегідь заданого показника надійності P і заздалегідь заданої допустимої величини помилки е. Р показує, яку частину генеральної сукупності максимально зможе охопити вибірка (це показує її надійність), а помилка показує, які мінімальні розбіжності будуть допущені між властивостями генеральної сукупності та властивостями вибірки.

Таблиця обсягів вибірок
е P 0,10 0,09 0,03 0,07 0,06 0,05 0,04 0,03 0,02 0,01
0,75
0,80
0,85
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,965
0,970
0,975
0,980
0,985
0,990
0,991
0,992
0,993
0,994
0,995
0,996
0,997
0,998
0,999


Припустимо, ми хочемо охопити генеральну сукупність з надійністю не менше 80% і припускаємося помилки нашого дослідження не менше 10%. При цьому ми нічого не знаємо про те, які значення може набувати змінна, що досліджується нами, тобто не маємо жодної апріорної інформації про генеральну сукупність: ні середнього не знаємо, ні можливої ​​дисперсії - нічого. Тоді ми шукаємо відповідне перетин у таблиці (Р=0,80 , е=0,10): обсяг вибірки становитиме 41 людина. Таблиця складена з розрахунку максимального значеннядисперсії дихотомічної змінної. Видно, що зі збільшенням точності вибірки її обсяг швидко зростає – якщо в описаному випадку ми побачили обсяг 41 людина, то параметрів в Р=95% і е=5% (стандартних більшість досліджень) обсяг становитиме вже 384 людини. Тому таблицею треба скористатися у випадках, коли генеральна сукупність відносно невелика і допустимі значні величини помилок.

Щоб забезпечити невеликий обсяг вибірки для відносно великої генеральної сукупності, треба заздалегідь знати параметри розподілу змінної, що вивчається: середнє значення та дисперсію. При цьому можна скористатися наведеною нижче номограмою для розрахунку вибірок (номограма побудована для надійності Р=95%, що цілком достатньо). Для використання номограми треба знати дві величини: коефіцієнт мінливості vта допустиму величину помилки е. Коефіцієнт мінливості визначається як коефіцієнт варіації

тобто для його визначення треба знати середнє арифметичне та середнє квадратичне відхиленнядосліджуваної змінної.

Для спрощення розрахунку коефіцієнта мінливості треба знати розмах варіації, тобто максимальне та мінімальне значення, яких може досягати змінна, що досліджується. У цьому випадку розрахунок vведеться так:

де X max, X min– максимальне та мінімальне значення досліджуваної змінної, А- Постійне дійсне позитивне число(зазвичай вибирається між 5 та 6).


Приклад 1. Припустимо, відомо, що коефіцієнт мінливості досліджуваної змінної дорівнює 6%. Знайдемо обсяг вибірки при допустимій помилці 5%. Для цього на лівій шкалі номограми, позначеної v%, шукаємо точку 6. На правій шкалі номограми, позначеної ε% шукаємо обране значення помилки, що становить 5%. Зазначаємо ці точки на лініях і з'єднуємо їх лінійкою прямою лінією. Дивимося, де ця пряма перетинає центральну шкалу, позначену n 1. Це перетин відбувається у точці 6. Отже, обсяг вибірки становитиме 6 людина.

Приклад 2. Нехай нам відомо, що коефіцієнт мінливості змінної, що досліджується, дорівнює 16%. Знайдемо обсяг вибірки для заданої помилки 5%. 16% більше 10% максимально відзначених на шкалі v%, а шкали логарифмічні, тому 16 ділимо на 10 і на шкалі v%номограми шукаємо точку 1,6. На правій шкалі номограми ε% шукаємо обране значення помилки, що становить 5%. Зазначаємо ці точки на шкалах і з'єднуємо їх лінійкою прямою лінією. Дивимося, де пряма перетинає центральну шкалу n 1. Перетин відбувається у точці 0,4. Оскільки ми зменшили 16% до 1,6%, тобто в 10 разів, то множимо 0,4 на 100. Обсяг вибірки складе 40 осіб (порівняйте із зазначеною вище вибіркою в 384 особи для Р=95% і е=5% без врахування конкретного значення дисперсії).

Приклад 3. Досліджується споживання студентами сигарет, причому вивчаються лише ті, хто палить цигарки (генеральна сукупність - курці). Допустима помилка становить 5%. Заздалегідь відомо (наприклад, дані взяті з джерел вторинної маркетингової інформації), що студенти викурюють сигарети в кількості від однієї пачки сигарет у три дні до двох пачок на день, причому в середньому студенту, що курить, вистачає однієї пачки сигарет на день. Тоді відповідні значення становитимуть X max=2, X min=0,33, а середнє становитиме 1. Коефіцієнт мінливості vскладе

і на лівій шкалі ми відкладаємо 2,8%, на правій 5%, з'єднаємо їх та за центральною шкалою номограми отримаємо позначку 1,2 – це означає, що обсяг вибірки має бути 120 осіб.

Приклад 4. Припустимо, що при використанні попереднього прикладу доступ до цільової репрезентативної групи (курців) відсутній. Це означає, що треба включати у вибірку як курців, так і некурців. У такому разі параметри для розрахунку будуть X max=2, X min=0. Якою буде середня? Розрахунок середньої за виразом (2+0)/2=1 не є правильним, оскільки колишня середня розраховувалася тільки для курців, а зараз не враховано співвідношення розмірів груп курців та некурців. Наприклад, якщо частка курців становить 60%, а частка курців - 40%, тоді середня становитиме 0,4.

Порівняємо можливі розміри вибірок та помилки дослідження:

Якщо відсутні дані про співвідношення репрезентативної та нерепрезентативної груп у генеральній сукупності, то розрахунок коефіцієнта мінливості здійснюється через зміну величини А. Як правило, якщо середня розраховується за виразом ( X max+X min)/2, то Азменшується до 5 і менше.

Як бачимо, проста випадкова вибірка для досягнення необхідної точності потребує значних обсягів. Загальний обсяг вибірки можна суттєво зменшити двома способами:

1) виконуючи районування або стратифікацію, тобто виділяючи якісно різні групи у генеральній сукупності та розміщуючи вибірку саме серед представників цих груп;

2) виконуючи виділення гнізд, тобто поділяючи генеральну сукупність на велика кількістьоднакових частин та розподіляючи вибірку між цими частинами.

Під час проведення стратифікованої вибірки можна надходити так (див. схему далі).

Спочатку визначається, який обсяг апріорної інформації відомий про генеральну сукупність. Для правильно виконаної стратифікованої вибірки мінімального обсягу необхідно знати загальну чисельність генеральної сукупності N, число досліджуваних страт i, чисельність кожної страти N i, а всередині кожної страти відповідне середнє значення змінної, що вивчається, і її дисперсію. Якщо всі ці параметри відомі, то за допомогою розглянутої номограми можна розрахувати обсяг стратифікованої пропорційної вибірки.

Для цього визначають спочатку генеральну дисперсію змінної, що вивчається, як суму внутрішньогрупової та міжгрупової дисперсій, потім визначають генеральне середнє по середніх стратах, потім визначають коефіцієнт мінливості і по номограмі визначають при завданні припустимої помилки загальну величину вибірки. σ

Генеральна дисперсія дорівнює

де σ 2 р- внутрішньогрупова дисперсія, а σ 2 m- міжгрупова дисперсія.

Внутрішньогрупову дисперсію визначають за відомим дисперсіямзмінної, що вивчається всередині кожної страти

де N i- чисельність iтієї страти, σ 2 i- дисперсія iтієї страти.

Міжгрупову дисперсіювизначають, виходячи з відомих середніх за кожною стратою та розрахованою на їх основі генеральною середньою:

Якщо відомо число страт, але невідомий їх обсяг (і/або обсяг генеральної сукупності), то розраховується спочатку загальний обсяг вибірки вказаним способом, а потім він ділиться на число страт так, щоб у кожній страті розмістилася однакова частка вибірки - це буде стратифікована рівна вибірка.

Якщо невідомі дисперсії всередині страт, необхідно знати розмах варіації всередині кожної страти, тобто значення X maxі X min. Тоді дисперсії страт можна розрахувати, виходячи з виразу

Якщо невідома чисельність страт, то внутрішньогрупова дисперсія розраховується як просте середнє арифметичне дисперсій страт.

Якщо невідомі середні у кожній страті, але відомий розмах варіації, то середні всередині страт визначаються як середні між крайніми значеннями змінної, що вивчається.

Якщо наявність страт невідома, але з генеральної сукупності відомі параметри середнього, дисперсії і щільності розподілу одиниць спостереження, здійснюється районна вибірка по гніздовому чи пропорційному способам. Якщо одиниці спостереження розміщені територією, де знаходиться генеральна сукупність, відносно рівномірно (коефіцієнт варіації щільності розміщення становить трохи більше 15-25%), то використовується виділення гнізд, кожне з яких вміщує однакову кількість одиниць спостереження. Гнізда виділяються так, що мають однаковий розмір (наприклад, площу). Число гнізд визначається пропорційно відношенню загального розмірувибірки nдо загального числа одиниць спостереження N. З кожного гнізда відбирається тільки одна одиниця спостереження, розміщення вибірки по гнізд здійснюється рівномірно-механічним або випадковим методом.

Якщо розміщення одиниць спостереження по території, що вивчається, нерівномірно, то вона поділяється на райони з однаковим числом одиниць спостереження в кожному - це порайонна пропорційна вибірка. Для цього розраховується загальний обсяг вибірки за номограмою, після чого ця вибірка розподіляється по районах пропорційно до чисельності одиниць спостереження. Усередині районів у разі розміщення вибірки виконується або гніздовим, або іншим способом, аналогічно відомим процедурам розміщення вибірок.

Приклад 5. Скористаємося прикладом 3, що вивчає споживання сигарет. Якщо немає жодних даних про можливі параметри змінної, що вивчається, то при даних Р=95% , е=5% обсяг вибірки складе 384 людини. Виділимо дві страти – чоловіків та жінок. Нехай апріорі відомо (наприклад, з проведення пілотного дослідження), що споживання цигарок у пачках за день становить у чоловіків X max=2, X min= 0,33, у жінок X max=3, X min=0,1. Обчислимо обсяг вибірки у разі

Оскільки про співвідношення чисельності страт нам нічого не відомо, то приймаємо, що їх чисельності рівні і частки їх чисельностей у генеральній сукупності становлять по 0,5. Тоді внутрішньогрупова дисперсія буде

а міжгрупова

при генеральному середньому

Тоді генеральна дисперсія буде

та коефіцієнт мінливості складе

За номограмою при допустимій помилці 5% обсяг вибірки становитиме приблизно 240 осіб (більш ніж на 140 менше, ніж за таблицею). У даному випадкуця вибірка має бути розділена на 120 чоловіків та 120 жінок.

Якщо цей обсяг вибірки занадто великий, потрібно збільшувати кількість страт, домагаючись того, щоб розмах варіації у кожному страті був мінімальний, а розміри страт близькі, тобто прагнути до мінімуму сумарної дисперсії.

У разі коли відомий розмір генеральної сукупності в цілому, то можна коригувати розмір вибірки на безповторність таким чином:

1) для відомих v%і eрозраховується за номограмою розмір вибірки n 1;

2) задана припустима помилка коригується з урахуванням розміру генеральної сукупності

3) за номограмою для скоригованої помилки e correctі v%знаходиться новий обсяг вибірки n 2.

Приклад 6.Припустимо, що дослідження проводиться для цільового сегмента обсягом 1600 одиниць спостереження v%=25% та e= 5%. За номограмою обсяг вибірки тоді становитиме 100 одиниць спостереження. Коригуємо помилку з урахуванням розміру вибірки

За номограмою скоригований обсяг вибірки складе (при v%=25% та e= 5,2%) 90 одиниць спостереження.

РОЗДІЛ 1.

У цій частині роботи студент обробляє зібрані ним дані та робить висновок щодо поставленого завдання: як вирішити поставлену проблему.

Для обробки студент може використовувати MS Excel, SPSS, Statistika for Windows, MatLab, MatCad та інші програми обробки великих масивів даних. Основні завдання, які вирішуються при використанні цих засобів:

верифікація даних:

встановлення законів розподілу;

встановлення взаємозв'язків між даними;

класифікація та сегментація даних;

прогнозування розвитку подій

Послідовність обробки даних дослідження

  1. розрахунок у рамках аналізу двовимірних розподілів по кожній таблиці даних, коефіцієнта варіації, кореляційного відношення та стандартних відхилень4
  2. розрахунок кореляційної та коварійної матриць;
  3. вибір масиву даних за заздалегідь заданими умовами;
  4. обчислення розподілів (при врахуванні заданих умов);
  5. перекодування (виправлення помилок у даних);
  6. запровадження нових показників (розрахунок індексів).

Нижче в таблиці описано можливі методианалізу даних. Не слід, зрозуміло, застосовувати їх одразу все. Студент вибирає саме ті 1-2 методи, які найбільше підходять для розкриття поставленої проблеми.

Кількісні методи аналізу даних маркетингових досліджень
1.Методи стиснення описової статистики 2.Методи аналізу систем показників
1.1 Групування 1.2 Оцінка параметрів розподілу 1.3 Коварійна та кореляційна матриця
2.1 Орієнтація на інтегральну якісну характеристику 2.2 Орієнтація на кількісну ознаку
2.2.1 Дисперсійний аналіз 2.2.2 Кореляційно-регресійний аналіз 2.2.3 Причинний аналіз
2.1.1 Без апріорної інформації про досліджувану ознаку 2.1.2 З апріорною інформацією про класи ознаки 2.1.3 З апріорною інформацією про зростання (зменшення) ознаки)
2.1.1.1 Методи експертних оцінок 2.1.1.2 Аналіз матриці даних.
2.1.3.1 Посилення шкали за результуючою ознакою 2.1.3.2 Оцінка суттєвості показника (рангові кореляції)
2.1.1.2.1Факторний аналіз 2.1.1.2.2 Латентно-структурний аналіз 2.1.1.2.3Кластерний аналіз 2.1.1.2.4 Методи оцінки значущості показника
2.1.2.1 Методи посилення номінальної шкали за результуючою ознакою 2.1.2.2 Оцінка суттєвості показників системи
2.1.2.2.1 Методи теорії розпізнавання образів 2.1.2.2.2 Методи теорії інформації 2.1.2.2.3 Методи теорії графів

Для визначення основних характеристик залежно від питань, що застосовувалися, можуть бути застосовані наступні методи аналізу вимірювань за шкалами в питаннях:

Статистичні методивиявлення зв'язків

Шкала результуючої (підсумкової) ознаки Шкала факторної ознаки (предиктора) Метод статистичної обробки
Кількісні (І,О,А,Р) Кількісні (І,О,А,Р) Регресії Кореляції
Кількісні (І,О,А,Р) Час (І) Динаміка часових рядів
Кількісні (І,О,А,Р) Кількісні (К,П) Дисперсійний аналіз
Кількісні (І,О,А,Р) Коварійний аналіз Типологічна регресія
Кількісні (К) Кількісні (І,О,А,Р) Дискримінантний аналіз Кластерний аналіз Таксономія Розщеплення сумішей
Кількісні (П) Кількісні (К,П) Рангові кореляціїАналіз таблиць сполученості
Кількісні та некількісні Кількісні та некількісні Логічні вирішальні функції
Типи шкал у питаннях: І - інтервальна, О - відносна, А - абсолютна, Р - різницева, П - порядкова, К - класифікаційна (номінальна)

Наприклад, кореляційний аналіздля сегментації споживачів виконується так:

  1. виділяються середні значення, стандартні відхилення, коефіцієнт варіації, помилку середнього значення та довірчий інтервал;
  2. розраховується ковараційна та кореляційна матриця (наприклад, у MS Excel);
  3. обчислюється «близькість» об'єктів у просторі показників (для сегментації);
  4. обчислюються шляхи максимальної кореляції з метою угруповання змінних;
  5. обчислюються шляхи максимальної відстані по матриці відстаней з метою класифікації об'єктів;
  6. визначаються найближчі групи, які й будуть сегментами споживачів;
  7. перевіряється міра близькості груп (наприклад, кореляційне ставлення).

Наприкінці цього розділу студент описує результати аналізу даних, щоб були зрозумілі його вирішення поставлених завдань роботи, остаточні висновки та його формулювання.

Висновок

У цьому розділі студент формулює повне рішенняпроблеми, поставленої на початку своєї роботи.

Список литературы

Список використаних джерел (список літератури) слід виконувати наприкінці тексту роботи відповідно до ГОСТ 7.1-84, наприклад:

Зіннуров У. Г. Основи маркетингових досліджень: Навчальний посібник/ У. Г. Зіннуров; Уфімськ. держ. авіац. техн. ун-т. Уфа, 1996. - 110 с.

Джерела у списку розташовуються в алфавітному порядку. На всі перелічені джерела у роботі необхідно зробити посилання. Посторінні виноски не допускаються.

Якщо джерелом є сайти Інтернету, необхідно вказувати повністю адресу того сайту (копіюючи його адресний рядок), на якому було отримано конкретна інформація. При цьому наводиться дата останнього звернення до цього сайту, наприклад.

Необхідна кількість респондентів залежить від цілей опитування і того, наскільки важливою є достовірність результатів. Чим вище достовірність Ви хочете отримати, тим нижче має бути допустима межапохибки.

Визначення

Чисельність сукупності

Чисельність сукупності - це розмір усієї групи, яку Ви хочете подати в опитуванні.

  • Сукупність: вся група, про яку Ви хочете зробити висновки
  • Вибірка: група, яку Ви опитуєте

Подумайте про потенційний розмір вашої цільової сукупності. Наприклад, якщо Ви надсилаєте опитування користувачам iPhone чоловічої статі, які проживають у певному регіоні, Вам може знадобитися провести невелике дослідження з метою визначити, скільки всього чоловіків відповідає цим критеріям.

Межа похибки

Межа похибки показує, наскільки результати відхиляються від фактичних значень. Це відсоткове значення, що означає, з якою ймовірністю думки та поведінка вибірки опитування відхиляються від думки та поведінки загальної сукупності. Щоб розрахувати межу похибки, використовуйте наш калькулятор межі похибки .

Чим менша межа похибки, тим точніше буде відповідь за певного рівня довіри.

У загальному випадкучим більше розмірвибірки, тим менша межа похибки. Чим ближче розмір вибірки до чисельності сукупності, тим репрезентативнішими будуть результати. І саме тому, подивившись на нижче таблицю, Ви можете помітити, що зі зменшенням рекомендованого розміру вибірки збільшується допустима похибка.

Припустимо, ми опитали 400 осіб про те, чи підтримують вони президента своєї країни, і 55% відповіло ствердно. Якщо рівень довіри дорівнює 95%, а межі похибки становлять ±5%, то при стократному повторенні опитування в одних і тих же умовах 95 разів зі 100 відповідь знаходилася б у межах між 50% і 60%.

Рівень довіри

Рівень довіри показує, наскільки достовірними є результати. Загальноприйняті стандарти, що використовуються дослідниками: 90%, 95% та 99%.

Рівень довіри 95% означає, що, якщо повторити те саме опитування за однакових умов 100 разів, 95 разів зі 100 результати будуть приблизно перебувати у межах похибки.

Під час визначення розміру вибірки використовується z-оцінка рівня довіри. Z-оцінка - це міра стандартного відхиленняпевної частки середньої величини.

Рівень довіри

90% 1,65
95% 1,96
99% 2,58

Відсоткове значення

Вимоги до розміру вибірки можуть змінюватись в залежності від відсоткової частки вибірки, яка дає певну відповідь. Наприклад, якщо у попередньому опитуванні було виявлено, що 75% клієнтів висловлюють задоволення Вашим продуктом, і Ви хочете провести таке опитування знову, можна використовувати p = 0,75 для розрахунку необхідного розміру вибірки.

Якщо опитування проводиться вперше, то оскільки опитування зазвичай містять більше одного питання (і тому оцінювати потрібно більше одного відсоткового значення), ми рекомендуємо використовувати p = 0,5 для розрахунку оптимального розмірувибірки. Це дає нам зразковий розмір вибірки, який не буде ні надто консервативним, ні надто вільним.

Нижче наведено таблицю, в якій наведено рекомендовані значення чисельності сукупності* для межі похибки при рівні довіри 95%.

Чисельність сукупностіРозмір вибірки межі похибки

100 000 і більше

* Ми розрахували рекомендовані розміри вибірки за вказаною вище формулою. У деяких випадках розміри вибірки були округлені до 5 або 10. Для більш точного розрахунку використовуйте наш калькулятор розміру вибірки.

Ви надсилаєте батькам дітей Вашої школи опитування з питанням, чи підтримують вони продовження навчального дня. Питання має варіанти відповіді «Так» та «Ні».

Загальна кількість батьків (чисельність сукупності) - 10 000 і Вас влаштовує межу похибки ±10%. За таблицею вище Ви можете визначити, що в опитуванні має взяти участь щонайменше 100 осіб.

70% із 100 опитаних батьків відповіли, що згодні на продовження навчального дня. Таким чином можна припустити, що якби в опитуванні брали участь усі 10 000 батьків, 60-80% людей підтримало б продовження навчального дня.

Скільки людей потрібно попросити пройти опитування?

Може визначати, скільки людей потрібно відправити опитування. Чим вище відсоткова частка тих, хто відповів, тим менше людей необхідно попросити пройти опитування.

Наприклад, якщо Вам потрібно 100 респондентів і Ви очікуєте, що 25% людей, запрошених взяти участь в опитуванні, дадуть відповідь на нього, Вам необхідно запросити 400 осіб.

РАДА.Якщо Вам потрібна гарантована кількість респондентів, придбайте відповіді на опитування у SurveyMonkey Audience. Ви вкажете необхідна кількістьвідповідей, і ми знайдемо респондентів, які відповідають Вашим критеріям цільової аудиторії.

Коли Ви ставите питання «Скільки мені потрібно респондентів для опитування?», Ви насправді запитуєте: «Наскільки великою має бути моя вибірка, щоб точно оцінити мою сукупність?» Зважаючи на складність цих понять, ми розбили процес на 5 кроків, даючи Вам можливість легко розрахувати ідеальний обсяг вибірки та забезпечити точність результатів опитування.

5 кроків, за допомогою яких Ви переконаєтесь, що Ваша вибірка точно оцінює генеральну сукупність:

Крок 1

Що таке Ваша генеральна сукупність?

Під терміном «генеральна сукупність» ми розуміємо цілу групу людей, думку якої Ви збираєтеся з'ясувати (вибірка складатиметься із членів цієї сукупності, які фактично візьмуть участь у опитуванні).

Наприклад, якщо ви хочете зрозуміти, як знайти ринок збуту для зубної пасти у Франції, вашою сукупністю будуть жителі Франції. А якщо Ви намагаєтеся визначити, скільки днів відпустки воліли б мати люди, які працюють на компанію з виробництва зубної пасти, Ваша генеральна сукупність - співробітники цієї компанії.

Незалежно від того, країна це чи компанія, встановлення генеральної сукупності – це важливий перший крок. Після того, як Ви визначилися з генеральною сукупністю, встановіть (приблизно) її чисельність. Наприклад, у Франції живе близько 65 мільйонів людей, а в компанії-виробнику зубної пасти працює, швидше за все, набагато менше співробітників.

Чи отримали потрібну цифру? Добре, тоді йдемо далі…

Крок 2

Яка потрібна точність?

Цей крок є своєрідною оцінкою того, на який ризик Ви готові піти щодо можливої ​​неточності відповідей на опитування у зв'язку з тим, що Ви не опитуєте всю генеральну сукупність. Тому Вам слід відповісти на два запитання:

  1. Наскільки ви впевнені, що отримані відповіді відображають думки генеральної сукупності?
    Це Ваша межа похибки. Отже, припустимо, 90% членів вибірки люблять жувальну гумкузі смаком винограду. Межа похибки в 5% додає по 5% з кожного боку цього числа, що означає, що фактично 85-95% учасників вибірки люблять жувальну гумку зі смаком винограду. 5% - найчастіше використовується межа похибки, але Ви можете встановлювати значення від 1% до 10% залежно від опитування. Не рекомендується піднімати цей показник вище 10%.
  2. Наскільки впевненими Ви повинні бути в тому, що вибірка точно представляє генеральну сукупність?

    Це ваш рівень довіри. Рівень довіри - це ймовірність того, що вибірка є значущою для отриманих результатів. Розрахунок, зазвичай, проводиться так. Якби Ви у випадковому порядку визначили ще 30 вибірок із даної сукупності, то як часто отриманий Вами результат для однієї вибірки суттєво відрізнявся б від результатів для інших 30 вибірок? Рівень довіри у 95% означає, що у 95% випадків результати збігалися б. 95% - найбільш часто використовується значення, але Ви можете встановити його на рівні 90% або 99% залежно від опитування. Опускати значення рівня довіри нижче 90% не рекомендується.

Крок 3

Якого розміру вибірка мені потрібна?

У таблиці, наведеній нижче, виберіть приблизний розмір цільової сукупності та межу похибки для визначення кількості необхідних завершених опитувань.

Тепер, коли у Вас є значення кроку 1 та кроку 2, за зручною таблицею нижче визначте розмір необхідної вибірки.

Генеральна сукупність Межа похибки Рівень довіри
10% 5% 1% 90% 95% 99%
100 50 80 99 74 80 88
500 81 218 476 176 218 286
1000 88 278 906 215 278 400
10 000 96 370 4900 264 370 623
100 000 96 383 8763 270 383 660
1 000 000+ 97 384 9513 271 384 664

Примітка. Дані наведені лише як орієнтовні інструкції. Крім того, для генеральної сукупності понад 1 млн. цифр можна округлювати до сотень.

Крок 4

Наскільки чуйними виявляться люди?

На жаль, не всі, кому Ви надішлете опитування, дадуть на нього відповідь.

Відсоток людей, які заповнили бланк отриманого опитування, називають «відсотком відповіли». Визначення відсоткової частки тих, хто відповів на Ваше опитування, допоможе встановити загальна кількістьекземплярів опитування, яке необхідно розіслати для отримання необхідної кількості відповідей.

Відсоткова частка відповіли прямим чином залежить від ряду факторів, таких як відносини з цільовою аудиторією, тривалість та складність опитування, пропоновані заохочення та тема опитування. Для онлайн-опитувань, в яких з одержувачами попередньо не були встановлені відносини, відсоткова частка тих, хто відповів у 20-30%, вважається дуже високою. Більш консервативним і можливим є значення 10-14%, якщо до цього не проводили опитування у цій сукупності.

Крок 5

Тож скільки ж людям відсилати опитування?

Це найлегший етап!

Просто розділіть число, отримане на кроці 3, на число, отримане на кроці 4. Це і є ваше чарівне число.

Наприклад, якщо Вам потрібно, щоб опитування заповнили 100 жінок, які користуються шампунем, і Ви вважаєте, що 10% жінок, яким Ви відправили опитування, його заповнять, потрібно надіслати опитування 1000 жінок (100/10%)!

Сумарна чисельність об'єктів спостереження (люди, домогосподарства, підприємства, населені пунктиі т.д.), що володіють певним набором ознак (стаття, вік, дохід, чисельність, оборот і т.д.), обмежена у просторі та часі. Приклади генеральних сукупностей

  • Усі мешканці Москви (10,6 млн. осіб за даними перепису 2002 року)
  • Чоловіки-Москвичі (4,9 млн осіб за даними перепису 2002 року)
  • Юридичні особиРосії (2,2 млн. початку 2005 року)
  • Роздрібні торгові точки, які здійснюють продаж продуктів харчування (20 тисяч початку 2008 року) тощо.

Вибірка (Вибіркова сукупність)

Частина об'єктів з генеральної сукупності, відібраних для вивчення, для того, щоб зробити висновок про всю генеральну сукупність. Для того щоб висновок, отриманий шляхом вивчення вибірки, можна було поширити на всю генеральну сукупність, вибірка повинна мати властивість репрезентативності.

Репрезентативність вибірки

Властивість вибірки коректно відбивати генеральну сукупність. Одна і та ж вибірка може бути репрезентативною та нерепрезентативною для різних генеральних сукупностей.
Приклад:

  • Вибірка, що повністю складається з москвичів, які володіють автомобілем, не представляє все населення Москви.
  • Вибірка з підприємств чисельністю до 100 людина не репрезентує всі підприємства Росії.
  • Вибірка з москвичів, які здійснюють покупки на ринку, не репрезентує купівельну поведінку всіх москвичів.

У той же час, зазначені вибірки (при дотриманні інших умов) можуть відмінно репрезентувати москвичів-автовласників, невеликі та середні російські підприємства та покупців, які купують на ринках відповідно.
Важливо розуміти, що репрезентативність вибірки та помилка вибірки – різні явища. Репрезентативність, на відміну від помилки, ніяк не залежить від розміру вибірки.
Приклад:
Як би ми не збільшували кількість опитаних москвичів-автовласників, ми не зможемо репрезентувати цією вибіркою всіх москвичів.

Помилка вибірки (довірчий інтервал)

Відхилення результатів, одержаних за допомогою вибіркового спостереження від справжніх даних генеральної сукупності.
Помилка вибірки буває двох видів – статистична та систематична. Статистична помилка залежить від розміру вибірки. Чим більший розмір вибірки, тим вона нижча.
Приклад:
Для простої випадкової вибірки розміром 400 одиниць максимальна статистична помилка(з 95% довірчою ймовірністю) становить 5%, для вибірки 600 одиниць – 4%, для вибірки 1100 одиниць – 3% Зазвичай, коли говорять про помилку вибірки, мають на увазі саме статистичну помилку.
Систематична помилка залежить від різних факторів, що надають постійний впливна дослідження та зміщують результати дослідження у певний бік.
Приклад:

  • Використання будь-яких ймовірнісних вибірок занижує частку людей із високим доходом, які ведуть активний образжиття. Відбувається це через те, що таких людей набагато складніше застати в якомусь певному місці (наприклад, вдома).
  • Проблема респондентів, які відмовляються відповідати на запитання (частка «відмовників» у Москві, для різних опитувань коливається від 50% до 80%)

У деяких випадках, коли відомі справжні розподіли, систематичну помилку можна нівелювати запровадженням квот або перезважуванням даних, але в більшості реальних досліджень навіть оцінити її досить проблематично.

Типи вибірок

Вибірки поділяються на два типи:

  • імовірнісні
  • неймовірні

1. Імовірнісні вибірки
1.1 Випадкова вибірка (простий випадковий вибір)
Така вибірка передбачає однорідність генеральної сукупності, однакову можливість доступності всіх елементів, наявність повного спискувсіх елементів. При відборі елементів зазвичай використовується таблиця випадкових чисел.
1.2 Механічна (систематична) вибірка
Різновид випадкової вибірки, впорядкований за якоюсь ознакою (алфавітний порядок, номер телефону, дата народження тощо). Перший елемент відбирається випадково, потім з кроком 'n' відбирається кожен 'k'-ий елемент. Розмір генеральної сукупності, у своїй – N=n*k
1.3 Стратифікована (районована)
Застосовується у разі неоднорідності генеральної сукупності. Генеральна сукупність розбивається на групи (страти). У кожній страті відбір здійснюється випадковим чи механічним чином.
1.4 Серійна (гніздова чи кластерна) вибірка
При серійній вибірці одиницями відбору виступають самі об'єкти, а групи (кластери чи гнізда). Групи відбираються випадковим чином. Об'єкти всередині груп обстежуються суцільником.

2.Неймовірні вибірки
Відбір у такій вибірці здійснюється за принципами випадковості, а, по суб'єктивним критеріям – доступності, типовості, рівного представництва тощо.
2.1. Квотна вибірка
Спочатку виділяється деяка кількість груп об'єктів (наприклад, чоловіки віком 20-30 років, 31-45 років і 46-60 років; особи з доходом до 30 тисяч рублів, з доходом від 30 до 60 тисяч рублів та з доходом понад 60 тисяч рублів ) Для кожної групи задається кількість об'єктів, які мають бути обстежені. Кількість об'єктів, які повинні потрапити до кожної групи, задається, найчастіше, або пропорційно заздалегідь відомої частки групи в генеральній сукупності, або однаковою для кожної групи. Усередині груп об'єкти відбираються довільно. Квотні вибірки використовуються досить часто.
2.2. Метод снігової грудки
Вибірка будується в такий спосіб. У кожного респондента, починаючи з першого, просяться контакти його друзів, колег, знайомих, які б підходили під умови відбору і могли б взяти участь у дослідженні. Отже, крім першого кроку, вибірка формується з участю самих об'єктів дослідження. Метод часто застосовується, коли необхідно знайти та опитати важкодоступні групи респондентів (наприклад, респондентів, які мають високий дохід, респондентів, що належать до однієї професійної групи, респондентів, які мають схожі хобі/захоплення тощо)
2.3 Стихійна вибірка
Опитуються найдоступніші респонденти. Типові прикладистихійних вибірок – у газетах/журналах, відданих респондентам на самозаповнення більшість інтернет-опитувань. Розмір та склад стихійних вибірок заздалегідь не відомий, і визначається лише одним параметром – активністю респондентів.
2.4 Вибір типових випадків
Відбираються одиниці генеральної сукупності, які мають середнім (типовим) значенням ознаки. При цьому виникає проблема вибору ознаки та визначення її типового значення.

Курс лекцій з теорії статистики

Більше детальну інформаціюза вибірковими спостереженнями можна отримати переглянувши.

Наведена нижче формула для розрахунку обсягу вибіркивикористовується в тих випадках, коли опитуваним (респондентам) задається лише одне питання, на яке існує лише два варіанти відповіді. Наприклад, «Так» та «Ні»; "Користуюсь" і "Не користуюся". Звісно, цю формулуможна застосовувати лише під час проведення найпростіших досліджень. Якщо Вам потрібно визначити обсяг вибірки при проведенні більш масштабних досліджень, наприклад анкетування, слід використовувати інші формули.

Проста формула для розрахунку обсягу вибірки

де: n- Обсяг вибірки;

z– нормоване відхилення, що визначається виходячи з обраного рівня довірливості. Цей показник характеризує можливість, можливість попадання відповідей у ​​спеціальний - довірчий інтервал. Насправді рівень довірливості часто приймають за 95% чи 99%. Тоді значення z будуть відповідно 1,96 та 2,58;

p- Варіація для вибірки, у частках. По суті, p – це ймовірність того, що респонденти оберуть той чи інший варіант відповіді. Припустимо, якщо ми вважаємо, що чверть опитуваних виберуть відповідь «Так», то p дорівнюватиме 25%, тобто p = 0,25;

q= (1 - p);

e- Допустима помилка, в частках.

Приклад розрахунку обсягу вибірки

Компанія планує провести соціологічне дослідженняз метою виявити частку курців у населенні міста. Для цього співробітники компанії будуть задавати перехожим одне запитання: «Ви курите?». Можливих варіантіввідповіді, таким чином, лише дві: «Так» та «Ні».

Обсяг вибірки у разі розраховується так. Рівень довірливості приймається за 95%, тоді нормоване відхилення z = 1,96. Варіацію приймаємо за 50%, тобто умовно вважаємо, що половина респондентів може відповісти на питання про те, чи курять вони – «Так». Тоді p = 0,5. Звідси знаходимо q = 1 - p = 1 - 0,5 = 0,5 . Допустиму помилку вибірки приймаємо за 10%, тобто e = 0,1.

Підставляємо ці дані у формулу та вважаємо:

Отримуємо обсяг вибірки n = 96 осіб.

Область застосування цієї формули

При проведенні простих досліджень, коли потрібно отримати відповідь на одне просте питання. У цьому шкала відповідей, зазвичай, дихотомічного характеру. Тобто пропонуються (або маються на увазі) варіанти відповідей на кшталт «Так» – «Ні», «Чорне» – «Біле», тощо.

Особливості даної формули розрахунку обсягу вибірки

Галяутдінов Р.Р.


© Копіювання матеріалу допустиме лише при вказівці прямого гіперпосилання на



Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.