Чому дорівнює обсяг вибірки? Інтервальне оцінювання генеральної частки

Найбільш коректний статистичний аналіз суспільного процесу забезпечують відомості про кожний його прояв. Або, кажучи статистичним мовою, повний аналіз всієї сукупності можливий лише з урахуванням значення ознаки кожної одиниці сукупності. Як приклад такого аналізу можна навести загальні переписи населення.

Проте, масовий характер суспільного явища часто тягне у себе неможливість дослідження їх у повному обсязі, тобто. у всіх його проявах. У статистичній науці розроблено спеціальний метод, що дозволяє досліджувати лише частину явища, а результати та висновки транспонувати на все явище загалом. Такий метод називається «вибіркове спостереження». Основою методу вибіркового спостереження служить взаємозв'язок між одиничним і загальним, між частиною та цілим, що існує у суспільних явищах.

Досліджувана частина статистичної сукупності називається вибірковою, а кількість одиниць, що становлять її обсяг, прийнято позначати n. Вся сукупність називається генеральною, обсяг генеральної сукупностізазвичай позначають N.

Можна виділити низку причин застосування вибіркового спостереження:

- Нестача тимчасових ресурсів (як для проведення обстеження, так для аналізу отриманого великого обсягу даних);

- Нестача кадрових ресурсів, тобто. кваліфікованих спеціалістів для проведення спостереження та аналізу;

- Нестача матеріальних ресурсів, тобто. надто дороге спостереження;

— практична неможливість урахування всіх одиниць сукупності у зв'язку з їх знищенням у результаті спостереження (наприклад, у разі обстеження схожості партії насіння, тривалості горіння електроламп тощо);

- Практична недоцільність спостереження кожної одиниці сукупності (наприклад, визначення рівня споживання продукту харчування населенням регіону і т.д.)

Основним принципом вибіркового спостереження є принцип рендомізації (від анг. random – випадок), тобто. принцип випадковості відбору одиниць сукупності, що визначає рівність одиниць наскільки можна бути відібраними у вибіркову сукупність. Цей принцип має виконуватися у разі планомірного відбору одиниць.

Внаслідок неповного обстеження генеральної сукупності можуть виникнути помилки спостереження – помилки репрезентативності. Тому основним завданням дослідника є, по-перше, забезпечення представницькості (репрезентативності) вибірки, і, по-друге, визначення ступеня впевненості відповідно до параметрів вибіркової та генеральної сукупностей.

Визначення способу відбору одиниць сукупності є важливою частиною дослідження. Існує безліч способів відбору одиниць сукупності, всі їх можна подати у вигляді трьох груп (див. рис. 1.):


Мал. 1 Способи відбору одиниць сукупності

Власно-випадковий відбір – вибір одиниць сукупності без будь-якої схеми чи системи. Може здійснюватися методом жеребкування або таблицею випадкових чисел. При застосуванні даного способувідбору необхідно впевнитись у виконанні принципу рендомізації.

Відбір із попереднім виділенням структури генеральної сукупності застосовується, якщо досліджується структурована розподілена групи) сукупність. Серійний відбір передбачає вибір однієї групи одиниць, усередині якої проводиться суцільне обстеження, серед усіх груп. Районований відбір є визначення меж вибіркової сукупності з урахуванням територіальної власності одиниць генеральної сукупності. Механічний відбір застосовується для сукупності, в якій кожній одиниці присвоєно окремий номер, а вибір здійснюється пропорційно до кількості одиниць, наприклад, кожна десята одиниця та ін.

Ступінчастий або змішаний відбір застосовується у разі поетапного проведення вибіркового спостереження, коли на різних етапахспостереження використовують різні варіантивідбору одиниць.

Серійний відбір - з генеральної сукупності відбираються не окремі одиниці, а цілі серії, групи, а потім у кожній серії, що потрапила у вибірку, обстежуються всі без винятку одиниці. Наприклад, робітників відбирають бригадами.

Комбінований відбір – генеральна сукупність ділиться на однакові групи, потім проводиться відбір груп у тому числі відбираються окремі одиниці.

Типовий відбір
- Генеральна сукупність ділиться на однорідні типові групи з яких власне випадковим або механічним способомпровадиться відбір одиниць.

Типовий відбір дає найточніші результати проти іншими методами, т.к. забезпечується репрезентативність у вибірці. Наприклад, робітники поділяються на групи з кваліфікації.

Перш ніж розпочати здійснення вибіркового спостереження необхідно визначити кількість одиниць вибіркової сукупності, що забезпечує репрезентативність, і, отже, надійність результатів дослідження.

Насправді для реалізації вибіркового спостереження дослідником задаються:

- Ступінь точності дослідження (ймовірність);

- Гранична помилка, тобто. інтервал відхилення, що визначається цілями дослідження.

З цих критеріїв, розраховується необхідна чисельність вибіркової сукупності (n) з урахуванням формули граничної помилки вибірки.

Різниця між показниками вибіркової та генеральної сукупності називається
помилкою вибірки.
Помилки вибірки поділяються на помилки реєстрації та помилки репрезентативності.

Помилки реєстраціївиникають через неправильні або неточні відомості. Джерелами таких помилок можуть бути нерозуміння суті питання, неуважність реєстратора, перепустка або повторний рахунок деяких одиниць сукупності, описки при заповненні формулярів і т.д.

Серед помилок реєстрації вирізняються систематичні,обумовлені причинами, що діють в якомусь одному напрямку і спотворюють результати роботи (наприклад, округлення цифр, тяжіння до повних п'ятірок, десятків, сотень і т. д.), і випадкові, що виявляються в різних напрямках, що врівноважують один одного і лише зрідка дають помітний сумарний результат.

Помилки репрезентативностітакож можуть бути систематичними та випадковими. Систематичні помилки репрезентативності виникають через неправильний, тенденційний відбір одиниць, при якому порушується основний принцип науково організованої вибірки - принцип випадковості. Випадкові помилки репрезентативності означають, що, незважаючи на принцип випадковості відбору одиниць, все ж таки є розбіжності між характеристиками вибіркової та генеральної сукупності. Вивчення та вимірювання випадкових помилок репрезентативності та є основним завданням вибіркового методу.

Гранична помилка вибірки визначається для середньої величини() і для частки (w), то, відповідно, маємо два варіанти визначення необхідної чисельності вибіркової сукупності:

а) для повторного відбору:


б) для безповторного відбору:


Розробляючи програму вибіркового спостереження, відразу задають величину припустимої помилки вибірки та довірчу ймовірність. Невідомим залишається той мінімальний обсяг вибірки, який повинен забезпечити необхідну точність формули визначення чисельності вибірки (п) залежать від методу відбору.

n i =

де n i - Обсяг вибірки з I - ї групи;

N - загальний обсяг вибірки;

N i - обсяг i - ї групи;

N - обсяг генеральної сукупності.

ЗАВДАННЯ 1

В результаті вибіркового обстеження заробітної плати 60 працівників підприємства промисловості були отримані такі дані (табл. 1).

Побудуйте ряд розподілу за результативною ознакою, утворивши п'ять груп з рівними інтервалами.

Визначте основні показники варіації (дисперсію, середнє квадратичне відхилення, коефіцієнт варіації), середню статечну величину (середнє значення ознаки) та структурні середні. Зобразіть графічно як: а) гістограми; б) кумуляти; в) огива. Зробіть висновок.

РІШЕННЯ

1. Визначимо розмах варіації за результативною ознакою – за виробничим стажем за формулою:

R = Хmax - Хmin = 36 - 5 = 31

де Хmax – максимальний розмір активів

Хmin – мінімальний розмір активів

2. Визначимо величину інтервалу

i = R/n = 31/5 = 6,2

з урахуванням отриманої величини інтервалів здійснюємо угруповання банків та отримуємо

3. Побудуємо допоміжну таблицю

Група призна-ка

Значення значень групи

х i

Кількість частота ознаки (частота)

f i

у % до підсумку

ω

Накопичена частота

S i

Середина інтервалу

* f i

ω

I

5 – 11,2

6,8,7,5,8,6,10,9,9,6,66,9,10,7,9,10,10,11,89,8,7,6,6,10

43,3

43,3

210,6

350,73

44,89

1167,14

II

11,2 – 17,4

16,15,13,12,17,14, 14, 12,14,17,13,15,17, 14

23,3

66,6

14,3

200,2

333,19

0,25

III

17,4 – 23,6

18,21,20, 21,18, 19,22,21,21,21,18, 19

20,0

86,6

20,5

410,0

32,49

389,88

IV

23,6 –29,8

28,29,25,28, 24

26,7

133,5

221,61

11,9

141,61

708,05

V

29,8 – 36

36,35,33

32,9

98,7

164,5

18,1

327,61

982,83

РАЗОМ

1480,03

546,85

3251,4

4. Середнє значення ознаки у досліджуваній сукупності визначається за формулою арифметичної зваженої:

року

5. Дисперсія та середнє квадратичне відхилення ознаки визначається за формулою



Визначення коливання


Таким чином, V>33,3%, отже, сукупність неоднорідна.

6. Визначення моди

Мода - значення ознаки, що найчастіше зустрічається в досліджуваній сукупності. У досліджуваному інтервальному варіаційному ряді мода розраховується за такою формулою:


де

x M0
- нижня межа модального інтервалу:

i M0- Величина модального інтервалу;

f M0-1 f M0 f M0+1- Частоти (частини) відповідно модального, домо-дального і післямодального інтервалів.

Модальний інтервал – це інтервал, що має найбільшу частоту (частина). У нашому завданні це перший інтервал.


7. Розрахуємо медіану.

Медіана – варіант, розташований у середині упорядкованого варіаційного ряду, Що ділить його на дві рівні частини, таким чином, що половина одиниць сукупності мають значення ознаки менше, ніж медіана, а половина - більше, ніж медіана.

В інтервальному ряді медіана визначається за такою формулою:


де - Початок медіанного інтервалу;

- Величина медіанного інтервалу

- Частота медіанного інтервалу;

– сума накопичених частот у домедіанному інтервалі.

Медіанний інтервал – це інтервал, де знаходиться порядковий номермедіани. Для його визначення необхідно підрахувати суму накопичених частот до числа, що перевищує половину сукупності.

За даними гр. 5 допоміжної таблиці знаходимо інтервал, суму накопичених часто у якому перевищує 50%. Це другий інтервал – від 11,6 до 18,4, і є медіанним.

Тоді


Отже, половина працівників мають стаж роботи менше 12,971 років, а половина – більша за цю величину.

6. Зобразимо ряд у вигляді полігону, гістограми, кумулятивної прямої, огива.

Графічне уявлення грає важливу рольу вивченні варіаційних рядів, так як дозволяє в простий і наочній форміпроводити аналіз статистичних даних.

Існує кілька способів графічного зображення рядів (гістограма, полігон, кумулята, огива), вибір яких залежить від мети дослідження та від виду варіаційного ряду.

Полігон розподілу в основному використовується для зображення дискретного рядуАле можна побудувати полігон і для інтервального ряду, якщо попередньо привести його до декретного. Полігон розподілу являє собою замкнуту ламану лінію в прямокутної системикоординат з координатами (x i , q i), де x i - значення i ознаки, q i - Частота або частота i-ro ознаки.

Гістограма розподілу застосовується зображення інтервального ряду. Для побудови гістограми на горизонтальній осі відкладають послідовно відрізки, рівні інтервалам ознаки, і на цих відрізках, як на підставах, будують прямокутники, висоти яких дорівнюють частот або частин для ряду з рівними інтервалами, щільностям; для ряду із нерівними інтервалами.


Кумулята є графічне зображення варіаційного ряду, коли вертикальної осі відкладаються накопичені частоти чи зокрема, але в горизонтальній – значення ознаки. Кумулята служить для графічного уявлення як дискретних, і інтервальних варіаційних рядів.


Висновок: Таким чином, було розраховано основні показники варіації досліджуваного ряду: середнє значення ознаки – виробничого стажу становить 14,8 років, розрахована дисперсія рівна 54,19, своєю чергою середнє квадратичне відхилення ознаки – 7,36. Мода має значення 9,5, модальним інтервалом є перший інтервал досліджуваного ряду. Медіана ряду дорівнює 12,971, ділить ряд на дві рівні частини говорить про те, що в досліджуваній організації половина працівників має стаж роботи менше 12,971 років, а половина – більше.

ЗАВДАННЯ 2

Є такі вихідні дані, що характеризують динаміку за 2000 – 2004 р.р. (Таблиця 2). Обчисліть основні показники рядів динаміки. Розрахунок подайте у вигляді таблиці. Розрахуйте середньорічні значення показників. У вигляді графічного зображення – полігона, позначте динаміку показника, що аналізується. Зробіть висновок.

Таблиця 2 Вихідні дані

Рік

2000

2001

2002

2003

2004

РІШЕННЯ

1) Середній рівень динаміки розраховується за формулою


2) Ланцюгові та базисні темпи зростання розраховуємо наступним чином:

1. Абсолютний приріст визначається за такою формулою:

Аiб = yi - y0

Аiц = yi - yi-1

2. Темп зростання визначається за формулою: (%)

Трб = (yi / y0) * 100

Трц = (yi / yi-1) * 100

3. Темп приросту визначається за такою формулою: (%)

Тnрб = Трб -100%:

Тnрц = Трц - 100%

4. Середній абсолютний приріст:


y n
- Кінцевий рівень динамічного ряду;

y 0
- Початковий рівень динамічного ряду;

n ц
- Число ланцюгових абсолютних приростів.

5. Середньорічний темп зростання:


6. Середньорічний темп приросту:


3) Абсолютний вміст 1% приросту:

А = Хі-1/100.

Усі розраховані показники зводимо до таблиці.

Показники

Роки

2000

2001

2002

2003

2004

Середня чисельність працюючих на підприємстві

2. Абсолютний приріст

Aіц

3. Темп зростання

Триб

81,25

50,0

62,5

56,25

Триц

81,25

61,54

125,0

90,0

4. Темп приросту

Тпіb

18,75

50,0

37,5

53,75

Тпіц

18,75

38,46

25,0

10,0

5. Значення 1% приросту

0,65

7. Зобразимо графічно як полігону.

Xi


Отже, отримано таке. Найбільше значеннясередньої чисельності працюючих для підприємства відзначається у базовому 2000 року. Середній рівень чисельності працівників підприємства дорівнює 56 осіб, середній абсолютний приріст має негативну величину та дорівнює 8,75. Середньорічний темп зростання дорівнює 75%. Зважаючи на негативну динаміку низки середньорічний темп приросту дорівнює -25%. Максимальне зниження чисельності працівників у порівнянні з базовим 2000 роком відзначається у 2002 році і дорівнює -40 осіб (темп зростання 50%). Ланцюгове зростання 2003 року має позитивну величину (+10 людина, темпи зростання ланцюгової 125%), 2004 року продовжилося зниження чисельності працівників.

ЗАВДАННЯ 3

Є дані щодо реалізації товарів (див. таблицю 3)

Таблиця 3 Вихідні дані щодо реалізації товарів

Товар

Базовий рік

Звітній рік

у

ціна

у

ціна

1200

1300

1100

1000

Визначити: а) індивідуальні індекси ( i p , i q); б) зведені індекси (I p , I q , I pq); в) абсолютна зміна товарообігу за рахунок: 1) кількості товарів; 2) зміни ціни. Зробити висновок щодо розв'язання задачі.

РІШЕННЯ

Складемо допоміжну таблицю

Вид

Базисний період

Звітний період

твір

Індекси

Кількість, q 0

Ціна, p 0

Кількість, q 1

Ціна, p 1

q 0 * p 0

q 1 * p 1

q 1 * p 0

i q = q 1 / q 0

i p = p 1 / p 0

49140

54780

51480

1,048

1,064

61320

54780

67200

1,096

0,941

62400

56700

50400

0,808

1,125

1848

2432

2128

1,152

1,143

1200

1300

90000

106600

97500

1,0833

1,093

1100

1000

92400

88000

84000

0,909

1,077

РАЗОМ

357108

363292

352708


Висновок: Як бачимо загальний приріст товарообігу за рік склав 6184 ум.од., включаючи вплив зміни кількості проданого товару на - 4400 і через зміну ціни на товар збільшення на 10584 ум.од. Загальний приріст товарообігу становив 101,7%. У той же час загалом ціни на товари, що реалізуються, зросли на 103%, а обсяг реалізації знизився на 1,1%.

ЗАВДАННЯ 4

З вихідних даних таблиці № 1 (вибрати рядки з 14 до 23 провести кореляційно-регресійний аналіз, визначити параметри кореляції та детермінації. Побудувати графік кореляційної залежності між двома ознаками (результативною та факторною). Зробити висновок.

РІШЕННЯ

Вихідні дані

Виробничий стаж

Розмір заробітної плати

1800

2500

1750

1580

1750

1560

1210

1160

1355

1480

Прямолінійна залежність

Параметри рівняння визначаються методом найменших квадратів, за системою нормальних рівняння


Для вирішення системи використовуємо метод визначників.

Параметри розраховує за формулами


x

y

Під час проектування вибіркового спостереження виникає питання необхідної чисельності вибірки. Ця чисельність може бути визначена на базі припустимої помилки при вибірковому спостереженні, виходячи з ймовірності, на основі якої можна гарантувати величину помилки, що встановлюється, і, нарешті, на базі способу відбору.

Формули необхідного обсягу вибірки різних способів формування вибіркової сукупності можуть бути виведені з відповідних співвідношень, використовуваних при розрахунку граничних помилок вибірки. Наведемо найчастіше застосовувані практично висловлювання необхідного обсягу вибірки:

· Власне-випадкова та механічна вибірки:

(Повторний відбір)

(Безповторний відбір)

· Типова вибірка:

(Повторний відбір)

(Безповторний відбір)

· Серійна вибірка:

(Повторний відбір)

(Безповторний відбір)

При цьому в залежності від цілей дослідження дисперсії та помилки вибірки можуть бути розраховані для середньої величини або частки ознаки.

Розглянемо приклади визначення необхідного обсягу вибірки при різних способахформування вибіркової сукупності.

Приклад 5.У 100 туристичних агенціях міста передбачається провести обстеження середньомісячної кількості реалізованих путівок методом механічного відбору. Якою має бути чисельність вибірки, щоб із ймовірністю 0,683 помилка не перевищувала 3 путівок, якщо за даними пробного обстеження дисперсія становить 225.

Рішення. Розрахуємо необхідний обсяг вибірки:

Агентств.

Приклад 6.З метою визначення частки співробітників комерційних банків області віком від 40 років передбачається організувати типову вибірку пропорційну чисельності співробітників чоловічої та жіночої статі з механічним відбором усередині груп. Загальна кількість співробітників банків становить 12 тис. чол., у тому числі 7 тис. чоловіків та 5 тис. жінок.

На підставі попередніх обстежень відомо, що середня з внутрішньогрупових дисперсій становить 1600. Визначте необхідний обсяг вибірки за ймовірності 0,997 і помилки 5%.

Рішення.Розрахуємо загальну чисельність типової вибірки:

чол.

Обчислимо тепер обсяг окремих типових груп:

чол.

чол.

Отже, необхідний обсяг вибіркової сукупності працівників банків становить 550 чол., зокрема. 319 чоловіків та 231 жінка.

Приклад 7.У акціонерне товариство 200 бригад робітників. Планується проведення вибіркового обстеження з метою визначення частки робітників, які мають професійні захворювання. Відомо, що міжсерійна дисперсія частки дорівнює 225. З ймовірністю 0,954 розрахуйте необхідна кількістьбригад для обстеження робочих, якщо помилка вибірки має перевищувати 5%.

Рішення.Необхідну кількість бригад розрахуємо на основі формули обсягу серійної безповторної вибірки:

бригад.

3.Визначення необхідного обсягу вибірки

Дуже важливе значення має визначення оптимальної чисельності вибірки, яка певною ймовірністю забезпечить задану точність результатів спостереження. При збільшенні кількості вибірки помилка вибірки зменшується. Але оскільки відібрані одиниці для обстеження часто руйнуються, то норми відбору одиниць у вибірку мають бути оптимальними. Оптимальну чисельність вибірки можна отримати із формул помилок вибірки.

Таблиця 8.4

Формули визначення оптимальної чисельності вибірки

Спосіб відбору

Для середньої

Власно-випадковий повторний

Випадковий та механічний безповторний

Типологічний безповторний

Серійний безповторний із рівновеликими серіями

Формули показують, що зі збільшенням передбачуваної помилки вибірки значно зменшується необхідний обсягвибірки.

Для розрахунку обсягу вибірки необхідно знати дисперсію. Вона може бути запозичена з обстежень даної або аналогічної сукупності, що проводяться раніше, або можна провести спеціальне вибіркове обстеження невеликого обсягу.

Приклад 2 : На підприємстві в порядку випадкової безповторної вибірки було опитано 100 робітників із 1000 та отримано такі дані про їхній прибуток за жовтень (табл. 8.5).

Таблиця 8.5

Розподіл робітників за розміром середнього місячного доходу

Визначити:

1) середньомісячний розмір доходу у працівників даного підприємства, гарантуючи результат із ймовірністю 0,997;

2) частку робітників підприємства, які мають місячний дохід 19 тис. руб. і вище, гарантуючи результат із ймовірністю 0,954;

3) необхідну чисельність вибірки щодо середнього місячного доходу працівників підприємства, щоб із ймовірністю 0,954 гранична помилка вибірки вбирається у 200 крб.

Рішення:

1) Визначимо середньомісячний розмір доходу у працівників цього підприємства, гарантуючи результат із ймовірністю 0,997.

n= 100 чол.

N= 1000 чол.

Рішення: для визначення інтервалу середньомісячного доходу працівників даного підприємства в генеральній сукупності необхідно знати величину граничної помилки вибірки та розмір середньомісячного доходу робітників за даними вибіркового обстеження .


tта середньої помилки вибірки .

Оскільки P = 0,997, то (табл. 8.2) t= 3.

Було здійснено випадковий безповторний відбір, за табл. 8.3 вибираємо формулу для розрахунку середньої помилки вибірки для середньої:

, де
- Дисперсія за вибіркою.

Розмір середньомісячного доходу робітників за даними вибіркового обстеження визначимо за формулою середньої арифметичної зваженої:
.

Додаткові розрахунки проведемо в таблиці:

Місячний дохід

Число робітників, чол.

Середина інтервалу

тис. руб.

тис. руб.

Знаючи tі
визначимо величину граничної помилки вибірки:

Тис. руб.

Тоді інтервал середнього місячного доходу робітників даного підприємства буде таким:

;

.

Відповідь: середньомісячний розмір доходу у працівників цього підприємства з ймовірністю 0,997 знаходиться в межах від 18,08 тис. руб. до 18,92 тис. руб.

2) Визначимо частку робітників підприємства, які мають місячний дохід 19 тис. руб. і вище, гарантуючи результат із ймовірністю 0,954.

n= 100 чол.

N= 1000 чол.

Рішення: визначення інтервалу частки робочих, мають місячний дохід 19 тис. крб. і вище необхідно знати величину граничної помилки вибірки частки
та частку робітників з таким середньомісячним доходом за даними вибірки W.

Гранична помилка вибірки визначається за формулою
. Вона залежить від величини коефіцієнта довіри tта середньої помилки вибірки.

Оскільки P=0,954, то (табл. 8.2) t= 2.

Було здійснено випадковий безповторний відбір, за табл. 8.3 вибираємо формулу для розрахунку середньої помилки вибірки для частки:

, де W- Частка робітників підприємства, що мають середньомісячний дохід 19 тис. руб. і вище за вибіркою.

Вибіркова частка визначається ставленням числа одиниць, що володіють ознакою, що вивчається mдо загального числа одиниць вибіркової сукупності n, або
.

Тоді середня помилкачастки дорівнює

Знаючи tта визначимо величину граничної помилки вибірки для частки:

Тоді інтервал частки робітників із місячним доходом 19 тис. руб. і вище у генеральній сукупності буде таким:

.

Відповідь: частка робітників підприємства, що мають місячний дохід 19 тис. руб. і вище, із ймовірністю 0,954 знаходиться в межах від 19,4% до 36,6%.

    Визначимо необхідну чисельність вибірки щодо середнього місячного доходу працівників підприємства, щоб із ймовірністю 0,954 гранична помилка вибірки вбирається у 200 крб.

N= 1000 чол.

Рішення: необхідна чисельність вибірки визначення середнього місячного доходу визначається за такою формулою (по табл. 8.4):

За умовою завдання відомі: за ймовірності Р = 0,954 t= 2 (див. табл. 8.2);

0,2 тис. руб.;
(За даними попередньої вибірки).

чол.

Відповідь: щоб із ймовірністю 0,954 гранична помилка вибірки не перевищувала 200 руб., Повинні бути обстежені 189 чол.

4.5. Визначення обсягу вибірки

Процедура складання плану вибірки включаєпослідовне розв'язання трьох наступних завдань:

визначення об'єкта дослідження;

Визначення структури вибірки;

Визначення обсягу вибірки.

Як правило, об'єкт маркетингового дослідженняє сукупність об'єктів спостереження, як яких можуть бути споживачі, співробітники компанії, посередники тощо. Якщо ця сукупність настільки нечисленна, що дослідницька група має у своєму розпорядженні необхідні трудові, фінансові та тимчасові можливості для встановлення контакту з кожним з її елементів, то цілком реально проведення суцільного дослідження всієї сукупності. У цьому випадку, визначивши об'єкт дослідження, можна приступати до наступної процедури (вибору способу збору даних, знаряддя дослідження та методу зв'язку з аудиторією).

Однак на практиці дуже часто неможливо або доцільно проведення суцільного дослідження всієї сукупності. Для цього можуть бути такі причини:

неможливість встановлення контакту з деякими елементами сукупності;

Невиправдано великі витрати для проведення суцільного дослідження чи наявність фінансових обмежень, які дозволяють проведення суцільного дослідження;

Стислі терміни, відведені для дослідження, зумовлені втратою з часом актуальності інформації або іншими причинами і не дозволяють здійснити збір, систематизацію та аналіз великих даних для всієї сукупності.

Тому великі та розкидані сукупності часто вивчаються за допомогою вибірки, під якою, як відомо, розуміється частина сукупності, покликана уособлювати сукупність загалом.

Точність, з якою вибірка відбиває сукупність загалом, залежить від структури та розміру вибірки.

Розрізняють два підходи до структури вибірки- ймовірнісний та детермінований.

Імовірнісний підхід до структури вибіркипередбачає, будь-який елемент сукупності може бути обраний з певною (не нульовою) ймовірністю. Існують різні видивибірок, заснованих на теорії ймовірностей (типова, гніздова та ін). Найбільш простий і поширеною практично є проста випадкова вибірка, коли кожен елемент сукупності має рівну ймовірність вибору на дослідження.

Імовірнісна вибірка більш точна, дозволяє досліднику оцінити ступінь достовірності зібраних ним даних, хоча вона складніша і дорожча, ніж детермінована.

Детермінований підхід до структури вибіркипередбачає, що вибір елементів сукупності виробляється методами, заснованими або міркуваннях зручності, або рішенні дослідника, або контингентних групах.

на міркуваннях зручності, полягає у виборі будь-яких елементів сукупності з простоти встановлення контакту із нею. Недосконалість цього зумовлено, можливо, низькою репрезентативністю отриманої вибірки, т.к. зручні для дослідника елементи сукупності може бути недостатньо характерними представниками сукупності з невипадкового і необгрунтованого їх відбору.

Однак, з іншого боку, простота, економічність та оперативність дослідження, що проводиться цим методом, здобули йому досить широке розповсюдженняна практиці і, насамперед під час проведення попередніх досліджень, вкладених у уточнення основних проблем.

Метод формування вибірки, заснований на рішенні дослідника, полягає у виборі елементів сукупності, які, на його думку, є її характерними представниками. Цей метод є більш досконалим, ніж попередній, оскільки в його основі лежить орієнтування на характерних представників досліджуваної сукупності, хоч і підбираються на основі суб'єктивних уявлень дослідників про неї.

Метод формування вибірки, заснований на контингентні норми, полягає у виборі характерних елементів сукупності відповідно до отриманих раніше характеристик сукупності в цілому. Ці характеристики можуть бути отримані шляхом проведення попередніх досліджень і на відміну від попереднього методу не мають суб'єктивного характеру. Тому даний метод є більш досконалим, він дозволяє отримати вибіркові сукупності не менш представницькі, ніж імовірнісні вибірки за значно менших витрат на проведення обстеження.

Вибравши структуру вибірки (підхід до її формування, вид імовірнісної чи мета формування детермінованої вибірки), досліднику належить визначити обсяг, тобто. кількість елементів вибіркової сукупності.

Обсяг вибірки визначає достовірність інформації, отриманої внаслідок її дослідження, а також необхідні для проведення дослідження витрати. Обсяг вибірки залежитьвід рівня однорідності або різновиду об'єктів, що вивчаються.

Чим більший обсяг вибірки, тим вища її точність та більше витрати на проведення її обстеження. При ймовірнісному підході до структури вибірки її обсяг може бути визначений за допомогою відомих статистичних формул на основі заданих вимог до її точності.

На практиці використовують кілька підходів до визначення обсягу вибірки:

1. Довільний підхід заснований на застосуванні «правила великого пальця». Наприклад, бездоказово приймається, що з отримання точних результатів вибірка має становити 5 % від сукупності. Даний підхід є простим і легким у виконанні, проте неможливо встановити точність отриманих результатів. При досить великій сукупності він може бути й дуже дорогим.

Обсяг вибірки можна встановити з деяких заздалегідь обумовлених умов. Наприклад, замовник маркетингового дослідження знає, що з вивченні громадської думкивибірка зазвичай становить 1000-1200 чоловік, тому він рекомендує досліднику дотримуватись цієї цифри. У разі, якщо на якомусь ринку проводяться щорічні дослідження, то кожного року використовується вибірка одного й того самого обсягу. На відміну від першого підходу тут щодо обсягу вибірки використовується відома логіка, яка, проте, є дуже вразливою.

Наприклад, при проведенні певних досліджень може знадобитися точність менше, ніж при вивченні громадської думки, та й обсяг сукупності може бути набагато менше, ніж при вивченні громадської думки. Таким чином, цей підхід не враховує поточні обставини і може бути досить дорогим.

У ряді випадків як головний аргумент щодо обсягу вибірки використовується вартість проведення обстеження. Так, у бюджеті маркетингових досліджень передбачаються витрати на проведення певних обстежень, які не можна перевищувати. Очевидно, що цінність одержуваної інформації не враховується. Однак у ряді випадків і мала вибірка може дати досить точні результати.

Видається розумним враховувати витрати не абсолютним чином, а стосовно корисності інформації, отриманої в результаті проведених обстежень. Замовник та дослідник повинні розглянути різні обсяги вибірки та методи збору даних, витрати, врахувати інші фактори

2. Обсяг вибірки від рівня довірчого інтервалу припустимої помилки, яка, як говорилося, задається доцільною точністю підсумкових узагальнень: від підвищеної до орієнтовної. Однак тут маються на увазі так звані випадкові помилки, пов'язані з природою будь-яких статистичних похибок. Саме вони обчислюються як помилки репрезентативності ймовірнісних вибірок.

В. І. Паніотто наводить такі розрахунки репрезентативної вибірки з припущенням 5-відсоткової помилки (табл. 4.2).

Таблиця 4.2

Розрахункова таблиця вибірки

Для сукупності понад 100 000 вибірка становить 400 одиниць. Якщо ж на увазі генеральні сукупності чисельністю від 5 тис. і більше, то, за розрахунками того ж автора, можна вказати величини фактичної помилки вибірки залежно від її обсягу, що для нас дуже важливо, пам'ятаючи, що величина припустимої помилки залежить від мети дослідження та необов'язково має наближатися до 5-відсоткового рівня.

Таблиця 4.3

Розрахункова таблиця

Поряд із випадковими можливі помилки систематичного характеру. Вони залежить від організації вибіркового обстеження. Це різноманітні усунення вибірки у бік одного з полюсів вибіркового параметра.

3. Обсяг вибірки з урахуванням статистичного аналізу . Цей підхід заснований на визначенні мінімального обсягу вибірки виходячи з певних вимог до надійності та достовірності результатів. Він також використовується при аналізі отриманих результатів для окремих підгруп, що формуються у складі вибірки за статтю, віком, рівнем освіти тощо. Вимоги до надійності та точності результатів для окремих підгруп диктують певні вимоги до обсягу вибірки загалом.

Найбільш теоретично обґрунтований та коректний підхід до визначення обсягу вибірки ґрунтується на розрахунку достовірних інтервалів. Поняття варіації характеризує величину несхожості відповідності респондентів на певне питання. У більш строгому плані варіацією значень будь-якої ознаки в сукупності називається відмінність його значень у різних одиниць даної сукупності в той самий період або момент часу. Результати відповіді питання опитування зазвичай подаються у формі кривої розподілу (рис. 4.1). При високій схожості відповідей говорять про малу варіацію (вузька крива розподілу) і за низької схожості відповідей – про високу варіацію (широка крива розподілу).

Як міра варіації зазвичай приймається середнє квадратичне відхилення, яке характеризує середню відстань від середньої оцінкивідповіді кожного респондента на певне питання.

Мала варіація

Висока варіація

Мал. 4.1. Варіація та криві розподіли

Оскільки всі маркетингові рішення приймаються за умов невизначеності, це обставина доцільно врахувати щодо обсягу вибірки. Оскільки визначення досліджуваних величин для сукупності у вузькому складає основі вибіркової статистики, слід встановити діапазон (довірчий інтервал), куди, як очікується, потраплять оцінки для сукупності загалом, і помилку їх визначення.

Довірчий інтервал – це діапазон, крайнім точкам якого відповідає певний відсоток певних відповідей якесь питання. Довірчий інтервал тісно пов'язаний із середнім квадратичним відхиленням ознаки, що вивчається в генеральній сукупності: чим воно більше, тим ширше повинен бути довірчий інтервал, щоб включити до свого складу певний відсоток відповідей.

Довірчий інтервал, що дорівнює або 95%, або 99%, є стандартним під час проведення маркетингових досліджень. Жодна фірма не проводить маркетингових досліджень, формуючи кілька вибірок. І математична статистика дає можливість отримати деяку інформацію про вибірковий розподіл, володіючи лише даними про варіацію єдиної вибірки.

Індикатором ступеня відмінності оцінки, істинної для сукупності загалом, від оцінки, яка очікується типової вибірки, є середня квадратична помилка. Причому чим більше обсяг вибірки, тим менше помилка. Високе значення варіації зумовлює високе значення помилки та навпаки.

Коли на задане питання існує лише два варіанти відповіді, виражені у відсотках (використовується відсотковий захід), обсяг вибірки визначається за такою формулою:

де n – обсяг вибірки; z – нормоване відхилення, що визначається виходячи з обраного рівня довірливості; p - Знайдена варіація для вибірки; g - (100-р); е – припустима помилка.

При визначенні показника варіації для певної сукупності насамперед доцільно провести попередній якісний аналіз досліджуваної сукупності, насамперед встановити схожість одиниць сукупності в демографічному, соціальному та інших відносинах, які становлять інтерес для дослідника. Можливе проведення пілотного дослідження, використання результатів подібних досліджень, проведених у минулому. При використанні процентної міри мінливості враховується та обставина, що максимальна мінливість досягається для р = 50 %, що є найгіршою нагодою. До того ж, цей показник радикальним чином не впливає на обсяг вибірки. Враховується також думка замовника дослідження щодо обсягу вибірки.

Можливе визначення обсягу вибірки з урахуванням використання середніх значень, а чи не відсоткових величин.

де s - Середнє квадратичне відхилення.

Насправді, якщо вибірка формується заново і подібні опитування проводилися, то невідомо. У цьому випадку доцільно ставити похибку в частках від середньоквадратичного відхилення. Розрахункова формула перетворюється і набуває наступний вигляд:

де .

Вище йшлося про сукупність дуже великих розмірів. Однак у ряді випадків сукупності є великими. Зазвичай, якщо вибірка становить менше п'яти відсотків від сукупності, то сукупність вважається великою і розрахунки проводяться за наведеними вище правилами. Якщо обсяг вибірки перевищує 5 % від сукупності, то остання вважається малою і вищенаведені формули вводиться поправочний коефіцієнт.

Обсяг вибірки в даному випадкувизначається так:

,

Практична робота № 8. «Визначення необхідного обсягу вибірки»

«Визначення необхідного обсягу вибірки»

Найбільш поширеним видом несплошного спостереження є вибіркове спостереження, у якому обстежуються в повному обсязі одиниці досліджуваної сукупності, лише певним чином відібрана їх частина.

Вся сукупність об'єктів (спостережень), що підлягає вивченню, називається генеральною сукупністю. Вибірковою сукупністю чи вибіркою називається частина генеральної сукупності, відібрана вивчення властивостей що забезпечує репрезентативність.

Відбір із генеральної сукупності проводиться таким чином, щоб на основі вибірки можна було отримати досить точне уявлення про основні параметри сукупності загалом. При цьому йдеться як про точковій оцінці, Якою приймається відповідне значення середньої, частки і т.д., отримане в результаті вибірки, так і про інтервальну оцінку, тобто. про тих межах, у яких з певною ймовірністю може бути значення шуканого параметра в генеральній сукупності. Головна вимога, якій має відповідати вибіркова сукупність, - це її репрезентативності, тобто. представницькості.

У статистиці результати суцільного спостереження іноді оцінюються як вибіркові показники. Таке трактування отриманих даних має місце у тих випадках, коли кількість обстежених одиниць невелика і немає твердої впевненості в тому, що характеристики, що вивчаються, не можуть приймати інших значень, крім виявлених в результаті спостереження. При проведенні експериментів число значень може бути нескінченно великим, тому формулюючи висновки на основі обмеженого їх числа, необхідно розглядати отримані дані як вибіркові характеристики.

Поширюючи результати вибіркового обстеження генеральну сукупність, слід пам'ятати, що між характеристиками генеральної і вибіркової сукупності можливе розбіжність, обумовлене тим, що обстежується не, вся сукупність, лише її часть.

Помилка статистичного спостереженнявважається величина відхилення між розрахунковим і фактичним значеннями ознак об'єктів, що вивчаються.

Вибірковий метод забезпечує значну економію матеріальних та фінансових ресурсів під час проведення статистичного спостереження, що дозволяє розширити програму обстеження та підвищити його оперативність. Друга перевага – висока достовірність одержуваних даних, оскільки за відносно невеликому обсязі вибірки можна організувати ефективний контроль за якістю інформації, що збирається. Таким чином, знижується ймовірність появи помилок реєстрації та невиявлення їх на стадії перевірки первинної інформації. І нарешті, у ряді випадків, коли суцільне спостереження пов'язане зі знищенням або псуванням обстежуваних одиниць (наприклад, при перевірці якості продуктів харчування, що надходять у продаж), можливе лише вибіркове обстеження.

Точність оцінок, отриманих з урахуванням вибіркового методу, залежить від частки обстежених одиниць, як від їх числа.

Основні етапи вибіркового спостереження;

1) визначення мети, завдань та складання програми спостереження;

2) формування вибірки;

3) збирання даних на основі розробленої програми;

4) аналіз отриманих результатів та розрахунок основних характеристик вибіркової сукупності;

5) розрахунок помилки вибірки та поширення її результатів на генеральну сукупність.

Розрізняють види вибірки:

1) випадкова(Власне-випадкова);

2) механічна(наприклад, кожен 10, 20 тощо);

3) типова (стратифікована), коли генеральна сукупність розбита на групи та в кожній групі обстежуються по кілька об'єктів));

4) серійна (гніздова), коли випадково відбираються цілі серії.

Найпростіший спосіб формування вибіркової сукупності – власне випадковий добір. Теоретичні основивибіркового методу, спочатку розроблені стосовно власне випадкового відбору, використовують і визначення помилок вибірки за інших способах спостереження.

Власне випадковий відбір може бути повторним та безповторним. При повторномуВідборі кожна одиниця, відібрана у випадковому порядку з генеральної сукупності, після проведення спостереження повертається в цю сукупність і може бути знову обстежена. Насправді такий спосіб відбору зустрічається рідко. Набагато більш поширений власне випадковий безповторнийвідбір, у якому обстежені одиниці у генеральну сукупність не повертаються і може бути обстежені повторно. При повторному доборі можливість потрапляння у вибірку кожної одиниці генеральної сукупності залишається незмінною. При безповторному відборі вона змінюється, але для всіх одиниць, що залишилися в генеральній сукупності після відбору з неї кількох одиниць, можливість попадання у вибірку однакова.

Розрахунок обсягу вибірки

З усіх питань, які ставлять співробітникам знаменитого Інституту опитувань громадської думки Геллапа, найпопулярнішим є такий: як ви можете, проінтерв'ювавши 1000 людей, судити про те, що думають 250 млн американців?

Для відповіді це питання слід згадати як високу кваліфікацію і величезний практичний досвід співробітників, а й використання ними статистики і математики. Якщо методи опитування не засновані на науці, результати можуть ввести вас в оману.

У статистиці прийнято такі розмежування обсягів вибірки. Обсяг вибірки, достатній для взаємопогашення випадковостей і отримання статистичних характеристик закономірного характеру, дорівнює 30. Вибірка такого обсягу називається малій.Характер розподілу значень ознаки у малих вибірках наближається до нормального зі зростанням кількості випробувань. Мінімальний обсяг вибірки, що дозволяє отримати середні значення ознаки із зазначенням довірчих ймовірностей, дорівнює 5. Вибірки такого обсягу називаються надмалими.Розподіл значень ознаки у таких вибірках характеризується розподілом Стьюдента. Але найчастіше у соціології мають справу з набагато більшим обсягом вибірки.

При плануванні вибіркового обстеження настає момент, коли необхідно вирішити, скільки людина опитувати, тобто. яким має бути обсяг вибірки. Це рішення надзвичайно важливе, оскільки занадто велика вибірка вимагатиме зайвих витрат, а занадто маленька знизить якість результатів.

Обсяг вибірки- загальне числоодиниць спостереження, включених у вибіркову сукупність.

Оскільки вибіркова сукупність - це частина генеральної сукупності, відібрана з допомогою спеціальних методів, - важливо, щоб ця частина спотворювала ставлення до цілому, тобто. репрезентувала його. Соціологів, які часто проводять емпіричні дослідження, постійно хвилює питання про те, як багато треба опитувати людина, щоб отримати достовірну інформацію? Інститут Геллапа в США проводить регулярні опитування щодо національної вибірки обсягом 1,5 тис. осіб і досягає разючої точності (помилка вибірки становить від 1 до 1,5%). Центр «Соціо-Експрес» Інституту соціології РАН проводить дослідження на вибірці обсягом 2 тис. осіб, при цьому помилка вибірки не перевищує 3% 31 .

Фахівці вважають, що найкраща вибірка – не обов'язково велика. Звісно, ​​що більше обсяг вибірки, то вище точність її результатів. Проте навіть велика вибірка не гарантує успіху, якщо генеральна сукупність «погано перемішана», тобто. є неоднорідною. Одноріднийвважається така сукупність, у якій контрольований ознака розподілено рівномірно, не утворює порожнеч чи згущень. І тут, опитавши кількох людина, можна отримати точну інформацію про розподіл цієї ознаки у генеральній сукупності.

Таким чином, на репрезентативність даних впливають не кількісні характеристики вибіркової сукупності (її обсяг), а якісні характеристики генеральної сукупності – ступінь її однорідності.

У соціології ще придумано єдиної і чіткої формули, використовуючи яку можна розрахувати оптимальний обсяг вибіркової сукупності, - такої формули просто немає у природі. І це пояснюється дуже просто. Справа в тому, що визначення обсягу вибіркової сукупності – проблема не так статистична, як змістовна. Іншими словами, обсяг вибіркової сукупності залежить від безлічі факторів, у тому числі від цілей і завдань, теоретичної моделі, гіпотез та методів дослідження, ступеня однорідності генеральної сукупності, нарешті, необхідної точності інформації, що отримується.

Потрібно завжди пам'ятати, що кожен відсоток приросту точності інформації в дослідженні призводить до різкого збільшення витрат на його проведення. Знаменитий інститут Геллапа, який протягом багатьох десятиліть проводить опитування в США, виявив, що при загальнонаціональній вибірці в 100 осіб - помилка вибірки буде в межах ±11%; 200 осіб – ±8%; 400 – ±6%; 600 – ±5%; 750 -±4%; 1000 – ±4%; 1500 – ±3%; 4000 осіб – ±2%. Саме тому він проводить загальнонаціональні опитування в США на вибірці 1500-2000 чоловік. Як видно, він надає перевагу збільшення помилки на 1% багаторазовому збільшенню вартості дослідження.

Практика показує, що для багатьох соціологів обґрунтування обсягу вибірки є каменем спотикання, незважаючи на значну кількість літератури, присвяченої вибірковим методам та, зокрема, розрахунку обсягу вибірки. Причин дещо: 1) дефіцит спеціальної літератури на периферії; 2) нестача часу для самоосвіти; 3) невміння скористатися математичним апаратом. У зв'язку з цим виникає потреба без складних математичних формулвикласти стратегію та тактику обґрунтування обсягу вибірки.

Процедура розрахунку обсягу вибірки - ланцюг нескінченних компромісів між прагненням до точності та обмеженістю ресурсів, дефіцитом часу та неповнотою відомостей про явище, що вивчається. Водночас це наука та мистецтво, пізнання яких доступне кожній людині. Однак для цього потрібно знати стратегії розрахунку обсягу вибірки (попереднього розрахунку, послідовної та комбінованої стратегії), а також фактори, що впливають на обсяг вибірки (обсяг генеральної сукупності, варіювання відповідей респондентів, точність оцінювання, характер передбачуваного розподілу відповідей, метод дослідження, процедура обробки) .

Стратегія попереднього розрахункуу тому, що обсяг вибірки визначається до проведення основного дослідження. У найпростішому випадку можна скористатися вже напрацьованим досвідом, наприклад, інституту Геллапа, де використовується обсяг вибірки приблизно 1500-2000 чоловік. Для середньостатистичного вітчизняного дослідження обсягу вибірки – приблизно 400-600 осіб.

Для розрахунку обсягу випадкової вибірки треба знати бажану точність оцінювання, величину ризику відповіді і ступінь мінливості відповіді. Зазвичай точність оцінювання приймають за 5%, а величину ризику - за 0,95. Інакше кажучи, якщо за даними вибіркового дослідження 60% опитаних задоволені роботою, можна стверджувати, що у генеральної сукупності частка задоволених становитиме від 55 до 65% у 95% випадків, а 5% випадків така частка може вийти цей інтервал. Якщо виходити з 5%-ної точності та величини ризику 0,95, обсяг вибірки буде наступним (табл. 2.4).

Таблиця 2.4 Залежність обсягу вибірки від обсягу генеральної сукупності



Результати, наведені у табл. 2.4, свідчать проти поширеної помилки, нібито обсяг вибірки - жорстко фіксований відсоток від генеральної сукупності, рівний 10. Насправді ця величина - не постійна, а змінна, що змінюється у конкретних умовах. Обсяг вибірки також залежить від того, які питання використовуються в анкеті. Цифри у табл. 2.4 дійсні лише для одного випадку - коли йдеться про дихотомічне питання, у якого максимальний розкид відповідей - 50 на 50%. Не маючи попередньої інформації про розкид оцінок, соціолог як би заздалегідь страхується і вважає, що цей розкид становитиме 50 на 50%. Якщо ж така інформація є, обсяг вибірки буде наступним.

Таблиця 2.5Залежність обсягу вибірки від розподілу дихотомічної відповіді

У табл. 2.5 показано розподіл відповідей якісні питання. Розрахунок обсягу вибірки для кількісних питань, що включають питання типу «вік» та «заробітна плата», будується виходячи з коефіцієнта варіації (табл. 2.6), який показує, який відсоток становить середнє квадратичне відхилення від середньої арифметичної, і дозволяє порівнювати між собою (за ступеня варіювання) будь-які ознаки.

Таблиця 2.6Залежність обсягу вибірки від коефіцієнта варіації

Коефіцієнт варіації, %
Обсяг вибірки

Якщо вивчаються умови праці, взаємини у колективі, вести і т.д. за допомогою п'ятичленної шкали, коефіцієнт варіації змінюється тут від 27 до 62%, а при використанні семичленной - від 78 до 113%. Отже, що довша шкала, то вище коефіцієнт варіації і більше має бути обсяг вибірки. Якщо соціолог хоче обійтися невеликою вибіркою, то питання має формулювати простіше. Іноді думають, що чим довша шкала, то точніше вимір. Але переваги семибальних шкал над п'ятибальними не доведені.

Серед соціологів поширена думка, згідно з якою чим більший обсяг вибірки, тим точніше результат, і це змушує їх непомірно збільшувати кількість опитаних. Насправді справа інакше: табл. 2.7, складена за даними Інституту Геллапа, показує залежність між обсягом вибірки та точністю оцінювання у відсотках. З неї випливає, що зі збільшенням обсягу вибірки точність зростає, але до певного порога. Вже за 600 опитаних досягається бажаний всім 5%-ный рівень точності. Отже, 600 осіб – прийнятний обсяг вибірки.

Між цифрами 400 та 600 осіб суперечності немає. У першому випадку обсяг вибірки розраховувався, з положення про нормальному розподілі відповідей респондентів, тоді як у другому - з практики. Розбіжність між теорією та практикою обумовлено тим, що у реальній ситуації розподіл оцінок відрізняється від нормального, тому обсяг вибірки треба розраховувати з урахуванням саме цієї обставини; Найбільш ефективним способом зменшення обсягу вибірки є зниження коефіцієнта варіації оцінок.

Таблиця 2.7Залежність між обсягом вибірки та точністю оцінювання

При розрахунку обсягу вибірки соціологи часто роблять таку помилку: розрахувавши за існуючими формулами необхідний обсяг вибірки загалом для сукупності, надалі пропорційно розміщують його за окремими підрозділами вибірки, наприклад, цехами, підприємствами, районами, містами, типами сімей. Після цього на етапі обробки даних - аналізують самі відмінності між підрозділами. Проте правильніше обчислити обсяг вибірки окремо кожному за підрозділи, а)атом підсумовувати окремі обсяги. Припустимо, розрахунки обсягу вибірки за трьома цехами (з урахуванням розмірності шкали, чисельності працюючих, характеру передбачуваного розподілу оцінок) дозволили встановити, що в першому цеху необхідно запитати 384 особи, у другому - 222, а в третьому - 600. Тоді загальний обсяг вибірки складе 384 + 222 + 600 = 1206 осіб.

Якщо соціологу необхідно опитати якусь категорію працівників (припустимо, водіїв автобусів), про яку відомо лише, що до неї належить, наприклад, десятий працівник підприємства, і він вирішив запитати 139 водіїв автобусів, а загальний обсяг вибірки для підприємства становитиме 1390 осіб, тобто. іншими словами, відбираючи випадковим чином 1390 респондентів на підприємстві, ми відповідно до теорії вибірки сподіваємося виявити 139 осіб спеціальності, що цікавить нас.

При розрахунку квотної вибірки соціологи часто довільно визначають її обсяг 1000 людина, з зручності обчислення квот. Але з таким самим успіхом можна взяти будь-яке інше кругле число. Більш обгрунтованим є підхід, у якому обсяг квотної вибірки розраховується як випадкової. Іншим варіантом розрахунку обсягу квотної вибірки є використання теорії малих вибірок. Її суть: якщо не ставиться за мету дати диференційований аналіз за групами працівників, то множать кількість градацій питань, що підлягають вивченню, на 25 (мінімальний статистичний значущий розмір групи). Наприклад, вивчають три змінні: стать - дві категорії, вік - дві категорії (до 30 років і понад 30 років), задоволеність працею - вимірюється п'ятибальною шкалою. Тоді необхідний обсяг вибірки цього прикладу складе 2x2x5x25 = 500 людина. Об'єм вибірки збільшується в 2,5 рази. Зрозуміло, що з розширенням числа змінних і градацій обсяг вибірки може стати катастрофічно більшим. Вихід лише один: детальне опрацювання вихідної проблеми, яка дозволить відбракувати зайві питання в анкеті, залишивши найважливіші. Якщо дослідження перевіряється кілька гіпотез, то обсяг вибірки для перевірки кожної гіпотези обчислюється окремо. Таким чином, при використанні вибірки кількість питань в анкеті та гіпотез має бути мінімальною.

Отже, ми розрахували потрібний обсяг вибірки. Тепер і тільки тепер необхідно перевірити, чи сумісна отримана величина з виділеними ресурсами. Типова помилкабагатьох соціологів-прикладників полягає в тому, що при розрахунку обсягу вибірки на чільне місце ставляться готівкові ресурси або, гірше того, соціолог пасивно приймає всі умови, що диктуються замовником. Це докорінно неправильно з кількох причин. По-перше, розрахунок обсягу вибірки дозволяє глибше проникнути в суть предмета, що вивчається, і специфіку методів дослідження, а значить, аргументовано вимагати отримання великих ресурсів або прийняти правильне рішеннязниження обсягу вибірки. Якщо адміністрація відмовила у додаткових ресурсах, а цілі дослідження не дозволяють скоротити обсяг вибірки (тобто соціолог не може ухвалити рішення адміністрації), то треба переходити до іншої схеми дослідження. По-друге, обґрунтований розрахунок обсягу вибірки показує професіоналізм соціолога і змушує замовника ставитися до нього більш шанобливо.

Стратегія послідовного розрахункуобсягу вибірки. При розрахунку обсягу вибірки бажано знати розкид оцінок та деякі інші параметри. Однак вони, як правило, невідомі. Щоб не допустити помилки, краще припустити, що вони максимальні. Плата за наше незнання - розбухання обсягу вибірки понад необхідний і додаткові фінансові та тимчасові витрати (доводиться опитувати більше людей). Для збереження витрат застосовується послідовна стратегія - обсяг вибірки не розраховується заздалегідь, а залежить від кінцевих результатів дослідження. Наприклад, опитують 100 чоловік, потім встановлюють величину розкиду оцінок і вже залежно від цього розраховують необхідний обсяг вибірки. Якщо виявляється, що 100 осіб достатньо, дослідження закінчується. В іншому випадку добирається необхідна кількість респондентів, але не до нескінченності. Відомий приклад із практики Дж. Геллапа, який на початку своєї кар'єри активно експериментував з обсягами вибірки. У 1936 р. американцям було поставлене запитання: «Чи хотіли б ви поновлення закону про відновлення національної промисловості?» З'ясувався дивний парадокс: Дж. Геллапа спочатку опитав 500 осіб і заміряв помилку вибірки, а потім послідовно нарощував число респондентів до 30 тис. На жаль, він виявив, що додавання 29,5 тис. опитаних збільшило точність інформації менш ніж на 1%. Отже, опитування можна було припиняти вже за 500 опитаних. Цей приклад показує, що, застосовуючи послідовну стратегію, можна досягати значного зниження необхідної кількості спостережень проти попереднім розрахунком обсягу вибірки.

Однак стратегія послідовного розрахунку обсягу вибірки приносить бажаний результат лише в тому випадку, якщо соціолог може здійснювати необхідні розрахункипід час самого опитування, наприклад телефонного, із застосуванням комп'ютерних систем. Соціолог вводить відповіді респондента у свій персональний комп'ютер, з нього результати відразу надходять на комп'ютер керівника дослідження, обробляються, і на екрані дисплея видається інформація не тільки про одномірні частоти, розподілені з того чи іншого питання, а й про необхідний обсяг вибірки.

Якщо існує небезпека, що обсяг вибірки може виявитися катастрофічно більшим, треба поєднати обидва види стратегії - попередню та послідовну, тобто. застосувати комбіновану стратегію.Розраховуючи вибірку за попередньою стратегією, отримуємо верхні допустимі значеннядля послідовної стратегії або, інакше кажучи, ту величину обсягу вибірки, при досягненні якої припиняється опитування послідовної стратегії.

Найбільш обґрунтований та коректний підхід до визначення обсягу вибірки заснований на розрахунку довірчих інтервалів, в основі якого лежить ряд базових понять математичної статистики (варіація, середнє відхилення, довірчий інтервал, середня квадратична помилка).

Для розрахунку необхідного розміруВибірки в кількісному дослідженні найчастіше використовують два статистичні поняття - довірчий інтервал та довірчу ймовірність. Довірчий інтервалявляє собою похибку вибірки, що задається вами. Наприклад, якщо ви задаєте довірчий інтервал у 3% і конкретна відповідь на конкретне питання дослідження складе 48%, це означає, що навіть при проведенні опитування всієї генеральної сукупності реальне значення потрапить в інтервал між 45 (48 – 3) та 51% (48 + 3). Довірча ймовірністьпоказує, наскільки ви можете бути впевнені в отриманих результатах, у тому, що характеристики вибірки відповідають характеристикам усієї генеральної сукупності - інакше кажучи, з якою ймовірністю випадкова відповідь потрапить у довірчий інтервал. Зазвичай використовують довірчу ймовірність 95 та 99%. Найчастіше використовується 95% - цього цілком достатньо у переважній більшості досліджень. Якщо об'єднати довірчу ймовірність і довірчий інтервал, то можна сказати, що відповіді на питання з 95% ймовірністю потраплять в інтервал між 45 і 51%.

Досить корисна наступна приблизна оцінка надійності результатів вибіркового обстеження. Підвищена надійність припускається помилки вибірки до 3%, звичайна - від 3 до 10% (довірчий інтервал розподілів на рівні 0,03-0,1), наближена - від 10 до 20%, орієнтовна - від 20 до 40%, а прикидна - понад 40%.

На основі цих понять з урахуванням ряду припущень виводяться формули розрахунку обсягу вибірки, які припускають, що репрезентативність гарантується використанням коректних ймовірнісних процедур формування вибірки.

У ряді випадків як головний аргумент щодо обсягу вибірки використовується вартість проведення обстеження. Так, у бюджеті маркетингових досліджень передбачаються витрати на проведення певних обстежень, які не можна перевищувати, і очевидно, що цінність одержуваної інформації не береться при цьому до уваги. Однак у ряді випадків і мала вибірка може дати досить точні результати.

Дослідницька практика підказує таке правило: обсяг вибірки повинен забезпечувати не менше 100 спостережень для кожної першорядної та не менше 20-50 спостережень для кожної другорядної класифікаційної складової. 11Сервісні класифікаційні складові відповідають найбільш критичним, а другорядні - найменш критичним осередкам перехресної класифікації, прийнятої в даному дослідженні 34 . Теоретичні розрахунки та практика доводять, що для отримання достовірних даних про думку та переваги населення такого великого міста, як Санкт-Петербург, достатньо опитати 700-800 осіб. Проте більшість опитувань населення тут відбуваються на вибірках обсягом до 1,5 тис. осіб.

Помилка вибірки

Як ми знаємо, репрезентативність - властивість вибіркової сукупності представляти характеристику генеральної. Якщо збігу немає, говорять про помилці репрезентативності- мірою відхилення статистичної структури вибірки від структури відповідної генеральної сукупності. Припустимо, що середній щомісячний сімейний дохід пенсіонерів у генеральній сукупності становить 2 тис. крб., а вибіркової - 6 тис. крб. Це означає, що соціолог опитував лише заможну частину пенсіонерів, а його дослідження вкралася помилка репрезентативності. Іншими словами, помилкою репрезентативності називається розбіжність між двома сукупностями- генеральної, яку спрямований теоретичний інтерес соціолога і уявлення про властивості якої хоче одержати зрештою, і вибіркової, яку спрямований практичний інтерес соціолога, яка виступає одночасно як об'єкт обстеження і отримання інформації про генеральної сукупності.

Поряд із терміном «помилка репрезентативності» у вітчизняній літературі можна зустріти інший – «помилка вибірки». Іноді вони використовують як синоніми, інколи ж «помилка вибірки» використовується замість «помилки репрезентативності» як кількісно точніше поняття.

Помилка вибірки- відхилення середніх показників вибіркової сукупності від середніх показників генеральної сукупності.

Насправді помилка вибірки визначається шляхом порівняння відомих характеристик генеральної сукупності з вибірковими середніми. У соціології під час обстеження дорослого населення найчастіше використовують дані переписів населення, поточного статистичного обліку, результати попередніх опитувань. Як контрольні параметри зазвичай застосовуються соціально-демографічні ознаки. Порівняння середніх генеральної та вибіркової сукупностей, на основі цього визначення помилки вибірки та її зменшення називається контролюванням репрезентативності.Оскільки порівняння своїх та чужих даних можна зробити після завершення дослідження, такий спосіб контролю називається апостеріорним,тобто. здійснюваним після досвіду.

В опитуваннях Інституту Дж. Геллапа репрезентативність контролюється за наявними в національних переписах даними про розподіл населення за статтю, віком, освітою, доходом, професією, расовою приналежністю, місцем проживання, величиною населеного пункту. Всеросійський центр вивчення громадської думки (ВЦВГД) використовує для таких цілей такі показники, як стать, вік, освіта, тип поселення, сімейний стан, сфера зайнятості, посадовий статус респондента, які запозичуються у Державному комітеті зі статистики РФ. У тому іншому випадку генеральна сукупність відома. Помилки вибірки неможливо встановити, якщо невідомі значення змінної у вибірковій та генеральній сукупності.

Фахівці ВЦВГД забезпечують при аналізі даних ретельний ремонт вибірки, щоб мінімізувати відхилення, що виникли на етапі польових робіт. Особливо сильні усунення спостерігаються за параметрами статі та віку. Пояснюється це тим, що та люди з вищою освітою більше часу проводять вдома і легше йдуть на контакт з інтерв'юером, тобто. є легко досяжною групою порівняно з чоловіками та людьми «неосвіченими».

Помилка вибірки обумовлюється двома факторами: методом формування вибірки та розміром вибірки.

Помилки вибірки поділяються на два типи - випадкові та систематичні. Випадкова помилка -це ймовірність того, що середня вибіркова вийде (або не вийде) за межі заданого інтервалу. До випадкових помилок відносять статистичні похибки, властиві самому вибірковому методу. Вони зменшуються у разі зростання обсягу вибіркової сукупності (табл. 2.8).

Таблиця 2.8

Залежність обсягу вибірки від її помилки 36 (розмір генеральної сукупності становить 20 тис. од.)

Помилка вибірки, %
Об'єм вибірки, од.

Другий тип помилок вибірки - систематичні помилки.Якщо соціолог вирішив дізнатися думку всіх жителів міста про проведену місцевими органами влади соціальну політику, а опитав лише тих, хто має телефон, виникає навмисне зміщення вибірки на користь заможних верств, тобто. систематична помилка.

Таким чином, систематичні помилки – результат діяльності самого дослідника. Вони найнебезпечніші, оскільки призводять до досить значних зсувів результатів дослідження. Систематичні помилки вважаються страшнішими за випадкові ще й тому, що вони не піддаються контролю та виміру.

Вони виникають, коли, наприклад: 1) вибірка відповідає завданням дослідження (соціолог вирішив вивчити лише працюючих пенсіонерів, а опитав всіх поспіль); 2) у наявності незнання характеру генеральної сукупності (соціолог думав, що 70% всіх пенсіонерів не працює, а виявилося, що не працює лише 10%); 3) відбираються лише «виграшні» елементи генеральної сукупності (наприклад, лише забезпечені пенсіонери).

Увага!На відміну від випадкових помилок, систематичні помилки при зростанні обсягу вибірки не зменшуються.

Узагальнивши всі випадки, коли відбуваються систематичні помилки, методисти склали їхній реєстр. Вони вважають, що джерелом неконтрольованих перекосів у розподілі вибіркових спостережень можуть бути наступні фактори:

♦ порушено методичні та методологічні правила проведення соціологічного дослідження;

♦ обрано неадекватні способи формування вибіркової сукупності, методи збору та розрахунку даних;

♦ відбулася заміна необхідних одиниць спостереження іншими, доступнішими;

♦ відзначено неповне охоплення вибіркової сукупності (недоотримання анкет, неповне їх заповнення, важкодоступність одиниць спостереження).

Навмисні помилки соціолог припускає рідко. Найчастіше помилки виникають через те, що соціологу погано відома структура генеральної сукупності: розподіл людей за віком, професією, доходами тощо.

Систематичні помилки легше попередити (проти випадковими), але їх дуже важко усунути. Запобігати систематичним помилкам, точно передбачаючи їх джерела, найкраще заздалегідь - на самому початку дослідження.

Ось деякі способи уникнути помилок:

♦ кожна одиниця генеральної сукупності повинна мати рівну ймовірність потрапити у вибірку;

♦ відбір бажано проводити із однорідних сукупностей;

♦ треба знати характеристики генеральної сукупності;

♦ при складанні вибіркової сукупності треба враховувати випадкові та систематичні помилки.

Якщо вибіркову сукупність (чи навіть вибірка) складено правильно, то соціолог отримує надійні результати, що характеризують всю генеральну сукупність. Якщо вона складена неправильно, то помилка, що виникла на етапі складання вибірки, на кожному наступному етапіпроведення соціологічного дослідження примножується і сягає зрештою такий величини, яка переважує цінність проведеного дослідження. Кажуть, що від такого дослідження більше шкоди, ніж користі.

Подібні помилки можуть статися лише з вибірковою сукупністю. Щоб уникнути чи зменшити ймовірність помилки, найпростіший спосіб – збільшувати розміри вибірки (і ідеалі до обсягу генеральної: коли обидві сукупності збігатимуться, помилка вибірки взагалі зникне). Економічно такий метод неможливий. Залишається інший шлях – удосконалювати математичні методи складання вибірки. Вони і застосовуються на практиці. Такий перший канал проникнення до соціології математики. Другий канал – математична обробка даних.

Особливо важлива проблемапомилок стає у маркетингових дослідженнях, де використовуються невеликі вибірки. Зазвичай вони становлять кілька сотень, рідше – тисячу респондентів. Тут вихідним пунктом розрахунку вибірки виступає питання визначення розмірів вибіркової сукупності. Чисельність вибіркової сукупності залежить від двох факторів: I) вартості збору інформації та 2) прагнення до певної міри статистичної достовірності результатів, яку сподівається отримати дослідник. Звісно, ​​навіть досвідчені в статистиці і соціології люди інтуїтивно розуміють, що більше розміри вибірки, тобто. що ближче вони до розмірів генеральної сукупності загалом, то надійніші і достовірні помучені дані. Однак ми вже говорили про практичну неможливість суцільних опитувань у тих випадках, коли вони проводяться на об'єктах, чисельність яких перевищує десятки, сотні тисяч і навіть мільйони. Зрозуміло, що вартість збору інформації (що включає оплату тиражування інструментарію, праці анкетерів, польових менеджерів та операторів з комп'ютерного введення) залежить від суми, яку готовий виділити замовник, і слабо залежить від дослідників. Що ж до другого фактора, то ми зупинимося на ньому трохи докладніше.

Отже, що більше величина вибірки, то менше можлива помилка. Хоча необхідно відзначити, що за бажання збільшити точність удвічі вам доведеться збільшити вибірку не вдвічі, а вчетверо. Наприклад, щоб зробити вдвічі точнішою оцінку даних, отриманих шляхом опитування 400 осіб, вам потрібно опитати не 800, а 1600 осіб. Втім, навряд чи маркетингове дослідження потребує стовідсоткової точності. Якщо пивовару необхідно дізнатися, яка частина споживачів пива віддає перевагу саме його марці, а не сорту його конкурента, - 60% або 40%, то на його плани ніяк не вплине різниця між 57%, 60 або 63%.

Помилка вибірки може залежати як від її величини, а й від ступеня відмінностей між окремими одиницями всередині генеральної сукупності, що її досліджуємо. Наприклад, якщо нам потрібно дізнатися, яка кількість пива споживається, то ми виявимо, що всередині нашої генеральної сукупності норми споживання різних людейістотно різняться (гетерогеннаГенеральна сукупність). В іншому випадку ми вивчатимемо споживання хліба і встановимо, що у різних людейвоно відрізняється набагато менш суттєво (ГомогеннаГенеральна сукупність). Чим більша різниця (або гетерогенність) всередині генеральної сукупності, тим більша величина можливої ​​помилки вибірки. Зазначена закономірність лише підтверджує те, що нам підказує простий здоровий глузд. Таким чином, як справедливо стверджує В. Ядов, «чисельність (обсяг) вибірки залежить від рівня однорідності чи різнорідності об'єктів, що вивчаються.Що більше вони однорідні, то менша чисельність може забезпечити статистично достовірні висновки».

Визначення обсягу вибірки залежить також від рівня довірчого інтервалу допустимої статистичної помилки. Тут маються на увазі так звані випадковіпомилки, пов'язані з природою будь-яких статистичних похибок. В.І. Паніотто наводить такі розрахунки репрезентативної вибірки з припущенням 5% помилки (табл. 2.9):

Таблиця 2.9

Розрахунки репрезентативної вибірки

Це означає, що якщо ви, опитавши, припустимо, 400 осіб у районному місті, де чисельність дорослого платоспроможного населення становить 100 тис. осіб, виявили, що 33% опитаних покупців віддають перевагу продукції місцевого м'ясокомбінату, то з 95% ймовірністю можете стверджувати , що постійними покупцямицієї продукції є 33±5% (тобто від 28 до 38%) мешканців цього міста.

Можна також скористатися розрахунками інституту Геллапа для оцінки співвідношення розмірів вибірки та помилки вибірки (див. вище).

Сьогодні багато важких розрахунків бере на себе техніка, а статистичні програми можна отримати через Інтернет. Ось і з розрахунком вибірки лінивому соціологу надали таку можливість на веб-сайті Аналітичного центру «Бізнес та маркетинг» (http://www.bma.ru/enter.htm), де користувачеві треба лише внести необхідні дані, а потім натиснути кнопку "Розрахувати".

Кожна професія має свій набір улюблених питань. Для дослідників ринку цей список очолює, безумовно, питання розмірі вибірки. Зазвичай його формулюють так:

  • Ми хотіли б замовити дослідження щодо відвідувачів московських торгових центрів. Яка нам потрібна вибірка?
  • Наша цільова аудиторія – приблизно 300 000 людей. Скільки людей потрібно опитати, щоб було репрезентативно? А якщо цільова аудиторія буде 3 млн?
  • Нам необхідно оцінити потенціал продажів квартир у Санкт-Петербурзі мешканцям північних міст Росії. Яку вибірку зробити?
Розмір вибірки дійсно важливий, тому що визначає вартість майбутнього дослідження, не кажучи вже про якість підсумкових результатів та висновків. У цій статті ми розповімо про те, як розрахувати оптимальний розмірвибірки масового опитування. Наш матеріал буде корисним усім, хто так чи інакше стикається з необхідністю проведення маркетингових досліджень своїми силами або замовляє їх у спеціалізованого агентства.

Головна помилка про розмір вибірки

Багато хто впевнений, що чим більший розмір цільової групи, тим більше має бути розмір вибірки. Тому, нібито, щоб дізнатися думку мешканців маленького міста, достатньо опитати чоловік 200-300, ну а для з'ясування думки щодо Росії загалом і 5000 буде мало.

Тим часом цей стереотип не має нічого спільного з реальністю. Розмір вибірки не залежить від чисельності цільової групи (мовою статистики вона називається «генеральною сукупністю») і визначається двома зовсім іншими факторами. Єдиний виняток із цього правила – випадки, коли генеральна сукупність дуже маленька, наприклад, 1-2 тисячі осіб, але такі ситуації у реальній практиці маркетингових досліджень трапляються рідко.

Два фактори, від яких залежить розмір вибірки

Розмір вибірки масового опитування залежить від двох факторів:

  1. Точності даних, які потрібно отримати на виході – це та сама «статистична похибка». Для вибірки у 100 респондентів вона буде у межах плюс-мінус 10%, а для вибірки у 1000 респондентів – у межах плюс-мінус 3,1%. Докладніше про це – нижче.
  2. Кількості та розміру підгруп, на які потрібно розбивати вибірку під час аналізу. Наприклад, якщо проводиться електоральне дослідження, то переважно нас цікавитиме ядро ​​активних виборців. Зазвичай, частка «ядра» рідко перевищує 20-25% від населення. Тому розмір вибірки потрібно розраховувати так, щоб одна чверть від загального обсягу дозволяла проводити повноцінний статистичний аналіз.
Всупереч поширеній думці, якість вибірки визначається не її розміром, а репрезентативністю. Репрезентативність – це відповідність між вибіркою та генеральною сукупністю за ключовими параметрами. Найчастіше, як такі «реперні точки» використовують соціально-демографічні показники, що легко вимірюються: стать, вік, освіта, рід занять і місце проживання.

Два різновиди помилки вибірки

Будь-яке вибіркове спостереження (тобто коли ми опитуємо не всіх поспіль, а робимо випадковий відбір із генеральної сукупності) пов'язане з похибкою даних. Цю похибку зазвичай називають помилкою вибірки. Вона може бути двох видів:

  1. Систематична- Пов'язана з помилками проектування вибірки. Оцінити її розмір, напрямок та ступінь усунення дуже складно, найчастіше – неможливо. Наприклад, якщо питання респондентам задаватимуть представники маргінальних соціальних верств, це вплине на готовність брати участь у дослідженні з боку представників більш забезпечених груп населення. У результаті це призведе до вкрай важко оцінюваної систематичної помилки та спотворення даних.
  2. Випадкова- Пов'язана з дією законів статистики. Її розмір легко розраховується за формулами математичної статистики та теорії ймовірності. Вони дозволяють робити обґрунтовані висновки про довірчий інтервал ознаки. Наприклад, якщо статистична похибка становить плюс-мінус 10%, а отримане значення показника дорівнювало 25%, то довірчий інтервал дорівнює від 15% до 35%.

Завдання дослідника – зібрати дані те щоб мінімізувати систематичну помилку вибірки. Тоді можна буде звести статпохибку лише до випадкової помилки, яку можна розрахувати за формулами.

Як розрахувати розмір випадкової помилки вибірки

Випадкова помилка вибірки залежить тільки від обсягу вибірки, а й від дисперсії, тобто ступеня однорідності даних. Чим однорідніші дані (тобто чим менше розкид отриманих значень, або дисперсія), тим менша помилка вибірки.

Існує формула розрахунку випадкової помилки вибірки, проте для зручності рекомендуємо користуватися онлайн-калькуляторами, наприклад, ось цим. Він дозволяє легко провести два види розрахунку:

  • розрахувати величину статистичної похибки на основі розміру вибірки та передбачуваної дисперсії;
  • визначити розмір вибірки, необхідний отримання оцінки потрібного ступеня точності.
Ось так виглядає його робоче вікно:

Як параметр довірчої надійності (одне з полів у калькуляторі) зазвичай використовується значення 95%. Це означає, що в 95% випадків розподіл ознаки в генеральній сукупності потрапить до розрахованого довірчого інтервалу (тобто саме значення ознаки у вибірці плюс-мінус розмір статистичної похибки). Рідше використовується значення надійності у 97% або 99% – воно, відповідно, означає, що таке потрапляння відбудеться у 97% чи 99% випадків. У разі надійність вибірки підвищується, але збільшується розмір вибірки.

Найскладніше щодо розміру вибірки – пошук компромісу між необхідної точністю і вартістю збору даних. Цей процес ускладнюється тим, що збільшення розміру вибірки вчетверо призводить до збільшення точності лише вдвічі (відповідає квадратного коренявід величини приросту вибірки).

Кейс: визначення розміру вибірки для оцінки потенціалу ринку продажу столичної нерухомості покупцям із регіонів

У листопаді-грудні 2016 року ми провели дослідження попиту на квартири в новобудовах Москви та Санкт-Петербурга з боку мешканців різних міст Росії. Дослідження включало в себе три методи збору даних: масове репрезентативне опитування населення у віці від 20 до 60 років (проводилося з використанням технології CATI), а також серію експертних інтерв'ю з ріелторами та глибинних інтерв'ю з потенційними покупцямиквартир.

Дослідження охоплювало 33 міста, що відрізняються підвищеним попитом на петербурзьку та московську нерухомість. Планова вибірка дослідження, розрахована за формулами, становила 21500 респондентів. Цей обсяг значно більший за «стандартний» обсяг вибірки, що використовується в маркетингових дослідженнях. З чим пов'язаний такий великий розмір вибірки?

Справа в тому, що клієнту були потрібні оцінки окремо по кожному місту, а не просто «загалом по країні». Практично ми працюємо не з 1 вибіркою, а з 33 окремими вибірками по кожному місту. Частка людей, зацікавлених у купівлі квартири в Санкт-Петербурзі або Москві, була експертно визначена в рамках 5% від числа мешканців опитуваних міст.

Залежно від важливості міста для замовника керівник проекту з боку Агентства визначив допустиму статистичну похибку, в яку повинні вкладатися підсумкові результати. Для цього ми використовували спеціальний макрос у MS Excel, але ці розрахунки також можна виконати за допомогою калькулятора вибірки. В результаті розмір вибірки варіював від 500 до 1000 респондентів по кожному з міст дослідження, що в сумі дало заявлені 21 500 осіб.

  1. Визначте структуру цільової групи. Чи плануєте ви аналізувати окремі підгрупи чи достатньо буде аналізу щодо вибірки загалом?
  2. Визначте бажану точність даних. Наприклад, якщо потрібно оцінити динаміку ринкової частки за рік, підставте в спеціальний калькулятор зразкове значення частки і «пограйте» з різними обсягами вибірки.
  3. Знайдіть баланс між вартістю збору даних (прямо пропорційною обсягу вибірки) і необхідною точністю.

Один із головних компонентів ретельно продуманого дослідження – визначення вибірки та що таке репрезентативна вибірка. Це як у прикладі з тортом. Не обов'язково ж з'їдати весь десерт, щоб зрозуміти його смак? Досить невеликої частини.

Так ось, торт – це Генеральна сукупність (Тобто всі респонденти, які підходять для опитування). Вона може бути виражена територіально, наприклад, лише жителі Московської області. Гендерно – лише жінки. Або мати обмеження за віком – росіяни віком від 65 років.

Вирахувати генеральну сукупність складно: потрібно мати дані перепису населення чи попередніх оціночних опитувань. Тому зазвичай генеральну сукупність «прикидають», та якщо з отриманого числа вираховують вибіркову сукупністьабо вибірку.

Що таке репрезентативна вибірка?

Вибірка- Це чітко визначена кількість респондентів. Її структура має максимально збігатися зі структурою генеральної сукупності за основними характеристиками відбору.

Наприклад, якщо потенційні респонденти – все населення Росії, де 54% — це жінки, а 46% — чоловіки, то вибірка повинна містити таке саме відсоткове співвідношення. Якщо збіг параметрів відбувається, вибірку можна назвати репрезентативною. Це означає, що неточності та помилки у дослідженні зводяться до мінімуму.

Обсяг вибірки визначається з урахуванням вимог точності та економічності. Ці вимоги обернено пропорційні одна одній: що більше обсяг вибірки, то точніше результат. У цьому що вища точність, тим більше витрат необхідно проведення дослідження. І навпаки, що менше вибірка, то менше на неї витрат, тим менш точно і більш випадково відтворюються властивості генеральної сукупності.

Тому для обчислення обсягу вибору соціологами було винайдено формулу та створено спеціальний калькулятор:

Довірча ймовірністьі довірча похибка

Що означають терміни « довірча ймовірність» та « довірча похибка»? Довірча ймовірність – це показник точності вимірів. А довірча похибка – можлива помилка результатів дослідження. Наприклад, при генеральній сукупності понад 500 00 осіб (припустимо, що проживають у Новокузнецьку) вибірка дорівнюватиме 384 особи при довірчої ймовірності 95% та похибки 5% АБО (при довірчому інтервалі 95±5%).

Що з цього випливає? При проведенні 100 досліджень з такою вибіркою (384 особи) у 95 відсотків випадків відповіді, що одержуються, за законами статистики будуть знаходитися в межах ±5% від вихідного. І ми отримаємо репрезентативну вибірку із мінімальною ймовірністю статистичної помилки.

Після того, як підрахунок обсягу вибірки виконано, можна подивитися чи є достатня кількість респондентів у демо-версії Панелі Анкетолога. А як провести панельний опитування можна докладніше дізнатися.



Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.