Чому статистична достовірність має рівні? Статистична значимість: визначення, поняття, значущість, рівняння регресії та перевірка гіпотез

Основні риси будь-якої залежності між змінними.

Можна відзначити два найбільш простих властивостейзалежності між змінними: (a) величина залежності та (b) надійність залежності.

- Величина . Величину залежності легше зрозуміти та виміряти, ніж надійність. Наприклад, якщо будь-який чоловік у вибірці мав значення числа лейкоцитів (WCC) вище ніж будь-яка жінка, ви можете сказати, що залежність між двома змінними (Пол і WCC) дуже висока. Іншими словами, ви могли б передбачити значення однієї змінної за значеннями іншої.

- Надійність ("Істинність"). Надійність взаємозалежності – менш наочне поняття, ніж величина залежності, проте надзвичайно важливе. Надійність залежності безпосередньо пов'язана із репрезентативністю певної вибірки, на основі якої будуються висновки. Іншими словами, надійність говорить про те, наскільки ймовірно, що залежність буде знову виявлена ​​(іншими словами, підтвердиться) на даних іншої вибірки, витягнутої з тієї самої популяції.

Слід пам'ятати, що кінцевою метоюмайже ніколи не є вивчення даної конкретної вибірки значень; вибірка представляє інтерес лише остільки, оскільки вона дає інформацію про всю популяцію. Якщо дослідження задовольняє деяким спеціальним критеріям, то надійність знайдених залежностей між змінними вибірками можна кількісно оцінити та подати за допомогою стандартного статистичного заходу.

Величина залежності та надійність становлять дві різні характеристикизалежностей між змінними. Проте не можна сказати, що вони абсолютно незалежні. Чим більша величина залежності (зв'язку) між змінними у вибірці звичайного обсягу, тим більше вона надійна (див. наступний розділ).

Статистична значимістьрезультату (p-рівень) є оцінену міру впевненості у його " істинності " (у сенсі " репрезентативності вибірки " ). p align="justify"> Висловлюючись більш технічно, p-рівень - це показник, що знаходиться в спадній залежності від надійності результату. Більше високий p-рівеньвідповідає нижчому рівню довіри до знайденої у вибірці залежності між змінними. Саме p-рівень є ймовірністю помилки, пов'язаної з поширенням спостережуваного результату на всю популяцію.

Наприклад, p-рівень = 0.05(Тобто 1/20) показує, що є 5% ймовірність, що знайдена у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. У багатьох дослідженнях p-рівень 0.05 сприймається як " прийнятна межа " рівня помилки.

Не існує ніякого способу уникнути свавілля після ухвалення рішення про те, який рівень значущості слід дійсно вважати "значущим". Вибір певного рівня значимості, вище якого результати відкидаються як хибні, досить довільним.



На практиці остаточне рішеннязазвичай залежить від того, чи був результат передбачений апріорі (тобто до проведення досвіду) або виявлено апостеріорно в результаті багатьох аналізів і порівнянь, виконаних з безліччю даних, а також на традиції, що є в даній галузі досліджень.

Зазвичай у багатьох областях результат p .05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає ймовірність помилки (5%).

Результати, значущі лише на рівні p .01 зазвичай розглядаються як статистично значущі, а результати з рівнем p .005 чи p . 001 як значні. Однак слід розуміти, що дана класифікація рівнів значущості досить довільна і є лише неформальною угодою, прийнятою на основі практичного досвіду у тій чи іншій галузі дослідження.

Зрозуміло, що чим більше аналізів буде проведено із сукупністю зібраних даних, тим більше значущих (на обраному рівні) результатів буде виявлено суто випадково.

Деякі статистичні методи, що включають багато порівнянь, і, таким чином, мають значний шанс повторити такі помилки, роблять спеціальне коригування або поправку на загальне числопорівнянь. Тим не менш, багато статистичних методів (особливо прості методирозвідувального аналізу даних) не пропонують будь-якого способу вирішення цієї проблеми.

Якщо зв'язок між змінними "об'єктивно" слабка, то немає іншого способу перевірити таку залежність, крім дослідити вибірку великого обсягу. Навіть якщо вибірка є абсолютно репрезентативною, ефект не буде статистично значущим, якщо вибірка мала. Аналогічно, якщо залежність "об'єктивно" дуже сильна, тоді вона може бути знайдена з високим ступенем значущості навіть на дуже маленькій вибірці.

Чим слабкіша залежність між змінними, тим більшого обсягу потрібна вибірка, щоб значуще її виявити.

Розроблено багато різних заходів взаємозв'язку між змінними. Вибір певної міри у конкретному дослідженні залежить від кількості змінних, використовуваних шкал виміру, природи залежностей тощо.

Більшість цих заходів, проте, підкоряються загальному принципу: вони намагаються оцінити залежність, що спостерігається, порівнюючи її з "максимальною мислимою залежністю" між аналізованими змінними. Технічно кажучи, звичайний спосіб виконати такі оцінки полягає в тому, щоб подивитися, як варіюються значення змінних і потім підрахувати, яку частину всієї наявної варіації можна пояснити наявністю "загальної" ("спільної") варіації двох (або більше) змінних.

Значимість залежить переважно від обсягу вибірки. Як уже пояснювалося, у дуже великих вибірках навіть дуже слабкі залежності між змінними будуть значущими, тоді як у малих вибірках навіть дуже сильні залежності не є надійними.

Таким чином, щоб визначити рівень статистичної значущості, потрібна функція, яка представляла б залежність між "величиною" і "значимістю" залежності між змінними для кожного обсягу вибірки.

Така функція вказала б точно "наскільки можливо отримати залежність даної величини (або більше) у вибірці даного обсягу, припущення, що в популяції такої залежності немає". Іншими словами, ця функція давала б рівень значущості
(p -рівень), і, отже, можливість помилково відхилити припущення про відсутність цієї залежності у популяції.

Ця "альтернативна" гіпотеза (що полягає в тому, що немає залежності у популяції) зазвичай називається нульовою гіпотезою.

Було б ідеально, якби функція, яка обчислює ймовірність помилки, була лінійною і мала лише різні нахили для різних обсягів вибірки. На жаль, ця функція значно складніша і не завжди точно одна і та ж. Проте, здебільшого її форма відома, і її можна використовувати визначення рівнів значимості щодо вибірок заданого розміру. Більшість цих функцій пов'язані з класом розподілів, що називаються нормальним .

Як ви вважаєте, що робить вашу «другу половинку» особливою, значущою? Це пов'язано з її (його) особистістю або вашими почуттями, які ви відчуваєте до цієї людини? А може, з простим фактом, що гіпотеза про випадковість вашої симпатії, як свідчать дослідження, має ймовірність менше 5%? Якщо вважати останнє твердження достовірним, то успішних сайтів знайомств не існувало б у принципі:

Коли ви проводите спліт-тестування або будь-який інший аналіз вашого сайту, неправильне розуміння статистичної значущості може призвести до неправильної інтерпретації результатів і, отже, помилкових дій у процесі оптимізації конверсії. Це справедливо і для тисяч інших статистичних тестів, які щодня проводяться в будь-якій існуючій галузі.

Щоб розібратися, що таке «статистична значимість», необхідно поринути у історію появи цього терміна, пізнати його справжній сенс і зрозуміти, як це «нове» старе розуміння допоможе вам правильно трактувати результати своїх досліджень.

Трохи історії

Хоча людство використовує статистику для вирішення тих чи інших завдань уже багато століть, сучасне розуміння статистичної значущості, перевірки гіпотез, рандомізації і навіть дизайну експериментів (Design of Experiments (DOE) почало формуватися лише на початку 20-го століття і нерозривно пов'язане з ім'ям сера Рональда Фішера (Sir Ronald Fisher, 1890-1962):

Рональд Фішер був еволюційним біологом і статистиком, який мав особливу пристрасть до вивчення еволюції та природного відбору у тварині та рослинному світі. Протягом своєї уславленої кар'єри він розробив та популяризував безліч корисних статистичних інструментів, якими ми користуємося досі.

Фішер використовував розроблені ним методики, щоб пояснити такі процеси в біології, як домінування, мутації та генетичні відхилення. Ті ж інструменти ми можемо застосувати сьогодні для оптимізації та покращення контенту веб-ресурсів. Той факт, що ці засоби аналізу можуть бути задіяні для роботи з предметами, яких на момент створення навіть не існувало, здається досить дивним. Так само дивно, що раніше найскладніші обчислення люди виконували без калькуляторів чи комп'ютерів.

Для опису результатів статистичного експерименту як високу ймовірність виявитися істиною Фішер використовував слово «значимість» (від англ. significance).

Також однією з найцікавіших розробок Фішера можна назвати гіпотезу «сексуального сина». Згідно з цією теорією, жінки віддають свою перевагу нерозбірливим у статевих зв'язках чоловікам (гуляючим), тому що це дозволить народженим від цих чоловіків синам мати таку ж схильність і зробити більше своїх синів (звертаємо увагу, що це всього лише теорія).

Але ніхто, навіть геніальні вчені, не застраховані від помилок. Огріхи Фішера докучають фахівцям і досі. Але пам'ятаєте слова Альберта Ейнштейна: Хто ніколи не помилявся, той не створював нічого нового.

Перш ніж перейти до наступного пункту, запам'ятайте: статистична значущість — це ситуація, коли різниця в результатах проведення тестування настільки велика, що цю різницю не можна пояснити впливом випадкових факторів.

Яка ваша гіпотеза?

Щоб зрозуміти, що означає «статистична значимість», спочатку треба розібратися з тим, що таке «перевірка гіпотез», оскільки ці два терміни тісно переплітаються.
Гіпотеза — це лише теорія. Як тільки ви розробите якусь теорію, вам буде необхідно встановити порядок збирання достатньої кількості доказів і, власне, зібрати ці докази. Існує два типи гіпотез.

Яблука чи апельсини – що краще?

Нульова гіпотеза

Як правило, саме в цьому місці багато хто відчуває труднощі. Потрібно мати на увазі, що нульова гіпотеза - це не те, що потрібно довести, як, наприклад, ви доводите, що певна зміна на сайті призведе до підвищення конверсії, а навпаки. Нульова гіпотеза - це теорія, яка свідчить, що при внесенні будь-яких змін на сайт нічого не станеться. І мета дослідника спростувати цю теорію, а не довести.

Якщо звернутися до досвіду розкриття злочинів, де слідчі також будують гіпотези щодо того, хто є злочинцем, нульова гіпотеза набуває вигляду так званої презумпції невинності, концепту, згідно з яким обвинувачений вважається невинним доти, доки його вина не буде доведена в суді.

Якщо нульова гіпотеза полягає в тому, що два об'єкти рівні у своїх властивостях, а ви намагаєтеся довести, що один з них все ж таки краще (наприклад, A краще B), вам потрібно відмовитися від нульової гіпотези на користь альтернативної. Наприклад, ви порівнюєте між собою той чи інший інструмент оптимізації конверсії. У нульовій гіпотезі вони обидва надають на об'єкт впливу однаковий ефект (або ніякого ефекту). В альтернативній ефект від одного з них кращий.

Ваша альтернативна гіпотеза може містити числове значення, наприклад B - A > 20%. У такому разі нульова гіпотеза та альтернативна можуть набути наступного вигляду:

Інша назва для альтернативної гіпотези – це дослідницька гіпотезаоскільки дослідник завжди зацікавлений у доказі саме цієї гіпотези.

Статистична значимість та значення «p»

Знову повернемося до Рональда Фішера та його поняття про статистичну значущість.

Тепер, коли у вас є нульова гіпотеза та альтернативна, як ви можете довести одне та спростувати інше?

Оскільки статистичні дані за своєю природою передбачають вивчення певної сукупності (вибірки), ви ніколи не можете бути на 100% впевнені в отриманих результатах. Наочний приклад: найчастіше результати виборів розходяться з результатами попередніх опитувань і навіть ексіт-пулів

Доктор Фішер хотів створити визначник (dividing line), який дозволяв би зрозуміти, чи вдався ваш експеримент чи ні. Так і з'явився індекс достовірності. Достовірність – це той рівень, який ми приймаємо для того, щоб сказати, що ми вважаємо «значним», а що ні. Якщо «p», індекс достовірності дорівнює 0,05 або менше, то результати достовірні.

Не турбуйтеся, насправді все не так заплутано, як здається.

Розподіл ймовірностей Гауса. По краях — менш ймовірні значення змінної, у центрі — найімовірніші. P-показник (зафарбована зеленим область) - це ймовірність результату, що спостерігається, що виникає випадково.

Нормальний розподіл ймовірностей (розподіл Гаусса) — це уявлення всіх можливих значень певної змінної графіку (на малюнку вище) та його частот. Якщо ви проведете своє дослідження правильно, а потім розташуєте всі отримані відповіді на графіку, ви отримаєте саме такий розподіл. Згідно нормальному розподілу, Ви отримаєте великий відсоток схожих відповідей, а варіанти, що залишилися, розмістяться по краях графіка (так звані «хвости»). Такий розподіл величин часто зустрічається в природі, тому він і зветься «нормальним».

Використовуючи рівняння на основі вашої вибірки та результатів тесту, ви можете обчислити те, що називається тестовою статистикою, яка вкаже, наскільки відхилилися отримані результати. Вона також підкаже, наскільки близька ви до того, щоб нульова гіпотеза виявилася вірною.

Щоб не забивати голову, використовуйте онлайн-калькулятори для обчислення статистичної значущості:

Один із прикладів таких калькуляторів

Літера «p» означає ймовірність того, що нульова гіпотеза вірна. Якщо число буде невеликим, це вкаже на різницю між тестовими групами, тоді як нульова гіпотеза полягатиме в тому, що вони однакові. Графічно це буде виглядати так, що ваша тестова статистика виявиться ближче до одного з хвостів вашого дзвонового розподілу.

Лікар Фішер вирішив встановити поріг достовірності результатів на рівні p ≤ 0,05. Однак і це твердження спірне, оскільки призводить до двох труднощів:

1. По-перше, той факт, що ви довели неспроможність нульової гіпотези, не означає, що ви довели альтернативну гіпотезу. Вся ця значимість лише означає, що ви не можете довести ні A, ні B.

2. По-друге, якщо p-показник дорівнюватиме 0,049, це означатиме, що ймовірність нульової гіпотези складе 4,9%. Це може означати, що в той самий час результати ваших тестів можуть бути одночасно і достовірними, і помилковими.

Ви можете використовувати p-показник, а можете відмовитися від нього, але тоді вам буде необхідно в кожному окремому випадку вираховувати ймовірність здійснення нульової гіпотези і вирішувати, чи вона досить велика, щоб не вносити тих змін, які ви планували і тестували.

Найбільш поширений сценарій проведення статистичного тесту сьогодні – це встановлення порога значущості p ≤ 0,05 до запуску тесту. Тільки не забудьте уважно вивчити p-значення під час перевірки результатів.

Помилки 1 та 2

Пройшло так багато часу, що помилки, які можуть виникнути під час використання показника статистичної значущості, навіть отримали власні імена.

Помилка 1 (Type 1 Errors)

Як було згадано вище, p-значення, що дорівнює 0,05, означає: ймовірність того, що нульова гіпотеза виявиться вірною, дорівнює 5%. Якщо ви відмовитеся від неї, ви зробите помилку під номером 1. Результати говорять, що ваш новий веб-сайт підвищив показники конверсії, але існує 5% ймовірність, що це не так.

Помилка 2 (Type 2 Errors)

Ця помилка є протилежною до помилки 1: ви приймаєте нульову гіпотезу, в той час як вона є помилковою. Наприклад, результати тестів кажуть вам, що внесені зміни до сайту не принесли жодних покращень, тоді як зміни були. Як підсумок: ви втрачаєте можливість підвищити свої показники.

Така помилка поширена в тестах з недостатнім розміром вибірки, тому пам'ятайте: що більше вибірка, то вірогідніший результат.

Висновок

Мабуть, жоден термін серед дослідників не має такої популярності, як статистична значимість. Коли результати тестів не визнаються статистично значущими, наслідки бувають різні: від зростання показника конверсії до краху компанії.

І якщо маркетологи використовують цей термін при оптимізації своїх ресурсів, потрібно знати, що ж він означає насправді. Умови проведення тестів можуть змінюватися, але розмір вибірки та критерій успіху важливий завжди. Пам'ятайте про це.

Статистична значимість

Результати, отримані за допомогою певної процедури дослідження, називають статистично значущимиякщо ймовірність їх випадкової появи дуже мала. Цю концепцію можна проілюструвати з прикладу кидання монети. Припустимо, що монету підкинули 30 разів; 17 разів випав «орел» та 13 разів випала «решка». Чи є значущимвідхилення цього результату від очікуваного (15 випадень «орла» та 15 – «решки»), чи це відхилення випадково? Щоб відповісти на це питання, можна, наприклад, багато разів кидати ту саму монету по 30 разів поспіль, і при цьому відзначати, скільки разів повториться співвідношення «орлів» та «грашок» 17:13. Статистичний аналізпозбавляє нас від цього стомлюючого процесу. З його допомогою після перших 30 кидань монети можна провести оцінку можливої ​​кількості випадкових випадень 17 «орлів» та 13 «решок». Така оцінка називається ймовірним твердженням.

У науковій літературіз індустріально-організаційної психології ймовірнісне затвердження математичної формипозначається виразом р(ймовірність)< (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (р< 0,01). Цей факт важливий для розуміння літератури, але не слід вважати, що він говорить про безглуздість проведення спостережень, які не відповідають цим стандартам. Так звані незначні результати досліджень (спостереження, які можна одержати випадково більшеодного або п'яти разів зі 100) можуть бути дуже корисними для виявлення тенденцій і як керівництво до майбутніх досліджень.

Необхідно також зауважити, що не всі психологи погоджуються з традиційними стандартами та процедурами (наприклад, Cohen, 1994; Sauley & Bedeian, 1989). Питання, пов'язані з вимірами, самі по собі є головною темою роботи багатьох дослідників, які вивчають точність методів вимірювань та передумови, що лежать в основі існуючих методівта стандартів, а також розробляють нові медики та інструменти. Можливо, колись у майбутньому дослідження у цій владі призведуть до зміни традиційних стандартів оцінки статистичної значимості, і це зміни завоюють загальне визнання. (П'яте відділення Американської психологічної асоціації об'єднує психологів, які спеціалізуються на вивченні оцінок, вимірів та статистики.)

У звітах про дослідження ймовірне твердження, таке як р< 0,05, пов'язано деякою статистикою,тобто числом, отримане в результаті проведення певного набору математичних обчислювальних процедур. Імовірнісне підтвердження отримують шляхом порівняння цієї статистики з даними спеціальних таблиць, які публікуються для цієї мети. В індустріально-організаційних психологічних дослідженнях часто трапляються такі статистики, як r, F, t, г>(читається «хі квадрат») та R(читається «множинний R»).У кожному випадку статистику (одне число), отриману в результаті аналізу серії спостережень, можна порівняти числами з таблиці. Після цього можна сформулювати ймовірнісне твердження про можливість випадкового отримання цього числа, тобто зробити висновок про значущість спостережень.

Для розуміння досліджень, описаних у цій книзі, достатньо мати чітке уявлення про концепцію статистичної значущості та необов'язково знати, як розраховуються згадані вище статистики. Однак було б корисно обговорити одне припущення, яке є основою всіх цих процедур. Це припущення про те, що всі змінні, що спостерігаються, розподіляються приблизно за нормальним законом. Крім того, під час читання звітів про індустріально-організаційні психологічні дослідження часто зустрічаються ще три концепції, які грають важливу роль- по-перше, кореляція та кореляційний зв'язок, по-друге, детермінант/передбачувальна змінна та «ANOVA» (дисперсійний аналіз), по-третє, група статистичних методівпід загальною назвою "метааналіз".

Дослідження зазвичай починається з деякого припущення, що вимагає перевірки із залученням фактів. Це припущення - гіпотеза - формулюється щодо зв'язку явищ або властивостей в деякій сукупності об'єктів.

Для перевірки подібних припущень на фактах необхідно виміряти відповідні властивості їх носіїв. Але неможливо виміряти тривожність у всіх жінок і чоловіків, як неможливо виміряти агресивність у всіх підлітків. Тому під час проведення дослідження обмежуються лише відносно невеликою групою представників відповідних сукупностей людей.

Генеральна сукупність- Це все безліч об'єктів, щодо якого формулюється дослідницька гіпотеза.

Наприклад, усі чоловіки; чи всі жінки; або всі мешканці будь-якого міста. Генеральні сукупності, стосовно яких дослідник збирається зробити висновки за результатами дослідження, можуть бути за чисельністю і більш скромними, наприклад, всі першокласники даної школи.

Таким чином, генеральна сукупність - це хоча і не нескінченне за чисельністю, але, як правило, недоступне для суцільного дослідження безліч потенційних піддослідних.

Вибірка чи вибіркова сукупність— це обмежена за чисельністю група об'єктів (у психології — випробуваних, респондентів), яка спеціально відбирається з генеральної сукупностівивчення її властивостей. Відповідно, вивчення на вибірці властивостей генеральної сукупності називається вибірковим дослідженням. Практично все психологічні дослідженняє вибірковими, які висновки поширюються на генеральні сукупності.

Таким чином, після того, як сформульована гіпотеза і визначені відповідні генеральні сукупності, перед дослідником виникає проблема організації вибірки. Вибірка має бути такою, щоб було обґрунтовано генералізацію висновків вибіркового дослідження — узагальнення, поширення їх на генеральну сукупність. Основні критерії обгрунтованості висновків дослідженняце репрезентативність вибірки та статистична достовірність (емпіричних) результатів.

Репрезентативність вибірки— іншими словами, її представництво — це здатність вибірки представляти явища, що вивчаються, досить повно — з точки зору їх мінливості в генеральній сукупності.

Звичайно, повне уявлення про явище, що вивчається, у всьому його діапа-зоні і нюансах мінливості, може дати тільки генеральна сукупність. Тому репрезентативність завжди обмежена тією мірою, якою обмежена вибірка. І саме репрезентативність вибірки є основним критерієм при визначенні меж генералізації висновків дослідження. Тим не менш, існують прийоми, що дозволяють отримати достатню для дослідника репрезентативність вибірки (Ці прийоми вивчаються в курсі «Експериментальна психологія»).


Перший та основний прийом – це простий випадковий (рандомізований) відбір. Він передбачає забезпечення таких умов, щоб кожен член генеральної сукупності мав рівні з іншими шанси потрапити у вибірку. Випадковий відбір забезпечує можливість потрапляння у вибірку найрізноманітніших представників генеральної сукупності. При цьому вживаються спеціальні заходи, що виключають появу будь-якої закономірності при відборі. І це дозволяє сподіватися на те, що в кінцевому підсумку у вибірці досліджувана властивість буде представлена ​​якщо і не в усьому, то в максимально можливому його різноманітті.

Другий спосіб забезпечення репрезентативності - це стратифікований випадковий відбір, або відбір за властивостями генеральної сукупності. Він передбачає попереднє визначення тих якостей, які можуть впливати на мінливість досліджуваної властивості (це може бути стать, рівень доходу або освіти і т. д.). Потім визначається відсоткове співвідношення чисельності розрізняються за цими якостями груп (страт) в генеральній сукупності і забезпечується ідентичне відсоткове співвідношення відповідних груп у вибірці. Далі в кожну підгрупу вибірки випробувані підбираються за принципом простого випадкового відбору.

Статистична достовірністьабо статистична значимість, результатів дослідження визначається за допомогою методів статистичного виводу.

Чи ми застраховані від прийняття помилок при прийнятті рішень, при тих чи інших висновках з результатів дослідження? Звичайно, ні. Адже наші рішення спираються на результати дослідження вибіркової сукупності, а також рівень наших психологічних знань. Цілком ми не застраховані від помилок. У статистиці такі помилки вважаються допустимими, якщо вони мають місце не частіше ніж в одному випадку з 1000 (імовірність помилки α=0,001 або пов'язана з цим величина довірча ймовірністьправильного виведення р = 0,999); в одному випадку зі 100 (імовірність помилки α=0,01 або пов'язана з цим величина довірча вірогідність правильного виведення р=0,99) або в п'яти випадках зі 100 (імовірність помилки α=0,05 або пов'язана з цим величина довірча ймовірність правильного виведення р = 0,95). Саме на двох останніх рівнях і прийнято ухвалювати рішення у психології.

Іноді, говорячи про статистичну достовірність, використовують поняття «рівень значущості» (позначається як α). Чисельні значення р і α доповнюють один одного до 1,000 - повний набір подій: або ми зробили правильний висновок, або ми помилилися. Ці рівні не розраховуються, вони поставлені. Рівень значущості можна розуміти як «червону» лінію», перетин якої дозволить говорити про дану подію як про невипадкову. У кожному грамотному науковому звіті чи публікації зроблені висновки мають супроводжуватися зазначенням значень р або α, у яких зроблено висновки.

Методи статистичного висновку докладно розглядаються у курсі « Математична статистика». Зараз лише зазначимо, що вони висувають певні вимоги до чисельності, або обсягу вибірки.

На жаль, строгих рекомендацій щодо попереднього визначення необхідного обсягу вибірки не існує. Більше того, відповідь на питання про необхідну і достатню її чисельність дослідник зазвичай отримує надто пізно — тільки після аналізу даних вже обстеженої вибірки. Проте, можна сформулювати найзагальніші рекомендації:

1. Найбільший обсяг вибірки необхідний при розробці діагностичної методики - від 200 до 1000-2500 осіб.

2. Якщо необхідно порівнювати 2 вибірки, їхня загальна чисельність повинна бути не менше 50 осіб; чисельність порівнюваних вибірок має бути приблизно однаковою.

3. Якщо вивчається взаємозв'язок між будь-якими властивостями, то обсяг вибірки має бути не менше 30-35 осіб.

4. Чим більше мінливістьдосліджуваної властивості , тим більше має бути обсяг вибірки. Тому мінливість можна зменшити, збільшуючи однорідність вибірки, наприклад, за статтю, віком тощо. буд. У цьому, природно, зменшуються можливості генералізації висновків.

Залежні та незалежні вибірки.Звичайна ситуація дослідження, коли дослідника, що цікавить, властивість вивчається на двох або більше вибірках з метою їх подальшого порівняння. Ці вибірки можуть бути у різних співвідношеннях — залежно від процедури їх організації. Незалежні вибірки характеризуються тим, що ймовірність відбору будь-якого випробуваного однієї вибірки не залежить від відбору будь-якого з випробуваних іншої вибірки. Навпаки, залежні вибіркихарактеризуються тим, що кожному випробуваному однієї вибірки поставлено у відповідність до певному критеріювипробуваний з іншої вибірки.

У загальному випадкузалежні вибірки припускають попарний підбір досліджуваних у порівнювані вибірки, а незалежні вибірки - незалежний відбір піддослідних.

Слід зазначити, що випадки «частково залежних» (або «частково незалежних») вибірок неприпустимі: це непередбачуваним чином порушує їхню репрезентативність.

На закінчення відзначимо, що можна виділити дві парадигми психологічного дослідження.

Так звана R-методологіяпередбачає вивчення мінливості деякої якості (психологічного) під впливом деякого впливу, чинника чи іншого характеристики. Вибіркою є безліч піддослідних.

Інший підхід, Q-методологія,передбачає дослідження мінливості суб'єкта (одиничного) під впливом різних стимулів (умов, ситуацій і т. д.). Їй відповідає ситуація, коли вибіркою є безліч стимулів.

Завданням статистичного дослідження є виявлення закономірностей, що у природі досліджуваних явищ. Показники та середні величини мають бути відображенням дійсності, для чого необхідно визначати ступінь їх достовірності. Правильне відображення вибірковою сукупністю генеральної сукупності називається репрезентативністю . Мірою точності та достовірності вибіркових статистичних величин є середні помилки представницькості (репрезентативності), які залежать від чисельності вибірки та ступеня різноманітності вибіркової сукупності за досліджуваною ознакою.

Тому для визначення ступеня достовірності результатів статистичного дослідження необхідно для кожної відносної та середньої величини обчислити відповідну середню помилку. Середня помилка показника m p обчислюється за такою формулою:

При числі спостережень менше 30, де

P - величина показника у відсотках, проміле тощо.

q - доповнення цього показника до 100, якщо він у відсотках, до 1000, якщо % 0 і т.д. (тобто q = 100-P, 1000-P і т.д.)

Наприклад, відомо, що в районі протягом року захворіло на дизентерію 224 особи. Чисельність населення ― 33000. Показник захворюваності на дизентерію на

Середня помилка цього показника

Для вирішення питання про ступінь достовірності показника визначають довірчий коефіцієнт (t), що дорівнює відношенню показника для його середньої помилки, тобто.

У нашому прикладі

Що вище t, то більше вписувалося ступінь достовірності. При t = 1, ймовірність достовірності показника дорівнює 68,3%, при t = 2 - 95,5%, при t = 3 - 99,7%. У медико-статистичних дослідженнях зазвичай використовують довірчу ймовірність (надійність), рівну 95,5%-99,0%, а найбільш відповідальних випадках - 99,7%. Таким чином, у нашому прикладі показник захворюваності достовірний.

При числі спостережень менше 30 значення критерію визначається за таблицею Стьюдента. Якщо отримана величина буде вищою або дорівнює табличній – показник достовірний. Якщо нижче – не достовірний.

За необхідності порівняння двох однорідних показників достовірність їх відмінностей визначається за такою формулою:

(від більшого числа забирають менше),

де P 1 -P 2 ― різниця двох порівнюваних показників,

середня помилкарізниці двох показників.

Наприклад, у районі Б протягом року захворіло на дизентерію 270 осіб. Населення району ― 45000. Звідси захворюваність на дизентерію:

тобто. показник захворюваності достовірний.

Як видно, захворюваність у районі Б нижче, ніж у районі А. Визначаємо за формулою достовірність різниці двох показників:

За наявності великої кількості спостережень (понад 30) різниця показників є статистично достовірною, якщо t = 2 чи більше. Отже, у прикладі захворюваність у районі А достовірно вище, т.к. довірчий коефіцієнт (t) більший за 2.

Знаючи величину середньої помилки показника, можна визначити довірчі межі цього в залежності від впливу причин випадкового характеру. Довірчі межі визначаються за такою формулою:

P - показник;

m ― його середня помилка;

t ― довірчий коефіцієнт вибирається залежно від необхідної величини надійності: t=1 відповідає надійності результату у 68,3% випадків, t=2 – 95,5%, t=2,6 – 99%, t=3 – 99,7 %, t = 3,3 - 99,9 Величина називається граничною помилкою.

Наприклад, в районі Б показник захворюваності на дизентерію з точністю до 99,7 9 % може коливатися у зв'язку з випадковими факторами в межах тобто. від 49,1 до 70,9.



Схожі статті

2024 parki48.ru. Будуємо каркасний будинок. Ландшафтний дизайн. Будівництво. Фундамент.