تست خوب بودن تناسب پیرسون. معیار پیرسون آزمون فرضیه توزیع نرمال

آزمون χ 2 پیرسون یک روش ناپارامتریک است که به شما امکان می‌دهد تا اهمیت تفاوت‌ها را بین تعداد واقعی (که در نتیجه مطالعه آشکار شد) نتایج یا نتایج را ارزیابی کنید. ویژگی های کیفینمونه هایی که در هر دسته قرار می گیرند و تعداد نظری که در صورت صحت فرضیه صفر در گروه های مورد مطالعه انتظار می رود. به بیان ساده، این روش به شما امکان می دهد تخمین بزنید اهمیت آماریتفاوت بین دو یا چند شاخص های نسبی(فرکانس ها، سهام).

1. تاریخچه توسعه معیار χ 2

آزمون خی دو برای تجزیه و تحلیل جداول احتمالی در سال 1900 توسط ریاضیدان، آماردان، زیست شناس و فیلسوف انگلیسی، بنیانگذار آمار ریاضیو یکی از بنیانگذاران بیومتریک است کارل پیرسون(1857-1936).

2. چرا از آزمون χ 2 پیرسون استفاده می شود؟

در تجزیه و تحلیل می توان از آزمون کای دو استفاده کرد جداول احتمالیحاوی اطلاعات در مورد فراوانی پیامدها بسته به وجود یک عامل خطر. مثلا، جدول احتمالی چهار میدانیبه شرح زیر است:

یک نتیجه وجود دارد (1) بدون نتیجه (0) جمع
یک عامل خطر وجود دارد (1) آ ب A+B
بدون عامل خطر (0) سی D C+D
جمع A+C B+D A+B+C+D

چگونه می توان چنین جدول احتمالی را پر کرد؟ بیایید به یک مثال کوچک نگاه کنیم.

مطالعه ای در مورد تأثیر سیگار بر خطر ابتلا به فشار خون شریانی در حال انجام است. برای این منظور، دو گروه از آزمودنی‌ها انتخاب شدند - گروه اول شامل 70 نفر که حداقل 1 پاکت سیگار در روز می‌کشیدند، گروه دوم شامل 80 فرد غیر سیگاری در همان سن بودند. در گروه اول 40 نفر فشار خون بالا داشتند. در مرحله دوم، فشار خون شریانی در 32 نفر مشاهده شد. بر این اساس، فشار خون نرمال در گروه افراد سیگاری در 30 نفر (70 - 40 = 30) و در گروه غیر سیگاری - در 48 نفر (80 - 32 = 48) بود.

جدول احتمالی چهار میدانی را با داده های اولیه پر می کنیم:

در جدول احتمالی حاصل، هر خط مربوط به گروه خاصی از موضوعات است. ستون ها - تعداد افراد مبتلا به فشار خون شریانی یا طبیعی را نشان می دهد فشار خون.

وظیفه ای که بر عهده محقق گذاشته می شود این است: آیا از نظر آماری تفاوت معنی داری بین فراوانی افراد مبتلا به فشار خون در بین افراد سیگاری و غیر سیگاری وجود دارد؟ این سوال را می توان با محاسبه آزمون کای دو پیرسون و مقایسه مقدار به دست آمده با مقدار بحرانی پاسخ داد.

3. شرایط و محدودیت های اعمال آزمون کای اسکوئر پیرسون

  1. شاخص های قابل مقایسه باید در اندازه گیری شوند مقیاس اسمی(مثلاً جنسیت بیمار مرد یا زن است) یا در ترتیبی(مثلا مدرک تحصیلی فشار خون شریانی، گرفتن مقادیر از 0 تا 3).
  2. این روشبه شما امکان می دهد نه تنها جداول چهار میدانی را تجزیه و تحلیل کنید، زمانی که عامل و نتیجه هر دو متغیر باینری هستند، یعنی فقط دو مقدار ممکن دارند (به عنوان مثال، مرد یا زن، وجود یا عدم وجود یک بیماری خاص در تاریخچه ...). آزمون کای دو پیرسون همچنین می تواند در مورد تجزیه و تحلیل جداول چند میدانی استفاده شود، زمانی که یک عامل و (یا) نتیجه سه مقدار یا بیشتر را دریافت کند.
  3. گروه هایی که مقایسه می شوند باید مستقل باشند، یعنی هنگام مقایسه مشاهدات قبل و بعد از آزمون کای دو استفاده نشود. تست مک نمار(هنگام مقایسه دو جمعیت مرتبط) یا محاسبه می شود آزمون کیو کوکران(در صورت مقایسه سه گروه یا بیشتر).
  4. هنگام تجزیه و تحلیل جداول چهار میدانی ارزش های مورد انتظاردر هر سلول باید حداقل 10 وجود داشته باشد. اگر حداقل در یک سلول پدیده مورد انتظار از 5 تا 9 به دست آید، آزمون کای دو باید محاسبه شود. با اصلاحیه یتس. اگر حداقل در یک سلول پدیده مورد انتظار کمتر از 5 باشد، باید از تجزیه و تحلیل استفاده کرد تست دقیق فیشر.
  5. هنگام تجزیه و تحلیل جداول چند میدانی، تعداد مشاهدات مورد انتظار در بیش از 20 درصد سلول ها نباید کمتر از 5 باشد.

4. چگونه آزمون کای دو پیرسون را محاسبه کنیم؟

برای محاسبه آزمون کای دو نیاز دارید:

این الگوریتم برای جداول چهار میدانی و چند میدانی قابل اجرا است.

5. چگونه می توان مقدار آزمون کای دو پیرسون را تفسیر کرد؟

اگر مقدار به دست آمده از معیار χ2 بیشتر از مقدار بحرانی باشد، نتیجه می گیریم که رابطه آماری بین عامل خطر مورد مطالعه و نتیجه در سطح معنی داری مناسب وجود دارد.

6. مثالی از محاسبه آزمون کای اسکوئر پیرسون

اجازه دهید با استفاده از جدول فوق، اهمیت آماری تأثیر عامل سیگار کشیدن بر بروز فشار خون شریانی را تعیین کنیم:

  1. ما مقادیر مورد انتظار را برای هر سلول محاسبه می کنیم:
  2. مقدار آزمون کای دو پیرسون را پیدا کنید:

    χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

  3. تعداد درجات آزادی f = (2-1)*(2-1) = 1. با استفاده از جدول مقدار بحرانی آزمون کای دو پیرسون را می یابیم که در سطح معنی داری 05/0=p و عدد درجه آزادی 1 3.841 است.
  4. ما مقدار به دست آمده از آزمون کای دو را با مقدار بحرانی مقایسه می کنیم: 4.396 > 3.841، بنابراین، وابستگی بروز فشار خون شریانی به حضور سیگار از نظر آماری معنی دار است. سطح معنی داری این رابطه با p مطابقت دارد<0.05.
هدف از معیار χ 2 - معیار پیرسون معیار χ 2 برای دو هدف استفاده می شود: 1) برای مقایسه توزیع تجربی یک مشخصه با ویژگی نظری - یکنواخت، نرمال یا موارد دیگر. 2) مقایسه دو، سه یا چند توزیع تجربی از یک مشخصه. توصیف معیار معیار χ2 به این سوال پاسخ می دهد که آیا مقادیر مختلف یک مشخصه با فرکانس مساوی در توزیع های تجربی و نظری یا در دو یا چند توزیع تجربی رخ می دهد. مزیت روش این است که به فرد امکان می دهد توزیع ویژگی های ارائه شده در هر مقیاس را با شروع از مقیاس نام ها مقایسه کند. در ساده ترین حالت توزیع جایگزین "بله - نه"، "عیب مجاز است - نقص اجازه نمی دهد"، "مشکل را حل کرد - مشکلی را حل نکرد" و غیره، می توانیم از قبل معیار χ 2 را اعمال کنیم. هرچه اختلاف بین دو توزیع مقایسه شده بیشتر باشد، مقدار تجربی χ 2 بیشتر است. محاسبه خودکار χ 2 - معیار پیرسون برای انجام محاسبه خودکار χ 2 - معیار پیرسون باید دو مرحله را انجام دهید: مرحله 1. تعداد توزیع های تجربی (از 1 تا 10) را مشخص کنید. گام 2. فرکانس های تجربی را در جدول وارد کنید. مرحله 3. جواب بگیرید.

مزیت معیار پیرسون جهانی بودن آن است: می توان از آن برای آزمون فرضیه های مربوط به قوانین توزیع مختلف استفاده کرد.

1. آزمون فرضیه توزیع نرمال.

بگذارید یک نمونه به اندازه کافی بزرگ به دست آید پبا بسیاری از گزینه های معانی مختلف. برای سهولت در پردازش آن، فاصله را از کوچکترین تا بزرگ ترین مقدار گزینه به سقسمت های مساوی و فرض می کنیم که مقادیر گزینه هایی که در هر بازه قرار می گیرند تقریباً برابر با عددی است که وسط فاصله را مشخص می کند. با شمارش تعداد گزینه هایی که در هر بازه قرار می گیرند، یک نمونه به اصطلاح گروه بندی شده ایجاد می کنیم:

گزینه ها……….. ایکس 1 ایکس 2 … x s

فرکانس ها…………. پ 1 پ 2 … n s ,

جایی که x iمقادیر نقاط میانی فواصل هستند و n من- تعداد گزینه های موجود در من-فاصله (فرکانس های تجربی).



از داده های به دست آمده می توانید میانگین نمونه و انحراف معیار نمونه را محاسبه کنید σ B. بیایید این فرض را بررسی کنیم که جمعیت بر اساس یک قانون عادی با پارامترها توزیع شده است م(ایکس) = , D(ایکس) = . سپس می توانید تعداد اعداد را از حجم نمونه پیدا کنید پ، که باید در هر بازه تحت این فرض ظاهر شود (یعنی فرکانس های نظری). برای انجام این کار، با استفاده از جدول مقادیر تابع لاپلاس، احتمال ورود به آن را پیدا می کنیم منفاصله ام:

,

جایی که و منو b i- مرزها من-مین فاصله با ضرب احتمالات به دست آمده در حجم نمونه n، بسامدهای نظری را پیدا می کنیم: p i =n·p iهدف ما این است که بسامدهای تجربی و نظری را که البته با یکدیگر متفاوت هستند، مقایسه کنیم و دریابیم که آیا این تفاوت ها ناچیز هستند و فرضیه توزیع نرمال متغیر تصادفی مورد مطالعه را رد نمی کنند یا خیر. آنقدر بزرگ که با این فرضیه در تناقض هستند. برای این منظور از معیاری در قالب متغیر تصادفی استفاده می شود

. (20.1)

معنای آن واضح است: قسمت هایی که مجذور انحراف فرکانس های تجربی از فرکانس های نظری تشکیل می دهند از فرکانس های نظری مربوطه خلاصه می شوند. می توان ثابت کرد که بدون توجه به قانون توزیع واقعی جمعیت، قانون توزیع متغیر تصادفی (20.1) با تعداد درجات آزادی به قانون توزیع گرایش دارد (به درس 12 مراجعه کنید). k = s - 1 – r، جایی که r- تعداد پارامترهای توزیع مورد انتظار برآورد شده از داده های نمونه. بنابراین توزیع نرمال با دو پارامتر مشخص می شود k = s - 3. برای معیار انتخاب شده، یک منطقه بحرانی سمت راست ساخته می شود که با شرط تعیین می شود

(20.2)

جایی که α - سطح معنی داری در نتیجه، منطقه بحرانی توسط نابرابری داده می شود و حوزه پذیرش فرضیه است.

بنابراین، برای آزمایش فرضیه صفر ن 0: جامعه به طور معمول توزیع شده است - شما باید مقدار مشاهده شده معیار را از نمونه محاسبه کنید:

, (20.1`)

و با استفاده از جدول نقاط بحرانی توزیع χ2، نقطه بحرانی را با استفاده از مقادیر شناخته شده α و k = s - 3. اگر - فرض صفر پذیرفته شود، در صورت رد.

2. آزمون فرضیه توزیع یکنواخت.

هنگام استفاده از آزمون پیرسون برای آزمایش این فرضیه که جمعیت به طور یکنواخت با چگالی احتمال تخمین زده شده توزیع شده است.

لازم است با محاسبه مقدار از نمونه موجود، پارامترها برآورد شوند آو بطبق فرمول های:

جایی که آ*و ب*- ارزیابی ها آو ب. در واقع، برای توزیع یکنواخت م(ایکس) = , ، جایی که می توانید یک سیستم برای تعیین دریافت کنید آ*و ب*: که حل آن عبارات (20.3) است.

سپس با این فرض ، می توانید فرکانس های نظری را با استفاده از فرمول ها پیدا کنید

اینجا س- تعداد فواصل زمانی که نمونه به آنها تقسیم می شود.

مقدار مشاهده شده از معیار پیرسون با استفاده از فرمول (20.1`) و مقدار بحرانی با در نظر گرفتن تعداد درجات آزادی با استفاده از جدول محاسبه می شود. k = s - 3. پس از این، مرزهای منطقه بحرانی به همان روشی که برای آزمایش فرضیه توزیع نرمال تعیین می شود.

3. آزمون فرضیه در مورد توزیع نمایی.

در این مورد، پس از تقسیم نمونه موجود به فواصل با طول مساوی، دنباله ای از گزینه ها را با فاصله مساوی از یکدیگر در نظر می گیریم (فرض می گیریم که همه گزینه هایی که در من- امین بازه، یک مقدار منطبق بر وسط آن و فرکانس های مربوط به آنها را بگیرید n من(تعداد گزینه های نمونه موجود در من- فاصله بین). اجازه دهید از این داده ها محاسبه کنیم و به عنوان تخمینی از پارامتر در نظر بگیریم λ اندازه. سپس فرکانس های نظری با استفاده از فرمول محاسبه می شوند

سپس ارزش مشاهده شده و بحرانی معیار پیرسون با در نظر گرفتن این واقعیت که تعداد درجات آزادی مقایسه می شود. k = s - 2.

پیش از این فرضیه هایی در نظر گرفته شد که در آنها قانون توزیع جمعیت مشخص بود. اکنون ما شروع به آزمایش فرضیه هایی در مورد قانون فرضی توزیع مجهول می کنیم، یعنی فرضیه صفر را آزمایش می کنیم که جمعیت طبق قانون شناخته شده توزیع شده است. به طور معمول، آزمون های آماری برای آزمون چنین فرضیه هایی نامیده می شود معیارهای رضایت

معیار توافقمعیاری برای آزمایش یک فرضیه در مورد قانون فرضی یک توزیع مجهول نامیده می شود. این یک معیار عددی برای اختلاف بین توزیع تجربی و نظری است.

وظیفه اصلی.توزیع تجربی (نمونه) داده شده است. در مورد نوع توزیع نظری یک فرضیه بسازید (فرضیه ای ارائه دهید) و فرضیه را در سطح اهمیت معین α آزمایش کنید.

راه حل مشکل اصلی شامل دو بخش است:

1. ارائه یک فرضیه.

2. آزمون فرضیه در سطح معناداری معین.

بیایید با جزئیات به این بخش ها نگاه کنیم.

1. انتخاب فرضیهتعیین نوع توزیع نظری با استفاده از چند ضلعی یا هیستوگرام فرکانس راحت است. چندضلعی (یا هیستوگرام) تجربی را با قوانین توزیع شناخته شده مقایسه کنید و مناسب ترین آنها را انتخاب کنید.

در اینجا نمودارهایی از مهمترین قوانین توزیع آورده شده است:

نمونه هایی از قوانین توزیع تجربی در شکل ها نشان داده شده است:



در مورد (الف) فرضیه توزیع نرمال، در مورد (ب) - فرضیه توزیع یکنواخت، در مورد (ج) - فرضیه توزیع پواسون مطرح شده است.

مبنای ارائه یک فرضیه در مورد توزیع نظری می تواند مقدمات نظری در مورد ماهیت تغییر در مشخصه باشد. برای مثال، تحقق شرایط قضیه لیاپانوف به ما اجازه می دهد تا فرضیه ای در مورد توزیع نرمال بسازیم. برابری میانگین و واریانس توزیع پواسون را نشان می دهد.

در عمل، ما اغلب با یک توزیع نرمال مواجه می شویم، بنابراین در وظایف خود فقط باید فرضیه توزیع نرمال را آزمایش کنیم.

آزمایش فرضیهدر مورد توزیع نظری به این سوال پاسخ می‌دهد: آیا می‌توان اختلاف بین توزیع‌های نظری و تجربی فرضی را تصادفی، ناچیز، با تصادفی بودن اشیاء معینی که در نمونه گنجانده شده‌اند توضیح داد، یا آیا این اختلاف نشان دهنده اختلاف معنی‌دار بین توزیع‌ها است. روش های مختلفی برای تأیید وجود دارد (معیارهای مناسب بودن) - ج 2 (chi-square)، کولموگروف، رومانوفسکی و غیره.

معیار پیرسون

مزیت معیار پیرسون جهانی بودن آن است: می توان از آن برای آزمون فرضیه های مربوط به قوانین توزیع مختلف استفاده کرد.

1. آزمون فرضیه توزیع نرمال.بگذارید یک نمونه به اندازه کافی بزرگ به دست آید پبا بسیاری از گزینه های معانی مختلف. برای سهولت در پردازش آن، فاصله را از کوچکترین تا بزرگ ترین مقدار گزینه به سقسمت های مساوی و فرض می کنیم که مقادیر گزینه هایی که در هر بازه قرار می گیرند تقریباً برابر با عددی است که وسط فاصله را مشخص می کند. با شمارش تعداد گزینه هایی که در هر بازه قرار می گیرند، یک نمونه به اصطلاح گروه بندی شده ایجاد می کنیم:

گزینه ها……….. ایکس 1 ایکس 2 … x s

فرکانس ها…………. پ 1 پ 2 … n s ,

جایی که x iمقادیر نقاط میانی فواصل هستند و n من- تعداد گزینه های موجود در من-فاصله (فرکانس های تجربی). از داده های به دست آمده می توانید میانگین نمونه و انحراف معیار نمونه را محاسبه کنید σ B. بیایید این فرض را بررسی کنیم که جمعیت بر اساس یک قانون عادی با پارامترها توزیع شده است م(ایکس) = , D(ایکس) = . سپس می توانید تعداد اعداد را از حجم نمونه پیدا کنید پ، که باید در هر بازه تحت این فرض ظاهر شود (یعنی فرکانس های نظری). برای انجام این کار، با استفاده از جدول مقادیر تابع لاپلاس، احتمال ورود به آن را پیدا می کنیم منفاصله ام:

,

جایی که و منو b i- مرزها من-مین فاصله با ضرب احتمالات به دست آمده در حجم نمونه n، بسامدهای نظری را پیدا می کنیم: p i =n·p iهدف ما این است که بسامدهای تجربی و نظری را که البته با یکدیگر متفاوت هستند، مقایسه کنیم و دریابیم که آیا این تفاوت ها ناچیز هستند و فرضیه توزیع نرمال متغیر تصادفی مورد مطالعه را رد نمی کنند یا خیر. آنقدر بزرگ که با این فرضیه در تناقض هستند. برای این منظور از معیاری در قالب متغیر تصادفی استفاده می شود

. (7)

معنای آن واضح است: قسمت هایی که مجذور انحراف فرکانس های تجربی از فرکانس های نظری تشکیل می دهند از فرکانس های نظری مربوطه خلاصه می شوند. می توان ثابت کرد که بدون توجه به قانون توزیع واقعی جمعیت عمومی، قانون توزیع متغیر تصادفی (7) با تعداد درجات آزادی به قانون توزیع گرایش دارد. k = s - 1 – r، جایی که r- تعداد پارامترهای توزیع مورد انتظار برآورد شده از داده های نمونه. بنابراین توزیع نرمال با دو پارامتر مشخص می شود k = s - 3. برای معیار انتخاب شده، یک منطقه بحرانی سمت راست ساخته می شود که با شرط تعیین می شود

(8)

جایی که α - سطح معنی داری در نتیجه، منطقه بحرانی توسط نابرابری داده می شود و حوزه پذیرش فرضیه است .

بنابراین، برای آزمایش فرضیه صفر ن 0: جامعه به طور معمول توزیع شده است - شما باید مقدار مشاهده شده معیار را از نمونه محاسبه کنید:

, (7`)

و با استفاده از جدول نقاط بحرانی توزیع χ2، نقطه بحرانی را با استفاده از مقادیر شناخته شده α و k = s - 3. اگر - فرض صفر پذیرفته شود، در صورت رد.

مثال.نتایج مطالعه تقاضا برای محصول در جدول ارائه شده است:

فرضیه ای در مورد نوع توزیع مطرح کنید و آن را در سطح معناداری 01/0 a=آزمایش کنید.

I. ارائه یک فرضیه.

برای نشان دادن نوع توزیع تجربی، یک هیستوگرام می سازیم


120 160 180 200 220 280

بر اساس شکل ظاهری هیستوگرام، می توان در مورد توزیع نرمال مشخصه مورد مطالعه در جمعیت عمومی فرضی داشت.

II. بیایید فرضیه توزیع نرمال را با استفاده از آزمون خوب بودن برازش پیرسون بررسی کنیم.

1. s B را محاسبه کنید. به عنوان یک گزینه، میانگین حسابی انتهای فواصل را در نظر بگیرید:

2. فواصل (Z i ؛ Z i+1) را بیابید: ; .

اجازه دهید (¥) را به عنوان انتهای چپ اولین بازه و (+¥) را به عنوان انتهای سمت راست آخرین بازه در نظر بگیریم. نتایج در جدول ارائه شده است. 4.

3. بیایید احتمالات نظری Р i و فرکانس های نظری را پیدا کنیم (جدول 4 را ببینید).

جدول 4

من مرز فاصله Ф(Zi) Ф(Z i+1) P i = Ф(Z i+1)-Ф(Z i)
x i x i+1 Z i Z i+1
-1,14 -0,5 -0,3729 0,1271 6,36
-1,14 -0,52 -0,3729 -0,1985 0,1744 8,72
-0,52 0,11 -0,1985 0,0438 0,2423 12,12
0,11 0,73 0,0438 0,2673 0,2235 11,18
0,73 0,2673 0,5 0,2327 11,64

4. بیایید بسامدهای تجربی و نظری را با هم مقایسه کنیم. برای این:

الف) مقدار مشاهده شده معیار پیرسون را محاسبه کنید.

محاسبات در جدول 5 ارائه شده است.

جدول 5

من
6,36 -1,36 1,8496 0,291
8,72 1,28 1,6384 0,188
12,12 1,88 3,5344 0,292
11,18 0,82 0,6724 0,060
11,64 -2,64 6,9696 0,599
اس

ب) با استفاده از جدول نقاط بحرانی توزیع c 2 در سطح معنی داری a=0.01 و تعداد درجات آزادی k=m–3=5–3=2، نقطه بحرانی را پیدا می کنیم. ما داریم .

ج را مقایسه کنید . در نتیجه، دلیلی برای رد فرضیه قانون توزیع نرمال ویژگی مورد مطالعه در جمعیت عمومی وجود ندارد. آن ها اختلاف بین فرکانس های تجربی و نظری ناچیز است (تصادفی). ◄

اظهار نظر.فواصل حاوی فرکانس های تجربی کوچک (n i<5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.

مثال.بر اساس نمونه ای متشکل از 24 متغیر، فرضیه ای در مورد توزیع نرمال جامعه مطرح شد. استفاده از معیار پیرسون در سطح معناداری در بین مقادیر داده شده = (34، 35، 36، 37، 38) نشان می دهد: الف) بزرگترین است که دلیلی برای رد فرضیه وجود ندارد. ب) کوچکترین مقداری که با شروع آن فرضیه باید رد شود.

بیایید تعداد درجات آزادی را با استفاده از فرمول پیدا کنیم:

که در آن تعداد گروه های نمونه (گزینه)، تعداد پارامترهای توزیع است.

از آنجایی که توزیع نرمال دارای 2 پارامتر (و) است، دریافت می کنیم

با استفاده از جدول نقاط بحرانی توزیع، با استفاده از سطح معینی از اهمیت و تعداد درجات آزادی، نقطه بحرانی را تعیین می کنیم.

در مورد الف) برای مقادیر برابر با 34 و 35، دلیلی برای رد فرضیه توزیع نرمال وجود ندارد، زیرا . و بزرگترین در بین این مقادیر است.

در حالت ب) برای مقادیر 36، 37، 38، فرضیه رد می شود، زیرا . کوچکترین در میان آنها .◄

2. آزمون فرضیه توزیع یکنواخت. هنگام استفاده از آزمون پیرسون برای آزمایش این فرضیه که جمعیت به طور یکنواخت با چگالی احتمال تخمین زده شده توزیع شده است.

لازم است با محاسبه مقدار از نمونه موجود، پارامترها برآورد شوند آو بطبق فرمول های:

جایی که آ*و ب*- ارزیابی ها آو ب. در واقع، برای توزیع یکنواخت م(ایکس) = , ، جایی که می توانید یک سیستم برای تعیین دریافت کنید آ*و ب*: که راه حل آن عبارات (9) است.

سپس با این فرض ، می توانید فرکانس های نظری را با استفاده از فرمول ها پیدا کنید

اینجا س- تعداد فواصل زمانی که نمونه به آنها تقسیم می شود.

مقدار مشاهده شده معیار پیرسون با استفاده از فرمول (7`) و مقدار بحرانی با در نظر گرفتن تعداد درجات آزادی با استفاده از جدول محاسبه می شود. k = s - 3. پس از این، مرزهای منطقه بحرانی به همان روشی که برای آزمایش فرضیه توزیع نرمال تعیین می شود.

3. آزمون فرضیه در مورد توزیع نمایی.در این مورد، پس از تقسیم نمونه موجود به فواصل با طول مساوی، دنباله ای از گزینه ها را با فاصله مساوی از یکدیگر در نظر می گیریم (فرض می گیریم که همه گزینه هایی که در من- امین بازه، یک مقدار منطبق بر وسط آن و فرکانس های مربوط به آنها را بگیرید n من(تعداد گزینه های نمونه موجود در من- فاصله بین). اجازه دهید از این داده ها محاسبه کنیم و به عنوان تخمینی از پارامتر در نظر بگیریم λ اندازه. سپس فرکانس های نظری با استفاده از فرمول محاسبه می شوند

سپس ارزش مشاهده شده و بحرانی معیار پیرسون با در نظر گرفتن این واقعیت که تعداد درجات آزادی مقایسه می شود. k = s - 2.

ODAمعیار آزمون فرضیه در مورد قانون مفروض توزیع مجهول، معیار مناسب بودن نامیده می شود.

چندین تست خوب بودن وجود دارد: $\chi ^2$ (chi-square) توسط K. Pearson، Kolmogorov، Smirnov و غیره.

به طور معمول، فرکانس نظری و تجربی متفاوت است. مورد اختلاف ممکن است تصادفی نباشد، به این معنی که با این واقعیت توضیح داده می شود که فرضیه به درستی انتخاب نشده است. معیار پیرسون به سؤال مطرح شده پاسخ می دهد، اما مانند هر معیاری چیزی را ثابت نمی کند، بلکه تنها موافقت یا عدم موافقت خود را با داده های مشاهده ای در سطح معناداری پذیرفته شده نشان می دهد.

ODAیک احتمال به اندازه کافی کوچک که در آن یک رویداد عملاً غیرممکن تلقی شود، سطح اهمیت نامیده می شود.

در عمل، سطوح معنی‌داری معمولاً بین 0.01 و 0.05 در نظر گرفته می‌شوند، $\alpha =0.05$ سطح معنی‌داری $5 (% ) $ است.

به عنوان معیاری برای آزمایش فرضیه، مقدار \begin(معادله) \label (eq1) \chi ^2=\sum ( \frac (((n_i -n_i"))^2) (n_i") را در نظر می گیریم. \qquad (1) \ پایان (معادله)

در اینجا $n_i -$ فرکانس های تجربی به دست آمده از نمونه، $n_i" -$ فرکانس های نظری به صورت نظری یافت می شوند.

ثابت شده است که برای $n\to \infty $، قانون توزیع متغیر تصادفی (1)، صرف نظر از قانونی که جمعیت توسط آن توزیع می‌شود، به قانون $\chi ^2$ تمایل دارد (chi-square) با درجه آزادی $k$.

ODAتعداد درجات آزادی با برابری $k=S-1-r$ که $S-$ تعداد گروه های بازه ای است، $r-$ تعداد پارامترها است.

1) توزیع یکنواخت: $r=2، k=S-3 $

2) توزیع نرمال: $r=2، k=S-3 $

3) توزیع نمایی: $r=1، k=S-2$.

قانون . آزمون فرضیه با استفاده از آزمون پیرسون.

  1. برای آزمایش فرضیه، فرکانس های نظری را محاسبه کرده و $\chi _ ( obs ) ^2 =\sum ( \frac ( ( ( n_i -n_i " ))^2 ) ( n_i " ) ) $ را پیدا کنید.
  2. استفاده از جدول نقاط بحرانی توزیع $\chi ^2$ برای سطح معنی‌داری معین $\alpha $ و تعداد درجات آزادی $k$, $\chi _ ( cr ) ^2 (( \alpha ,k ))$ پیدا شد.
  3. اگر $\chi _ ( obs ) ^2<\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.

اظهار نظربرای کنترل محاسبات، از فرمول $\chi ^2$ به شکل $\chi _ (مشاهده شده) ^2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) $ استفاده کنید

آزمون فرضیه توزیع یکنواخت

تابع چگالی توزیع یکنواخت کمیت $X$ به شکل $f(x)=\frac ( 1 ) ( b-a ) x\in \left[ (a,b )\right]$ است.

برای آزمایش این فرضیه که یک متغیر تصادفی پیوسته بر اساس یک قانون یکنواخت در سطح معناداری $\alpha $ توزیع شده است، لازم است:

1) میانگین نمونه $\overline ( x_b ) $ و $\sigma _b =\sqrt (D_b) $ را از یک توزیع تجربی مشخص پیدا کنید. مقادیر را به عنوان تخمینی از پارامترهای $a$ و $b$ در نظر بگیرید

$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $

2) احتمال سقوط یک متغیر تصادفی $X$ را در بازه های جزئی $(( x_i ,x_ ( i+1 ) ))$ با استفاده از فرمول $ P_i =P(( x_i) پیدا کنید.

3) فرکانس های نظری (همسطح) را با استفاده از فرمول $n_i" =np_i $ پیدا کنید.

4) با گرفتن تعداد درجات آزادی $k=S-3$ و سطح معناداری $\alpha =0.05$ از جداول $\chi ^2$، $\chi _ ( cr ) ^2 $ را برای داده شده پیدا می کنیم. $\alpha $ و $k$، $\chi _ ( kr ) ^2 (( \alpha ,k ))$.

5) با استفاده از فرمول $\chi _ (مشاهده) ^2 =\sum ( \frac ( (( n_i -n_i" ))^2 ) (n_i" ) ) $ که در آن $n_i -$ فرکانس های تجربی هستند، ما مقدار مشاهده شده $\ chi _ ( obs ) ^2 $.

6) اگر $\chi _ ( obs ) ^2<\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу.

بیایید با استفاده از مثال خود فرضیه را آزمایش کنیم.

1) $\overline x _b =13.00\,\,\sigma _b =\sqrt (D_b) = 6.51$

2) $a=13.00-\sqrt 3 \cdot 6.51=13.00-1.732\cdot 6.51=1.72468$

$b=13.00+1.732\cdot 6.51=24.27532$

$b-a=24.27532-1.72468=22.55064$

3) $P_i =P(( x_i

$P_2 =(( 3

$P_3 =(( 7

$P_4 =(( 11

$P_5 =(( 15

$P_6 =(( 19

در توزیع یکنواخت، اگر طول بازه یکسان باشد، $P_i -$ یکسان است.

4) $n_i" =np_i $ را پیدا کنید.

5) $\sum ( \frac ( ( ( n_i -n_i " ))^2 ) ( n_i" ) ) $ را پیدا کنید و $\chi _ ( obs ) ^2 $ را پیدا کنید.

بیایید تمام مقادیر به دست آمده را در جدول وارد کنیم

\begin(آرایه) ( |l|l|l|l|l|l|l| ) \hline i& n_i & n_i" =np_i & n_i -n_i" & (( n_i -n_i" ))^2& \frac ( (( n_i -n_i" ))^2) (n_i") و کنترل~ \frac (n_i^2) (n_i") \\ \hline 1& 1& 4.43438& -3.43438& 11.7950& 2.6509898& 11.7950& 2.6509898 6& 4.43438& 1.56562& 2.45117& 0.552765& 8.11838 \\ \hline 3& 3& 4.43438& -1.43438& 2.05744& 4.3&4, 3&4, 3&4 & -1.43438& 2.05744& 0.471463& 2.0296 \\ \hline 5 & 6& 4.43438 & 1.56562& 2.45117& 0.552765& 8.11838 \\ \hline 6& 6& 4.43438& 1.56562& 2, 45117& 0.552765& 8.11838 = 2 & h 1119& \چی _ ( obs ) ^2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) =3.63985 \\ \hline \end(آرایه)

$\chi _ ( cr ) ^2 (( 0.05.3 ))=7.8$

$\chi _ ( obs ) ^2<\chi _ { кр } ^2 =3,26<7,8$

نتیجهدلیلی برای رد این فرضیه وجود ندارد.

عرض فاصله خواهد بود:

Xmax حداکثر مقدار مشخصه گروه بندی در مجموع است.
Xmin - حداقل مقدار مشخصه گروه بندی.
بیایید مرزهای گروه را مشخص کنیم.

شماره گروهخط پایینحد بالا
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

همان مقدار مشخصه به عنوان مرزهای بالا و پایین دو گروه مجاور (قبلی و بعدی) عمل می کند.
برای هر مقدار از سری، شمارش می کنیم که چند بار در یک بازه خاص قرار می گیرد. برای این کار سری ها را به ترتیب صعودی مرتب می کنیم.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6

ما نتایج گروه بندی را در قالب یک جدول ارائه می دهیم:
گروه هامجموعه شمارهفرکانس f من
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6

جدول برای محاسبه شاخص ها.
گروه هاx iمقدار، f ix i * f iفرکانس انباشته، S|x - x av |*f(x - x میانگین) 2 *fفرکانس، f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

برای ارزیابی سری توزیع، شاخص های زیر را پیدا می کنیم:
نشانگرهای مرکز توزیع.
میانگین وزنی


روش
حالت رایج ترین مقدار یک مشخصه در میان واحدهای یک جمعیت معین است.

که در آن x 0 آغاز بازه مودال است. h - مقدار فاصله؛ f 2 - فرکانس مربوط به بازه مودال. f 1 - فرکانس premodal; f 3 - فرکانس پست وجهی.
ما 51.49 را به عنوان ابتدای بازه انتخاب می کنیم، زیرا این بازه است که بیشترین عدد را به خود اختصاص می دهد.

رایج ترین مقدار این سری 52.8 است
میانه
میانه نمونه را به دو قسمت تقسیم می کند: نصف کمتر از میانه است، نیمی بیشتر است.
در یک سری توزیع بازه‌ای، می‌توانید فوراً فقط بازه‌ای را که مد یا میانه در آن قرار می‌گیرد، مشخص کنید. میانه مربوط به گزینه وسط سری رتبه بندی شده است. میانه فاصله 51.49 - 54.32 است، زیرا در این بازه، فرکانس انباشته شده S از عدد میانه بزرگتر است (میانه اولین بازه ای است که فرکانس انباشته S از نصف مجموع فرکانس ها بیشتر است).


بنابراین 50 درصد از واحدهای جمعیت دارای قدر کمتر از 53.06 خواهند بود.
شاخص های تنوع.
تغییرات مطلق.
دامنه تغییرات تفاوت بین حداکثر و حداقل مقادیر مشخصه سری اولیه است.
R = X max - X min
R = 60 - 43 = 17
میانگین انحراف خطی- محاسبه شده به منظور در نظر گرفتن تفاوت تمام واحدهای جمعیت مورد مطالعه.


هر مقدار از سری با دیگری بیش از 2.3 تفاوت ندارد
پراکندگی- اندازه گیری پراکندگی را در اطراف مقدار متوسط ​​آن مشخص می کند (معیار پراکندگی، یعنی انحراف از میانگین).


برآوردگر واریانس بی طرفانه- تخمین ثابت واریانس


انحراف معیار.

هر مقدار از سری با مقدار متوسط ​​53.3 بیش از 3.21 تفاوت دارد
برآورد انحراف معیار.

اندازه گیری تغییرات نسبی.
شاخص های نسبی تغییرات عبارتند از: ضریب نوسان، ضریب تغییرات خطی، انحراف خطی نسبی.
ضریب تغییرات- اندازه گیری پراکندگی نسبی مقادیر جمعیت: نشان می دهد که چه نسبتی از مقدار متوسط ​​این مقدار پراکندگی متوسط ​​آن است.

از آنجایی که v ≤ 30٪، جمعیت همگن و تنوع ضعیف است. می توان به نتایج به دست آمده اعتماد کرد.
ضریب تغییرات خطییا انحراف خطی نسبی- نسبت میانگین مقدار علامت انحراف مطلق از مقدار متوسط ​​را مشخص می کند.

آزمون فرضیه ها در مورد نوع توزیع.
1. بیایید این فرضیه را بررسی کنیم که X روی آن توزیع شده است قانون عادیبا استفاده از آزمون نیکویی تناسب پیرسون

که در آن p i احتمال افتادن به بازه i یک متغیر تصادفی است که طبق یک قانون فرضی توزیع شده است.
برای محاسبه احتمالات p i از فرمول و جدول تابع لاپلاس استفاده می کنیم

جایی که
s = 3.21، xav = 53.3
فرکانس نظری (مورد انتظار) n i = np i است که در آن n = 36 است.
فواصل گروه بندیفرکانس مشاهده شده n ix 1 = (x i - x میانگین)/sx 2 = (x i+1 - x av)/sF (x 1)F (x 2)احتمال وارد شدن به بازه i، p i = Ф(x 2) - Ф(x 1)فرکانس مورد انتظار، 36p iشرایط آماری پیرسون، K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84

اجازه دهید مرز منطقه بحرانی را تعیین کنیم. از آنجایی که آماره پیرسون تفاوت بین توزیع های تجربی و نظری را اندازه گیری می کند، هر چه مقدار مشاهده شده K obs بزرگتر باشد، استدلال علیه فرضیه اصلی قوی تر است.
بنابراین، منطقه بحرانی برای این آمار همیشه راست دست است :)

مقالات مشابه

parki48.ru 2024. ما در حال ساخت یک خانه قاب هستیم. طراحی منظر. ساخت و ساز. پایه.