تست خوب بودن تناسب پیرسون. معیار پیرسون آزمون فرضیه توزیع نرمال
آزمون χ 2 پیرسون یک روش ناپارامتریک است که به شما امکان میدهد تا اهمیت تفاوتها را بین تعداد واقعی (که در نتیجه مطالعه آشکار شد) نتایج یا نتایج را ارزیابی کنید. ویژگی های کیفینمونه هایی که در هر دسته قرار می گیرند و تعداد نظری که در صورت صحت فرضیه صفر در گروه های مورد مطالعه انتظار می رود. به بیان ساده، این روش به شما امکان می دهد تخمین بزنید اهمیت آماریتفاوت بین دو یا چند شاخص های نسبی(فرکانس ها، سهام).
1. تاریخچه توسعه معیار χ 2
آزمون خی دو برای تجزیه و تحلیل جداول احتمالی در سال 1900 توسط ریاضیدان، آماردان، زیست شناس و فیلسوف انگلیسی، بنیانگذار آمار ریاضیو یکی از بنیانگذاران بیومتریک است کارل پیرسون(1857-1936).
2. چرا از آزمون χ 2 پیرسون استفاده می شود؟
در تجزیه و تحلیل می توان از آزمون کای دو استفاده کرد جداول احتمالیحاوی اطلاعات در مورد فراوانی پیامدها بسته به وجود یک عامل خطر. مثلا، جدول احتمالی چهار میدانیبه شرح زیر است:
یک نتیجه وجود دارد (1) | بدون نتیجه (0) | جمع | |
یک عامل خطر وجود دارد (1) | آ | ب | A+B |
بدون عامل خطر (0) | سی | D | C+D |
جمع | A+C | B+D | A+B+C+D |
چگونه می توان چنین جدول احتمالی را پر کرد؟ بیایید به یک مثال کوچک نگاه کنیم.
مطالعه ای در مورد تأثیر سیگار بر خطر ابتلا به فشار خون شریانی در حال انجام است. برای این منظور، دو گروه از آزمودنیها انتخاب شدند - گروه اول شامل 70 نفر که حداقل 1 پاکت سیگار در روز میکشیدند، گروه دوم شامل 80 فرد غیر سیگاری در همان سن بودند. در گروه اول 40 نفر فشار خون بالا داشتند. در مرحله دوم، فشار خون شریانی در 32 نفر مشاهده شد. بر این اساس، فشار خون نرمال در گروه افراد سیگاری در 30 نفر (70 - 40 = 30) و در گروه غیر سیگاری - در 48 نفر (80 - 32 = 48) بود.
جدول احتمالی چهار میدانی را با داده های اولیه پر می کنیم:
در جدول احتمالی حاصل، هر خط مربوط به گروه خاصی از موضوعات است. ستون ها - تعداد افراد مبتلا به فشار خون شریانی یا طبیعی را نشان می دهد فشار خون.
وظیفه ای که بر عهده محقق گذاشته می شود این است: آیا از نظر آماری تفاوت معنی داری بین فراوانی افراد مبتلا به فشار خون در بین افراد سیگاری و غیر سیگاری وجود دارد؟ این سوال را می توان با محاسبه آزمون کای دو پیرسون و مقایسه مقدار به دست آمده با مقدار بحرانی پاسخ داد.
3. شرایط و محدودیت های اعمال آزمون کای اسکوئر پیرسون
- شاخص های قابل مقایسه باید در اندازه گیری شوند مقیاس اسمی(مثلاً جنسیت بیمار مرد یا زن است) یا در ترتیبی(مثلا مدرک تحصیلی فشار خون شریانی، گرفتن مقادیر از 0 تا 3).
- این روشبه شما امکان می دهد نه تنها جداول چهار میدانی را تجزیه و تحلیل کنید، زمانی که عامل و نتیجه هر دو متغیر باینری هستند، یعنی فقط دو مقدار ممکن دارند (به عنوان مثال، مرد یا زن، وجود یا عدم وجود یک بیماری خاص در تاریخچه ...). آزمون کای دو پیرسون همچنین می تواند در مورد تجزیه و تحلیل جداول چند میدانی استفاده شود، زمانی که یک عامل و (یا) نتیجه سه مقدار یا بیشتر را دریافت کند.
- گروه هایی که مقایسه می شوند باید مستقل باشند، یعنی هنگام مقایسه مشاهدات قبل و بعد از آزمون کای دو استفاده نشود. تست مک نمار(هنگام مقایسه دو جمعیت مرتبط) یا محاسبه می شود آزمون کیو کوکران(در صورت مقایسه سه گروه یا بیشتر).
- هنگام تجزیه و تحلیل جداول چهار میدانی ارزش های مورد انتظاردر هر سلول باید حداقل 10 وجود داشته باشد. اگر حداقل در یک سلول پدیده مورد انتظار از 5 تا 9 به دست آید، آزمون کای دو باید محاسبه شود. با اصلاحیه یتس. اگر حداقل در یک سلول پدیده مورد انتظار کمتر از 5 باشد، باید از تجزیه و تحلیل استفاده کرد تست دقیق فیشر.
- هنگام تجزیه و تحلیل جداول چند میدانی، تعداد مشاهدات مورد انتظار در بیش از 20 درصد سلول ها نباید کمتر از 5 باشد.
4. چگونه آزمون کای دو پیرسون را محاسبه کنیم؟
برای محاسبه آزمون کای دو نیاز دارید:
این الگوریتم برای جداول چهار میدانی و چند میدانی قابل اجرا است.
5. چگونه می توان مقدار آزمون کای دو پیرسون را تفسیر کرد؟
اگر مقدار به دست آمده از معیار χ2 بیشتر از مقدار بحرانی باشد، نتیجه می گیریم که رابطه آماری بین عامل خطر مورد مطالعه و نتیجه در سطح معنی داری مناسب وجود دارد.
6. مثالی از محاسبه آزمون کای اسکوئر پیرسون
اجازه دهید با استفاده از جدول فوق، اهمیت آماری تأثیر عامل سیگار کشیدن بر بروز فشار خون شریانی را تعیین کنیم:
- ما مقادیر مورد انتظار را برای هر سلول محاسبه می کنیم:
- مقدار آزمون کای دو پیرسون را پیدا کنید:
χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.
- تعداد درجات آزادی f = (2-1)*(2-1) = 1. با استفاده از جدول مقدار بحرانی آزمون کای دو پیرسون را می یابیم که در سطح معنی داری 05/0=p و عدد درجه آزادی 1 3.841 است.
- ما مقدار به دست آمده از آزمون کای دو را با مقدار بحرانی مقایسه می کنیم: 4.396 > 3.841، بنابراین، وابستگی بروز فشار خون شریانی به حضور سیگار از نظر آماری معنی دار است. سطح معنی داری این رابطه با p مطابقت دارد<0.05.
|
مزیت معیار پیرسون جهانی بودن آن است: می توان از آن برای آزمون فرضیه های مربوط به قوانین توزیع مختلف استفاده کرد.
1. آزمون فرضیه توزیع نرمال.
بگذارید یک نمونه به اندازه کافی بزرگ به دست آید پبا بسیاری از گزینه های معانی مختلف. برای سهولت در پردازش آن، فاصله را از کوچکترین تا بزرگ ترین مقدار گزینه به سقسمت های مساوی و فرض می کنیم که مقادیر گزینه هایی که در هر بازه قرار می گیرند تقریباً برابر با عددی است که وسط فاصله را مشخص می کند. با شمارش تعداد گزینه هایی که در هر بازه قرار می گیرند، یک نمونه به اصطلاح گروه بندی شده ایجاد می کنیم:
گزینه ها……….. ایکس 1 ایکس 2 … x s
فرکانس ها…………. پ 1 پ 2 … n s ,
جایی که x iمقادیر نقاط میانی فواصل هستند و n من- تعداد گزینه های موجود در من-فاصله (فرکانس های تجربی).
از داده های به دست آمده می توانید میانگین نمونه و انحراف معیار نمونه را محاسبه کنید σ B. بیایید این فرض را بررسی کنیم که جمعیت بر اساس یک قانون عادی با پارامترها توزیع شده است م(ایکس) = , D(ایکس) = . سپس می توانید تعداد اعداد را از حجم نمونه پیدا کنید پ، که باید در هر بازه تحت این فرض ظاهر شود (یعنی فرکانس های نظری). برای انجام این کار، با استفاده از جدول مقادیر تابع لاپلاس، احتمال ورود به آن را پیدا می کنیم منفاصله ام:
,
جایی که و منو b i- مرزها من-مین فاصله با ضرب احتمالات به دست آمده در حجم نمونه n، بسامدهای نظری را پیدا می کنیم: p i =n·p iهدف ما این است که بسامدهای تجربی و نظری را که البته با یکدیگر متفاوت هستند، مقایسه کنیم و دریابیم که آیا این تفاوت ها ناچیز هستند و فرضیه توزیع نرمال متغیر تصادفی مورد مطالعه را رد نمی کنند یا خیر. آنقدر بزرگ که با این فرضیه در تناقض هستند. برای این منظور از معیاری در قالب متغیر تصادفی استفاده می شود
. (20.1)
معنای آن واضح است: قسمت هایی که مجذور انحراف فرکانس های تجربی از فرکانس های نظری تشکیل می دهند از فرکانس های نظری مربوطه خلاصه می شوند. می توان ثابت کرد که بدون توجه به قانون توزیع واقعی جمعیت، قانون توزیع متغیر تصادفی (20.1) با تعداد درجات آزادی به قانون توزیع گرایش دارد (به درس 12 مراجعه کنید). k = s - 1 – r، جایی که r- تعداد پارامترهای توزیع مورد انتظار برآورد شده از داده های نمونه. بنابراین توزیع نرمال با دو پارامتر مشخص می شود k = s - 3. برای معیار انتخاب شده، یک منطقه بحرانی سمت راست ساخته می شود که با شرط تعیین می شود
(20.2)
جایی که α - سطح معنی داری در نتیجه، منطقه بحرانی توسط نابرابری داده می شود و حوزه پذیرش فرضیه است.
بنابراین، برای آزمایش فرضیه صفر ن 0: جامعه به طور معمول توزیع شده است - شما باید مقدار مشاهده شده معیار را از نمونه محاسبه کنید:
, (20.1`)
و با استفاده از جدول نقاط بحرانی توزیع χ2، نقطه بحرانی را با استفاده از مقادیر شناخته شده α و k = s - 3. اگر - فرض صفر پذیرفته شود، در صورت رد.
2. آزمون فرضیه توزیع یکنواخت.
هنگام استفاده از آزمون پیرسون برای آزمایش این فرضیه که جمعیت به طور یکنواخت با چگالی احتمال تخمین زده شده توزیع شده است.
لازم است با محاسبه مقدار از نمونه موجود، پارامترها برآورد شوند آو بطبق فرمول های:
جایی که آ*و ب*- ارزیابی ها آو ب. در واقع، برای توزیع یکنواخت م(ایکس) = , ، جایی که می توانید یک سیستم برای تعیین دریافت کنید آ*و ب*: که حل آن عبارات (20.3) است.
سپس با این فرض ، می توانید فرکانس های نظری را با استفاده از فرمول ها پیدا کنید
اینجا س- تعداد فواصل زمانی که نمونه به آنها تقسیم می شود.
مقدار مشاهده شده از معیار پیرسون با استفاده از فرمول (20.1`) و مقدار بحرانی با در نظر گرفتن تعداد درجات آزادی با استفاده از جدول محاسبه می شود. k = s - 3. پس از این، مرزهای منطقه بحرانی به همان روشی که برای آزمایش فرضیه توزیع نرمال تعیین می شود.
3. آزمون فرضیه در مورد توزیع نمایی.
در این مورد، پس از تقسیم نمونه موجود به فواصل با طول مساوی، دنباله ای از گزینه ها را با فاصله مساوی از یکدیگر در نظر می گیریم (فرض می گیریم که همه گزینه هایی که در من- امین بازه، یک مقدار منطبق بر وسط آن و فرکانس های مربوط به آنها را بگیرید n من(تعداد گزینه های نمونه موجود در من- فاصله بین). اجازه دهید از این داده ها محاسبه کنیم و به عنوان تخمینی از پارامتر در نظر بگیریم λ اندازه. سپس فرکانس های نظری با استفاده از فرمول محاسبه می شوند
سپس ارزش مشاهده شده و بحرانی معیار پیرسون با در نظر گرفتن این واقعیت که تعداد درجات آزادی مقایسه می شود. k = s - 2.
پیش از این فرضیه هایی در نظر گرفته شد که در آنها قانون توزیع جمعیت مشخص بود. اکنون ما شروع به آزمایش فرضیه هایی در مورد قانون فرضی توزیع مجهول می کنیم، یعنی فرضیه صفر را آزمایش می کنیم که جمعیت طبق قانون شناخته شده توزیع شده است. به طور معمول، آزمون های آماری برای آزمون چنین فرضیه هایی نامیده می شود معیارهای رضایت
معیار توافقمعیاری برای آزمایش یک فرضیه در مورد قانون فرضی یک توزیع مجهول نامیده می شود. این یک معیار عددی برای اختلاف بین توزیع تجربی و نظری است.
وظیفه اصلی.توزیع تجربی (نمونه) داده شده است. در مورد نوع توزیع نظری یک فرضیه بسازید (فرضیه ای ارائه دهید) و فرضیه را در سطح اهمیت معین α آزمایش کنید.
راه حل مشکل اصلی شامل دو بخش است:
1. ارائه یک فرضیه.
2. آزمون فرضیه در سطح معناداری معین.
بیایید با جزئیات به این بخش ها نگاه کنیم.
1. انتخاب فرضیهتعیین نوع توزیع نظری با استفاده از چند ضلعی یا هیستوگرام فرکانس راحت است. چندضلعی (یا هیستوگرام) تجربی را با قوانین توزیع شناخته شده مقایسه کنید و مناسب ترین آنها را انتخاب کنید.
در اینجا نمودارهایی از مهمترین قوانین توزیع آورده شده است:
نمونه هایی از قوانین توزیع تجربی در شکل ها نشان داده شده است:
در مورد (الف) فرضیه توزیع نرمال، در مورد (ب) - فرضیه توزیع یکنواخت، در مورد (ج) - فرضیه توزیع پواسون مطرح شده است.
مبنای ارائه یک فرضیه در مورد توزیع نظری می تواند مقدمات نظری در مورد ماهیت تغییر در مشخصه باشد. برای مثال، تحقق شرایط قضیه لیاپانوف به ما اجازه می دهد تا فرضیه ای در مورد توزیع نرمال بسازیم. برابری میانگین و واریانس توزیع پواسون را نشان می دهد.
در عمل، ما اغلب با یک توزیع نرمال مواجه می شویم، بنابراین در وظایف خود فقط باید فرضیه توزیع نرمال را آزمایش کنیم.
آزمایش فرضیهدر مورد توزیع نظری به این سوال پاسخ میدهد: آیا میتوان اختلاف بین توزیعهای نظری و تجربی فرضی را تصادفی، ناچیز، با تصادفی بودن اشیاء معینی که در نمونه گنجانده شدهاند توضیح داد، یا آیا این اختلاف نشان دهنده اختلاف معنیدار بین توزیعها است. روش های مختلفی برای تأیید وجود دارد (معیارهای مناسب بودن) - ج 2 (chi-square)، کولموگروف، رومانوفسکی و غیره.
معیار پیرسون
مزیت معیار پیرسون جهانی بودن آن است: می توان از آن برای آزمون فرضیه های مربوط به قوانین توزیع مختلف استفاده کرد.
1. آزمون فرضیه توزیع نرمال.بگذارید یک نمونه به اندازه کافی بزرگ به دست آید پبا بسیاری از گزینه های معانی مختلف. برای سهولت در پردازش آن، فاصله را از کوچکترین تا بزرگ ترین مقدار گزینه به سقسمت های مساوی و فرض می کنیم که مقادیر گزینه هایی که در هر بازه قرار می گیرند تقریباً برابر با عددی است که وسط فاصله را مشخص می کند. با شمارش تعداد گزینه هایی که در هر بازه قرار می گیرند، یک نمونه به اصطلاح گروه بندی شده ایجاد می کنیم:
گزینه ها……….. ایکس 1 ایکس 2 … x s
فرکانس ها…………. پ 1 پ 2 … n s ,
جایی که x iمقادیر نقاط میانی فواصل هستند و n من- تعداد گزینه های موجود در من-فاصله (فرکانس های تجربی). از داده های به دست آمده می توانید میانگین نمونه و انحراف معیار نمونه را محاسبه کنید σ B. بیایید این فرض را بررسی کنیم که جمعیت بر اساس یک قانون عادی با پارامترها توزیع شده است م(ایکس) = , D(ایکس) = . سپس می توانید تعداد اعداد را از حجم نمونه پیدا کنید پ، که باید در هر بازه تحت این فرض ظاهر شود (یعنی فرکانس های نظری). برای انجام این کار، با استفاده از جدول مقادیر تابع لاپلاس، احتمال ورود به آن را پیدا می کنیم منفاصله ام:
,
جایی که و منو b i- مرزها من-مین فاصله با ضرب احتمالات به دست آمده در حجم نمونه n، بسامدهای نظری را پیدا می کنیم: p i =n·p iهدف ما این است که بسامدهای تجربی و نظری را که البته با یکدیگر متفاوت هستند، مقایسه کنیم و دریابیم که آیا این تفاوت ها ناچیز هستند و فرضیه توزیع نرمال متغیر تصادفی مورد مطالعه را رد نمی کنند یا خیر. آنقدر بزرگ که با این فرضیه در تناقض هستند. برای این منظور از معیاری در قالب متغیر تصادفی استفاده می شود
. (7)
معنای آن واضح است: قسمت هایی که مجذور انحراف فرکانس های تجربی از فرکانس های نظری تشکیل می دهند از فرکانس های نظری مربوطه خلاصه می شوند. می توان ثابت کرد که بدون توجه به قانون توزیع واقعی جمعیت عمومی، قانون توزیع متغیر تصادفی (7) با تعداد درجات آزادی به قانون توزیع گرایش دارد. k = s - 1 – r، جایی که r- تعداد پارامترهای توزیع مورد انتظار برآورد شده از داده های نمونه. بنابراین توزیع نرمال با دو پارامتر مشخص می شود k = s - 3. برای معیار انتخاب شده، یک منطقه بحرانی سمت راست ساخته می شود که با شرط تعیین می شود
(8)
جایی که α - سطح معنی داری در نتیجه، منطقه بحرانی توسط نابرابری داده می شود و حوزه پذیرش فرضیه است .
بنابراین، برای آزمایش فرضیه صفر ن 0: جامعه به طور معمول توزیع شده است - شما باید مقدار مشاهده شده معیار را از نمونه محاسبه کنید:
, (7`)
و با استفاده از جدول نقاط بحرانی توزیع χ2، نقطه بحرانی را با استفاده از مقادیر شناخته شده α و k = s - 3. اگر - فرض صفر پذیرفته شود، در صورت رد.
مثال.نتایج مطالعه تقاضا برای محصول در جدول ارائه شده است:
فرضیه ای در مورد نوع توزیع مطرح کنید و آن را در سطح معناداری 01/0 a=آزمایش کنید.
I. ارائه یک فرضیه.
برای نشان دادن نوع توزیع تجربی، یک هیستوگرام می سازیم
120 160 180 200 220 280
بر اساس شکل ظاهری هیستوگرام، می توان در مورد توزیع نرمال مشخصه مورد مطالعه در جمعیت عمومی فرضی داشت.
II. بیایید فرضیه توزیع نرمال را با استفاده از آزمون خوب بودن برازش پیرسون بررسی کنیم.
1. s B را محاسبه کنید. به عنوان یک گزینه، میانگین حسابی انتهای فواصل را در نظر بگیرید:
2. فواصل (Z i ؛ Z i+1) را بیابید: ; .
اجازه دهید (¥) را به عنوان انتهای چپ اولین بازه و (+¥) را به عنوان انتهای سمت راست آخرین بازه در نظر بگیریم. نتایج در جدول ارائه شده است. 4.
3. بیایید احتمالات نظری Р i و فرکانس های نظری را پیدا کنیم (جدول 4 را ببینید).
جدول 4
من | مرز فاصله | Ф(Zi) | Ф(Z i+1) | P i = Ф(Z i+1)-Ф(Z i) | ||||
x i | x i+1 | Z i | Z i+1 | |||||
-¥ | -1,14 | -0,5 | -0,3729 | 0,1271 | 6,36 | |||
-1,14 | -0,52 | -0,3729 | -0,1985 | 0,1744 | 8,72 | |||
-0,52 | 0,11 | -0,1985 | 0,0438 | 0,2423 | 12,12 | |||
0,11 | 0,73 | 0,0438 | 0,2673 | 0,2235 | 11,18 | |||
0,73 | +¥ | 0,2673 | 0,5 | 0,2327 | 11,64 |
4. بیایید بسامدهای تجربی و نظری را با هم مقایسه کنیم. برای این:
الف) مقدار مشاهده شده معیار پیرسون را محاسبه کنید.
محاسبات در جدول 5 ارائه شده است.
جدول 5
من | |||||
6,36 | -1,36 | 1,8496 | 0,291 | ||
8,72 | 1,28 | 1,6384 | 0,188 | ||
12,12 | 1,88 | 3,5344 | 0,292 | ||
11,18 | 0,82 | 0,6724 | 0,060 | ||
11,64 | -2,64 | 6,9696 | 0,599 | ||
اس |
ب) با استفاده از جدول نقاط بحرانی توزیع c 2 در سطح معنی داری a=0.01 و تعداد درجات آزادی k=m–3=5–3=2، نقطه بحرانی را پیدا می کنیم. ما داریم .
ج را مقایسه کنید . در نتیجه، دلیلی برای رد فرضیه قانون توزیع نرمال ویژگی مورد مطالعه در جمعیت عمومی وجود ندارد. آن ها اختلاف بین فرکانس های تجربی و نظری ناچیز است (تصادفی). ◄
اظهار نظر.فواصل حاوی فرکانس های تجربی کوچک (n i<5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.
مثال.بر اساس نمونه ای متشکل از 24 متغیر، فرضیه ای در مورد توزیع نرمال جامعه مطرح شد. استفاده از معیار پیرسون در سطح معناداری در بین مقادیر داده شده = (34، 35، 36، 37، 38) نشان می دهد: الف) بزرگترین است که دلیلی برای رد فرضیه وجود ندارد. ب) کوچکترین مقداری که با شروع آن فرضیه باید رد شود.
بیایید تعداد درجات آزادی را با استفاده از فرمول پیدا کنیم:
که در آن تعداد گروه های نمونه (گزینه)، تعداد پارامترهای توزیع است.
از آنجایی که توزیع نرمال دارای 2 پارامتر (و) است، دریافت می کنیم
با استفاده از جدول نقاط بحرانی توزیع، با استفاده از سطح معینی از اهمیت و تعداد درجات آزادی، نقطه بحرانی را تعیین می کنیم.
در مورد الف) برای مقادیر برابر با 34 و 35، دلیلی برای رد فرضیه توزیع نرمال وجود ندارد، زیرا . و بزرگترین در بین این مقادیر است.
در حالت ب) برای مقادیر 36، 37، 38، فرضیه رد می شود، زیرا . کوچکترین در میان آنها .◄
2. آزمون فرضیه توزیع یکنواخت. هنگام استفاده از آزمون پیرسون برای آزمایش این فرضیه که جمعیت به طور یکنواخت با چگالی احتمال تخمین زده شده توزیع شده است.
لازم است با محاسبه مقدار از نمونه موجود، پارامترها برآورد شوند آو بطبق فرمول های:
جایی که آ*و ب*- ارزیابی ها آو ب. در واقع، برای توزیع یکنواخت م(ایکس) = , ، جایی که می توانید یک سیستم برای تعیین دریافت کنید آ*و ب*: که راه حل آن عبارات (9) است.
سپس با این فرض ، می توانید فرکانس های نظری را با استفاده از فرمول ها پیدا کنید
اینجا س- تعداد فواصل زمانی که نمونه به آنها تقسیم می شود.
مقدار مشاهده شده معیار پیرسون با استفاده از فرمول (7`) و مقدار بحرانی با در نظر گرفتن تعداد درجات آزادی با استفاده از جدول محاسبه می شود. k = s - 3. پس از این، مرزهای منطقه بحرانی به همان روشی که برای آزمایش فرضیه توزیع نرمال تعیین می شود.
3. آزمون فرضیه در مورد توزیع نمایی.در این مورد، پس از تقسیم نمونه موجود به فواصل با طول مساوی، دنباله ای از گزینه ها را با فاصله مساوی از یکدیگر در نظر می گیریم (فرض می گیریم که همه گزینه هایی که در من- امین بازه، یک مقدار منطبق بر وسط آن و فرکانس های مربوط به آنها را بگیرید n من(تعداد گزینه های نمونه موجود در من- فاصله بین). اجازه دهید از این داده ها محاسبه کنیم و به عنوان تخمینی از پارامتر در نظر بگیریم λ اندازه. سپس فرکانس های نظری با استفاده از فرمول محاسبه می شوند
سپس ارزش مشاهده شده و بحرانی معیار پیرسون با در نظر گرفتن این واقعیت که تعداد درجات آزادی مقایسه می شود. k = s - 2.
ODAمعیار آزمون فرضیه در مورد قانون مفروض توزیع مجهول، معیار مناسب بودن نامیده می شود.
چندین تست خوب بودن وجود دارد: $\chi ^2$ (chi-square) توسط K. Pearson، Kolmogorov، Smirnov و غیره.
به طور معمول، فرکانس نظری و تجربی متفاوت است. مورد اختلاف ممکن است تصادفی نباشد، به این معنی که با این واقعیت توضیح داده می شود که فرضیه به درستی انتخاب نشده است. معیار پیرسون به سؤال مطرح شده پاسخ می دهد، اما مانند هر معیاری چیزی را ثابت نمی کند، بلکه تنها موافقت یا عدم موافقت خود را با داده های مشاهده ای در سطح معناداری پذیرفته شده نشان می دهد.
ODAیک احتمال به اندازه کافی کوچک که در آن یک رویداد عملاً غیرممکن تلقی شود، سطح اهمیت نامیده می شود.
در عمل، سطوح معنیداری معمولاً بین 0.01 و 0.05 در نظر گرفته میشوند، $\alpha =0.05$ سطح معنیداری $5 (% ) $ است.
به عنوان معیاری برای آزمایش فرضیه، مقدار \begin(معادله) \label (eq1) \chi ^2=\sum ( \frac (((n_i -n_i"))^2) (n_i") را در نظر می گیریم. \qquad (1) \ پایان (معادله)
در اینجا $n_i -$ فرکانس های تجربی به دست آمده از نمونه، $n_i" -$ فرکانس های نظری به صورت نظری یافت می شوند.
ثابت شده است که برای $n\to \infty $، قانون توزیع متغیر تصادفی (1)، صرف نظر از قانونی که جمعیت توسط آن توزیع میشود، به قانون $\chi ^2$ تمایل دارد (chi-square) با درجه آزادی $k$.
ODAتعداد درجات آزادی با برابری $k=S-1-r$ که $S-$ تعداد گروه های بازه ای است، $r-$ تعداد پارامترها است.
1) توزیع یکنواخت: $r=2، k=S-3 $
2) توزیع نرمال: $r=2، k=S-3 $
3) توزیع نمایی: $r=1، k=S-2$.
قانون . آزمون فرضیه با استفاده از آزمون پیرسون.
- برای آزمایش فرضیه، فرکانس های نظری را محاسبه کرده و $\chi _ ( obs ) ^2 =\sum ( \frac ( ( ( n_i -n_i " ))^2 ) ( n_i " ) ) $ را پیدا کنید.
- استفاده از جدول نقاط بحرانی توزیع $\chi ^2$ برای سطح معنیداری معین $\alpha $ و تعداد درجات آزادی $k$, $\chi _ ( cr ) ^2 (( \alpha ,k ))$ پیدا شد.
- اگر $\chi _ ( obs ) ^2<\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.
اظهار نظربرای کنترل محاسبات، از فرمول $\chi ^2$ به شکل $\chi _ (مشاهده شده) ^2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) $ استفاده کنید
آزمون فرضیه توزیع یکنواخت
تابع چگالی توزیع یکنواخت کمیت $X$ به شکل $f(x)=\frac ( 1 ) ( b-a ) x\in \left[ (a,b )\right]$ است.
برای آزمایش این فرضیه که یک متغیر تصادفی پیوسته بر اساس یک قانون یکنواخت در سطح معناداری $\alpha $ توزیع شده است، لازم است:
1) میانگین نمونه $\overline ( x_b ) $ و $\sigma _b =\sqrt (D_b) $ را از یک توزیع تجربی مشخص پیدا کنید. مقادیر را به عنوان تخمینی از پارامترهای $a$ و $b$ در نظر بگیرید
$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $
2) احتمال سقوط یک متغیر تصادفی $X$ را در بازه های جزئی $(( x_i ,x_ ( i+1 ) ))$ با استفاده از فرمول $ P_i =P(( x_i) پیدا کنید. 3) فرکانس های نظری (همسطح) را با استفاده از فرمول $n_i" =np_i $ پیدا کنید. 4) با گرفتن تعداد درجات آزادی $k=S-3$ و سطح معناداری $\alpha =0.05$ از جداول $\chi ^2$، $\chi _ ( cr ) ^2 $ را برای داده شده پیدا می کنیم. $\alpha $ و $k$، $\chi _ ( kr ) ^2 (( \alpha ,k ))$. 5) با استفاده از فرمول $\chi _ (مشاهده) ^2 =\sum ( \frac ( (( n_i -n_i" ))^2 ) (n_i" ) ) $ که در آن $n_i -$ فرکانس های تجربی هستند، ما مقدار مشاهده شده $\ chi _ ( obs ) ^2 $. 6) اگر $\chi _ ( obs ) ^2<\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу. بیایید با استفاده از مثال خود فرضیه را آزمایش کنیم. 1) $\overline x _b =13.00\,\,\sigma _b =\sqrt (D_b) = 6.51$ 2) $a=13.00-\sqrt 3 \cdot 6.51=13.00-1.732\cdot 6.51=1.72468$ $b=13.00+1.732\cdot 6.51=24.27532$ $b-a=24.27532-1.72468=22.55064$ 3) $P_i =P(( x_i $P_2 =(( 3 $P_3 =(( 7 $P_4 =(( 11 $P_5 =(( 15 $P_6 =(( 19 در توزیع یکنواخت، اگر طول بازه یکسان باشد، $P_i -$ یکسان است. 4) $n_i" =np_i $ را پیدا کنید. 5) $\sum ( \frac ( ( ( n_i -n_i " ))^2 ) ( n_i" ) ) $ را پیدا کنید و $\chi _ ( obs ) ^2 $ را پیدا کنید. بیایید تمام مقادیر به دست آمده را در جدول وارد کنیم \begin(آرایه) ( |l|l|l|l|l|l|l| ) \hline i& n_i & n_i" =np_i & n_i -n_i" & (( n_i -n_i" ))^2& \frac ( (( n_i -n_i" ))^2) (n_i") و کنترل~ \frac (n_i^2) (n_i") \\ \hline 1& 1& 4.43438& -3.43438& 11.7950& 2.6509898& 11.7950& 2.6509898 6& 4.43438& 1.56562& 2.45117& 0.552765& 8.11838 \\ \hline 3& 3& 4.43438& -1.43438& 2.05744& 4.3&4, 3&4, 3&4 & -1.43438& 2.05744& 0.471463& 2.0296 \\ \hline 5 & 6& 4.43438 & 1.56562& 2.45117& 0.552765& 8.11838 \\ \hline 6& 6& 4.43438& 1.56562& 2, 45117& 0.552765& 8.11838 = 2 & h 1119& \چی _ ( obs ) ^2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) =3.63985 \\ \hline \end(آرایه) $\chi _ ( cr ) ^2 (( 0.05.3 ))=7.8$ $\chi _ ( obs ) ^2<\chi _ { кр } ^2 =3,26<7,8$ نتیجهدلیلی برای رد این فرضیه وجود ندارد. عرض فاصله خواهد بود:
Xmax حداکثر مقدار مشخصه گروه بندی در مجموع است.
Xmin - حداقل مقدار مشخصه گروه بندی.
بیایید مرزهای گروه را مشخص کنیم.شماره گروه خط پایین حد بالا
1
43
45.83
2
45.83
48.66
3
48.66
51.49
4
51.49
54.32
5
54.32
57.15
6
57.15
60
همان مقدار مشخصه به عنوان مرزهای بالا و پایین دو گروه مجاور (قبلی و بعدی) عمل می کند.
برای هر مقدار از سری، شمارش می کنیم که چند بار در یک بازه خاص قرار می گیرد. برای این کار سری ها را به ترتیب صعودی مرتب می کنیم. 43
43 - 45.83
1
48.5
45.83 - 48.66
1
49
48.66 - 51.49
1
49
48.66 - 51.49
2
49.5
48.66 - 51.49
3
50
48.66 - 51.49
4
50
48.66 - 51.49
5
50.5
48.66 - 51.49
6
51.5
51.49 - 54.32
1
51.5
51.49 - 54.32
2
52
51.49 - 54.32
3
52
51.49 - 54.32
4
52
51.49 - 54.32
5
52
51.49 - 54.32
6
52
51.49 - 54.32
7
52
51.49 - 54.32
8
52
51.49 - 54.32
9
52.5
51.49 - 54.32
10
52.5
51.49 - 54.32
11
53
51.49 - 54.32
12
53
51.49 - 54.32
13
53
51.49 - 54.32
14
53.5
51.49 - 54.32
15
54
51.49 - 54.32
16
54
51.49 - 54.32
17
54
51.49 - 54.32
18
54.5
54.32 - 57.15
1
54.5
54.32 - 57.15
2
55.5
54.32 - 57.15
3
57
54.32 - 57.15
4
57.5
57.15 - 59.98
1
57.5
57.15 - 59.98
2
58
57.15 - 59.98
3
58
57.15 - 59.98
4
58.5
57.15 - 59.98
5
60
57.15 - 59.98
6
ما نتایج گروه بندی را در قالب یک جدول ارائه می دهیم: گروه ها مجموعه شماره فرکانس f من
43 - 45.83
1
1
45.83 - 48.66
2
1
48.66 - 51.49
3,4,5,6,7,8
6
51.49 - 54.32
9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26
18
54.32 - 57.15
27,28,29,30
4
57.15 - 59.98
31,32,33,34,35,36
6
جدول برای محاسبه شاخص ها. گروه ها x i مقدار، f i x i * f i فرکانس انباشته، S |x - x av |*f (x - x میانگین) 2 *f فرکانس، f i /n
43 - 45.83
44.42
1
44.42
1
8.88
78.91
0.0278
45.83 - 48.66
47.25
1
47.25
2
6.05
36.64
0.0278
48.66 - 51.49
50.08
6
300.45
8
19.34
62.33
0.17
51.49 - 54.32
52.91
18
952.29
26
7.07
2.78
0.5
54.32 - 57.15
55.74
4
222.94
30
9.75
23.75
0.11
57.15 - 59.98
58.57
6
351.39
36
31.6
166.44
0.17
36
1918.73
82.7
370.86
1
برای ارزیابی سری توزیع، شاخص های زیر را پیدا می کنیم:
نشانگرهای مرکز توزیع.
میانگین وزنی
روش
حالت رایج ترین مقدار یک مشخصه در میان واحدهای یک جمعیت معین است.
که در آن x 0 آغاز بازه مودال است. h - مقدار فاصله؛ f 2 - فرکانس مربوط به بازه مودال. f 1 - فرکانس premodal; f 3 - فرکانس پست وجهی.
ما 51.49 را به عنوان ابتدای بازه انتخاب می کنیم، زیرا این بازه است که بیشترین عدد را به خود اختصاص می دهد.
رایج ترین مقدار این سری 52.8 است
میانه
میانه نمونه را به دو قسمت تقسیم می کند: نصف کمتر از میانه است، نیمی بیشتر است.
در یک سری توزیع بازهای، میتوانید فوراً فقط بازهای را که مد یا میانه در آن قرار میگیرد، مشخص کنید. میانه مربوط به گزینه وسط سری رتبه بندی شده است. میانه فاصله 51.49 - 54.32 است، زیرا در این بازه، فرکانس انباشته شده S از عدد میانه بزرگتر است (میانه اولین بازه ای است که فرکانس انباشته S از نصف مجموع فرکانس ها بیشتر است).
بنابراین 50 درصد از واحدهای جمعیت دارای قدر کمتر از 53.06 خواهند بود.
شاخص های تنوع.
تغییرات مطلق.
دامنه تغییرات تفاوت بین حداکثر و حداقل مقادیر مشخصه سری اولیه است.
R = X max - X min
R = 60 - 43 = 17
میانگین انحراف خطی- محاسبه شده به منظور در نظر گرفتن تفاوت تمام واحدهای جمعیت مورد مطالعه.
هر مقدار از سری با دیگری بیش از 2.3 تفاوت ندارد
پراکندگی- اندازه گیری پراکندگی را در اطراف مقدار متوسط آن مشخص می کند (معیار پراکندگی، یعنی انحراف از میانگین).
برآوردگر واریانس بی طرفانه- تخمین ثابت واریانس
انحراف معیار.
هر مقدار از سری با مقدار متوسط 53.3 بیش از 3.21 تفاوت دارد
برآورد انحراف معیار.
اندازه گیری تغییرات نسبی.
شاخص های نسبی تغییرات عبارتند از: ضریب نوسان، ضریب تغییرات خطی، انحراف خطی نسبی.
ضریب تغییرات- اندازه گیری پراکندگی نسبی مقادیر جمعیت: نشان می دهد که چه نسبتی از مقدار متوسط این مقدار پراکندگی متوسط آن است.
از آنجایی که v ≤ 30٪، جمعیت همگن و تنوع ضعیف است. می توان به نتایج به دست آمده اعتماد کرد.
ضریب تغییرات خطییا انحراف خطی نسبی- نسبت میانگین مقدار علامت انحراف مطلق از مقدار متوسط را مشخص می کند.
آزمون فرضیه ها در مورد نوع توزیع.
1. بیایید این فرضیه را بررسی کنیم که X روی آن توزیع شده است قانون عادیبا استفاده از آزمون نیکویی تناسب پیرسون
که در آن p i احتمال افتادن به بازه i یک متغیر تصادفی است که طبق یک قانون فرضی توزیع شده است.
برای محاسبه احتمالات p i از فرمول و جدول تابع لاپلاس استفاده می کنیم
جایی که
s = 3.21، xav = 53.3
فرکانس نظری (مورد انتظار) n i = np i است که در آن n = 36 است. فواصل گروه بندی فرکانس مشاهده شده n i x 1 = (x i - x میانگین)/s x 2 = (x i+1 - x av)/s F (x 1) F (x 2) احتمال وارد شدن به بازه i، p i = Ф(x 2) - Ф(x 1) فرکانس مورد انتظار، 36p i شرایط آماری پیرسون، K i
43 - 45.83
1
-3.16
-2.29
-0.5
-0.49
0.01
0.36
1.14
45.83 - 48.66
1
-2.29
-1.42
-0.49
-0.42
0.0657
2.37
0.79
48.66 - 51.49
6
-1.42
-0.56
-0.42
-0.21
0.21
7.61
0.34
51.49 - 54.32
18
-0.56
0.31
-0.21
0.13
0.34
12.16
2.8
54.32 - 57.15
4
0.31
1.18
0.13
0.38
0.26
9.27
3
57.15 - 59.98
6
1.18
2.06
0.38
0.48
0.0973
3.5
1.78
36
9.84
اجازه دهید مرز منطقه بحرانی را تعیین کنیم. از آنجایی که آماره پیرسون تفاوت بین توزیع های تجربی و نظری را اندازه گیری می کند، هر چه مقدار مشاهده شده K obs بزرگتر باشد، استدلال علیه فرضیه اصلی قوی تر است.
بنابراین، منطقه بحرانی برای این آمار همیشه راست دست است :)