ارزیابی اهمیت معادله رگرسیون و پارامترهای آن. ارزیابی اهمیت پارامترهای رگرسیون خطی و کل معادله به عنوان یک کل

با استفاده از OLS، شما فقط می توانید برآورد پارامترهای معادله رگرسیون را بدست آورید. برای آزمون معنی دار بودن پارامترها (یعنی تفاوت معنی داری با صفر در معادله رگرسیون واقعی) از روش های آماری آزمون فرضیه استفاده می شود. فرضیه اصلی این است که پارامتر رگرسیون یا ضریب همبستگی تفاوت ناچیزی با صفر دارد. یک فرضیه جایگزین، فرضیه مخالف است، یعنی. در مورد نابرابری یک پارامتر یا ضریب همبستگی به صفر. برای آزمون فرضیه از آن استفاده می شود t-آزمون تی دانشجویی

مقدار بدست آمده از داده های مشاهده ای t-معیار (همچنین مشاهده شده یا واقعی نامیده می شود) با یک مقدار جدول بندی شده (بحرانی) تعیین شده از جداول توزیع دانش آموز (که معمولاً در انتهای کتاب های درسی و کارگاه های آمار یا اقتصاد سنجی ارائه می شود) مقایسه می شود. مقدار جدول بسته به سطح معنی داری و تعداد درجات آزادی تعیین می شود که در صورت رگرسیون جفت خطی برابر است با ، n-تعداد مشاهدات

اگر مقدار واقعی باشد تی-معیار بزرگتر از جدول (در قدر مطلق) است، سپس در نظر گرفته می شود که با احتمال پارامتر رگرسیون (ضریب همبستگی) تفاوت معنی داری با صفر دارد.

اگر مقدار واقعی باشد تی-معیار کمتر از جدول بندی شده است (مدول)، پس دلیلی برای رد فرضیه اصلی وجود ندارد، یعنی. پارامتر رگرسیون (ضریب همبستگی) تفاوت معنی داری با صفر در سطح معنی داری ندارد.

ارزش های واقعی تی- معیارها با فرمول های زیر تعیین می شوند:

,

,

جایی که .

برای آزمون این فرضیه که ضریب همبستگی جفت خطی تفاوت معنی داری با صفر دارد، از معیار زیر استفاده می شود:

جایی که r - برآورد ضریب همبستگی به دست آمده از داده های مشاهده شده.

پیش بینی مقدار مورد انتظار مشخصه حاصل از Y با استفاده از یک خطی معادله جفتپسرفت.

اجازه دهید لازم باشد ارزش پیش بینی یک مشخصه نتیجه را برای یک مقدار معین از یک مشخصه عاملی تخمین بزنیم. مقدار پیش‌بینی‌شده مشخصه نتیجه با احتمال اطمینان برابر به بازه پیش‌بینی تعلق دارد:

,

جایی که - پیش بینی نقطه ای؛

تی - ضریب اطمینان از جداول توزیع دانشجو بسته به سطح معناداری تعیین می شود α و تعداد درجات آزادی؛

خطای متوسطپیش بینی.

پیش بینی نقطه ای با استفاده از یک معادله رگرسیون خطی به صورت زیر محاسبه می شود:

.

میانگین خطای پیش بینی با فرمول تعیین می شود:

.

مثال 1.

بر اساس داده های ارائه شده در پیوست و مربوط به گزینه 100، موارد زیر مورد نیاز است:



1. معادله ای برای رگرسیون جفت خطی یک مشخصه از مشخصه دیگر بسازید. یکی از ویژگی های مربوط به گزینه شما نقش یک عامل (X) را بازی می کند. , دیگری - مولد . خودتان بر اساس تحلیل اقتصادی روابط علت و معلولی بین ویژگی ها برقرار کنید. معنی پارامترهای معادله را توضیح دهید.

3. اهمیت آماری پارامترهای رگرسیون و ضریب همبستگی را با سطح معنی داری 05/0 ارزیابی کنید.

4. مقدار مورد انتظار مشخصه نتیجه Y را با مقدار پیش بینی شده مشخصه عامل پیش بینی کنید. ایکس، 105٪ از میانگین سطح X را تشکیل می دهد . با محاسبه خطای پیش‌بینی و آن، صحت پیش‌بینی را ارزیابی کنید فاصله اطمینانبا احتمال 0.95

راه حل:

به عنوان عامل ورود به سیستم در این موردبیایید قیمت بازار سهام را انتخاب کنیم، زیرا میزان سود سهام انباشته به سودآوری سهام بستگی دارد. بنابراین، علامت موثر خواهد بود سود تقسیمی بر اساس نتایج عملکرد.

برای سهولت در محاسبات، یک جدول محاسباتی می سازیم که با حل مشکل پر می شود. (میز 1)

برای وضوح، اجازه دهید وابستگی Y به X را به صورت گرافیکی ارائه کنیم. (شکل 2)

جدول 1 - جدول محاسبه


1. یک معادله رگرسیونی به شکل زیر بسازیم.

برای این کار لازم است پارامترهای معادله و .

تعریف کنیم ,

میانگین مقادیر کجاست ، مربع

مقدار متوسط مربع

بیایید پارامتر را تعریف کنیم یک 0:

معادله رگرسیونی به شکل زیر بدست می آوریم:

این پارامتر نشان می دهد که در غیاب تأثیر قیمت سهام، سود سهام تعلق گرفته بر اساس نتایج عملیاتی چقدر خواهد بود. بر اساس پارامتر، می توان نتیجه گرفت که وقتی قیمت مبادله سهام 1 روبل تغییر می کند. تغییری در سود سهام در همان جهت 0.01 میلیون روبل وجود خواهد داشت.



2. ضریب خطی همبستگی جفت و ضریب تعیین را محاسبه می کنیم.

ضریب همبستگی جفت خطی با فرمول تعیین می شود:

,

بیایید تعریف کنیم و :

ضریب همبستگی برابر با 0.708 به ما اجازه می دهد تا ارتباط نزدیک بین ویژگی های حاصل و عامل را قضاوت کنیم. .

ضریب تعیین برابر با مربع است ضریب خطیهمبستگی ها:

ضریب تعیین نشان می دهد که تغییر در سود سهام انباشته به تغییر در قیمت مبادله سهام و سایر عواملی که در مدل لحاظ نشده است بستگی دارد.

3. اهمیت پارامترهای معادله رگرسیون و ضریب همبستگی خطی را با توجه به t-آزمون تی دانشجویی مقایسه مقادیر محاسبه شده ضروری است t-معیارهای هر پارامتر و مقایسه آن با جدول.

برای محاسبه مقادیر واقعی تی-ما معیارها را تعریف می کنیم:

بعد از اینکه معادله پیدا شد رگرسیون خطی، اهمیت معادله به عنوان یک کل و پارامترهای فردی آن ارزیابی می شود.

اهمیت معادله رگرسیون را بررسی کنید - یعنی تعیین اینکه آیا مطابقت دارد یا خیر مدل ریاضی، بیانگر رابطه بین متغیرها، داده های تجربی و اینکه آیا متغیرهای توضیحی موجود در معادله (یک یا چند) برای توصیف متغیر وابسته کافی هستند یا خیر.

آزمون اهمیت بر اساس انجام می شود تحلیل واریانس.

با توجه به ایده تحلیل واریانس، مجموع مجذور انحرافات (SD) y از مقدار متوسط ​​به دو بخش - توضیح داده شده و غیر قابل توضیح - تجزیه می شود:

یا بر این اساس:

در اینجا دو حالت شدید ممکن است: زمانی که انحراف استاندارد کل دقیقاً برابر با انحراف استاندارد باقی مانده باشد و زمانی که انحراف استاندارد کل برابر با انحراف معیار عامل باشد.

در حالت اول، ضریب x بر نتیجه تأثیر نمی گذارد، کل واریانس y ناشی از تأثیر عوامل دیگر است، خط رگرسیون موازی با محور Ox است و معادله باید شبیه به آن باشد.

در حالت دوم، عوامل دیگر بر نتیجه تأثیر نمی گذارند، y از نظر عملکردی با x مرتبط است و انحراف استاندارد باقیمانده صفر است.

با این حال، در عمل، هر دو عبارت در سمت راست وجود دارد. سودمندی یک خط رگرسیون برای پیش بینی بستگی به این دارد که چه مقدار از کل تغییرات در y توسط تغییرات توضیح داده شده به حساب می آید. اگر انحراف معیار توضیح داده شده بیشتر از انحراف استاندارد باقیمانده باشد، معادله رگرسیون از نظر آماری معنادار است و عامل x بر نتیجه y تأثیر معناداری دارد. این معادل این واقعیت است که ضریب تعیین به وحدت نزدیک می شود.

تعداد درجات آزادی (df-درجه آزادی) تعداد مقادیر متغیر مستقل یک مشخصه است.

برای انحراف استاندارد عمومی، (n-1) انحرافات مستقل مورد نیاز است،

MSE فاکتوریل یک درجه آزادی دارد و

بنابراین، می توانیم بنویسیم:

از این تراز تعیین می کنیم که = n-2.

با تقسیم هر انحراف معیار بر تعداد درجات آزادی آن، میانگین مربع انحرافات یا پراکندگی در یک درجه آزادی را بدست می آوریم: واریانس کل، - فاکتوریل، - باقیمانده.

تحلیل و بررسی اهمیت آماریضرایب رگرسیون خطی

اگرچه مقادیر نظری ضرایب معادله وابستگی خطی ثابت فرض می شود، اما تخمین های a و b از این ضرایب به دست آمده در طول ساخت معادله با استفاده از داده های نمونه تصادفی به دست آمده است. متغیرهای تصادفی. اگر خطاهای رگرسیون دارند توزیع نرمال، سپس تخمین های ضرایب نیز به طور معمول توزیع می شوند و می توانند با مقادیر میانگین و واریانس خود مشخص شوند. بنابراین، تجزیه و تحلیل ضرایب با محاسبه این ویژگی ها آغاز می شود.

واریانس ضرایب با استفاده از فرمول محاسبه می شود:

واریانس ضریب رگرسیون:

واریانس باقیمانده در هر درجه آزادی کجاست.

واریانس پارامتر:

از اینجا خطای استانداردضریب رگرسیون با فرمول تعیین می شود:

خطای استاندارد پارامتر با فرمول تعیین می شود:

آنها برای آزمایش فرضیه های صفر استفاده می کنند که مقدار واقعی ضریب رگرسیون b یا عبارت وقفه a برابر با صفر است: .

فرضیه جایگزین به نظر می رسد: .

t - آمار دارای t - توزیع دانشجویی با درجه آزادی است. با استفاده از جداول توزیع Student، در سطح معناداری مشخص b و درجات آزادی، مقدار بحرانی پیدا می شود.

در صورت رد فرضیه صفر، ضرایب از نظر آماری معنی دار در نظر گرفته می شوند.

اگر، پس فرض صفر را نمی توان رد کرد. (اگر ضریب b از نظر آماری ناچیز باشد، معادله باید به این صورت باشد و این به این معنی است که بین ویژگی ها رابطه ای وجود ندارد. اگر ضریب a از نظر آماری ناچیز است، پیشنهاد می شود معادله جدید را در فرم ارزیابی کنید)

تخمین ضریب بازه معادله خطیرگرسیون ها:

فاصله اطمینان برایآ: .

فاصله اطمینان برایب:

این بدان معنی است که با یک قابلیت اطمینان داده شده (که در آن سطح معنی داری است)، مقادیر واقعی a، b در فواصل مشخص شده هستند.

ضریب رگرسیون یک تفسیر اقتصادی واضح دارد، بنابراین محدودیت های اطمینان بازه نباید حاوی نتایج متناقض باشد، به عنوان مثال، آنها نباید شامل صفر باشند.

تجزیه و تحلیل اهمیت آماری معادله به عنوان یک کل.

توزیع فیشر در تحلیل رگرسیون

اهمیت معادله رگرسیون به عنوان یک کل با استفاده از آزمون F فیشر ارزیابی می شود. در این مورد، یک فرضیه صفر مطرح می شود که تمام ضرایب رگرسیون، به استثنای عبارت آزاد a، برابر با صفر هستند و بنابراین، عامل x بر نتیجه y (یا) تأثیر نمی گذارد.

مقدار معیار F مربوط به ضریب تعیین است. چه زمانی رگرسیون چندگانه:

که m تعداد متغیرهای مستقل است.

چه زمانی رگرسیون زوجیفرمول آمار F به شکل زیر است:

هنگام یافتن مقدار جدولی آزمون F، سطح معناداری (معمولاً 0.05 یا 0.01) و دو درجه آزادی تعیین می شود: - در صورت رگرسیون چندگانه، - برای رگرسیون زوجی.

اگر رد شود و نتیجه گیری شود که رابطه آماری بین y و x معنی دار است.

اگر، پس احتمال معادله رگرسیون از نظر آماری ناچیز در نظر گرفته شده و رد نمی شود.

اظهار نظر. در رگرسیون خطی زوجی. همچنین، به همین دلیل است. بنابراین، آزمون فرضیه‌های مربوط به معنی‌داری رگرسیون و ضرایب همبستگی، معادل آزمون فرضیه در مورد اهمیت معادله رگرسیون خطی است.

توزیع فیشر را می توان نه تنها برای آزمایش این فرضیه که همه ضرایب رگرسیون خطی به طور همزمان برابر با صفر هستند، بلکه این فرضیه که برخی از این ضرایب برابر با صفر هستند نیز مورد استفاده قرار داد. این در هنگام توسعه یک مدل رگرسیون خطی مهم است، زیرا به شخص اجازه می‌دهد تا اعتبار حذف متغیرهای فردی یا گروه‌های آنها را از تعداد متغیرهای توضیحی ارزیابی کند، یا برعکس، آنها را در این تعداد لحاظ کند.

برای مثال، فرض کنید که ابتدا یک رگرسیون خطی چندگانه برای n مشاهده با m متغیر توضیحی تخمین زده شده و ضریب تعیین برابر است، سپس k متغیرهای آخر از تعداد متغیرهای توضیحی حذف شده و با استفاده از همان داده ها یک معادله تخمین زده می شود که ضریب تعیین برای آن برابر است (، زیرا هر متغیر اضافی، بخشی، هرچند کوچک، از تغییرات متغیر وابسته را توضیح می دهد.)

به منظور آزمون فرضیه برابری همزمان صفر همه ضرایب با متغیرهای حذف شده، مقدار محاسبه شده است.

داشتن توزیع فیشر با درجات آزادی.

با استفاده از جداول توزیع فیشر، در سطح معناداری معین، پیدا کنید. و اگر، پس فرض صفر رد می شود. در این مورد، حذف تمام متغیرهای k از معادله نادرست است.

استدلال مشابهی را می توان در مورد اعتبار گنجاندن یک یا چند K متغیر توضیحی جدید در معادله رگرسیون انجام داد.

در این حالت، آماره F محاسبه می شود

داشتن توزیع و اگر از یک سطح بحرانی فراتر رفت، آنگاه گنجاندن متغیرهای جدید بخش قابل توجهی از واریانس غیرقابل توضیح قبلی متغیر وابسته را توضیح می‌دهد (یعنی گنجاندن متغیرهای توضیحی جدید موجه است).

یادداشت. 1. توصیه می شود که متغیرهای جدید را یکی یکی اضافه کنید.

2. برای محاسبه F - آمار، هنگام در نظر گرفتن گنجاندن متغیرهای توضیحی در معادله، توصیه می شود ضریب تعیین تعدیل شده برای تعداد درجات آزادی را در نظر بگیرید.

از آماره F فیشر نیز برای آزمون فرضیه توافق معادلات رگرسیون برای گروه‌های مشاهدات فردی استفاده می‌شود.

بگذارید 2 نمونه به ترتیب حاوی مشاهدات باشد. برای هر یک از این نمونه ها معادله رگرسیون فرم برآورد شد. بگذارید انحراف معیار از خط رگرسیون (یعنی) به ترتیب برای آنها برابر باشد.

فرضیه صفر مورد آزمایش قرار می گیرد: تمام ضرایب متناظر این معادلات با یکدیگر برابر هستند، یعنی. معادله رگرسیون برای این نمونه ها یکسان است.

اجازه دهید یک معادله رگرسیونی از همان نوع برای همه مشاهدات به طور همزمان و انحراف معیار تخمین زده شود.

سپس با استفاده از فرمول آماره F محاسبه می شود:

دارای توزیع فیشر با درجات آزادی است. F - اگر معادله هر دو نمونه یکسان باشد، آمار نزدیک به صفر خواهد بود، زیرا در این مورد. آن ها اگر، پس فرضیه صفر پذیرفته می شود.

اگر فرضیه صفر رد می شود و نمی توان یک معادله رگرسیونی ایجاد کرد.

پس از اینکه معادله رگرسیون ساخته شد و دقت آن با استفاده از ضریب تعیین ارزیابی شد، باقی می ماند. سوال بازچگونه این دقت به دست آمده است و بر این اساس آیا می توان به این معادله اعتماد کرد. واقعیت این است که معادله رگرسیون بر اساس آن ساخته نشده است جمعیت، که ناشناخته است، اما بر اساس نمونه ای از آن است. امتیازات از جمعیت عمومی به طور تصادفی در نمونه قرار می گیرند، بنابراین، مطابق با تئوری احتمال، از جمله موارد دیگر، ممکن است که یک نمونه از یک جمعیت عمومی "گسترده" "محدود" باشد (شکل 15). .

برنج. 15. نوع احتمالیامتیازهایی که در نمونه ای از جمعیت عمومی قرار می گیرند.

در این مورد:

الف) معادله رگرسیون ساخته شده برای نمونه ممکن است به طور قابل توجهی با معادله رگرسیون برای جمعیت عمومی متفاوت باشد، که منجر به خطاهای پیش بینی می شود.

ب) ضریب تعیین و سایر مشخصه های دقت به طور غیر منطقی بالا بوده و در مورد کیفیت های پیش بینی معادله گمراه می شود.

در حالت محدود، زمانی که از یک جمعیت عمومی که یک ابر با محور اصلی موازی با محور افقی است (هیچ رابطه ای بین متغیرها وجود ندارد)، به دلیل انتخاب تصادفی، نمونه ای به دست می آید، نمی تواند حذف شود. که محور اصلی آن به محور متمایل خواهد شد. بنابراین، تلاش برای پیش‌بینی مقادیر بعدی جمعیت عمومی بر اساس داده‌های یک نمونه از آن، نه تنها مملو از خطا در ارزیابی قدرت و جهت رابطه بین متغیرهای وابسته و مستقل است، بلکه با خطر یافتن ارتباط بین متغیرها در جایی که در واقع هیچ کدام وجود ندارد.

در صورت عدم وجود اطلاعات در مورد تمام نقاط جامعه، تنها راه کاهش خطاها در حالت اول استفاده از روشی در تخمین ضرایب معادله رگرسیون است که از بی طرفی و کارایی آنها اطمینان حاصل کند. و احتمال وقوع مورد دوم را می توان به میزان قابل توجهی کاهش داد زیرا یک ویژگی از یک جمعیت عمومی با دو متغیر مستقل از یکدیگر به طور پیشینی شناخته شده است - دقیقاً این ارتباط است که در آن وجود ندارد. این کاهش با بررسی اهمیت آماری معادله رگرسیون حاصل به دست می آید.

یکی از متداول ترین گزینه های تایید به شرح زیر است. برای معادله رگرسیون حاصل، یک -آمار تعیین می شود - مشخصه ای از دقت معادله رگرسیون، که نسبت آن قسمت از واریانس متغیر وابسته است که با معادله رگرسیون توضیح داده می شود به قسمت غیر قابل توضیح (باقیمانده) از واریانس معادله تعیین آمار - در مورد رگرسیون چند متغیره به شکل زیر است:

که در آن: - واریانس توضیح داده شده - بخشی از واریانس متغیر وابسته Y که با معادله رگرسیون توضیح داده می شود.

واریانس باقیمانده بخشی از واریانس متغیر وابسته Y است که با معادله رگرسیون توضیح داده نمی شود، حضور آن نتیجه عمل مولفه تصادفی است.

تعداد امتیازات نمونه؛

تعداد متغیرها در معادله رگرسیون.

همانطور که از فرمول بالا مشاهده می شود، واریانس ها به عنوان ضریب تقسیم مجموع مربع های مربوطه بر تعداد درجات آزادی تعیین می شوند. تعداد درجات آزادی حداقل تعداد مورد نیاز متغیر وابسته است که برای به دست آوردن ویژگی مورد نظر نمونه کافی است و می تواند آزادانه تغییر کند، با در نظر گرفتن این واقعیت که برای این نمونه تمام مقادیر دیگر وجود دارد. مورد استفاده برای محاسبه مشخصه مورد نظر شناخته شده است.

برای به دست آوردن واریانس باقیمانده، ضرایب معادله رگرسیون مورد نیاز است. در مورد رگرسیون خطی زوجی، دو ضریب وجود دارد، بنابراین مطابق با فرمول (گرفتن) تعداد درجات آزادی برابر است. به این معنی که برای تعیین واریانس باقیمانده کافی است ضرایب معادله رگرسیون و فقط مقادیر متغیر وابسته را از نمونه بدانیم. دو مقدار باقی مانده را می توان بر اساس این داده ها محاسبه کرد و بنابراین آزادانه متغیر نیستند.

برای محاسبه واریانس توضیح داده شده مقادیر متغیر وابسته، اصلاً نیازی نیست، زیرا با دانستن ضرایب رگرسیون برای متغیرهای مستقل و واریانس متغیر مستقل می توان آن را محاسبه کرد. برای تأیید این موضوع، کافی است عبارت قبلی را یادآوری کنید . بنابراین، تعداد درجات آزادی برای واریانس باقیمانده برابر است با تعداد متغیرهای مستقل در معادله رگرسیون (برای رگرسیون خطی زوجی).

در نتیجه، معیار - برای معادله رگرسیون خطی زوجی با فرمول تعیین می شود:

.

در تئوری احتمال، ثابت شده است که معیار معادله رگرسیون به دست آمده برای نمونه ای از یک جامعه عمومی که در آن هیچ رابطه ای بین متغیرهای وابسته و مستقل وجود ندارد، دارای توزیع فیشر است که به خوبی مطالعه شده است. با تشکر از این، برای هر مقدار از معیار، می توان احتمال وقوع آن را محاسبه کرد و برعکس، مقدار معیاری را که با یک احتمال معین نمی تواند از آن فراتر رود، تعیین کرد.

برای انجام آزمون آماری معناداری معادله رگرسیون، فرضیه صفر مبنی بر عدم وجود رابطه بین متغیرها (همه ضرایب برای متغیرها برابر با صفر است) فرموله شده و سطح معناداری انتخاب می شود.

سطح معنی داری احتمال قابل قبولی برای ایجاد خطای نوع I است - رد فرضیه صفر صحیح در نتیجه آزمایش. در این مورد، ایجاد یک خطای نوع I به معنای تشخیص در یک نمونه است که بین متغیرهای جامعه رابطه وجود دارد در حالی که در واقع هیچ رابطه ای وجود ندارد.

به طور معمول سطح معنی داری 5% یا 1% در نظر گرفته می شود. هرچه سطح معنی داری بالاتر باشد (کمتر)، سطح پایایی آزمون بالاتر است، یعنی برابر است. شانس اجتناب از خطای تشخیص وجود یک ارتباط در جمعیت عمومی متغیرهای واقعی غیرمرتبط در نمونه بیشتر است. اما با افزایش سطح اهمیت، خطر ارتکاب خطای نوع دوم افزایش می‌یابد - رد فرضیه صفر صحیح، یعنی. در نمونه متوجه ارتباط واقعی بین متغیرها در جامعه عمومی نشود. بنابراین، بسته به اینکه کدام خطا بزرگ است پیامدهای منفی، یک یا سطح دیگری از اهمیت را انتخاب کنید.

برای سطح معناداری انتخاب شده، توزیع فیشر تعیین می کند ارزش جدولاحتمال مازاد که در نمونه ای با توان به دست آمده از جامعه عمومی بدون رابطه بین متغیرها، از سطح معنی داری فراتر نمی رود. با مقدار واقعی معیار مقایسه می شود معادله رگرسیون.

اگر شرط برآورده شود، تشخیص اشتباه یک ارتباط با مقدار معیار - مساوی یا بیشتر در نمونه ای از یک جمعیت عمومی با متغیرهای نامرتبط با احتمال کمتر از سطح معنی داری رخ می دهد. مطابق با قاعده «خیلی رویدادهای نادراتفاق نمی افتد»، به این نتیجه می رسیم که رابطه بین متغیرهای ایجاد شده در نمونه در جامعه عمومی که از آن به دست آمده است نیز وجود دارد.

اگر معلوم شد که معادله رگرسیون از نظر آماری معنادار نیست. به عبارت دیگر، احتمال واقعی وجود دارد که نمونه رابطه ای بین متغیرهایی برقرار کرده باشد که در واقعیت وجود ندارد. معادله ای که در آزمون معنی دار بودن آماری ناموفق باشد، مانند داروی تاریخ مصرف گذشته رفتار می شود.

Ti - چنین داروهایی لزوماً فاسد نیستند، اما از آنجایی که به کیفیت آنها اطمینانی وجود ندارد، ترجیح می دهند از آنها استفاده نکنند. این قانون در برابر همه اشتباهات محافظت نمی کند، اما به شما امکان می دهد از جدی ترین آنها اجتناب کنید، که این نیز بسیار مهم است.

گزینه تأیید دوم که هنگام استفاده از صفحات گسترده راحت تر است، مقایسه احتمال وقوع مقدار معیار حاصل با سطح اهمیت است. اگر این احتمال کمتر از سطح معنی داری باشد، معادله از نظر آماری معنادار است، در غیر این صورت نیست.

پس از بررسی معناداری آماری معادله رگرسیون به عنوان یک کل، به طور کلی، به ویژه برای وابستگی های چند متغیره، بررسی اهمیت آماری ضرایب رگرسیون به دست آمده مفید است. ایدئولوژی راستی آزمایی مانند زمانی است که معادله را به طور کلی بررسی می کنیم، اما آزمون t Student به عنوان یک معیار استفاده می شود که با فرمول های زیر تعیین می شود:

و

که در آن: , - مقادیر معیار دانشجو برای ضرایب و به ترتیب؛

- واریانس باقی مانده از معادله رگرسیون.

تعداد امتیازات نمونه؛

تعداد متغیرها در نمونه، برای رگرسیون خطی زوجی.

مقادیر واقعی بدست آمده از آزمون دانشجو با مقادیر جدول مقایسه می شود ، به دست آمده از توزیع Student. اگر معلوم شد که ضریب مربوطه از نظر آماری معنی دار است، در غیر این صورت خیر. گزینه دوم برای بررسی معناداری آماری ضرایب، تعیین احتمال وقوع آزمون دانشجو و مقایسه آن با سطح معناداری است.

برای متغیرهایی که ضرایب آنها از نظر آماری ناچیز است، احتمال زیادی وجود دارد که تأثیر آنها بر متغیر وابسته در جامعه کاملاً وجود نداشته باشد. بنابراین یا باید تعداد امتیازهای نمونه را افزایش داد، آنگاه شاید ضریب از نظر آماری معنی‌دار شود و در عین حال مقدار آن مشخص شود، یا سایرین به‌عنوان متغیرهای مستقل یافت شوند که ارتباط نزدیک‌تری با ضریب وابسته دارند. متغیر. در این صورت دقت پیش بینی در هر دو حالت افزایش می یابد.

به عنوان یک روش بیان برای ارزیابی اهمیت ضرایب معادله رگرسیون، می توانید استفاده کنید قانون بعدی- اگر آزمون t Student بزرگتر از 3 باشد، چنین ضریبی، به عنوان یک قاعده، از نظر آماری معنادار است. به طور کلی، اعتقاد بر این است که برای به دست آوردن معادلات رگرسیونی از نظر آماری معنی دار، لازم است که شرط وجود داشته باشد.

خطای پیش‌بینی استاندارد از معادله رگرسیون حاصل از یک مقدار مجهول با مقدار شناخته شده با استفاده از فرمول برآورد می‌شود:

بنابراین، یک پیش‌بینی با احتمال اطمینان 68 درصد را می‌توان به صورت زیر ارائه کرد:

اگر دیگری مورد نیاز است احتمال اطمینانسپس برای سطح معناداری باید آزمون دانشجو را پیدا کرد و فاصله اطمینان برای پیش بینی با سطح پایایی برابر خواهد بود. .

پیش‌بینی وابستگی‌های چند بعدی و غیرخطی

اگر مقدار پیش بینی شده به چندین متغیر مستقل بستگی داشته باشد، در این حالت یک رگرسیون چند متغیره از فرم وجود دارد:

که در آن: - ضرایب رگرسیون که تأثیر متغیرها را بر مقدار پیش بینی شده توصیف می کند.

روش برای تعیین ضرایب رگرسیون هیچ تفاوتی با رگرسیون خطی زوجی ندارد، به ویژه در هنگام استفاده از یک صفحه گسترده، زیرا از یک تابع برای رگرسیون خطی دوتایی و چند متغیره استفاده می کند. در این حالت، مطلوب است که هیچ رابطه ای بین متغیرهای مستقل وجود نداشته باشد. تغییر یک متغیر بر مقادیر سایر متغیرها تأثیری ندارد. اما این الزام اجباری نیست، مهم است که هیچ توابع عملکردی بین متغیرها وجود نداشته باشد وابستگی های خطی. رویه هایی که در بالا برای بررسی اهمیت آماری معادله رگرسیون حاصل و ضرایب فردی آن توضیح داده شد، ارزیابی دقت پیش بینی همانند مورد رگرسیون خطی زوجی باقی می ماند. در عین حال، استفاده از رگرسیون های چند متغیره به جای رگرسیون های زوجی، معمولاً با انتخاب مناسب متغیرها، به طور قابل توجهی باعث افزایش دقت در توصیف رفتار متغیر وابسته و در نتیجه دقت پیش بینی می شود.

علاوه بر این، معادلات رگرسیون خطی چند متغیره، توصیف وابستگی غیرخطی مقدار پیش‌بینی‌شده به متغیرهای مستقل را ممکن می‌سازد. روش ریخته گری معادله غیر خطیبه فرم خطیخطی سازی نامیده می شود. به طور خاص، اگر این وابستگی با یک چند جمله‌ای درجه متفاوت از 1 توصیف شود، با جایگزینی متغیرهایی با درجه‌های متفاوت از وحدت با متغیرهای جدید درجه اول، به جای یک مسئله غیرخطی، یک مسئله رگرسیون خطی چند متغیره به دست می‌آوریم. بنابراین، برای مثال، اگر تأثیر یک متغیر مستقل با سهمی شکل توصیف شود

سپس جایگزینی به ما اجازه می دهد تا مسئله غیرخطی را به یک شکل خطی چند بعدی تبدیل کنیم

مسائل غیرخطی که در آنها غیرخطی بودن به دلیل اینکه مقدار پیش بینی شده به حاصلضرب متغیرهای مستقل بستگی دارد نیز به راحتی قابل تبدیل هستند. برای در نظر گرفتن چنین تأثیری، لازم است متغیر جدیدی معادل این محصول معرفی شود.

در مواردی که غیرخطی بودن با وابستگی های پیچیده تر توصیف می شود، خطی سازی به دلیل تبدیل مختصات امکان پذیر است. برای این منظور مقادیر محاسبه می شود و نمودارهایی از وابستگی نقاط اولیه در ترکیبات مختلف متغیرهای تبدیل شده ساخته شده است. ترکیبی از مختصات تبدیل شده یا مختصات تبدیل شده و غیر تبدیل شده که در آن وابستگی به یک خط مستقیم نزدیکتر است باعث تغییر متغیرها می شود که منجر به تبدیل یک وابستگی غیرخطی به یک فرم خطی می شود. به عنوان مثال، وابستگی غیرخطی فرم

به شکل خطی تبدیل می شود

ضرایب رگرسیون حاصل برای معادله تبدیل شده بی طرف و کارآمد باقی می مانند، اما آزمایش اهمیت آماری معادله و ضرایب ممکن نیست.

بررسی اعتبار روش کمترین مربعات

استفاده از روش حداقل مربعات، کارایی و تخمین های بی طرفانه ضرایب معادله رگرسیون را تحت شرایط زیر تضمین می کند (شرایط گاوس-مارکوف):

3. ارزش ها به یکدیگر بستگی ندارند

4. مقادیر به متغیرهای مستقل بستگی ندارند

ساده ترین راه برای بررسی اینکه آیا این شرایط برآورده شده اند یا خیر، رسم باقیمانده ها به عنوان تابعی از و سپس به عنوان تابعی از متغیر(های) مستقل است. اگر نقاط این نمودارها در راهرویی قرار گرفته باشند که به صورت متقارن نسبت به محور x قرار دارد و هیچ الگوی در محل نقاط قابل مشاهده نباشد، در این صورت شرایط گاوس-مارکوف برقرار است و فرصتی برای بهبود دقت رگرسیون وجود ندارد. معادله اگر اینطور نباشد، می توان دقت معادله را به میزان قابل توجهی بهبود بخشید و برای این کار باید به ادبیات تخصصی روی آورد.

برآورد اهمیت پارامترهای معادله رگرسیون

اهمیت پارامترهای معادله رگرسیون خطی با استفاده از آزمون دانشجو ارزیابی می شود:

اگر تیکالک > تی cr، سپس فرضیه اصلی پذیرفته می شود ( H o) که نشان دهنده اهمیت آماری پارامترهای رگرسیون است.

اگر تیکالک< تی cr، سپس فرضیه جایگزین پذیرفته می شود ( H 1) که بیانگر بی اهمیت بودن آماری پارامترهای رگرسیون است.

جایی که m a , MB- خطاهای استاندارد پارامترها آو ب:

(2.19)

(2.20)

مقدار بحرانی (جدولی) معیار با استفاده از جداول آماری توزیع دانشجو (پیوست B) یا با استفاده از جداول یافت می شود. برتری داشتن(بخش جادوگر تابع "آمار"):

تی cr = STUDRASOBR( α=1-P; k=n-2), (2.21)

جایی که k=n-2همچنین نشان دهنده تعداد درجات آزادی است .

ارزیابی اهمیت آماری را می توان برای ضریب همبستگی خطی نیز اعمال کرد

جایی که آقای- خطای استاندارد در تعیین مقادیر ضریب همبستگی r yx

(2.23)

در زیر گزینه هایی برای وظایف عملی و کار آزمایشگاهیدر مورد موضوع بخش دوم

سوالات خودآزمایی بخش 2

1. اجزای اصلی مدل اقتصادسنجی و ماهیت آنها را مشخص کنید.

2. محتوای اصلی مراحل تحقیق اقتصادسنجی.

3. ماهیت رویکردها برای تعیین پارامترهای رگرسیون خطی.

4. ماهیت و ویژگی استفاده از روش حداقل مربعات در تعیین پارامترهای معادله رگرسیون.

5. برای ارزیابی نزدیکی رابطه بین عوامل مورد مطالعه از چه شاخص هایی استفاده می شود؟

6. ماهیت ضریب همبستگی خطی.

7. ماهیت ضریب تعیین.

8. ماهیت و ویژگی های اصلی روش های ارزیابی کفایت (معنی دار بودن آماری) مدل های رگرسیون.

9. ارزیابی کفایت مدل های رگرسیون خطی با ضریب تقریب.

10. جوهر رویکرد برای ارزیابی کفایت مدل های رگرسیون با استفاده از معیار فیشر. تعیین مقادیر معیار تجربی و انتقادی.

11. ماهیت مفهوم «تحلیل واریانس» در رابطه با تحقیقات اقتصادسنجی.

12. ماهیت و ویژگی های اصلی روش برای ارزیابی اهمیت پارامترهای یک معادله رگرسیون خطی.

13. ویژگی های استفاده از توزیع Student هنگام ارزیابی اهمیت پارامترهای یک معادله رگرسیون خطی.

14- تکلیف پیش‌بینی ارزش‌های تک پدیده اجتماعی-اقتصادی مورد مطالعه چیست؟

1. یک میدان همبستگی بسازید و یک فرض در مورد شکل معادله برای رابطه عوامل مورد مطالعه فرموله کنید.

2. معادلات اساسی روش حداقل مربعات را بنویسید، تبدیل های لازم را انجام دهید، جدولی برای محاسبات میانی تهیه کنید و پارامترهای معادله رگرسیون خطی را تعیین کنید.

3. صحت محاسبات را با استفاده از رویه های استاندارد و توابع الکترونیکی بررسی کنید جداول اکسل.

4. تجزیه و تحلیل نتایج، تدوین نتیجه گیری و توصیه ها.

1. محاسبه مقدار ضریب همبستگی خطی.

2. ساخت جدول تحلیل واریانس.

3. برآورد ضریب تعیین;

4. صحت محاسبات را با استفاده از رویه ها و توابع استاندارد صفحات گسترده Excel بررسی کنید.

5. نتایج را تجزیه و تحلیل کنید، نتیجه گیری و توصیه ها را تدوین کنید.

4. رفتار ارزیابی کلیکفایت معادله رگرسیون انتخابی؛

1. ارزیابی کفایت معادله بر اساس مقادیر ضریب تقریب.

2. ارزیابی کفایت معادله بر اساس مقادیر ضریب تعیین.

3. ارزیابی کفایت معادله با استفاده از معیار فیشر.

4. یک ارزیابی کلی از کفایت پارامترهای معادله رگرسیون انجام دهید.

5. صحت محاسبات را با استفاده از رویه ها و توابع استاندارد صفحات گسترده Excel بررسی کنید.

6. نتایج را تجزیه و تحلیل کنید، نتیجه گیری و توصیه ها را تدوین کنید.

1. استفاده از رویه های استاندارد جادوگر توابع صفحه گسترده اکسل (از بخش های "ریاضی" و "آمار").

2. آماده سازی داده ها و ویژگی های استفاده از تابع LINEST.

3. آماده سازی داده ها و ویژگی های استفاده از تابع "PREDICTION".

1. استفاده از روش های استاندارد بسته تجزیه و تحلیل داده های صفحه گسترده اکسل.

2. آماده سازی داده ها و ویژگی های به کارگیری روش "رگرسیون".

3. تفسیر و ترکیب داده های جدول تجزیه و تحلیل رگرسیون;

4. تفسیر و ترکیب داده ها از جدول تحلیل واریانس.

5. تفسیر و تعمیم داده ها از جدول برای ارزیابی اهمیت پارامترهای معادله رگرسیون.

هنگام انجام کارهای آزمایشگاهی بر اساس یکی از گزینه ها، باید وظایف خاص زیر را انجام دهید:

1. شکل معادله را برای رابطه عوامل مورد مطالعه انتخاب کنید.

2. پارامترهای معادله رگرسیون را تعیین کنید.

3. ارزیابی رابطه نزدیک بین عوامل مورد مطالعه.

4. کفایت معادله رگرسیون انتخابی را ارزیابی کنید.

5. اهمیت آماری پارامترهای معادله رگرسیون را ارزیابی کنید.

6. صحت محاسبات را با استفاده از رویه ها و توابع استاندارد صفحات گسترده Excel بررسی کنید.

7. تجزیه و تحلیل نتایج، تدوین نتیجه گیری و توصیه ها.

تکالیف کار عملی و آزمایشگاهی با موضوع "رگرسیون خطی زوجی و همبستگی در تحقیقات اقتصادسنجی".

انتخاب 1 گزینه 2 گزینه 3 گزینه 4 گزینه 5
ایکس y ایکس y ایکس y ایکس y ایکس y
گزینه 6 گزینه 7 گزینه 8 گزینه 9 گزینه 10
ایکس y ایکس y ایکس y ایکس y ایکس y

ارزیابی اهمیت یک معادله رگرسیون چندگانه

ساخت یک معادله رگرسیون تجربی است مرحله اولیهتحلیل اقتصاد سنجی اولین معادله رگرسیون ساخته شده از یک نمونه به ندرت از نظر ویژگی های خاص رضایت بخش است. بنابراین بعدی مهمترین وظیفهتحلیل اقتصاد سنجی آزمونی برای سنجش کیفیت یک معادله رگرسیونی است. در اقتصاد سنجی، یک طرح به خوبی تثبیت شده برای چنین راستی آزمایی اتخاذ شده است.

بنابراین، بررسی کیفیت آماری معادله رگرسیون برآورد شده در حوزه‌های زیر انجام می‌شود:

· بررسی اهمیت معادله رگرسیون.

· بررسی اهمیت آماری ضرایب معادله رگرسیون.

· بررسی ویژگی های داده ها، که امکان سنجی آن هنگام تخمین معادله در نظر گرفته شد (بررسی امکان سنجی محل OLS).

آزمایش اهمیت معادله رگرسیون چندگانه، و همچنین رگرسیون زوجی، با استفاده از آزمون فیشر انجام می شود. در این حالت (برخلاف رگرسیون زوجی)، یک فرضیه صفر مطرح می شود H 0که تمام ضرایب رگرسیون برابر با صفر ( ب 1=0, ب 2=0, … , b m=0). معیار فیشر با فرمول زیر تعیین می شود:

جایی که Dواقعیت - واریانس عاملی که با رگرسیون توضیح داده می شود، به ازای یک درجه آزادی. D ost - پراکندگی باقیمانده در هر درجه آزادی. R 2- ضریب تعیین چندگانه؛ تی ایکسدر معادله رگرسیون (در رگرسیون خطی زوجی تی= 1); پ -تعداد مشاهدات

مقدار آزمون F حاصل با مقدار جدول در سطح معنی‌داری معینی مقایسه می‌شود. اگر مقدار واقعی آن بزرگتر از مقدار جدول باشد، فرضیه است ولیبی اهمیت بودن معادله رگرسیون رد می شود و فرضیه جایگزین در مورد معنی دار بودن آماری آن پذیرفته می شود.

با استفاده از معیار فیشر، می توانید اهمیت نه تنها معادله رگرسیون را به عنوان یک کل، بلکه اهمیت گنجاندن اضافی هر عامل در مدل را نیز ارزیابی کنید. چنین ارزیابی به منظور بارگذاری مدل با عواملی که تأثیر قابل توجهی بر نتیجه ندارند ضروری است. علاوه بر این، از آنجایی که مدل متشکل از عوامل متعددی است، می‌توان آن‌ها را در توالی‌های مختلف وارد آن کرد و از آنجایی که بین عوامل همبستگی وجود دارد، اهمیت گنجاندن یک عامل در مدل بسته به ترتیبی که در آن وجود دارد، ممکن است متفاوت باشد. عواملی به آن وارد می شود.

برای ارزیابی اهمیت گنجاندن یک عامل اضافی در مدل، محاسبه کنید معیار خصوصیفیشر Fxi.این مبتنی بر مقایسه افزایش واریانس عامل به دلیل گنجاندن یک عامل اضافی در مدل با واریانس باقیمانده به ازای یک درجه آزادی برای کل رگرسیون است. بنابراین، فرمول محاسبه آزمون اف خصوصیبرای عامل خواهد داشت نمای بعدی:

جایی که R 2 yx 1 x 2… xi… xp -ضریب تعیین چندگانه برای یک مدل مجموعه کامل پعوامل ; R 2 yx 1 x 2… x i -1 x i +1… xp- ضریب تعیین چندگانه برای مدلی که شامل یک عامل نیست x i;پ- تعداد مشاهدات؛ تی- تعداد پارامترهای فاکتورها ایکسدر معادله رگرسیون

مقدار واقعی آزمون جزئی فیشر با آزمون جدول بندی شده در سطح معنی داری 0.05 یا 0.1 و اعداد مربوط به درجات آزادی مقایسه می شود. اگر مقدار واقعی باشد F xiفراتر می رود میز اف، آن گنجاندن اضافیعامل الف x iدر مدل از نظر آماری توجیه شده است و ضریب رگرسیون "خالص" است b iدر فاکتور x iاز نظر آماری معنی دار است. اگر F xiکمتر میز اف، پس گنجاندن اضافی عامل در مدل به طور قابل توجهی سهم تغییرات توضیح داده شده را در نتیجه افزایش نمی دهد. و بنابراین، گنجاندن آن در مدل معنی ندارد، ضریب رگرسیون در این عاملدر این مورد از نظر آماری ناچیز است.

با استفاده از آزمون جزئی فیشر، می توانید معناداری تمام ضرایب رگرسیون را با این فرض که هر عامل مربوطه x iآخرین بار وارد معادله رگرسیون چندگانه می شود و همه عوامل دیگر قبلاً در مدل گنجانده شده بودند.

ارزیابی اهمیت ضرایب رگرسیون "خالص". b iتوسط آزمون تی دانشجوییرا می توان بدون محاسبه خصوصی انجام داد اف-شاخص. در این مورد، مانند رگرسیون زوجی، فرمول برای هر عامل اعمال می شود

t bi = b i / m bi،

جایی که b i- ضریب رگرسیون «خالص» با عامل x i ; m bi- خطای استاندارد ضریب رگرسیون b i .



مقالات مشابه

parki48.ru 2024. ما در حال ساخت یک خانه قاب هستیم. طراحی منظر. ساخت و ساز. پایه.