مثال محاسبه خطای تقریبی. برآورد پایایی آماری نتایج مدلسازی رگرسیون با استفاده از آزمون F فیشر

برای مناطق منطقه، داده های 200X ارائه شده است.

شماره منطقه متوسط ​​دستمزد سرانه زندگی در روز یک فرد توانمند، روبل، x متوسط ​​دستمزد روزانه، روبل، y
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

ورزش:

1. یک میدان همبستگی بسازید و یک فرضیه در مورد شکل اتصال بسازید.

2. پارامترهای معادله را محاسبه کنید رگرسیون خطی

4. با استفاده از ضریب کشش متوسط ​​(کلی)، ارزیابی مقایسه ای از قدرت رابطه بین عامل و نتیجه ارائه دهید.

7. مقدار پیش بینی شده نتیجه را در صورتی محاسبه کنید که مقدار پیش بینی شده ضریب 10 درصد از سطح متوسط ​​آن افزایش یابد. فاصله اطمینان پیش بینی را برای سطح معنی داری تعیین کنید.

راه حل:

بیایید این مشکل را با استفاده از اکسل حل کنیم.

1. با مقایسه داده های موجود x و y، به عنوان مثال، رتبه بندی آنها به ترتیب افزایش ضریب x، می توان وجود رابطه مستقیم بین ویژگی ها را مشاهده کرد، زمانی که افزایش میانگین سرانه سطح معیشت، میانگین روزانه را افزایش می دهد. حق الزحمه. بر این اساس، می‌توان فرض کرد که رابطه بین ویژگی‌ها مستقیم است و با یک معادله خط مستقیم قابل توصیف است. همین نتیجه بر اساس تجزیه و تحلیل گرافیکی تایید شده است.

برای ایجاد یک فیلد همبستگی، می توانید از Excel PPP استفاده کنید. داده های اولیه را به ترتیب وارد کنید: ابتدا x و سپس y.

ناحیه سلول هایی که حاوی داده است را انتخاب کنید.

سپس انتخاب کنید: درج / Scatter Plot / Scatter with Markersهمانطور که در شکل 1 نشان داده شده است.

شکل 1 ساخت میدان همبستگی

تجزیه و تحلیل میدان همبستگی وجود نزدیک به مستقیم را نشان می دهد وابستگی خطی، از آنجایی که نقاط تقریباً در یک خط مستقیم قرار دارند.

2. برای محاسبه پارامترهای معادله رگرسیون خطی
بیایید از تابع آماری داخلی استفاده کنیم LINEST.

برای این:

1) یک فایل موجود حاوی داده های تجزیه و تحلیل شده را باز کنید.
2) یک منطقه 5x2 از سلول های خالی (5 ردیف، 2 ستون) را برای نمایش نتایج آمار رگرسیون انتخاب کنید.
3) فعال کنید Function Wizard: در منوی اصلی انتخاب کنید فرمول ها / درج تابع.
4) در پنجره دسته بندیشما در حال گرفتن هستید آماری، در پنجره تابع - LINEST. روی دکمه کلیک کنید خوبهمانطور که در شکل 2 نشان داده شده است؛

شکل 2 جعبه گفتگوی Function Wizard

5) آرگومان های تابع را پر کنید:

ارزش های شناخته شده برای

مقادیر شناخته شده x

ثابت- یک مقدار منطقی که وجود یا عدم وجود یک عبارت آزاد را در معادله نشان می دهد. اگر Constant = 1 باشد، ترم آزاد به روش معمول محاسبه می شود، اگر ثابت = 0، ترم آزاد 0 است.

آمار- یک مقدار منطقی که نشان می دهد آیا اطلاعات اضافی در تجزیه و تحلیل رگرسیون نمایش داده می شود یا خیر. اگر آمار = 1، پس اطلاعات تکمیلینمایش داده می شود، اگر Statistics = 0، آنگاه فقط تخمین پارامترهای معادله نمایش داده می شود.

روی دکمه کلیک کنید خوب;

شکل 3 جعبه گفتگوی آرگومان های تابع LINEST

6) اولین عنصر جدول نهایی در سلول سمت چپ بالای ناحیه انتخاب شده ظاهر می شود. برای باز کردن کل جدول، کلید را فشار دهید ، و سپس به ترکیب کلید ++ .

آمار رگرسیون اضافی به ترتیب نشان داده شده در نمودار زیر خروجی خواهد شد:

مقدار ضریب b ضریب یک مقدار
خطای استاندارد ب خطای استاندارد الف
خطای استاندارد y
آمار F
مجموع رگرسیون مربع ها

شکل 4 نتیجه محاسبه تابع LINEST

ما سطح رگرسیون را دریافت کردیم:

نتیجه می گیریم: با افزایش متوسط ​​سطح معیشت سرانه 1 روبل. متوسط ​​دستمزد روزانه به طور متوسط ​​0.92 روبل افزایش می یابد.

به معنی 52 درصد تنوع دستمزد(y) با تغییر عامل x - میانگین سطح معیشت سرانه و 48٪ - با عملکرد سایر عواملی که در مدل گنجانده نشده است توضیح داده می شود.

با استفاده از ضریب تعیین محاسبه شده، ضریب همبستگی را می توان محاسبه کرد: .

اتصال نزدیک ارزیابی می شود.

4. با استفاده از ضریب کشش متوسط ​​(کلی)، قدرت تأثیر عامل بر نتیجه را تعیین می کنیم.

برای یک معادله خط مستقیم، ضریب کشش متوسط ​​(کل) را با استفاده از فرمول تعیین می کنیم:

با انتخاب مساحت سلول ها با مقادیر x و انتخاب، مقادیر میانگین را پیدا می کنیم فرمول ها / جمع خودکار / میانگینو ما همین کار را با مقادیر y انجام خواهیم داد.

شکل 5 محاسبه میانگین مقادیر تابع و آرگومان

بنابراین، اگر میانگین هزینه سرانه زندگی 1 درصد از مقدار متوسط ​​آن تغییر کند، متوسط ​​دستمزد روزانه به طور متوسط ​​0.51 درصد تغییر خواهد کرد.

استفاده از ابزار تجزیه و تحلیل داده ها پسرفتدر دسترس:
- نتایج آمار رگرسیون،
- نتایج تحلیل واریانس،
- نتایج فواصل اطمینان،
- نمودارهای برازش باقیمانده و خط رگرسیون،
- باقی مانده ها و احتمال عادی.

روند کار به صورت زیر است:

1) بررسی دسترسی به بسته تحلیلی. در منوی اصلی، انتخاب کنید: فایل/گزینه ها/افزونه ها.

2) در لیست کشویی کنترلمورد را انتخاب کنید افزونه های اکسلو دکمه را فشار دهید برو

3) در پنجره افزونه هاکادر را علامت بزنید بسته تحلیلیو سپس روی دکمه کلیک کنید خوب.

اگر بسته تحلیلیدر لیست فیلد نیست افزونه های موجود، دکمه را فشار دهید مروربرای انجام جستجو

اگر پیامی دریافت کردید که نشان می دهد بسته تجزیه و تحلیل روی رایانه شما نصب نشده است ، کلیک کنید آرهبرای نصب آن

4) در منوی اصلی ، انتخاب کنید: داده ها / تجزیه و تحلیل داده ها / ابزارهای تجزیه و تحلیل / رگرسیونو سپس روی دکمه کلیک کنید خوب.

5) کادر گفتگوی پارامترهای ورودی و خروجی داده ها را پر کنید:

فاصله ورودی Y- دامنه حاوی داده های ویژگی حاصل ؛

فاصله ورودی X- دامنه حاوی داده های ویژگی عامل.

برچسب ها- پرچمی که نشان می دهد خط اول شامل نام ستون است یا خیر.

ثابت - صفر- پرچمی که وجود یا عدم وجود یک عبارت آزاد در معادله را نشان می دهد.

فاصله خروجی- کافی است سلول سمت چپ بالای محدوده آینده را نشان دهید.

6) کاربرگ جدید - می توانید یک نام دلخواه برای برگه جدید تعیین کنید.

سپس روی دکمه کلیک کنید خوب.

شکل 6 کادر محاوره ای برای وارد کردن پارامترها برای ابزار Regression

نتایج تحلیل رگرسیون برای داده های مسئله در شکل 7 ارائه شده است.

شکل 7 نتیجه استفاده از ابزار رگرسیون

5. اجازه دهید کیفیت معادلات را با استفاده از میانگین خطای تقریب ارزیابی کنیم. بیایید از نتایج تحلیل رگرسیون ارائه شده در شکل 8 استفاده کنیم.

شکل 8 نتیجه استفاده از ابزار رگرسیون «برداشت باقیمانده»

بسازیم میز جدیدهمانطور که در شکل 9 نشان داده شده است. در ستون C، خطای تقریب نسبی را با استفاده از فرمول محاسبه می کنیم:

شکل 9 محاسبه میانگین خطای تقریب

میانگین خطاتقریب با استفاده از فرمول محاسبه می شود:

کیفیت مدل ساخته شده خوب ارزیابی می شود، زیرا از 8 تا 10 درصد تجاوز نمی کند.

6. از جدول ج آمار رگرسیون(شکل 4) مقدار واقعی آزمون F فیشر را می نویسیم:

از آنجا که در سطح معنی داری 5 درصد، می توان نتیجه گرفت که معادله رگرسیون معنی دار است (رابطه ثابت شده است).

8. ارزشیابی اهمیت آماریپارامترهای رگرسیون با استفاده از آماره t Student و با محاسبه انجام می شود فاصله اطمینانهر یک از شاخص ها

ما فرضیه H 0 را در مورد تفاوت آماری ناچیز بین شاخص ها و صفر مطرح می کنیم:

.

برای تعداد درجه آزادی

شکل 7 دارای مقادیر واقعی T-Statistic است:

آزمون t برای ضریب همبستگی را می توان به دو روش محاسبه کرد:

روش اول:

جایی که - خطای تصادفی ضریب همبستگی.

داده ها را برای محاسبه از جدول شکل 7 می گیریم.

روش دوم:

مقادیر آماری t واقعی از مقادیر جدول بیشتر است:

بنابراین، فرضیه H 0 رد می شود، یعنی پارامترهای رگرسیون و ضریب همبستگی به طور تصادفی با صفر تفاوت ندارند، اما از نظر آماری معنی دار هستند.

فاصله اطمینان برای پارامتر a به صورت تعریف شده است

برای پارامتر a، حدود 95% همانطور که در شکل 7 نشان داده شده است:

فاصله اطمینان برای ضریب رگرسیون به صورت تعریف شده است

برای ضریب رگرسیون b، حدود 95٪ همانطور که در شکل 7 نشان داده شده است:

تجزیه و تحلیل حدود بالا و پایین فواصل اطمینان به این نتیجه می رسد که با احتمال پارامترهای a و b که در محدوده های مشخص شده قرار دارند، مقادیر صفر را نمی گیرند، یعنی. از نظر آماری ناچیز نیستند و تفاوت معنی داری با صفر دارند.

7. برآوردهای به دست آمده از معادله رگرسیون امکان استفاده از آن را برای پیش بینی فراهم می کند. اگر هزینه زندگی پیش بینی شده باشد:

سپس ارزش پیش بینی شده هزینه زندگی به صورت زیر خواهد بود:

خطای پیش بینی را با استفاده از فرمول محاسبه می کنیم:

جایی که

ما همچنین واریانس را با استفاده از Excel PPP محاسبه خواهیم کرد. برای این:

1) فعال کنید Function Wizard: در منوی اصلی انتخاب کنید فرمول ها / درج تابع.

3) محدوده حاوی داده های عددی مشخصه عامل را پر کنید. کلیک خوب.

شکل 10 محاسبه واریانس

ما مقدار واریانس را دریافت کردیم

برای محاسبه واریانس باقیمانده به ازای درجه آزادی، از نتایج تحلیل واریانس همانطور که در شکل 7 نشان داده شده است استفاده خواهیم کرد.

فواصل اطمینان برای پیش بینی مقادیر فردی y با احتمال 0.95 با عبارت زیر تعیین می شود:

این فاصله بسیار گسترده است، در درجه اول به دلیل حجم کم مشاهدات. به طور کلی، پیش بینی میانگین حقوق ماهانه قابل اعتماد بود.

شرط مسئله از: Workshop on Econometrics: Proc. کمک هزینه / I.I. السیوا، اس.و. کوریشوا، ن.م. گوردینکو و دیگران؛ اد. I.I. السیوا - م.: امور مالی و آمار، 2003. - 192 ص: ill.

بیایید فرضیه H 0 را در مورد برابری ضرایب رگرسیون فردی به صفر (اگر جایگزین برابر با H 1 نباشد) در سطح معناداری b = 0.05 بررسی کنیم.

اگر فرضیه اصلی نادرست باشد، فرضیه جایگزین را می پذیریم. برای آزمون این فرضیه از آزمون t-student استفاده شده است.

مقدار معیار t بدست آمده از داده های مشاهده ای (که مشاهده شده یا واقعی نیز نامیده می شود) با مقدار جدول بندی شده (بحرانی) تعیین شده از جداول توزیع دانش آموز (که معمولاً در انتهای کتاب های درسی و کارگاه های آمار یا اقتصاد سنجی ارائه می شود) مقایسه می شود.

مقدار جدولبسته به سطح اهمیت (b) و تعداد درجات آزادی تعیین می شود که در صورت رگرسیون جفت خطی برابر با (n-2)، n تعداد مشاهدات است.

اگر مقدار واقعی آزمون t بیشتر از مقدار جدول (مدول) باشد، فرضیه اصلی رد می شود و در نظر گرفته می شود که با احتمال (1-b) پارامتر یا مشخصه آماری V جمعیتتفاوت قابل توجهی با صفر دارد.

اگر مقدار واقعی آزمون t کمتر از مقدار جدول (مدول) باشد، دلیلی برای رد فرضیه اصلی وجود ندارد. یک پارامتر یا مشخصه آماری در جامعه با صفر در سطح معنی‌داری b تفاوت معنی‌داری ندارد.

t crit (n-m-1;b/2) = (30;0.025) = 2.042

از 1.7< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в در این موردضریب b را می توان نادیده گرفت.

از 0.56< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

فاصله اطمینان برای ضرایب معادله رگرسیون.

اجازه دهید فواصل اطمینان ضرایب رگرسیون را تعیین کنیم که با پایایی 95 درصد به صورت زیر خواهد بود:

  • (b - t crit S b ؛ b + t crit S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

از آنجایی که نقطه 0 (صفر) در داخل فاصله اطمینان قرار دارد، تخمین فاصله ضریب b از نظر آماری ناچیز است.

  • (a - t crit S a ؛ a + t crit S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

با احتمال 95% می توان بیان کرد که مقدار این پارامتر در بازه یافت شده قرار دارد.

از آنجایی که نقطه 0 (صفر) در داخل فاصله اطمینان قرار دارد، تخمین فاصله ضریب a از نظر آماری ناچیز است.

2) آمار F. معیار فیشر

ضریب تعیین R2 برای آزمایش اهمیت معادله رگرسیون خطی به عنوان یک کل استفاده می شود.

آزمایش اهمیت یک مدل رگرسیون با استفاده از آزمون F فیشر انجام می شود که مقدار محاسبه شده آن به عنوان نسبت واریانس سری اصلی مشاهدات شاخص مورد مطالعه و تخمین بی طرفانه واریانس دنباله باقیمانده است. برای این مدل

اگر مقدار محاسبه‌شده با درجه‌های آزادی k1 =(m) و k2 =(n-m-1) بیشتر از مقدار جدول‌بندی شده در سطح معنی‌داری معین باشد، آن‌گاه مدل معنادار در نظر گرفته می‌شود.

که m تعداد فاکتورهای مدل است.

اهمیت آماری رگرسیون خطی زوجی با استفاده از الگوریتم زیر ارزیابی می شود:

  • 1. یک فرضیه صفر مطرح می شود که معادله به عنوان یک کل از نظر آماری بی اهمیت است: H 0: R 2 = 0 در سطح معنی داری b.
  • 2. سپس، مقدار واقعی معیار F را تعیین کنید:

که در آن m=1 برای رگرسیون زوجی.

3. مقدار جدول بندی شده از جداول توزیع فیشر برای سطح معنی داری معین تعیین می شود، با در نظر گرفتن اینکه تعداد درجات آزادی برای مجموع مجموع مجذورات (واریانس بزرگتر) 1 و تعداد درجات آزادی برای باقیمانده است. مجموع مربعات (واریانس کوچکتر) در رگرسیون خطی n-2 است.

جدول F حداکثر مقدار ممکن معیار تحت تأثیر است عوامل تصادفیبرای درجات مشخصی از آزادی و سطح اهمیت b. سطح اهمیت b - احتمال رد فرضیه صحیح به شرط صحت. معمولا b برابر با 0.05 یا 0.01 گرفته می شود.

4. اگر مقدار واقعی F-test کمتر از مقدار جدول باشد، می گویند دلیلی برای رد فرضیه صفر وجود ندارد.

در غیر این صورت، فرض صفر رد می شود و با احتمال (1-b) فرضیه جایگزین در مورد اهمیت آماری معادله به عنوان یک کل پذیرفته می شود.

مقدار جدول معیار با درجه آزادی k 1 = 1 و k 2 = 30، جدول F = 4.17

از آنجایی که مقدار واقعی F< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

رابطه بین آزمون F فیشر و آماره t دانشجویی با برابری بیان می شود:

شاخص های کیفیت معادله رگرسیون.

تست همبستگی خودکار باقیمانده ها

یک پیش نیاز مهم برای ساخت یک مدل رگرسیون کیفی با استفاده از OLS، استقلال مقادیر انحرافات تصادفی از مقادیر انحرافات در سایر مشاهدات است. این تضمین می کند که هیچ ارتباطی بین انحرافات و به ویژه بین انحرافات مجاور وجود ندارد.

خودهمبستگی (همبستگی سریالی) به عنوان همبستگی بین شاخص های مشاهده شده مرتب شده در زمان (سری های زمانی) یا مکان (سری متقاطع) تعریف می شود. خود همبستگی باقیمانده ها (انحرافات) معمولاً در تجزیه و تحلیل رگرسیونهنگام استفاده از داده های سری زمانی و به ندرت هنگام استفاده از داده های مقطعی.

که در وظایف اقتصادیخودهمبستگی مثبت بسیار رایج تر از خودهمبستگی منفی است. در بیشتر موارد، خودهمبستگی مثبت ناشی از جهت‌گیری است قرار گرفتن در معرض مداومبرخی از عوامل در مدل در نظر گرفته نشده است.

خود همبستگی منفی اساساً به این معنی است که یک انحراف مثبت با یک انحراف منفی همراه می شود و بالعکس. این وضعیت ممکن است رخ دهد اگر همان رابطه بین تقاضا برای نوشابه و درآمد با توجه به داده های فصلی (زمستان و تابستان) در نظر گرفته شود.

از جمله دلایل اصلی ایجاد خودهمبستگی می توان به موارد زیر اشاره کرد:

  • 1. خطاهای مشخصات. عدم گنجاندن متغیر توضیحی مهم در مدل یا انتخاب نادرستاشکال وابستگی معمولاً منجر به انحراف سیستماتیک نقاط مشاهده از خط رگرسیون می شود که می تواند منجر به خودهمبستگی شود.
  • 2. اینرسی. بسیاری از شاخص‌های اقتصادی (تورم، بیکاری، تولید ناخالص ملی و غیره) ماهیت چرخه‌ای خاصی دارند که با نوسانی فعالیت‌های تجاری مرتبط است. بنابراین، تغییر در شاخص ها بلافاصله رخ نمی دهد، بلکه دارای یک اینرسی خاص است.
  • 3. افکت تار عنکبوت. در بسیاری از بخش های تولیدی و سایر حوزه ها، شاخص های اقتصادی به تغییرات پاسخ می دهند شرایط اقتصادیبا تاخیر (تأخیر زمانی).
  • 4. هموارسازی داده ها. اغلب، داده‌ها برای یک دوره زمانی طولانی با میانگین‌گیری داده‌ها در بازه‌های زمانی تشکیل‌دهنده آن به‌دست می‌آیند. این می تواند منجر به هموارسازی خاصی از نوسانات رخ داده در دوره مورد بررسی شود که به نوبه خود می تواند باعث همبستگی خودکار شود.

پیامدهای خودهمبستگی مشابه پیامدهای ناهمگونی است: نتایج حاصل از آماره های t و F که اهمیت ضریب رگرسیون و ضریب تعیین را تعیین می کند احتمالاً نادرست است.


ما ضرایب رگرسیون تجربی b 0 , b 1 را با استفاده از ابزار "Regression" افزونه "تحلیل داده" پردازنده صفحه گسترده MS Excel تعیین خواهیم کرد.

الگوریتم تعیین ضرایب به شرح زیر است.

1. داده های اولیه را در پردازشگر صفحه گسترده MS Excel وارد کنید.

2. افزونه Data Analysis را فراخوانی کنید (شکل 2).

3. ابزار تحلیل Regression را انتخاب کنید (شکل 3).

4. موقعیت های مربوط به پنجره رگرسیون را پر کنید (شکل 4).

5. روی دکمه OK در پنجره رگرسیون کلیک کنید و یک پروتکل برای حل مشکل دریافت کنید (شکل 5).


شکل 3 – انتخاب ابزار رگرسیون




شکل 4 - پنجره رگرسیون

شکل 5 - پروتکل برای حل مشکل

از شکل 5 می توان دریافت که ضرایب رگرسیون تجربی به ترتیب برابر با

b 0 = 223،

b1 = 0.0088.

سپس معادله رگرسیون خطی زوجی که مقدار حقوق بازنشستگی ماهانه y را با مقدار حداقل معیشت مرتبط می کند، شکل می گیرد.

.(3.2)

در مرحله بعد، مطابق با وظیفه، لازم است نزدیکی رابطه آماری بین ارزش هزینه زندگی x و ارزش حقوق بازنشستگی ماهانه y ارزیابی شود. این تخمین را می توان با استفاده از ضریب همبستگی انجام داد. مقدار این ضریب در شکل 5 به صورت چندگانه R تعیین شده و بر این اساس برابر با 0.038 است. از آنجایی که از لحاظ نظری ارزش ضریب داده شدهدر محدوده 1- تا 1+ است، پس می توان نتیجه گرفت که ارتباط آماری بین هزینه زندگی x و مستمری ماهانه y معنی دار نیست.

پارامتر "R – مربع" که در شکل 5 ارائه شده است، مربع ضریب همبستگی است و ضریب تعیین نامیده می شود. مقدار این ضریب سهم واریانس متغیر وابسته y را که با رگرسیون توضیح داده شده است (متغیر توضیحی x) مشخص می کند. بر این اساس، مقدار 1- سهم واریانس در متغیر y را مشخص می کند که ناشی از تأثیر همه متغیرهای توضیحی دیگر در مدل اقتصادسنجی در نظر گرفته نشده است. از شکل 5 می توان دریافت که سهم تمام متغیرهای توضیحی که در مدل اقتصاد سنجی حاصل در نظر گرفته نشده اند تقریباً 1 - 0.00145 = 0.998 یا 99.8٪ است.



بر مرحله بعد، مطابق با تکلیف، لازم است با استفاده از ضریب کشش، میزان ارتباط متغیر توضیحی x و متغیر وابسته y را تعیین کنیم. ضریب کشش برای یک مدل رگرسیون خطی زوجی به صورت زیر تعریف می شود:

بنابراین، اگر هزینه زندگی 1٪ تغییر کند، مستمری ماهیانه 0.000758٪ تغییر می کند.

. (3.4)

برای انجام این کار، جدول اصلی 1 را با دو ستون تکمیل می کنیم که در آن مقادیر محاسبه شده را با استفاده از وابستگی (3.2) و مقدار تفاوت تعیین می کنیم.

جدول 3.2. محاسبه میانگین خطای تقریب.

سپس میانگین خطای تقریب است

.

از روی عمل مشخص است که مقدار میانگین خطای تقریب نباید از (12...15)٪ تجاوز کند.

بر آخرین مرحلهبیایید پایایی آماری مدل‌سازی را با استفاده از آزمون F فیشر ارزیابی کنیم. برای انجام این کار، فرضیه صفر H 0 را در مورد بی اهمیت بودن آماری معادله رگرسیون حاصل با توجه به شرط زیر آزمایش می کنیم:

اگر در سطح معناداری معین a = 0.05 مقدار نظری (محاسبه شده) معیار F از مقدار بحرانی آن F crit (جدول‌بندی شده) بیشتر باشد، فرضیه صفر رد می‌شود و معادله رگرسیون حاصل به عنوان معنی‌دار پذیرفته می‌شود.

از شکل 5 نتیجه می شود که F 0.0058 = محاسبه شده است. مقدار بحرانی معیار F با استفاده از تابع آماری FASTER تعیین می شود (شکل 6). پارامترهای ورودیتابع سطح معنی داری (احتمال) و تعداد درجات آزادی 1 و 2 است. برای مدل رگرسیون زوجی، تعداد درجه آزادی به ترتیب 1 (یک متغیر توضیحی) و n-2 = 6-2=4 است. .



شکل 6 - پنجره تابع آماری FASTER

از شکل 6 می توان دریافت که مقدار بحرانی آزمون F 7.71 است.

از آنجایی که F محاسبه شده است< F крит, то нулевая гипотеза не отвергается и полученное معادله رگرسیوناز نظر آماری ناچیز است.

13. ماکت ساختمان رگرسیون چندگانهبا استفاده از EXCEL

مطابق با گزینه انتساب، استفاده از مواد آماری ضروری است.

1. بسازید معادله خطیرگرسیون چندگانه برای توضیح معنای اقتصادی پارامترهای آن.

2. یک ارزیابی مقایسه ای از نزدیکی رابطه بین عوامل و ویژگی حاصل با استفاده از ضرایب کشش متوسط ​​(عمومی) ارائه دهید.

3. اهمیت آماری ضرایب رگرسیون را با استفاده از آزمون t استودیو و فرضیه صفر در مورد معنی دار بودن معادله را با استفاده از آزمون F ارزیابی کنید.

4. کیفیت معادله را با تعیین میانگین خطای تقریب ارزیابی کنید.

داده های اولیه برای ساخت مدل رگرسیون زوجی در جدول 3.3 آورده شده است.

جدول 3.3. اطلاعات اولیه.

درآمد خالص، میلیون دلار آمریکا گردش سرمایه، میلی لیتر دلار آمریکا، x 1 سرمایه استفاده شده، میلی لیتر. دلار آمریکا x 2
6,6 6,9 83,6
2,7 93,6 25,4
1,6 10,0 6,4
2,4 31,5 12,5
3,3 36,7 14,3
1,8 13,8 6,5
2,4 64,8 22,7
1,6 30,4 15,8
1,4 12,1 9,3
0,9 31,3 18,9

فناوری ساخت معادله رگرسیون مشابه الگوریتم شرح داده شده در بند 3.1 است. پروتکل ساخت معادله رگرسیون در شکل 7 نشان داده شده است.

نتیجه گیری از نتایج
آمار رگرسیون
جمع R 0,901759207
R-square 0,813169667
R-squared نرمال شده 0,759789572
خطای استاندارد 0,789962026
مشاهدات
تحلیل واریانس
df ام‌اس اف
پسرفت 9,50635999 15,23357468
باقی مانده 0,624040003
جمع
شانس آمار t
تقاطع Y 1,113140304 2,270238114
متغیر X 1 -0,000592199 -0,061275574
متغیر X 2 0,063902851 5,496523193

شکل 7. نتیجه گیری.

مقادیر واقعی کمیتی که ما به آن علاقه داریم با مقادیر محاسبه شده توسط معادله رگرسیون متفاوت است. هر چه این تفاوت کوچکتر باشد، هر چه مقادیر محاسبه شده به داده های تجربی نزدیک تر باشد، بیشتر می شود کیفیت بهترمدل ها. بزرگی انحرافات مقادیر واقعی و محاسبه شده متغیر برای هر مشاهده نشان دهنده خطای تقریب است. از آنجایی که انحراف می تواند مثبت یا منفی باشد، خطاهای تقریبی برای هر مشاهده معمولاً به صورت درصد با مقدار مطلق تعیین می شود.

انحرافات () به عنوان خطای مطلق تقریب در نظر گرفته می شوند، سپس - خطای مربوطهتقریب ها

میانگین خطای تقریب به عنوان میانگین حسابی تعریف می شود: . گاهی اوقات از تعریف خطای تقریب متوسط ​​استفاده می کنند که به شکل .

پایان کار -

این موضوع متعلق به بخش:

اقتصاد سنجی

در سایت بخوانید: تخصص های اقتصادی..

اگر احتیاج داری مواد اضافیدر مورد این موضوع، یا آنچه را که به دنبال آن بودید پیدا نکردید، توصیه می کنیم از جستجو در پایگاه داده آثار ما استفاده کنید:

با مطالب دریافتی چه خواهیم کرد:

اگر این مطالب برای شما مفید بود، می توانید آن را در صفحه خود در شبکه های اجتماعی ذخیره کنید:

تمامی موضوعات این بخش:

ترکیب اطلاعات اولیه
پایه اصلی اطلاعات پس زمینهبرای مطالعات اقتصاد سنجی از آمار یا داده ها استفاده می شود حسابداری. روابط مورد مطالعه توسط اقتصاد سنجی ماهیت تصادفی دارند، یعنی.

چند جمله ای درونیابی لاگرانژ
بگذارید بین مقادیر x و y رابطه y = f(x) وجود داشته باشد، که برای آن نقاط منفرد (xi,yi) را می شناسیم، i = 0,1,2,…,

مورد 1.
از طریق یک نقطه (x0, y0) می توانیم دسته ای از خطوط مستقیم y = y0+b(x-x0) (2.1) (و همچنین یک خط مستقیم عمودی را رسم کنیم

مورد 2.
از دو نقطه مختلف (x0,y0)، (x1,y1) یک و تنها یک خط مستقیم می گذرد. اگر x0 ¹

مورد 3.
چند جمله ای درجه دوم ( تابع درجه دوم) که نمودار آن از سه نقطه (x0,y0)، (x1,y1)، (x2) می گذرد.

مورد n.
اکنون مشخص است که چند جمله ای درونیابی لاگرانژ درجه n که نمودار آن از n+1 نقطه (xi,yi) می گذرد، i=0,1,2,…,n را می توان به صورت vi نوشت.

رگرسیون خطی زوجی. روش حداقل مربعات
بگذارید n جفت عدد (xi, yi), i=1,2,…,n وجود داشته باشد که با توجه به آنها فرض می شود که آنها با یک رابطه خطی بین مقادیر x و y مطابقت دارند:

رگرسیون خطی چندگانه
رگرسیون زوجی می‌تواند نتایج مدل‌سازی خوبی ارائه دهد، اگر بتوان از تأثیر سایر عوامل مؤثر بر موضوع مطالعه چشم‌پوشی کرد. اما، معمولا چندین وجود دارد

مدل های غیر خطی
ما کاربرد روش را مطالعه کرده ایم کمترین مربعاتبرای تعیین پارامترهایی که در وابستگی های تابعی به صورت خطی گنجانده شده اند. بنابراین، برای آنها در پاراگراف 3 و 4 ما یک سیستم دریافت کردیم

سیستم های معادلات اقتصاد سنجی همزمان
هدف - شی مطالعه آماریدر علوم اجتماعی-اقتصادی هستند سیستم های پیچیده. اندازه گیری نزدیکی روابط بین متغیرها، ساخت معادلات رگرسیون ایزوله

اجزای یک سری زمانی
سری زمانی x(t) مجموعه ای از مقادیر کمیت x مربوط به دنباله ای از لحظات در زمان t است، یعنی. این تابع t®x(t) است که معمولاً حساب می شود

تعیین اجزای یک سری زمانی
یکی از متداول‌ترین روش‌ها برای مدل‌سازی روند سری‌های زمانی، طرح‌بندی است تابع تحلیلی، وابستگی مقادیر متوالی را مشخص می کند

در این صورت ضرایب ak, bk برابر خواهند بود
اگر تابع x (t) زوج باشد، یعنی. برابری x (-t) = x (t) برقرار است، سپس در

سری زمانی به عنوان یک فرآیند تصادفی
بگذارید مقدار شاخص اقتصادی x(t) در هر زمان t باشد متغیر تصادفی X (t). بیایید این را فرض کنیم

مدل های ARIMA
در اقتصاد سنجی، تجزیه و تحلیل سری های زمانی با استفاده از تخمین چگالی طیفی (تحلیل طیفی) معمولاً نقش حمایتی ایفا می کند و به تعیین دوره های زمانی کمک می کند.

با در نظر گرفتن اجزای فصلی
تعمیم مدل ARIMA برای در نظر گرفتن مولفه های دوره ای (فصلی) یک سری زمانی توسط J. Box و G. Jenkins ارائه شد. این روش در سیستم اجرا شده است

تجزیه و تحلیل خطاها در اطلاعات منبع
ارزش های نشانگرهای اقتصادیمعمولاً به طور نادرست و با برخی خطا شناخته می شوند. بیایید قوانین اساسی برای پردازش داده های حاوی خطا یا خطاهای اندازه گیری را در نظر بگیریم. چرک

فاصله اطمینان
بیایید یک متغیر تصادفی را معرفی کنیم. (13.1) بررسی اینکه xОN(0,1) به دلیل h آسان است

محاسبه خطاها
داده های تجربی اغلب تحت پردازش ریاضی قرار می گیرند - در برخی موارد عملیات حسابی جمع، تفریق، ضرب و تقسیم بر روی آنها انجام می شود.

ضریب تعیین
ضریب تعیین کیفیت مدل رگرسیون را مشخص می کند. ارزش های اندازه های مختلف، گرفتن

حداکثر اصل احتمال. ساخت مدل های رگرسیون با ناهمسانی خطاها
برای یافتن کمیت های ناشناخته از نتایج اندازه گیری حاوی خطاهای تصادفی، کمترین روش مربع (LSM) استفاده می شود. مقادیر تعیین شده معمولاً با تشکیل معادلات مرتبط هستند

فرضیه های آماری
پاراگراف های قبلی روش شناسی مدل سازی روابط بین شاخص های اقتصادی و فرآیندها را مورد بحث قرار دادند. با استفاده از معادلات رگرسیون به دست آمده، این رابطه مدل سازی شد.

F – آمار
اهمیت مدل رگرسیون با استفاده از آزمون F فیشر تعیین می شود. برای انجام این کار، نسبت را محاسبه کنید

T – آمار
برای ارزیابی اهمیت پارامترهای فردیمدل رگرسیونی y=a+bx+e مقدار آنها با خطای استاندارد آنها مقایسه می شود. در این مورد، به اصطلاح

شاخص های همبستگی و تعیین

رگرسیون جفت خطی

بر اساس داده های کمکی که در جدول محاسبه شده است. 2، ما نشانگر نزدیکی اتصال را محاسبه می کنیم.

این شاخص یک نمونه است ضریب خطیهمبستگی با استفاده از معادله محاسبه شده است.

بر اساس نتایج محاسبه ضریب همبستگی می توان نتیجه گرفت که رابطه بین عامل و مشخصه حاصل مستقیم و قوی است (بر اساس مقیاس چادوک).

مربع ضریب همبستگی ضریب تعیین نامیده می شود که نسبت تغییرات در مشخصه حاصل را نشان می دهد که با تغییر در ویژگی عامل توضیح داده شده است.

معمولاً هنگام تفسیر ضریب تعیین به صورت درصد بیان می شود.

R2 = 0.8472 = 0.7181

آن ها در 71.81% موارد، تغییر در یک مشخصه عاملی منجر به تغییر در ویژگی حاصل می شود. دقت انتخاب معادله رگرسیون بسیار بالاست. 28.19 درصد باقی مانده از تغییر در Y توسط عواملی توضیح داده می شود که در مدل در نظر گرفته نشده اند.

رگرسیون جفت توان

ما نزدیکی رابطه بین ویژگی های حاصل و عامل را برای رگرسیون جفت توان با استفاده از ضریب همبستگی تعیین می کنیم:

با جایگزینی داده های شناخته شده، دریافت می کنیم:

نشانگر تعیین

آن ها در 69٪ موارد، تغییر در یک ویژگی عامل منجر به تغییر در ویژگی حاصل می شود. دقت برازش معادله رگرسیون متوسط ​​است. 31 درصد باقی مانده از تغییر در Y با عواملی توضیح داده می شود که در مدل در نظر گرفته نشده اند.

میانگین خطای تقریب

رگرسیون جفت خطی

اجازه دهید کیفیت معادله رگرسیون را با استفاده از خطای تقریب مطلق ارزیابی کنیم. میانگین خطای تقریب - میانگین انحراف مقادیر محاسبه شده از مقادیر واقعی:

رگرسیون جفت توان

میانگین خطای تقریب - میانگین انحراف مقادیر محاسبه شده از مقادیر واقعی:

خطای تقریب در 5٪ -7٪ نشان می دهد انتخاب خوبمعادلات رگرسیون به داده های اصلی

از آنجایی که خطا بیش از 7 درصد است، استفاده از این معادله به عنوان رگرسیون توصیه نمی شود.

برآورد پایایی آماری نتایج با استفاده از آزمون F فیشر مدل سازی رگرسیون

رگرسیون جفت خطی

ضریب تعیین R2 برای آزمایش اهمیت معادله رگرسیون خطی به عنوان یک کل استفاده می شود.

آزمایش اهمیت یک مدل رگرسیون با استفاده از آزمون F فیشر انجام می شود که مقدار محاسبه شده آن به عنوان نسبت واریانس سری اصلی مشاهدات شاخص مورد مطالعه و تخمین بی طرفانه واریانس دنباله باقیمانده است. برای این مدل

اگر مقدار محاسبه‌شده با درجه‌های آزادی k1 =(m) و k2 =(n-m-1) بیشتر از مقدار جدول‌بندی شده در سطح معنی‌داری معین باشد، آن‌گاه مدل معنادار در نظر گرفته می‌شود.

اهمیت آماری رگرسیون خطی زوجی با استفاده از الگوریتم زیر ارزیابی می شود:

که در آن m=1 برای رگرسیون زوجی.

از آنجایی که مقدار واقعی F >

رگرسیون جفت توان

مشابه رگرسیون جفت خطی، رگرسیون جفت توان را تخمین می زنیم

که m تعداد فاکتورهای مدل است.

1. یک فرضیه صفر مطرح می شود که معادله به عنوان یک کل از نظر آماری بی اهمیت است: H 0: R 2 = 0 در سطح معنی داری b.

2. مقدار واقعی معیار F را تعیین کنید:

که در آن m=1 برای رگرسیون زوجی.

3. مقدار جدول بندی شده از جداول توزیع فیشر برای سطح معنی داری معین تعیین می شود، با در نظر گرفتن اینکه تعداد درجات آزادی برای مجموع مجموع مجذورات (واریانس بزرگتر) 1 و تعداد درجات آزادی برای باقیمانده است. مجموع مربعات (واریانس کوچکتر) در رگرسیون خطی n-2 است.

جدول F حداکثر مقدار ممکن معیار تحت تأثیر عوامل تصادفی در درجه های آزادی معین و سطح معنی داری b است. سطح اهمیت b - احتمال رد فرضیه صحیح به شرط صحت. معمولا b برابر با 0.05 یا 0.01 گرفته می شود.

4. اگر مقدار واقعی F-test کمتر از مقدار جدول باشد، می گویند دلیلی برای رد فرضیه صفر وجود ندارد.

در غیر این صورت، فرض صفر رد می شود و با احتمال (1-b) فرضیه جایگزین در مورد اهمیت آماری معادله به عنوان یک کل پذیرفته می شود.

مقدار جدول معیار با درجات آزادی:

k 1 = 1 و k 2 = 8، جدول F = 5.32

از آنجایی که مقدار واقعی جدول F > F، ضریب تعیین از نظر آماری معنادار است (تخمین یافت شده از معادله رگرسیون از نظر آماری قابل اعتماد است).

بر اساس نتایج تجزیه و تحلیل، نتیجه می گیریم که ضرایب تعیین برای هر دو رگرسیون جفت خطی و رگرسیون جفت توان از نظر آماری معنی دار هستند.

از آنجایی که رگرسیون جفت خطی دارای ضریب تعیین (نشانگر) بالاتری است، ما معتقدیم که به اندازه کافی رابطه بین عامل و مشخصه حاصل را توصیف می کند.

مقالات مشابه

2023 parki48.ru. ما در حال ساخت یک خانه قاب هستیم. طراحی منظر. ساخت و ساز. پایه.