ماشین حساب آنلاین خطای تقریبی. آزمون فرضیه های مربوط به ضرایب معادله رگرسیون خطی

مقادیر واقعی کمیتی که ما به آن علاقه داریم با مقادیر محاسبه شده توسط معادله رگرسیون متفاوت است. هر چه این تفاوت کوچکتر باشد، هر چه مقادیر محاسبه شده به داده های تجربی نزدیک تر باشد، بیشتر می شود کیفیت بهترمدل ها. بزرگی انحرافات مقادیر واقعی و محاسبه شده متغیر برای هر مشاهده نشان دهنده خطای تقریب است. از آنجایی که انحراف می تواند مثبت یا منفی باشد، خطاهای تقریبی برای هر مشاهده معمولاً به صورت درصد با مقدار مطلق تعیین می شود.

انحرافات () به عنوان اشتباه مطلقتقریب، پس خطای نسبی تقریب است.

میانگین خطای تقریب به عنوان میانگین حسابی تعریف می شود: . گاهی از این تعریف استفاده می کنند خطای متوسطتقریب داشتن فرم .

پایان کار -

این موضوع متعلق به بخش:

اقتصاد سنجی

در سایت بخوانید: تخصص های اقتصادی..

اگر احتیاج داری مواد اضافیدر مورد این موضوع، یا آنچه را که به دنبال آن بودید پیدا نکردید، توصیه می کنیم از جستجو در پایگاه داده آثار ما استفاده کنید:

با مطالب دریافتی چه خواهیم کرد:

اگر این مطالب برای شما مفید بود، می توانید آن را در صفحه خود در شبکه های اجتماعی ذخیره کنید:

تمامی موضوعات این بخش:

ترکیب اطلاعات اولیه
پایه اصلی اطلاعات پس زمینهبرای مطالعات اقتصاد سنجی از آمار یا داده ها استفاده می شود حسابداری. روابط مورد مطالعه توسط اقتصاد سنجی ماهیت تصادفی دارند، یعنی.

چند جمله ای درونیابی لاگرانژ
بگذارید بین مقادیر x و y رابطه y = f(x) وجود داشته باشد، که برای آن نقاط منفرد (xi,yi) را می شناسیم، i = 0,1,2,…,

مورد 1.
از طریق یک نقطه (x0, y0) می توانیم دسته ای از خطوط مستقیم y = y0+b(x-x0) (2.1) (و همچنین یک خط مستقیم عمودی را رسم کنیم

مورد 2.
از دو نقطه مختلف (x0,y0)، (x1,y1) یک و تنها یک خط مستقیم می گذرد. اگر x0 ¹

مورد 3.
چند جمله ای درجه دوم ( تابع درجه دوم) که نمودار آن از سه نقطه (x0,y0)، (x1,y1)، (x2) می گذرد.

مورد n.
اکنون مشخص است که چند جمله ای درونیابی لاگرانژ درجه n که نمودار آن از n+1 نقطه (xi,yi) می گذرد، i=0,1,2,…,n را می توان به صورت vi نوشت.

رگرسیون خطی زوجی. روش حداقل مربعات
اجازه دهید n جفت عدد وجود داشته باشد (xi, yi), i=1,2,…,n که فرض بر این است که آنها مطابقت دارند. وابستگی خطیبین مقادیر x و y:

رگرسیون خطی چندگانه
رگرسیون زوجی می‌تواند نتایج مدل‌سازی خوبی ارائه دهد، اگر بتوان از تأثیر سایر عوامل مؤثر بر موضوع مطالعه چشم‌پوشی کرد. اما، معمولا چندین وجود دارد

مدل های غیر خطی
ما کاربرد روش را مطالعه کرده ایم کمترین مربعاتبرای تعیین پارامترهایی که در وابستگی های تابعی به صورت خطی گنجانده شده اند. بنابراین، برای آنها در پاراگراف 3 و 4 ما یک سیستم دریافت کردیم

سیستم های معادلات اقتصاد سنجی همزمان
هدف - شی مطالعه آماریدر علوم اجتماعی-اقتصادی هستند سیستم های پیچیده. اندازه گیری نزدیکی روابط بین متغیرها، ساخت معادلات رگرسیون ایزوله

اجزای یک سری زمانی
سری زمانی x(t) مجموعه ای از مقادیر کمیت x مربوط به دنباله ای از لحظات در زمان t است، یعنی. این تابع t®x(t) است که معمولاً حساب می شود

تعیین اجزای یک سری زمانی
یکی از متداول‌ترین روش‌ها برای مدل‌سازی روند سری‌های زمانی، طرح‌بندی است تابع تحلیلی، وابستگی مقادیر متوالی را مشخص می کند

در این صورت ضرایب ak, bk برابر خواهند بود
اگر تابع x (t) زوج باشد، یعنی. برابری x (-t) = x (t) برقرار است، سپس در

سری های زمانی به عنوان یک فرآیند تصادفی
اجازه دهید مقدار شاخص اقتصادی x(t) در هر زمان t یک متغیر تصادفی X (t) باشد. بیایید این را فرض کنیم

مدل های ARIMA
در اقتصاد سنجی، تجزیه و تحلیل سری های زمانی با استفاده از تخمین چگالی طیفی (تحلیل طیفی) معمولاً نقش حمایتی ایفا می کند و به تعیین دوره های زمانی کمک می کند.

با در نظر گرفتن اجزای فصلی
تعمیم مدل ARIMA برای در نظر گرفتن مولفه های دوره ای (فصلی) یک سری زمانی توسط J. Box و G. Jenkins ارائه شد. این روش در سیستم پیاده سازی می شود

تجزیه و تحلیل خطاها در اطلاعات منبع
ارزش های نشانگرهای اقتصادیمعمولا نادرست شناخته می شود، با مقداری خطا. بیایید قوانین اساسی برای پردازش داده های حاوی خطا یا خطاهای اندازه گیری را در نظر بگیریم. چرک

فاصله اطمینان
بیایید یک متغیر تصادفی معرفی کنیم. (13.1) بررسی اینکه xОN(0,1) به دلیل h آسان است

محاسبه خطاها
داده های تجربی اغلب تحت پردازش ریاضی قرار می گیرند - در برخی موارد عملیات حسابی جمع، تفریق، ضرب و تقسیم بر روی آنها انجام می شود.

ضریب تعیین
ضریب تعیین کیفیت مدل رگرسیون را مشخص می کند. ارزش های اندازه های مختلف، گرفتن

اصل احتمال حداکثری ساخت مدل های رگرسیون با ناهمسانی خطاها
برای یافتن کمیت های ناشناخته از نتایج اندازه گیری حاوی خطاهای تصادفی، از روش حداقل مربعات (LSM) استفاده شده است. مقادیر تعیین شده معمولاً با تشکیل معادلات مرتبط هستند

فرضیه های آماری
پاراگراف های قبلی روش شناسی مدل سازی روابط بین شاخص های اقتصادی و فرآیندها را مورد بحث قرار دادند. با استفاده از معادلات رگرسیون به دست آمده، این رابطه مدل سازی شد.

F – آمار
اهمیت مدل رگرسیون با استفاده از آزمون F فیشر تعیین می شود. برای انجام این کار، نسبت را محاسبه کنید

T - آمار
برای ارزیابی اهمیت پارامترهای فردیمدل رگرسیونی y=a+bx+e مقدار آنها با خطای استاندارد آنها مقایسه می شود. در این مورد، به اصطلاح

وزارت کشاورزی فدراسیون روسیه

بودجه آموزشی ایالت فدرال

موسسه آموزش عالی حرفه ای

"آکادمی کشاورزی دولتی پرم

به نام آکادمیک D.N. Pryanishnikov"

گروه مالی، اعتبار و تحلیل اقتصادی

تست رشته "اقتصاد سنجی" گزینه - 10

خطاهای تقریب و تعریف آنها…………………………………………….3

روش تحلیلی برای تراز کردن یک سری زمانی و توابع مورد استفاده برای این کار……………………………………………………………………………………………………………………………………………………………………………………………………

قسمت عملی………………………………………………………………………………………………………………………………

تکلیف 1……………………………………………………………………………………………………………………………………
وظیفه 2……………………………………………………………………………………………………………………………………………

فهرست مراجع…………………………………………………………………………………………………………………………………………

خطاهای تقریب و تعریف آنها.

میانگین خطای تقریبمیانگین انحراف داده های محاسبه شده از داده های واقعی است. به عنوان مدول درصد تعیین می شود.

مقادیر واقعی مشخصه حاصل با مقادیر نظری متفاوت است. هر چه این تفاوت کوچکتر باشد، مقادیر نظری به داده های تجربی نزدیکتر می شود بهترین کیفیتمدل ها. مقدار انحراف مقادیر واقعی و محاسبه شده مشخصه حاصل برای هر مشاهده نشان دهنده خطای تقریب است. تعداد آنها با حجم جمعیت مطابقت دارد. در برخی موارد، خطای تقریب ممکن است برابر با صفر باشد. برای مقایسه، از مقادیر انحراف بیان شده به عنوان درصدی از مقادیر واقعی استفاده می شود.

از آنجایی که می تواند یک مقدار مثبت یا منفی باشد، خطاهای تقریبی برای هر مشاهده معمولاً به عنوان یک مدول درصد تعیین می شود. انحرافات را می توان به عنوان خطای تقریبی مطلق و خطای نسبی تقریب در نظر گرفت. به منظور قضاوت کلی در مورد کیفیت مدل از انحرافات نسبی برای هر مشاهده، میانگین خطای تقریب به عنوان میانگین حسابی ساده تعیین می شود.

میانگین خطای تقریب با استفاده از فرمول محاسبه می شود:

تعریف دیگری از میانگین خطای تقریب ممکن است:

اگر £ 10-12٪ باشد، می توانیم در مورد کیفیت خوب مدل صحبت کنیم.

یک روش تحلیلی برای تراز کردن یک سری زمانی و توابع مورد استفاده برای این کار.

یک تکنیک پیشرفته تر برای شناسایی روند اصلی توسعه در سری دینامیک، هم ترازی تحلیلی است. هنگام مطالعه روند کلیروش سطح بندی تحلیلی بر این واقعیت استوار است که تغییرات در سطوح یک سری از دینامیک را می توان با درجات مختلفی از دقت تقریبی توسط توابع ریاضی خاصی بیان کرد. نوع معادله با ماهیت پویایی توسعه یک پدیده خاص تعیین می شود. در عمل با استفاده از سری های زمانی موجود، فرم را تنظیم می کنند و پارامترهای تابع y=f(t) را پیدا می کنند و سپس رفتار انحراف از روند را تحلیل می کنند. اغلب برای تراز کردن از وابستگی های زیر استفاده می شود: خطی، سهمی و نمایی. در بسیاری از موارد، مدل‌سازی سری‌های زمانی با استفاده از چند جمله‌ای یا یک تابع نمایی، نتایج رضایت‌بخشی به دست نمی‌دهد، زیرا سری‌های زمانی شامل نوسانات دوره‌ای قابل‌توجهی در اطراف روند کلی است. در چنین مواردی باید از تحلیل هارمونیک (هارمونیک های سری فوریه) استفاده کرد. استفاده از این روش ترجیح داده می شود، زیرا قانونی را تعیین می کند که با آن می توان مقادیر سطوح سری را با دقت نسبتاً پیش بینی کرد.

هدف از هم ترازی تحلیلی سری زمانیتعیین وابستگی تحلیلی یا گرافیکی y=f(t) است. تابع y=f(t) طوری انتخاب می شود که توضیح معنی داری از فرآیند مورد مطالعه ارائه دهد. اینها می توانند عملکردهای مختلفی باشند.

سیستم معادلات به شکل y=f(t) برای تخمین پارامترهای چندجمله ای با استفاده از روش حداقل مربعات

(قابل کلیک)

نمایش گرافیکی چند جمله ای های مرتبه n

1. اگر تغییر در سطوح یک سری با افزایش (کاهش) یکنواخت در سطوح مشخص شود، زمانی که افزایش زنجیره مطلق از نظر بزرگی نزدیک است، روند توسعه با یک معادله خط مستقیم مشخص می شود.

2. اگر در نتیجه تجزیه و تحلیل نوع روند دینامیکی، یک وابستگی منحنی، با شتاب تقریباً ثابت ایجاد شود، شکل روند با یک معادله سهمی مرتبه دوم بیان می شود.

3. اگر افزایش در سطوح یک سری از دینامیک در رخ دهد پیشرفت هندسی، یعنی ضرایب رشد زنجیره ای کم و بیش ثابت هستند، سری های دینامیک با استفاده از یک تابع نمایی تراز می شوند.

پس از انتخاب نوع معادله، باید پارامترهای معادله را تعیین کنید. متداول ترین روش برای تعیین پارامترهای یک معادله روش حداقل مربعات است که در آن حداقل نقطه مجموع مجذور انحرافات بین سطوح نظری (تراز با معادله انتخاب شده) و تجربی به عنوان راه حل در نظر گرفته می شود.

تراز مستقیم (تعریف یک خط روند) عبارت است: yt=a0+a1t

نماد t-time;

a 0 و a1 پارامترهای خط مورد نظر هستند.

پارامترهای خط از حل سیستم معادلات به دست می آیند:

اگر مقادیر t به گونه ای انتخاب شوند که مجموع آنها برابر Σt = 0 باشد، سیستم معادلات ساده می شود، یعنی شروع شمارش زمان به وسط دوره مورد بررسی منتقل می شود. اگر قبل از انتقال نقطه مرجع t = 1، 2، 3، 4 ...، پس از انتقال:

اگر تعداد سطوح سری فرد باشد t = -4 -3 -2 -1 0 +1 +2 +3 +4

اگر تعداد سطوح سری زوج باشد t = -7 -5 -3 -1 +1 +3 +5 +7

بنابراین، ∑t به یک توان فرد همیشه صفر خواهد بود.

به طور مشابه، پارامترهای یک سهمی مرتبه دوم از حل سیستم معادلات به دست می‌آیند:

تراز بر اساس میانگین رشد مطلق یا متوسط نرخ رشد:

Δ-میانگین افزایش مطلق؛

K-میانگین نرخ رشد;

Y0 سطح اولیه ردیف است.

Уn سطح نهایی ردیف است.

t-عدد ترتیبی سطح، با شروع از صفر.

با ساخت یک معادله رگرسیون، پایایی آن ارزیابی می شود. اهمیت معادله رگرسیون انتخابی، پارامترهای معادله و ضریب همبستگی باید با استفاده از روش‌های ارزیابی انتقادی ارزیابی شود:

آزمون F فیشر، آزمون تی دانشجویی، در این مورد، مقادیر محاسبه شده معیارها با مقادیر جدول بندی شده (بحرانی) در سطح معینی از اهمیت و تعداد درجه آزادی مقایسه می شود. Ffact > Ftheor - معادله رگرسیون کافی است.

n تعداد مشاهدات (سطوح سری)، m تعداد پارامترهای معادله رگرسیون (مدل) است.

کفایت معادله رگرسیون (کیفیت مدل به عنوان یک کل) با استفاده از میانگین خطای تقریب بررسی می شود که مقدار آن نباید از 10-12٪ تجاوز کند (توصیه می شود).

5. با استفاده از آزمون F، مشخص شد که معادله رگرسیون زوجی حاصل به طور کلی از نظر آماری ناچیز است و به اندازه کافی پدیده مورد مطالعه رابطه بین ارزش مستمری ماهانه y و هزینه زندگی x را توصیف نمی کند.

6. یک مدل رگرسیون خطی چندگانه اقتصادسنجی ایجاد شده است که میزان درآمد خالص یک شرکت مشروط y را با گردش سرمایه x1 و سرمایه مصرف شده x2 مرتبط می کند.

7. با محاسبه ضرایب کشش نشان داده می شود که وقتی گردش سرمایه 1% تغییر می کند، مقدار درآمد خالص شرکت 0.0008% تغییر می کند و زمانی که سرمایه مصرف شده 1% تغییر می کند، میزان درآمد خالص شرکت تغییر می کند. 0.56٪ تغییر می کند.

8. با استفاده از آزمون t، معنی‌داری آماری ضرایب رگرسیون بررسی شد. از نظر آماری معنی دار است.

9. با استفاده از آزمون F، مشخص شد که معادله رگرسیون زوجی حاصل به طور کلی از نظر آماری معنادار است و به اندازه کافی پدیده مورد مطالعه رابطه بین درآمد خالص یک شرکت مشروط y و گردش سرمایه x 1 و سرمایه مورد استفاده را توصیف می کند. x 2.

10. میانگین خطای تقریب داده های آماری توسط یک معادله خطی محاسبه شد. رگرسیون چندگانهکه 29.8 درصد بوده است. نشان داده شده است که به دلیل مشاهده در پایگاه داده آماری، بزرگی این خطا از مقدار مجاز بیشتر است.

14. ساخت مدل رگرسیون زوجی بدون استفاده از EXCEL.

با استفاده از مواد آماری ارائه شده در جدول 3.5 لازم است:

2. نزدیکی اتصال را با استفاده از شاخص های همبستگی و تعیین ارزیابی کنید.

3. با استفاده از ضریب کشش، درجه ارتباط بین مشخصه عامل و حاصل را تعیین کنید.

4. میانگین خطای تقریب را تعیین کنید.

5. ارزیابی پایایی آماری مدلسازی با استفاده از آزمون F فیشر.

جدول 3.5. اطلاعات اولیه.

	سهم درآمد نقدی با هدف افزایش پس‌انداز در سپرده‌ها، وام‌ها، گواهی‌نامه‌ها و خرید ارز از کل میانگین درآمد نقدی سرانه، %	متوسط دستمزد انباشته ماهانه، c.u.

کالوژسکایا
کوسترومسکایا
اورلووسکایا
ریازان
اسمولنسکایا

برای تعیین پارامترهای مجهول b 0, b 1 از معادله جفت رگرسیون خطیما از سیستم استاندارد معادلات نرمال استفاده می کنیم که دارای فرم است

(3.7)

برای حل این سیستم ابتدا باید مقادیر Sx 2 و Sxy را تعیین کرد. این مقادیر از جدول داده های منبع تعیین می شوند و آن را با ستون های مناسب تکمیل می کنند (جدول 3.6).

جدول 3.6. به سمت محاسبه ضرایب رگرسیون.

سپس سیستم (3.7) شکل می گیرد

با بیان b 0 از معادله اول و جایگزینی عبارت به دست آمده به معادله دوم به دست می آید:

با انجام ضرب ترم به ترم و باز کردن پرانتزها، دریافت می کنیم:

در نهایت، معادله رگرسیون خطی زوجی که ارزش سهم درآمد نقدی جمعیت را با هدف افزایش پس‌انداز y با میانگین دستمزد انباشته ماهانه x به هم مرتبط می‌کند، به شکل زیر است:

بنابراین، همانطور که معادله رگرسیون خطی زوجی ساخته می شود، ضریب همبستگی خطی را با توجه به وابستگی تعیین می کنیم:

مقادیر انحرافات استاندارد پارامترهای مربوطه کجا هستند.

برای محاسبه ضریب همبستگی خطی از وابستگی (3.9)، محاسبات میانی را انجام می دهیم.

با جایگزینی مقادیر پارامترهای یافت شده در عبارت (3.9) به دست می آوریم

مقدار به‌دست‌آمده ضریب همبستگی خطی نشان‌دهنده وجود رابطه آماری معکوس ضعیف بین سهم درآمد نقدی جمعیت با هدف افزایش پس‌انداز y و میزان متوسط دستمزد انباشته ماهانه x است.

ضریب تعیین است، به این معنی که تنها 9.6٪ با رگرسیون متغیر توضیحی x در y توضیح داده می شود. بر این اساس، مقدار 1 برابر با 90.4 درصد، سهم واریانس متغیر y را مشخص می کند که ناشی از تأثیر سایر متغیرهای توضیحی است که در مدل اقتصادسنجی در نظر گرفته نشده اند.

ضریب کشش است

در نتیجه، زمانی که میانگین دستمزد تعهدی ماهانه 1 درصد تغییر می کند، سهم درآمد نقدی جمعیت با هدف افزایش پس انداز نیز 1 درصد کاهش می یابد و با افزایش دستمزدها، سهم درآمد نقدی افراد کاهش می یابد. جمعیت با هدف افزایش پس انداز این نتیجه گیری با عقل سلیم در تضاد است و تنها با نادرستی مدل ریاضی تولید شده قابل توضیح است.

بیایید میانگین خطای تقریب را محاسبه کنیم.

جدول 3.7. به سمت محاسبه میانگین خطای تقریب.

مقدار به دست آمده بیش از (12...15)٪ است که نشان دهنده اهمیت میانگین انحراف داده های محاسبه شده از داده های واقعی است که مدل اقتصادسنجی بر اساس آن ساخته شده است.

پایایی مدل‌سازی آماری بر اساس آزمون F فیشر انجام خواهد شد. مقدار نظری معیار فیشر F calc از نسبت مقادیر ضریب و پراکندگی باقیمانده محاسبه شده برای یک درجه آزادی طبق فرمول تعیین می شود.

که در آن n تعداد مشاهدات است.

m تعداد متغیرهای توضیحی است (برای مثال مورد بررسی m m = 1).

مقدار بحرانی F crit از جداول آماری تعیین می شود و برای سطح معنی داری 0.05 = a برابر با 10.13 است. از آنجایی که F محاسبه شد

15. ساخت مدل رگرسیون چندگانه بدون استفاده از EXCEL.

با استفاده از مواد آماری ارائه شده در جدول 3.8 باید:

1. یک معادله رگرسیون چندگانه خطی بسازید و معنای اقتصادی پارامترهای آن را توضیح دهید.

2. یک ارزیابی مقایسه ای از نزدیکی رابطه بین عوامل و ویژگی حاصل با استفاده از ضرایب کشش متوسط (عمومی) ارائه دهید.

3. امتیاز دهید اهمیت آماریضرایب رگرسیون با استفاده از آزمون t و فرضیه صفر عدم معنی دار بودن معادله با استفاده از آزمون F.

4. کیفیت معادله را با تعیین میانگین خطای تقریب ارزیابی کنید.

جدول 3.8. اطلاعات اولیه.

درآمد خالص، میلیون دلار آمریکا	گردش سرمایه میلیون دلار آمریکا	سرمایه استفاده شده، میلیون دلار آمریکا

برای تعیین پارامترهای مجهول b 0 , b 1 , b 2 معادله رگرسیون خطی چندگانه از سیستم استاندارد معادلات نرمال استفاده می کنیم که به شکل

(3.11)

برای حل این سیستم ابتدا باید مقادیر Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2 را تعیین کرد. این مقادیر از جدول داده های منبع تعیین می شود و آن را با ستون های مناسب تکمیل می کند (جدول 3.9).

جدول 3.9. به سمت محاسبه ضرایب رگرسیون.

سپس سیستم (3.11) شکل می گیرد

برای حل این سیستم از روش گاوس استفاده می کنیم که شامل حذف متوالی مجهولات است: معادله اول سیستم را بر 10 تقسیم کنید، سپس معادله حاصل را در 370.6 ضرب کنید و آن را از معادله دوم سیستم کم کنید، سپس عدد را ضرب کنید. معادله به دست آمده را 158.20 و از معادله سوم سیستم کم کنید. با تکرار الگوریتم مشخص شده برای معادلات دوم و سوم تبدیل شده سیستم، به دست می آوریم:

Þ Þ

Þ .

بعد از تحول داریم:

سپس وابستگی نهایی سود خالص به گردش سرمایه و سرمایه مصرفی به صورت می باشد معادله خطیرگرسیون چندگانه به شکل زیر است:

از معادله اقتصادسنجی حاصل می توان دریافت که با افزایش سرمایه مصرفی، درآمد خالص افزایش می یابد و برعکس، با افزایش گردش سرمایه، درآمد خالص کاهش می یابد. علاوه بر این، هر چه ضریب رگرسیون بزرگتر باشد، تأثیر متغیر توضیحی بر متغیر وابسته بیشتر است. در مثال مورد بررسی، مقدار ضریب رگرسیون بیشتر از مقدار ضریب است، بنابراین، سرمایه استفاده شده تأثیر قابل توجهی بر درآمد خالص نسبت به گردش سرمایه دارد. برای تعیین کمیت این نتیجه گیری، ضرایب کشش جزئی را تعیین می کنیم.

تجزیه و تحلیل نتایج نیز نشان می دهد که سرمایه استفاده شده تاثیر بیشتری بر سود خالص دارد. بنابراین، به طور خاص، با افزایش سرمایه مورد استفاده 1٪، درآمد خالص 1.17٪ افزایش می یابد. در عین حال، با افزایش گردش سرمایه به میزان 1 درصد، درآمد خالص 0.5 درصد کاهش می یابد.

ارزش نظری معیار فیشر F calc.

مقدار بحرانی F crit از جداول آماری تعیین می شود و برای سطح معنی داری 0.05 = a برابر با 4.74 است. از آنجایی که F calc > F crit، فرضیه صفر رد می شود و معادله رگرسیون حاصل از نظر آماری معنادار پذیرفته می شود.

ارزیابی اهمیت آماری ضرایب رگرسیون و معیار t به مقایسه مقدار عددی این ضرایب با بزرگی خطاهای تصادفی آنها و با توجه به رابطه:

فرمول کاری برای محاسبه مقدار نظری آمار t به صورت زیر است:

, (3.13)

که در آن ضرایب همبستگی زوجی و ضریب همبستگی چندگانه از وابستگی ها محاسبه می شوند:

سپس مقادیر نظری (محاسبه شده) آمار t به ترتیب برابر با:

از آنجایی که مقدار بحرانی آماره t که از جداول آماری برای سطح معناداری 0.05 = a، برابر با t crit = 2.36 تعیین می شود، بیشتر است قدر مطلقاز 1.798 - =، پس فرضیه صفر رد نمی شود و متغیر توضیحی x 1 از نظر آماری ناچیز است و می تواند از معادله رگرسیون حذف شود. برعکس، برای ضریب رگرسیون دوم > t crit (3.3 > 2.36)، و متغیر توضیحی x 2 از نظر آماری معنادار است.

بیایید میانگین خطای تقریب را محاسبه کنیم.

جدول 3.10. نسبت به محاسبه میانگین خطای تقریب.

سپس میانگین خطای تقریب است

مقدار به دست آمده از حد مجاز معادل (12…15)٪ تجاوز نمی کند.

16. تاریخچه توسعه نظریه اندازه گیری

TI برای اولین بار به عنوان یک نظریه اندازه گیری های روانی توسعه یافت. در نشریات پس از جنگ، روانشناس آمریکایی S.S. استیونز بر مقیاس های اندازه گیری تمرکز کرد. در نیمه دوم قرن بیستم. دامنه کاربرد TI به سرعت در حال گسترش است. یکی از مجلدات "دانشنامه علوم روانشناسی" که در دهه 50 در ایالات متحده منتشر شد، "اندازه گیری های روانی" نام داشت. نویسندگان این نشریه دامنه TI را از روان شناسی به روانشناسی به طور کلی گسترش دادند. در مقاله این مجموعه، «مبانی تئوری اندازه‌گیری»، ارائه در سطح ریاضی انتزاعی و بدون اشاره به هیچ زمینه کاربردی خاصی بود. در آن، تأکید بر "هم شکلی های سیستم های تجربی با روابط عددی" شد (در اینجا نیازی به پرداختن به این اصطلاحات ریاضی نیست) و پیچیدگی ریاضی ارائه در مقایسه با کارهای S.S. استیونز

در یکی از اولین مقالات داخلی در مورد TI (اواخر دهه 60) مشخص شد که امتیازات اختصاص داده شده توسط کارشناسان هنگام ارزیابی اشیاء معاینه معمولاً در مقیاس ترتیبی اندازه گیری می شود. آثاری که در اوایل دهه 70 ظاهر شدند منجر به گسترش قابل توجهی از دامنه استفاده از TI شد. در کیفیت سنجی آموزشی (اندازه گیری کیفیت دانش دانش آموزان)، در تحقیقات سیستمی، در مسائل مختلف تئوری ارزیابی های تخصصی، برای تجمیع شاخص های کیفیت محصول، در مطالعات جامعه شناختی و غیره استفاده شده است.

به عنوان دو مشکل اصلی TI، همراه با تعیین نوع مقیاس برای اندازه‌گیری داده‌های خاص، جستجوی الگوریتم‌های تجزیه و تحلیل داده‌ها مطرح شد که نتیجه آن با هیچ تبدیل قابل قبولی در مقیاس تغییر نمی‌کند (یعنی نسبت به آن متغیر است. مقیاس های معمولی در جغرافیا عبارتند از بادهای مقیاس بوفور ("آرام"، "باد خفیف"، "باد متوسط" و غیره)، مقیاس قدرت زلزله. بدیهی است که نمی توان گفت زلزله 2 ریشتری (لامپ زیر سقف تاب می خورد) دقیقاً 5 برابر ضعیف تر از زلزله 10 ریشتری (تخریب کامل همه چیز در سطح زمین) است.

در پزشکی، مقیاس های ترتیبی عبارتند از مقیاس مراحل فشار خون (طبق گفته میاسنیکوف)، مقیاس درجات نارسایی قلبی (طبق گفته Strazhesko-Vasilenko-Lang)، مقیاس شدت نارسایی عروق کرونر (طبق گفته Fogelson) و غیره. . همه این مقیاس ها بر اساس طرح زیر ساخته شده اند: هیچ بیماری شناسایی نشده است. مرحله اول بیماری؛ مرحله دوم؛ مرحله سوم ... گاهی اوقات مراحل 1a، 16 و غیره از هم متمایز می شوند. هنگام توصیف گروه های ناتوانی، از اعداد به ترتیب مخالف استفاده می شود: شدیدترین گروه اول ناتوانی است، سپس دوم، سبک ترین گروه سوم است.

شماره خانه ها نیز در مقیاس ترتیبی اندازه گیری می شود - آنها نشان می دهند که خانه ها به چه ترتیبی در امتداد خیابان قرار دارند. اعداد جلد در آثار جمع آوری شده نویسنده یا شماره پرونده در بایگانی سازمانی معمولاً با ترتیب زمانی ایجاد آنها مرتبط است.

هنگام ارزیابی کیفیت محصولات و خدمات، مقیاس های ترتیبی در اصطلاح کیفی (ترجمه تحت اللفظی - اندازه گیری کیفیت) محبوب هستند. یعنی یک واحد تولیدی قابل عبور یا نامناسب ارزیابی می شود. برای تجزیه و تحلیل دقیق تر، از یک مقیاس با سه درجه بندی استفاده می شود: نقص های قابل توجهی وجود دارد - فقط نقص های جزئی وجود دارد - هیچ نقصی وجود ندارد. گاهی اوقات از چهار درجه بندی استفاده می شود: نقص های بحرانی وجود دارد (که استفاده از آن را غیرممکن می کند) - نقص های قابل توجهی وجود دارد - فقط نقص های جزئی وجود دارد - هیچ نقصی وجود ندارد. درجه محصول معنای مشابهی دارد - حق بیمه، کلاس اول ، کلاس دوم ، ...

هنگام ارزیابی اثرات زیست محیطی، اولین و کلی ترین ارزیابی معمولاً ترتیبی است، به عنوان مثال: محیط طبیعی پایدار است - محیط طبیعی تحت ستم (تخریب) است. مقیاس زیست محیطی-پزشکی مشابه است: هیچ تأثیر مشخصی بر سلامت انسان وجود ندارد - تأثیر منفی بر سلامت ذکر شده است.

مقیاس ترتیبی در سایر زمینه ها نیز استفاده می شود. در اقتصاد سنجی، اینها در درجه اول روش های مختلف ارزیابی کارشناسان هستند.

تمام مقیاس های اندازه گیری به دو گروه تقسیم می شوند - مقیاس ویژگی های کیفی و مقیاس های ویژگی های کمی. مقیاس ترتیبی و مقیاس نامگذاری، مقیاس های اصلی ویژگی های کیفی هستند، بنابراین در بسیاری از حوزه های خاص، نتایج تحلیل کیفی را می توان به عنوان اندازه گیری در این مقیاس ها در نظر گرفت. مقیاس های ویژگی های کمی مقیاس فواصل، نسبت ها، تفاوت ها، مطلق هستند. با استفاده از مقیاس بازه ای، مقدار انرژی پتانسیل یا مختصات یک نقطه در یک خط مستقیم اندازه گیری می شود. در این موارد نه منشا طبیعی و نه واحد اندازه گیری طبیعی را نمی توان روی ترازو مشخص کرد. محقق باید نقطه شروع را تعیین کند و واحد اندازه گیری را خودش انتخاب کند. تبدیل‌های قابل قبول در مقیاس بازه‌ای، تبدیل‌های افزایشی خطی هستند، یعنی. توابع خطی مقیاس‌های دما سلسیوس و فارنهایت دقیقاً با این وابستگی به هم متصل می‌شوند: °C = 5/9 (°F - 32)، که در آن °C دما (بر حسب درجه) در مقیاس سانتی‌گراد، و °F دمای فارنهایت است. مقیاس

از مقیاس های کمی، رایج ترین آنها در علم و عمل مقیاس های نسبت هستند. آنها یک نقطه مرجع طبیعی دارند - صفر، یعنی. عدم وجود کمیت، اما بدون واحد اندازه گیری طبیعی. اکثر واحدهای فیزیکی در مقیاس نسبت اندازه گیری می شوند: توده بدن، طول، شارژ، و همچنین قیمت ها در اقتصاد. تغییرات قابل قبول در مقیاس نسبت مشابه هستند (تنها تغییر مقیاس). به عبارت دیگر، تبدیلات افزایشی خطی بدون یک اصطلاح آزاد، به عنوان مثال، تبدیل قیمت ها از یک ارز به ارز دیگر با نرخ ثابت. فرض کنید کارایی اقتصادی دو پروژه سرمایه گذاری را با استفاده از قیمت ها به روبل مقایسه می کنیم. بگذارید پروژه اول بهتر از پروژه دوم باشد. حالا بیایید با استفاده از یک نرخ تبدیل ثابت، به واحد پول چین - یوان - سوئیچ کنیم. بدیهی است که پروژه اول باید دوباره سودآورتر از پروژه دوم باشد. با این حال، الگوریتم های محاسباتی به طور خودکار از تحقق این شرط اطمینان نمی دهند و لازم است بررسی شود که این شرط برقرار است. نتایج چنین آزمایشی برای مقادیر متوسط در زیر توضیح داده شده است.

مقیاس تفاوت دارای یک واحد اندازه گیری طبیعی است، اما نقطه مرجع طبیعی ندارد. زمان بر اساس مقیاس تفاوت ها اندازه گیری می شود، اگر سال (یا روز - از ظهر تا ظهر) به عنوان یک واحد اندازه گیری طبیعی در نظر گرفته شود، و بر اساس مقیاس فواصل در مورد کلی. در سطح کنونی دانش، نمی توان یک نقطه شروع طبیعی را نشان داد. نویسندگان مختلف تاریخ آفرینش جهان و همچنین لحظه تولد مسیح را به روش های مختلف محاسبه می کنند.

فقط برای مقیاس مطلق، نتایج اندازه گیری اعداد به معنای معمول کلمه هستند، به عنوان مثال، تعداد افراد در یک اتاق. برای مقیاس مطلق، تنها تغییر هویت مجاز است.

در روند توسعه حوزه دانش مربوطه، نوع مقیاس ممکن است تغییر کند. بنابراین، ابتدا دما در مقیاس ترتیبی (سردتر - گرمتر) اندازه گیری شد. سپس - با توجه به فاصله (مقیاس های سانتیگراد، فارنهایت، رئومور). در نهایت، پس از کشف صفر مطلق، می توان دما را در مقیاس نسبت (مقیاس کلوین) اندازه گیری کرد. لازم به ذکر است که گاهی اوقات بین متخصصان در مورد اینکه کدام مقیاس باید برای در نظر گرفتن مقادیر واقعی اندازه گیری شده استفاده شود، اختلاف نظر وجود دارد. به عبارت دیگر، فرآیند اندازه گیری شامل تعیین نوع مقیاس (همراه با منطق انتخاب نوع خاصی از مقیاس) نیز می شود. علاوه بر شش نوع اصلی ترازو ذکر شده، گاهی از ترازوهای دیگری نیز استفاده می شود.

17. الگوریتم های ثابت و مقادیر میانگین.

اجازه دهید نیاز اصلی را برای الگوریتم های تجزیه و تحلیل داده ها در TI فرموله کنیم: نتیجه گیری هایی که بر اساس داده های اندازه گیری شده در یک مقیاس از یک نوع خاص انجام می شود نباید در زمانی که مقیاس اندازه گیری این داده ها مجاز است تغییر کند. به عبارت دیگر، استنتاج ها باید تحت تبدیل مقیاس معتبر ثابت باشند.

بنابراین، یکی از اهداف اصلی تئوری اندازه گیری، مبارزه با ذهنیت محقق هنگام تخصیص مقادیر عددی به اشیاء واقعی است. بنابراین، فاصله ها را می توان بر حسب آرشین، متر، میکرون، مایل، پارسک و سایر واحدهای اندازه گیری اندازه گیری کرد. جرم (وزن) - بر حسب پود، کیلوگرم، پوند و غیره. قیمت کالاها و خدمات را می توان به یوان، روبل، تنگه، گریونا، لات، کرون، مارک، دلار آمریکا و سایر ارزها (با توجه به نرخ تبدیل مشخص) نشان داد. اجازه دهید بر یک واقعیت بسیار مهم، اگرچه کاملاً آشکار تأکید کنیم: انتخاب واحدهای اندازه گیری به محقق بستگی دارد، یعنی. ذهنی نتیجه‌گیری‌های آماری تنها زمانی می‌توانند به واقعیت بسنده کنند که به واحد اندازه‌گیری که محقق ترجیح می‌دهد وابسته نباشند، زمانی که نسبت به تبدیل مجاز مقیاس ثابت باشند. از بسیاری از الگوریتم‌ها برای تجزیه و تحلیل داده‌های اقتصادسنجی، تنها تعداد کمی این شرط را برآورده می‌کنند. بیایید این را با مقایسه مقادیر میانگین نشان دهیم.

فرض کنید X 1، X 2،...، X n نمونه ای از حجم n باشد. معمولاً از میانگین حسابی استفاده می شود. استفاده از میانگین حسابی آنقدر رایج است که کلمه دوم در این اصطلاح اغلب حذف می‌شود و مردم در مورد میانگین حقوق، متوسط درآمد و سایر میانگین‌ها برای داده‌های اقتصادی خاص صحبت می‌کنند، به معنی میانگین حسابی. این سنت می تواند به نتیجه گیری های اشتباه منجر شود. بیایید این را با استفاده از مثال محاسبه میانگین حقوق (متوسط درآمد) کارکنان یک شرکت فرضی نشان دهیم. از 100 کارگر، تنها 5 نفر حقوق بیش از آن دارند و حقوق 95 باقیمانده به میزان قابل توجهی کمتر از میانگین حسابی است. دلیل واضح است - حقوق یک نفر - مدیر کل - از حقوق 95 کارگر - کارگران کم مهارت و با مهارت بالا، مهندسان و کارکنان اداری بیشتر است. وضعیت شبیه به آن چیزی است که در داستان معروفدر مورد بیمارستانی که در آن 10 بیمار وجود دارد، 9 نفر از آنها دمای 40 درجه سانتیگراد دارند و یکی قبلاً آسیب دیده است، در سردخانه با دمای 0 درجه سانتیگراد خوابیده است. در همین حال، میانگین دما در بیمارستان 36 درجه سانتیگراد است - بهتر از این نیست!

بنابراین، میانگین حسابی را فقط می توان برای جمعیت های نسبتاً همگن (بدون نقاط پرت بزرگ در یک جهت یا جهت دیگر) استفاده کرد. چه میانگین هایی باید برای توصیف دستمزد استفاده شود؟ استفاده از میانه - میانگین حسابی کارکنان 50 و 51 کاملاً طبیعی است، اگر آنها حقوق و دستمزدبه ترتیب غیر نزولی مرتب شده اند. ابتدا حقوق 40 کارگر کم مهارت و سپس - از کارگر 41 تا 70 - حقوق کارگران بسیار ماهر است. در نتیجه، میانه به طور خاص بر روی آنها قرار می گیرد و برابر با 200 است. برای 50 کارگر، حقوق از 200 و برای 50 - حداقل 200 تجاوز نمی کند، بنابراین میانه "مرکزی" را نشان می دهد که بخش عمده ای از مقادیر مورد مطالعه در اطراف آن است. گروه بندی می شوند. مقدار متوسط دیگر حالت است که بیشترین مقدار را نشان می دهد. در مورد مورد بررسی، اینها دستمزد کارگران کم مهارت است، یعنی. 100. بنابراین، برای توصیف حقوق ما سه مقدار متوسط داریم - حالت (100 واحد)، میانه (200 واحد) و میانگین حسابی (400 واحد).

برای توزیع درآمد و دستمزد مشاهده شده در زندگی واقعی، همین الگو صادق است: حالت کمتر از میانه است، و میانه کمتر از میانگین حسابی است.

چرا از میانگین ها در اقتصاد استفاده می شود؟ به طور معمول برای جایگزینی مجموعه ای از اعداد با یک عدد واحد به منظور مقایسه جمعیت ها با استفاده از میانگین ها. به عنوان مثال، Y 1، Y 2،...، Y n مجموعه ای از ارزیابی های تخصصی "داده شده" به یک موضوع تخصصی (به عنوان مثال، یکی از گزینه های توسعه استراتژیک یک شرکت)، Z 1 باشد. , Z 2,..., Z n -دومین (نسخه دیگری از این توسعه). این جمعیت ها چگونه با هم مقایسه می شوند؟ بدیهی است که ساده ترین راه با مقادیر متوسط است.

چگونه میانگین ها را محاسبه کنیم؟ شناخته شده انواع مختلفمقادیر میانگین: میانگین حسابی، میانه، حالت، میانگین هندسی، میانگین هارمونیک، میانگین درجه دوم. بگذارید آن را به خاطر بیاوریم مفهوم کلیمقدار متوسط توسط یک ریاضیدان فرانسوی در نیمه اول قرن 19 معرفی شد. آکادمیک O. کوشی. به شرح زیر است: مقدار متوسط هر تابع Ф(Х 1، Х 2،...، Х n) است به طوری که برای تمام مقادیر ممکن آرگومان ها، مقدار این تابع کمتر از حداقل نباشد. از اعداد X 1, X 2,... , X n و حداکثر از حداکثر این اعداد. همه انواع میانگین های ذکر شده در بالا میانگین کوشی هستند.

با تبدیل مقیاس معتبر، مقدار اندازه متوسط، بدیهی است که در حال تغییر است. اما نتیجه گیری در مورد اینکه میانگین برای کدام جمعیت بیشتر و برای کدام جمعیت کمتر است نباید تغییر کند (مطابق با الزام عدم تغییر نتیجه گیری که به عنوان نیاز اصلی در TI پذیرفته شده است). اجازه دهید مسئله ریاضی مربوط به جستجوی نوع مقادیر میانگین را فرموله کنیم که نتیجه مقایسه آن با توجه به تبدیل‌های مقیاس مجاز پایدار است.

فرض کنید Ф(Х 1 Х 2 ,..., Х n) میانگین کوشی باشد. بگذارید میانگین جمعیت اول کمتر از میانگین جمعیت دوم باشد: سپس، طبق TI، برای پایداری نتیجه مقایسه میانگین‌ها، لازم است که برای هر تبدیل مجاز g از گروه تبدیل‌های مجاز در مقیاس مربوطه درست است که میانگین مقادیر تبدیل شده از جمعیت اول نیز کمتر از میانگین مقادیر تبدیل شده برای مجموعه دوم است. علاوه بر این، شرط فرمول‌بندی‌شده باید برای هر دو مجموعه Y 1، Y 2،...،Y n و Z 1، Z 2،...، Z n و هر تبدیل قابل قبول صادق باشد. ما مقادیر متوسطی را که شرایط فرمول بندی شده را برآورده می کنند قابل قبول (در مقیاس مناسب) می نامیم. به گفته TI، تنها از چنین میانگین هایی می توان در هنگام تجزیه و تحلیل نظرات کارشناسان و سایر داده های اندازه گیری شده در مقیاس مورد نظر استفاده کرد.

با استفاده از نظریه ریاضی، که در دهه 1970 توسعه یافت، موفق شد نوع میانگین های قابل قبول را در مقیاس های پایه توصیف کند. واضح است که برای داده های اندازه گیری شده در مقیاس نام ها، تنها حالت به عنوان میانگین مناسب است.

18. مقادیر متوسط در مقیاس ترتیبی

بیایید پردازش نظرات کارشناسان را در مقیاس ترتیبی در نظر بگیریم. عبارت زیر درست است.

قضیه1 . از میان میانگین‌های کوشی، تنها میانگین‌های قابل قبول در مقیاس ترتیبی عبارت‌ها هستند سری تغییرات(آمار ترتیبی).

قضیه 1 به شرطی معتبر است که میانگین Ф(Х 1 Х 2،...، Х n) یک تابع پیوسته (بر روی مجموعه متغیرها) و متقارن باشد. دومی به این معنی است که وقتی آرگومان ها دوباره مرتب می شوند، مقدار تابع Ф(Х 1 Х 2 ,..., Х n) تغییر نمی کند. این شرایط کاملاً طبیعی است، زیرا ما مقدار متوسط را برای کل (مجموعه) و نه برای دنباله پیدا می کنیم. بسته به ترتیبی که عناصر آن را فهرست می کنیم، مجموعه تغییر نمی کند.

طبق قضیه 1، به طور خاص، میانه می تواند به عنوان میانگین برای داده های اندازه گیری شده در مقیاس ترتیبی (اگر حجم نمونه فرد باشد) استفاده شود. اگر حجم صدا یکنواخت باشد، باید از یکی از دو عبارت مرکزی سری تغییرات استفاده شود - همانطور که گاهی اوقات آنها را میانه چپ یا میانه راست می نامند. مد نیز می تواند مورد استفاده قرار گیرد - همیشه یکی از اعضای سری تغییرات است. اما شما هرگز نمی توانید میانگین حسابی، میانگین هندسی و غیره را محاسبه کنید.

قضیه زیر درست است.

قضیه 2. فرض کنید Y 1, Y 2,...,Y m متغیرهای تصادفی مستقل با تابع توزیع F(x) و Z 1, Z 2,..., Zn متغیرهای تصادفی مستقل با توزیع یکسان با توزیع تابع باشند. H(x)، و نمونه‌های Y 1، Y 2،...،Y m و Z 1، Z 2،...، Z n مستقل از یکدیگر هستند و MY X > MZ X. برای اینکه احتمال یک رویداد به 1 در min(m, n) برای هر تابع پیوسته اکیداً فزاینده g که شرط |g i |>X را برآورده می کند به 1 گرایش پیدا کند، لازم و کافی است که نابرابری F(x) برای همه ارضا شود. ایکس< Н(х), причем существовало число х 0 , для которого F(x 0)

توجه داشته باشید.شرط با حد بالایی ماهیت صرفاً درون ریاضی است. در واقع تابع g یک تبدیل دلخواه قابل قبول در مقیاس ترتیبی است.

با توجه به قضیه 2، اگر نمونه هایی از دو توزیع که نابرابری داده شده در قضیه را برآورده می کنند، مقایسه شوند، میانگین حسابی را می توان در مقیاس ترتیبی نیز استفاده کرد. به زبان ساده، یکی از توابع توزیع باید همیشه بالای دیگری قرار گیرد. توابع توزیع نمی توانند همدیگر را قطع کنند، آنها فقط اجازه دارند یکدیگر را لمس کنند. برای مثال، اگر توابع توزیع فقط در شیفت متفاوت باشند، این شرط برقرار است:

F(x) = Н(x + ∆)

برای برخی ∆.

آخرین شرط در صورتی برآورده می شود که دو مقدار از یک کمیت معین با استفاده از یک ابزار اندازه گیری اندازه گیری شود، که در آن توزیع خطاها هنگام انتقال از اندازه گیری یک مقدار از کمیت مورد نظر به اندازه گیری مقدار دیگر تغییر نمی کند.

میانگین طبق نظر کولموگروف

تعمیم چند مورد از میانگین های ذکر شده در بالا، میانگین کلموگروف است. برای اعداد X 1، X 2،...، X n، میانگین کلموگروف با استفاده از فرمول محاسبه می شود.

G((F(X l) + F(X 2)+...F(X n))/n)،

که در آن F یک تابع کاملاً یکنواخت است (یعنی به شدت افزایش یا کاهش شدید)،

G تابع معکوس F است.

در میان میانگین های کولموگروف شخصیت های شناخته شده زیادی وجود دارد. بنابراین، اگر F(x) = x، میانگین کلموگروف میانگین حسابی است، اگر F(x) = lnx، آنگاه میانگین هندسی، اگر F(x) = 1/x، آنگاه میانگین هارمونیک، اگر F( x) = x 2، سپس میانگین مربع و غیره. میانگین کلموگروف مورد خاصی از میانگین کوشی است. از سوی دیگر، چنین میانگین های محبوبی مانند میانه و مد را نمی توان به عنوان میانگین کلموگروف نشان داد. عبارات زیر در تک نگاری ثابت شده است.

قضیه3 . اگر برخی از شرایط درون ریاضی نظم در مقیاس بازه‌ای معتبر باشد، از بین میانگین‌های کلموگروف، فقط میانگین حسابی قابل قبول است. بنابراین، میانگین هندسی یا ریشه میانگین مربع دما (بر حسب سانتیگراد) یا فواصل بی معنی است. از میانگین حسابی باید به عنوان میانگین استفاده شود. همچنین می توانید از میانه یا حالت استفاده کنید.

قضیه 4. اگر شرایط درون ریاضی خاصی از نظم در مقیاس نسبت ها معتبر باشد، از میان میانگین های کلموگروف، تنها میانگین های توان با F(x) = xc و میانگین هندسی قابل قبول هستند.

اظهار نظر. میانگین هندسی حد میانگین توان برای c > 0 است.

آیا میانگین های کولموگروف وجود دارد که نمی توان در مقیاس نسبت استفاده کرد؟ البته دارند. به عنوان مثال F(x) = e x.

مشابه مقادیر میانگین، سایر ویژگی های آماری را می توان مورد مطالعه قرار داد - شاخص های پراکندگی، اتصال، فاصله و غیره. برای مثال، نشان دادن اینکه ضریب همبستگی با هیچ تبدیل قابل قبولی در یک کاسه فواصل تغییر نمی کند، دشوار نیست، درست مانند نسبت پراکندگی ها، پراکندگی در مقیاس تفاوت ها تغییر نمی کند، ضریب تغییرات در مقیاس نسبت ها و غیره

نتایج فوق بر روی مقادیر متوسط، نه تنها در اقتصاد، مدیریت، تئوری ارزیابی‌های تخصصی یا جامعه‌شناسی، بلکه در مهندسی، به عنوان مثال، برای تجزیه و تحلیل روش‌های جمع‌آوری سنسورها در سیستم‌های کنترل فرآیند خودکار کوره‌های بلند، به طور گسترده استفاده می‌شود. TI در مسائل استانداردسازی و مدیریت کیفیت، به ویژه در کیفیت سنجی، که در آن نتایج نظری جالبی به دست آمده است، اهمیت عملی زیادی دارد. بنابراین، به عنوان مثال، هر گونه تغییر در ضرایب وزنی شاخص های فردی کیفیت محصول منجر به تغییر در سفارش محصولات بر اساس شاخص میانگین وزنی می شود (این قضیه توسط پروفسور V.V. Podinovsky اثبات شد). در نتیجه، اطلاعات مختصر فوق در مورد TI و روش‌های آن، به یک معنا، علم اقتصاد، جامعه‌شناسی و مهندسی را با هم ترکیب می‌کند و دستگاهی مناسب برای حل مسائل پیچیده‌ای است که قبلاً قابل تجزیه و تحلیل مؤثر نبوده‌اند. راه برای ساخت مدل های واقع بینانه و حل مشکل پیش بینی باز می شود.

22. رگرسیون خطی زوجی

اجازه دهید اکنون به مطالعه دقیق تری از ساده ترین حالت رگرسیون خطی زوجی بپردازیم. رگرسیون خطی با ساده ترین رابطه عملکردی در قالب یک معادله خط مستقیم توصیف می شود و با تفسیر شفاف پارامترهای مدل (ضرایب معادله) مشخص می شود. سمت راست معادله به ما امکان می دهد تا مقادیر نظری (محاسبه شده) متغیر حاصل (توضیح داده شده) را بر اساس مقادیر داده شده رگرسیور (متغیر توضیحی) بدست آوریم. گاهی اوقات به این مقادیر پیش بینی شده نیز می گویند (به همان معنا)، یعنی. به دست آمده از فرمول های نظری با این حال، هنگام ارائه یک فرضیه در مورد ماهیت وابستگی، ضرایب معادله هنوز ناشناخته باقی می مانند. به طور کلی به دست آوردن مقادیر تقریبی این ضرایب با استفاده از روش های مختلف امکان پذیر است.

اما مهمترین و گسترده ترین آنها روش حداقل مربعات (OLS) است. این (همانطور که قبلاً توضیح داده شد) مبتنی بر الزام به حداقل رساندن مجموع انحرافات مجذور مقادیر واقعی مشخصه حاصل از موارد محاسبه شده (نظری) است. به جای مقادیر نظری (برای به دست آوردن آنها)، سمت راست معادله رگرسیون را با مجموع انحرافات مجذور جایگزین کنید و سپس مشتقات جزئی این تابع (مجموع مجذور انحرافات مقادیر واقعی) را پیدا کنید. از ویژگی های حاصل از ویژگی های نظری). این مشتقات جزئی نه با توجه به متغیرهای x و y، بلکه با توجه به پارامترهای a و b گرفته می شوند. مشتقات جزئی برابر با صفر قرار می گیرند و پس از تبدیل های ساده اما دست و پا گیر، سیستمی از معادلات عادی برای تعیین پارامترها به دست می آید. ضریب برای متغیر x، i.e. b ضریب رگرسیون نامیده می شود که میانگین تغییر نتیجه را با تغییر ضریب یک واحد نشان می دهد. پارامتر a ممکن است تفسیر اقتصادی نداشته باشد، به خصوص اگر علامت این ضریب منفی باشد.

برای مطالعه تابع مصرف از رگرسیون خطی زوجی استفاده می شود. برای محاسبه ضریب از ضریب رگرسیون در تابع مصرف استفاده می شود. تقریباً همیشه، معادله رگرسیون با نشانگر نزدیکی اتصال تکمیل می شود. برای ساده ترین حالت رگرسیون خطی، این شاخص نزدیکی اتصال است ضریب خطیهمبستگی ها اما از آنجایی که ضریب همبستگی خطی نزدیک بودن ارتباط بین ویژگی ها را مشخص می کند فرم خطی، پس نزدیکی قدر مطلق ضریب همبستگی خطی به صفر هنوز به عنوان شاخصی برای عدم وجود ارتباط بین ویژگی ها عمل نمی کند.

با انتخاب متفاوتی از مشخصات مدل و بنابراین، نوع وابستگی است که رابطه واقعی ممکن است کاملاً نزدیک به وحدت باشد. اما کیفیت انتخاب یک تابع خطی با استفاده از مربع ضریب همبستگی خطی - ضریب تعیین تعیین می شود. نسبت واریانس در ویژگی حاصل y را که با رگرسیون در توضیح داده شده است، مشخص می کند واریانس کلنشانه موثر مقداری که ضریب تعیین 1 را تکمیل می کند، سهم واریانس ناشی از تأثیر سایر عوامل را که در مدل در نظر گرفته نشده اند مشخص می کند (واریانس باقیمانده).

رگرسیون زوجی با معادله ای نشان داده می شود که دو متغیر y و x را به شکل زیر مرتبط می کند:

که در آن y متغیر وابسته (ویژگی نتیجه) و x متغیر مستقل (متغیر توضیحی یا عامل ویژگی) است. رگرسیون خطی و رگرسیون غیرخطی وجود دارد. رگرسیون خطی با معادله ای به شکل زیر توصیف می شود:

y = a+ bx + .

رگرسیون غیرخطی، به نوبه خود، می تواند با توجه به متغیرهای توضیحی موجود در تجزیه و تحلیل غیرخطی باشد، اما با توجه به پارامترهای برآورد شده خطی باشد. یا شاید رگرسیون از نظر پارامترهای تخمین زده غیرخطی باشد. نمونه‌هایی از رگرسیون که در متغیرهای توضیحی غیرخطی، اما در پارامترهای تخمینی خطی هستند، شامل وابستگی‌های چند جمله‌ای درجات مختلف (چند جمله‌ای) و هذلول متساوی الاضلاع است.

رگرسیون غیرخطی برای پارامترهای تخمین زده شده یک وابستگی توان نسبت به پارامتر (پارامتر در توان است)، یک وابستگی نمایی، که در آن پارامتر در پایه توان قرار دارد، و یک وابستگی نمایی، زمانی که کل وابستگی خطی کاملاً باشد. در توان. توجه داشته باشید که در هر سه مورد مولفه تصادفی (باقیمانده تصادفی)  در آن گنجانده شده است سمت راستمعادلات به صورت یک عامل، و نه به صورت جمع، یعنی. ضربی! میانگین انحراف مقادیر محاسبه شده مشخصه حاصل از واقعی با میانگین خطای تقریب مشخص می شود. به صورت درصد بیان می شود و نباید از 7-8٪ تجاوز کند. این میانگین خطای تقریب صرفاً میانگین بزرگی های نسبی تفاوت بین مقادیر واقعی و محاسبه شده است که به صورت درصد بیان می شود.

ضریب کشش متوسط که به عنوان مشخصه مهم بسیاری از پدیده ها و فرآیندهای اقتصادی عمل می کند، مهم است. به عنوان حاصل ضرب مقدار مشتق یک رابطه تابعی معین و نسبت مقدار متوسط x به مقدار متوسط y محاسبه می شود. ضریب الاستیسیته نشان می‌دهد که وقتی عامل x 1٪ از مقدار متوسط خود (عامل x) تغییر می‌کند، نتیجه y به طور میانگین با چند درصد از مقدار متوسط خود تغییر می‌کند.

مشکلات تحلیل واریانس ارتباط نزدیکی با رگرسیون زوجی و رگرسیون چندگانه (در صورت وجود عوامل زیاد) و واریانس باقیمانده دارد. تحلیل واریانسواریانس متغیر وابسته را بررسی می کند. در این حالت مجموع مجذور انحرافات به دو قسمت تقسیم می شود. جمله اول مجموع مجذور انحرافات ناشی از رگرسیون یا توضیح داده شده (عاملی) است. جمله دوم مجموع باقیمانده مجذور انحرافات غیر قابل توضیح با رگرسیون عاملی است.

سهم واریانس توضیح داده شده توسط رگرسیون در کل واریانس مشخصه حاصله y با ضریب (شاخص) تعیین مشخص می شود که چیزی بیش از نسبت مجموع مجذور انحرافات ناشی از رگرسیون به مجموع مجموع مجذور انحرافات نیست. (ترم اول به کل جمع).

هنگامی که پارامترهای مدل (ضرایب مجهولات) با استفاده از روش حداقل مربعات تعیین می شوند، در اصل، برخی از متغیرهای تصادفی (در فرآیند به دست آوردن تخمین ها) پیدا می شوند. برآورد ضریب رگرسیون که شکل خاصی از یک متغیر تصادفی است از اهمیت ویژه ای برخوردار است. ویژگی های این متغیر تصادفی به ویژگی های عبارت باقی مانده در معادله (در مدل) بستگی دارد. برای مدل رگرسیون خطی زوجی، متغیر توضیحی x را به عنوان یک متغیر برونزا غیرتصادفی در نظر بگیرید. این فقط به این معنی است که مقادیر متغیر x در همه مشاهدات را می توان از پیش تعیین شده در نظر گرفت و به هیچ وجه به وابستگی مورد مطالعه مرتبط نیست. بنابراین، مقدار واقعی متغیر توضیح داده شده از دو جزء تشکیل شده است: یک جزء غیر تصادفی و یک جزء تصادفی (ترم باقیمانده).

از طرفی ضریب رگرسیون تعیین شده با استفاده از روش حداقل مربعات (OLS) برابر است با ضریب تقسیم کوواریانس متغیرهای x و y بر واریانس متغیر x. بنابراین شامل یک جزء تصادفی نیز می شود. از این گذشته، کوواریانس به مقادیر متغیر y بستگی دارد، جایی که مقادیر متغیر y به مقادیر عبارت باقیمانده تصادفی  بستگی دارد. علاوه بر این، به راحتی می توان نشان داد که کوواریانس متغیرهای x و y برابر است با حاصلضرب ضریب رگرسیون تخمینی بتا () و واریانس متغیر x به اضافه کوواریانس متغیرهای x و . بنابراین، تخمین ضریب رگرسیون بتا برابر است با خود این ضریب رگرسیون مجهول، که به ضریب تقسیم کوواریانس متغیرهای x و  بر واریانس متغیر x اضافه می‌شود. آن ها تخمین ضریب رگرسیون b به دست آمده از هر نمونه به صورت مجموع دو جمله ارائه می شود: یک مقدار ثابت برابر با مقدار واقعی ضریب  (بتا) و یک جزء تصادفی بسته به کوواریانس متغیرهای x و . .

23. شرایط گاوس مارکوف ریاضی و کاربرد آنها.

برای تجزیه و تحلیل رگرسیون بر اساس OLS معمولی برای تولید بهترین نتایج، عبارت تصادفی باید چهار شرط گاوس-مارکف را برآورده کند.

انتظار ریاضی از جمله تصادفی برابر با صفر است، یعنی. بی طرف است اگر معادله رگرسیون شامل یک جمله ثابت باشد، طبیعی است که این شرط برآورده شده در نظر گرفته شود، زیرا این یک جمله ثابت است و باید هر گونه روند سیستماتیک در مقادیر متغیر y را در نظر بگیرد، که برعکس، باید در متغیرهای توضیحی معادله رگرسیون قرار نگیرد.

واریانس جمله تصادفی برای همه مشاهدات ثابت است.

کوواریانس مقادیر متغیرهای تصادفی، تشکیل نمونه باید برابر با صفر باشد، یعنی. هیچ رابطه سیستماتیکی بین مقادیر عبارت تصادفی در هر دو مشاهده خاص وجود ندارد. اعضای تصادفی باید مستقل از یکدیگر باشند.

قانون توزیع عبارت تصادفی باید مستقل از متغیرهای توضیحی باشد.

علاوه بر این، در بسیاری از کاربردها، متغیرهای توضیحی تصادفی نیستند، به عنوان مثال. جزء تصادفی ندارند مقدار هر متغیر مستقل در هر مشاهده باید برون زا در نظر گرفته شود، که به طور کامل توسط علل خارجی تعیین می شود که در معادله رگرسیون در نظر گرفته نشده اند.

همراه با شرایط مشخص شده گاوس-مارکوف، فرض بر این است که عبارت تصادفی دارای توزیع نرمال است. این در شرایط بسیار گسترده معتبر است و بر اساس به اصطلاح قضیه حد مرکزی (CLT) است. ماهیت این قضیه این است که اگر یک متغیر تصادفی نتیجه کلی برهمکنش تعداد زیادی از متغیرهای تصادفی دیگر باشد که هیچ کدام تأثیر غالب بر رفتار این نتیجه کلی نداشته باشد، متغیر تصادفی حاصل توصیف خواهد شد. با توزیع تقریبا نرمال این نزدیکی به توزیع نرمالبه شما امکان می دهد از توزیع نرمال و توزیع دانشجویی که به معنای خاصی تعمیم آن است استفاده کنید تا تخمین هایی را بدست آورید که به طور قابل توجهی با حالت عادی تفاوت دارد عمدتاً در به اصطلاح "دم" یعنی. برای اندازه های نمونه کوچک همچنین مهم است که اگر عبارت تصادفی به طور معمول توزیع شود، ضرایب رگرسیون نیز به طور عادی توزیع می شود.

منحنی رگرسیون ایجاد شده (معادله رگرسیون) به ما اجازه می دهد تا مشکل به اصطلاح پیش بینی نقطه ای را حل کنیم. در چنین محاسباتی، مقدار مشخصی از x خارج از بازه مشاهدات مورد مطالعه گرفته شده و در سمت راست معادله رگرسیون (روش برون یابی) جایگزین می شود. زیرا تخمین های ضرایب رگرسیون از قبل مشخص شده است، سپس می توان مقدار متغیر توضیح داده شده y مربوط به مقدار x را محاسبه کرد. به طور طبیعی، مطابق با معنای پیش بینی (پیش بینی)، محاسبات به جلو (به منطقه مقادیر آینده) انجام می شود.

اما از آنجایی که ضرایب با خطای خاصی تعیین شده اند، جالب نیست تخمین نقطه ای(پیش‌بینی نقطه‌ای) برای یک مشخصه مؤثر و آگاهی از حدودی که با احتمال معینی، مقادیر مشخصه مؤثر مطابق با مقدار دریافتی عامل x قرار می‌گیرد.

برای این کار خطای استاندارد (انحراف استاندارد) محاسبه می شود. می توان آن را با روح آنچه که به شرح زیر بیان شد به دست آورد. بیان عبارت آزاد a از تخمین ها از طریق مقادیر میانگین در معادله رگرسیون خطی جایگزین می شود. سپس معلوم می شود که خطای استاندارد به خطای میانگین ضریب مؤثر y و به طور افزایشی به خطای ضریب رگرسیون b بستگی دارد. به سادگی مربع این خطای استاندارد است برابر با مجموعمجذور خطای میانگین مقدار y و حاصل ضرب مجذور خطای ضریب رگرسیون با انحراف مجذور مقدار ضریب x و میانگین آن. بعلاوه، جمله اول، طبق قوانین آمار، برابر است با ضریب تقسیم واریانس جمعیت عمومی بر حجم (حجم) نمونه.

به جای واریانس مجهول، از واریانس نمونه به عنوان تخمین استفاده می شود. بر این اساس، خطای ضریب رگرسیون به عنوان ضریب تقسیم واریانس نمونه بر واریانس عامل x تعریف می شود. شما می توانید خطای استاندارد (انحراف استاندارد) و سایر ملاحظات را دریافت کنید که مستقل تر از مدل رگرسیون خطی هستند. برای این کار از مفهوم خطای متوسط و خطای حاشیه ای و رابطه بین آنها استفاده می شود.

اما حتی پس از به دست آوردن خطای استاندارد، این سوال در مورد مرزهایی که مقدار پیش بینی شده در آن قرار می گیرد، باقی می ماند. به عبارت دیگر، در مورد فاصله خطای اندازه گیری، در این فرض طبیعی در بسیاری از موارد که وسط این فاصله با مقدار محاسبه شده (متوسط) ضریب موثر y به دست می آید. در اینجا قضیه حد مرکزی کمک می کند، که دقیقاً نشان می دهد که با چه احتمالاتی کمیت مجهول در این فاصله اطمینان قرار دارد.

اساساً، فرمول خطای استاندارد، صرف نظر از اینکه چگونه و در چه شکلی به دست آمده است، خطا را در موقعیت خط رگرسیون مشخص می کند. خطای استاندارد زمانی به حداقل می رسد که مقدار عامل x با مقدار میانگین ضریب منطبق باشد.

24. آزمون آماری فرضیه ها و ارزیابی اهمیت رگرسیون خطی با استفاده از معیار فیشر.

پس از یافتن معادله رگرسیون خطی، اهمیت هر دو معادله به عنوان یک کل و پارامترهای فردی آن ارزیابی می شود. ارزیابی اهمیت یک معادله رگرسیون به عنوان یک کل می تواند با استفاده از معیارهای مختلف انجام شود. استفاده از آزمون F فیشر بسیار رایج و موثر است. در این حالت، این فرضیه صفر مطرح می شود که ضریب رگرسیون برابر با صفر است، یعنی. b=0 و بنابراین ضریب x بر نتیجه y تأثیری ندارد. محاسبه فوری آزمون F با تحلیل واریانس انجام می شود. مکان مرکزی در آن با تجزیه مجموع مجذور انحرافات متغیر y از مقدار متوسط y به دو بخش - "توضیح" و "غیرقابل توضیح" اشغال شده است:

مجموع مجذور انحرافات مقادیر فردی مشخصه حاصل از y از مقدار متوسط y تحت تأثیر عوامل بسیاری ایجاد می شود.

اجازه دهید به طور مشروط کل مجموعه دلایل را به دو گروه تقسیم کنیم: عامل مورد مطالعه x و عوامل دیگر. اگر این عامل بر نتیجه تأثیری نداشته باشد، خط رگرسیون روی نمودار موازی با محور OX و y=y است. سپس کل واریانس مشخصه حاصل به دلیل تأثیر عوامل دیگر است و مجموع مجذور انحرافات با باقیمانده منطبق خواهد شد. اگر عوامل دیگر بر نتیجه تأثیر نگذارند، y از نظر عملکردی با x مرتبط است و مجموع مجذورهای باقیمانده صفر است. در این حالت، مجموع انحرافات مجذور تبیین شده توسط رگرسیون با مجموع مجذورات یکسان است. از آنجایی که همه نقاط میدان همبستگی روی خط رگرسیون قرار ندارند، پراکندگی آنها همیشه به دلیل تأثیر عامل x رخ می دهد، یعنی. رگرسیون y روی x، و ناشی از علل دیگر (تغییر غیرقابل توضیح). مناسب بودن یک خط رگرسیون برای پیش‌بینی بستگی به این دارد که چه مقدار از کل تغییرات در صفت y توسط تغییرات توضیح‌داده‌شده در نظر گرفته می‌شود.

بدیهی است که اگر مجموع مجذور انحرافات ناشی از رگرسیون بیشتر از مجموع مجذور باقیمانده باشد، معادله رگرسیون از نظر آماری معنادار بوده و ضریب x تأثیر معناداری بر نتیجه دارد. این معادل این واقعیت است که ضریب تعیین به وحدت نزدیک می شود. هر مجموع انحرافات مجذور مربوط به تعداد درجات آزادی است، یعنی. تعداد آزادی تغییرات مستقل یک مشخصه. تعداد درجات آزادی با تعداد واحدهای جمعیت یا با تعداد ثابت های تعیین شده از آن مرتبط است. در رابطه با مسئله مورد مطالعه، تعداد درجات آزادی باید نشان دهد که چند انحراف مستقل از n ممکن [(y 1 -y)، (y 2 -y)،...(y n -y)] مورد نیاز است. برای تشکیل مجموع مربع معین بنابراین، برای مجموع مجموع مربعات ∑(y-y sr) 2، (n-1) انحرافات مستقل مورد نیاز است، زیرا در جمعیت n واحدی، پس از محاسبه سطح متوسط، تنها (n-1) تعداد انحرافات آزادانه تغییر می کند. هنگام محاسبه مجموع توضیح داده شده یا عامل مربعات ∑(y-y میانگین) 2، از مقادیر نظری (محاسبه شده) مشخصه حاصل y* استفاده می شود که در امتداد خط رگرسیون یافت می شود: y(x)=a+bx.

اجازه دهید اکنون به بسط مجموع مجذور انحرافات عامل مؤثر از میانگین این مقدار بازگردیم. این مجموع شامل دو بخش است که قبلاً در بالا تعریف شده است: مجموع انحرافات مجذور که با رگرسیون توضیح داده شده است و مجموع دیگری به نام مجموع باقیمانده مجذور انحرافات. با این تجزیه تحلیل واریانس مرتبط است که مستقیماً به این سؤال اساسی پاسخ می دهد: چگونه می توان اهمیت معادله رگرسیون را به عنوان یک کل و پارامترهای فردی آن ارزیابی کرد؟ همچنین تا حد زیادی معنای این سوال را تعیین می کند. برای ارزیابی اهمیت معادله رگرسیون به عنوان یک کل، از معیار فیشر (آزمون F) استفاده می شود. با توجه به رویکرد ارائه شده توسط فیشر، یک فرضیه صفر مطرح می شود: ضریب رگرسیون برابر با صفر است، یعنی. valueb=0. این بدان معناست که فاکتور X تاثیری بر نتیجه Y ندارد.

به یاد داشته باشیم که تقریباً همیشه نقاط به دست آمده در نتیجه یک مطالعه آماری دقیقاً روی خط رگرسیون قرار نمی گیرند. آنها پراکنده هستند و کم و بیش از خط رگرسیون دور هستند. این پراکندگی به دلیل تأثیر عوامل دیگری متفاوت از عامل توضیحی X است که در معادله رگرسیون لحاظ نشده است. هنگام محاسبه مجموع انحرافات مجذور توضیح داده شده یا عاملی، از مقادیر نظری مشخصه حاصل از خط رگرسیون استفاده می شود.

برای مجموعه ای از مقادیر متغیرهای Y و X، مقدار محاسبه شده میانگین مقدار Y در رگرسیون خطی تابعی از تنها یک پارامتر - ضریب رگرسیون است. بر این اساس، مجموع عامل مجذور انحرافات دارای تعدادی درجه آزادی برابر با 1 است. و تعداد درجات آزادی مجموع مجذور انحرافات باقیمانده در رگرسیون خطی n-2 است.

در نتیجه، با تقسیم هر مجذور انحرافات در بسط اولیه بر تعداد درجات آزادی آن، میانگین مجذور انحرافات (واریانس به ازای یک درجه آزادی) را بدست می آوریم. در مرحله بعد، با تقسیم واریانس عامل بر یک درجه آزادی بر واریانس باقیمانده بر یک درجه آزادی، معیاری برای آزمایش فرضیه صفر به دست می‌آوریم که اصطلاحاً به آن نسبت F یا معیاری به همین نام می‌گویند. یعنی اگر فرضیه صفر درست باشد، واریانس عامل و باقیمانده به سادگی با یکدیگر برابر هستند.

برای رد فرضیه صفر، یعنی. پذیرش فرضیه مخالف که بیانگر واقعیت (حضور) رابطه مورد مطالعه است و نه فقط تصادف تصادفیعواملی که رابطه ای را شبیه سازی می کنند که در واقع وجود ندارد، لازم است از جداول مقادیر بحرانی رابطه مشخص شده استفاده شود. با استفاده از جداول، مقدار بحرانی (آستانه) معیار فیشر تعیین می شود. به آن نظری نیز می گویند. سپس با مقایسه آن با مقدار تجربی (واقعی) معیار محاسبه شده از داده های مشاهداتی، بررسی می کنند که آیا مقدار واقعی نسبت از مقدار بحرانی جداول بیشتر است یا خیر.

این کار با جزئیات بیشتر مانند این انجام می شود. سطح معینی از احتمال وجود فرضیه صفر را انتخاب کنید و از جداول مقدار بحرانی معیار F را بیابید، که در آن واگرایی تصادفی واریانس ها با 1 درجه آزادی همچنان می تواند رخ دهد، به عنوان مثال. حداکثر چنین مقدار سپس مقدار محاسبه شده نسبت F قابل اعتماد در نظر گرفته می شود (یعنی بیان کننده تفاوت بین واریانس های واقعی و باقیمانده) اگر این نسبت بزرگتر از نسبت جدول شده باشد. سپس فرض صفر رد می شود (اینکه هیچ نشانه ای از ارتباط وجود ندارد) و برعکس به این نتیجه می رسیم که ارتباط وجود دارد و معنی دار است (غیر تصادفی، معنی دار است).

اگر مقدار رابطه کمتر از مقدار جدول شده باشد، احتمال فرضیه صفر بالاتر از سطح مشخص شده (که در ابتدا انتخاب شده است) است و فرضیه صفر را نمی توان بدون خطر محسوس رد کرد. به دست آوردن یک نتیجه گیری نادرست در مورد وجود یک رابطه. بر این اساس، معادله رگرسیون ناچیز در نظر گرفته می شود.

مقدار خود معیار F مربوط به ضریب تعیین است. علاوه بر ارزیابی اهمیت معادله رگرسیون به عنوان یک کل، اهمیت پارامترهای فردی معادله رگرسیون نیز ارزیابی می شود. در این حالت، خطای استاندارد ضریب رگرسیون با استفاده از انحراف معیار واقعی تجربی و واریانس تجربی در هر درجه آزادی تعیین می‌شود. سپس از توزیع Student برای آزمایش اهمیت ضریب رگرسیون برای محاسبه فواصل اطمینان آن استفاده می شود.

ارزیابی معنی‌داری ضرایب رگرسیون و همبستگی با استفاده از آزمون t-student با مقایسه مقادیر این کمیت‌ها و خطای استاندارد انجام می‌شود. مقدار خطای پارامترهای رگرسیون خطی و ضریب همبستگی با فرمول های زیر تعیین می شود:

که در آن S ریشه میانگین مربع انحراف نمونه باقیمانده است،

r xy – ضریب همبستگی.

بر این اساس، مقدار خطای استاندارد پیش بینی شده توسط خط رگرسیون با فرمول داده می شود:

نسبت های متناظر مقادیر رگرسیون و ضرایب همبستگی به خطای استاندارد آنها به اصطلاح آمار t را تشکیل می دهد و مقایسه مقدار جدول بندی شده (بحرانی) مربوطه و مقدار واقعی آن به فرد اجازه می دهد که عدد صفر را بپذیرد یا رد کند. فرضیه. اما پس از آن، برای محاسبه فاصله اطمینان، حداکثر خطا برای هر شاخص به عنوان حاصلضرب مقدار جدولی آماره t توسط میانگین خطای تصادفی شاخص مربوطه پیدا می شود. در واقع، ما آن را کمی متفاوت در بالا نوشتیم. سپس مرزهای فواصل اطمینان به دست می آید: حد پایین با کم کردن خطای حاشیه ای مربوطه از ضرایب مربوطه (در واقع میانگین) و حد بالایی با جمع (جمع) است.

در رگرسیون خطی ∑(y x -y میانگین) 2 =b 2 ∑(x-x میانگین) 2. تأیید این امر با مراجعه به فرمول ضریب همبستگی خطی آسان است: r 2 xy = b 2 * σ 2 x / σ 2 y

که σ 2 y واریانس کل صفت y است.

σ 2 x - پراکندگی مشخصه y به دلیل عامل x. بر این اساس مجموع مجذور انحرافات ناشی از رگرسیون خطی به صورت زیر خواهد بود:

∑(y x -y میانگین) 2 =b 2 ∑(x-x میانگین) 2 .

از آنجایی که برای حجم معینی از مشاهدات در x و y، مجموع مجذور مجذورات در رگرسیون خطی تنها به یک ثابت ضریب رگرسیون b بستگی دارد، پس این مجموع مربع ها یک درجه آزادی دارد. اجازه دهید سمت محتوای مقدار محاسبه شده ویژگی y را در نظر بگیریم. y x. مقدار y x با معادله رگرسیون خطی تعیین می شود: y x = a + bx.

پارامتر a را می توان به صورت a=y-bx تعریف کرد. با جایگزینی عبارت برای پارامتر a در مدل خطی، به دست می‌آییم: y x = y-bx+bx avg =y-b(x-x avg).

برای مجموعه معینی از متغیرهای y و x، مقدار محاسبه شده y x در رگرسیون خطی تابعی از تنها یک پارامتر - ضریب رگرسیون است. بر این اساس مجموع عامل مجذور انحرافات دارای تعدادی درجه آزادی برابر با 1 است.

بین تعداد درجات آزادی مجموع مجموع، عامل و مجموع باقیمانده مربع ها برابری وجود دارد. تعداد درجات آزادی مجموع مربعات باقیمانده در رگرسیون خطی (n-2) است. تعداد درجات آزادی برای مجموع مجموع مربع ها با تعداد یک ها تعیین می شود و از آنجایی که از میانگین محاسبه شده از داده های نمونه استفاده می کنیم، یک درجه آزادی را از دست می دهیم، یعنی. (n-1). بنابراین، ما دو برابر داریم: برای مجموع و برای تعداد درجات آزادی. و این به نوبه خود ما را به واریانس های قابل مقایسه در هر درجه آزادی برمی گرداند که نسبت آن معیار فیشر را نشان می دهد.

25. ارزیابی اهمیت پارامترهای فردی معادله رگرسیون و ضرایب با استفاده از آزمون Student.

27. خطی و رگرسیون غیر خطیو روش تحقیق آنها

رگرسیون خطی و روش‌های تحقیق و ارزیابی آن چندان مهم نبود، اگر علاوه بر این بسیار مهم، اما همچنان ساده‌ترین مورد، به کمک آنها ابزاری برای تحلیل وابستگی‌های غیرخطی پیچیده‌تر به دست نمی‌آوریم. رگرسیون های غیرخطی را می توان به دو کلاس کاملاً متفاوت تقسیم کرد. اولین و ساده‌تر، کلاس وابستگی‌های غیرخطی است که در آن غیرخطی بودن نسبت به متغیرهای توضیحی وجود دارد، اما در پارامترهای موجود در آنها خطی باقی می‌مانند و مشروط به ارزیابی هستند. این شامل چند جمله‌ای با درجات مختلف و هذلولی متساوی الاضلاع است.

چنین رگرسیون غیرخطی برای متغیرهای موجود در توضیح به سادگی با تبدیل (جایگزینی) متغیرها می تواند به راحتی به رگرسیون خطی معمولی برای متغیرهای جدید کاهش یابد. بنابراین، تخمین پارامترها در این مورد به سادگی با حداقل مربعات انجام می شود، زیرا وابستگی ها در پارامترها خطی هستند. بنابراین، نقش مهمی در اقتصاد توسط وابستگی غیرخطی توصیف شده توسط هذلول متساوی الاضلاع ایفا می کند:

پارامترهای آن به خوبی توسط حداقل مربعات تخمین زده می شود و این وابستگی خود رابطه را مشخص می کند هزینه های واحدمواد اولیه، سوخت، مواد با حجم خروجی، زمان گردش کالا و همه این عوامل با میزان گردش. برای مثال، منحنی فیلیپس رابطه غیرخطی بین نرخ بیکاری و درصد رشد دستمزد را مشخص می کند.

وضعیت کاملاً متفاوت است با رگرسیونی که در پارامترهای تخمین زده شده غیرخطی است، به عنوان مثال، با یک تابع توان نشان داده می شود، که در آن خود درجه (نمایش) یک پارامتر است یا به پارامتر بستگی دارد. همچنین می تواند باشد تابع نمایی، که در آن مبنای درجه یک پارامتر و یک تابع نمایی است که در آن دوباره نشانگر حاوی یک پارامتر یا ترکیبی از پارامترها است. این کلاس، به نوبه خود، به دو زیر کلاس تقسیم می شود: یکی شامل غیرخطی خارجی، اما اساساً خطی داخلی است. در این حالت می توانید مدل را با استفاده از تبدیل ها به یک فرم خطی برسانید. با این حال، اگر مدل در داخل غیرخطی باشد، نمی توان آن را به یک تابع خطی تقلیل داد.

بنابراین، تنها مدل هایی که ذاتاً در تحلیل رگرسیون غیرخطی هستند، واقعاً غیرخطی در نظر گرفته می شوند. همه موارد دیگر که می توانند از طریق دگرگونی ها به خطی کاهش یابند، به این صورت در نظر گرفته نمی شوند و این آنها هستند که اغلب در مطالعات اقتصاد سنجی مورد توجه قرار می گیرند. در عین حال، این بدان معنا نیست که مطالعه وابستگی‌های غیرخطی اساساً در اقتصادسنجی غیرممکن است. اگر مدل از نظر پارامترهای داخلی غیرخطی باشد، از روش‌های تکراری برای تخمین پارامترها استفاده می‌شود که موفقیت آن به نوع معادله برای ویژگی‌های روش تکراری مورد استفاده بستگی دارد.

بیایید به وابستگی های کاهش یافته به خطی برگردیم. اگر آنها هم در پارامترها و هم در متغیرها غیرخطی باشند، به عنوان مثال، به شکل y = a ضرب در توان X، که توان آن پارامتر -  (بتا) است:

بدیهی است که چنین رابطه ای را می توان به راحتی با لگاریتم ساده به یک معادله خطی تبدیل کرد.

پس از معرفی متغیرهای جدید نشان دهنده لگاریتم، یک معادله خطی به دست می آید. سپس روش تخمین رگرسیون شامل محاسبه متغیرهای جدید برای هر مشاهده با گرفتن لگاریتم مقادیر اصلی است. سپس وابستگی رگرسیونی متغیرهای جدید برآورد می شود. برای رفتن به متغیرهای اصلی، باید آنتی لگاریتم را بگیرید، یعنی در واقع به جای توان ها به خود قدرت ها برگردید (بالاخره، لگاریتم توان است). مورد توابع نمایی یا نمایی را می توان به طور مشابه در نظر گرفت.

برای یک رگرسیون غیرخطی قابل توجه، نمی توان روش معمول تخمین رگرسیون را اعمال کرد زیرا رابطه مربوطه را نمی توان به خطی تبدیل کرد. طرح کلی اقدامات به شرح زیر است:

1. برخی از مقادیر پارامتر اولیه قابل قبول پذیرفته شده است.

2. مقادیر Y پیش بینی شده از مقادیر X واقعی با استفاده از این مقادیر پارامتر محاسبه می شود.

3. باقیمانده ها برای تمام مشاهدات در نمونه و سپس مجموع مجذورات باقیمانده محاسبه می شود.

4. تغییرات کوچکی در یک یا چند تخمین پارامتر ایجاد می شود.

5. مقادیر پیش‌بینی‌شده جدید Y، باقیمانده‌ها و مجموع مربع‌های باقی‌مانده محاسبه می‌شوند.

6. اگر مجموع مربعات باقیمانده ها کمتر از قبل باشد، تخمین پارامترهای جدید بهتر از تخمین های قبلی است و باید به عنوان نقطه شروع جدید استفاده شود.

7. مراحل 4، 5 و 6 دوباره تکرار می شوند تا زمانی که ایجاد چنین تغییراتی در تخمین پارامترها غیرممکن شود که منجر به تغییر در مجموع باقیمانده مربع ها شود.

8. نتیجه گیری می شود که مجموع مجذور باقیمانده ها به حداقل رسیده و تخمین پارامترهای نهایی برآورد حداقل مربعات است.

از جمله توابع غیر خطی که می توان به فرم خطی، تابع توان به طور گسترده ای در اقتصاد سنجی استفاده می شود. پارامتر b در آن تفسیر واضحی دارد، که یک ضریب کشش است. در مدل هایی که از نظر پارامترهای تخمینی غیرخطی هستند، اما می توان آنها را به شکل خطی تقلیل داد، از روش حداقل مربعات برای معادلات تبدیل شده استفاده می شود. استفاده عملی از لگاریتم ها و بر این اساس، توان ها زمانی امکان پذیر است که علامت حاصل فاقد آن باشد. مقادیر منفی. هنگام مطالعه روابط بین توابع با استفاده از لگاریتم ویژگی حاصل، وابستگی‌های قانون قدرت در اقتصاد سنجی غالب است (منحنی‌های تقاضا و عرضه، توابع تولید، منحنی‌های جذب برای مشخص کردن رابطه بین شدت کار محصولات، مقیاس تولید، وابستگی GNI در سطح اشتغال، منحنی های انگل).

28. مدل معکوس و کاربرد آن

گاهی اوقات از مدل به اصطلاح معکوس استفاده می شود که از نظر درونی غیرخطی است، اما در آن، بر خلاف هذلول متساوی الاضلاع، متغیر توضیحی نیست که در معرض تبدیل قرار می گیرد، بلکه ویژگی حاصل از Y است. بنابراین، مدل معکوس معلوم می شود که از نظر داخلی غیرخطی باشد و نیاز OLS برای مقادیر واقعی مشخصه حاصل از Y و برای آنها برآورده نمی شود ارزش های متقابل. مطالعه همبستگی برای رگرسیون غیرخطی سزاوار توجه ویژه است. در حالت کلی، سهمی درجه دوم، مانند چند جمله ای های مرتبه بالاتر، وقتی خطی می شود، شکل یک معادله رگرسیون چندگانه را به خود می گیرد. اگر در صورت خطی شدن، یک معادله رگرسیونی که نسبت به متغیر توضیح داده شده غیرخطی است، به شکل یک معادله رگرسیون جفتی خطی باشد، می توان از ضریب همبستگی خطی برای ارزیابی نزدیکی رابطه استفاده کرد.

اگر تبدیل معادله رگرسیون به شکل خطی با متغیر وابسته (مشخصه نتیجه) همراه باشد، ضریب همبستگی خطی بر اساس مقادیر تبدیل شده مشخصه ها فقط تخمین تقریبی از رابطه را ارائه می دهد و از نظر عددی با آن منطبق نیست. شاخص همبستگی باید در نظر داشت که هنگام محاسبه شاخص همبستگی، از مجموع انحرافات مجذور مشخصه حاصل از Y استفاده می شود و نه لگاریتم آنها. ارزیابی معنی‌داری شاخص همبستگی به همان روشی انجام می‌شود که قابلیت اطمینان (معنی‌داری) ضریب همبستگی را ارزیابی می‌کند. خود شاخص همبستگی، مانند شاخص تعیین، برای آزمایش اهمیت کلی معادله رگرسیون غیرخطی با استفاده از آزمون F فیشر استفاده می‌شود.

توجه داشته باشید که امکان ساخت مدل های غیرخطی، هم با کاهش آنها به شکل خطی و هم با استفاده از رگرسیون غیرخطی، از یک سو، جهانی بودن تحلیل رگرسیون را افزایش می دهد. از سوی دیگر، به طور قابل توجهی وظایف محقق را پیچیده می کند. اگر خودمان را به تحلیل رگرسیون زوجی محدود کنیم، می توانیم مشاهدات Y و X را به صورت نمودار پراکنده ترسیم کنیم. اغلب چندین تابع غیرخطی مختلف اگر روی یک منحنی قرار گیرند، مشاهدات را تقریب می‌کنند. اما در مورد تحلیل رگرسیون چندگانه، نمی توان چنین نموداری ساخت.

هنگام در نظر گرفتن مدل های جایگزین با همان تعریف متغیر وابسته، روش انتخاب نسبتاً ساده است. می توان یک رگرسیون را بر اساس تمام توابع قابل تصوری که می توان تصور کرد تخمین زد و تابعی را انتخاب کرد که بیشتر تغییر در متغیر وابسته را توضیح می دهد. واضح است که وقتی یک تابع خطی تقریباً 64٪ از واریانس را در y توضیح می دهد و یک تابع هذلولی 99.9٪ را توضیح می دهد، بدیهی است که دومی باید انتخاب شود. اما کی مدل های مختلفبا استفاده از اشکال عملکردی مختلف، مشکل انتخاب یک مدل به طور قابل توجهی پیچیده تر می شود.

29. استفاده از تست Box-Cox.

به طور کلی تر، هنگام در نظر گرفتن مدل های جایگزین با همان تعریف متغیر وابسته، انتخاب ساده است. منطقی ترین است که رگرسیون را بر اساس همه توابع قابل قبول تخمین بزنیم، با تمرکز بر تابعی که بیشتر تغییر در متغیر وابسته را توضیح می دهد. اگر ضریب تعیین، در یک مورد، نسبت واریانس توضیح داده شده با رگرسیون، و در مورد دیگر، نسبت واریانس در لگاریتم این متغیر وابسته را که با رگرسیون توضیح داده می شود، اندازه گیری کند، انتخاب بدون مشکل انجام می شود. وقتی این مقادیر برای دو مدل بسیار نزدیک هستند و مشکل انتخاب به طور قابل توجهی پیچیده تر می شود، موضوع دیگری است.

سپس روش استاندارد در قالب آزمون باکس کاکس باید اعمال شود. اگر فقط نیاز به مقایسه مدل‌ها با استفاده از عامل مؤثر و لگاریتم آن در قالب یک متغیر از متغیر وابسته دارید، از نسخه‌ای از آزمون Zarembka استفاده می‌شود. این یک تبدیل مقیاس مشاهده Y را پیشنهاد می‌کند، که امکان مقایسه مستقیم ریشه میانگین مربعات خطا (MSE)در مدل‌های خطی و لگاریتمی را فراهم می‌کند. روش مربوطه شامل مراحل زیر است:

میانگین هندسی مقادیر Y در نمونه محاسبه می شود که با توان میانگین مطابقت دارد. مقادیر حسابیلگاریتم Y;

مشاهدات Y مجدداً به گونه ای محاسبه می شوند که بر مقدار بدست آمده در مرحله اول تقسیم می شوند.

رگرسیون برای یک مدل خطی با استفاده از مقادیر Y مقیاس شده به جای مقادیر Y اصلی و برای یک مدل لگاریتمی با استفاده از لگاریتم مقادیر Y تخمین زده می شود مقادیر RMSE برای دو رگرسیون اکنون قابل مقایسه هستند مدل با مجموع مجذور انحرافات کوچکتر تناسب بهتری با رابطه واقعی مقادیر مشاهده شده فراهم می کند.

برای بررسی اینکه یکی از مدل ها تناسب قابل توجهی بهتری ارائه نمی دهد، می توان از حاصل ضرب نصف تعداد مشاهدات و لگاریتم نسبت مقادیر انحراف معیار در رگرسیون های مجدد محاسبه شده استفاده کرد و سپس قدر مطلق این مقدار

30. مفاهیم همبستگی و چند خطی بودن عوامل.

34. مبانی MNC و اعتبار کاربرد آن.

اجازه دهید اکنون به مبانی OLS، اعتبار کاربرد آن (از جمله مشکلات رگرسیون چندگانه) و مهم ترین ویژگی های تخمین های به دست آمده با استفاده از OLS بپردازیم. بیایید با این واقعیت شروع کنیم که در کنار وابستگی تحلیلی به سمت راست معادله رگرسیون، عبارت تصادفی نیز نقش مهمی ایفا می کند. این جزء تصادفی یک کمیت غیر قابل مشاهده است. آزمون‌های آماری پارامترهای رگرسیون و شاخص‌های همبستگی خود مبتنی بر فرضیات غیرقابل آزمایش در مورد توزیع این مؤلفه تصادفی رگرسیون چندگانه است. این فرضیات فقط مقدماتی هستند. تنها پس از ساخت معادله رگرسیون، بررسی می شود که آیا تخمین باقیمانده های تصادفی (آنالوگ های تجربی جزء تصادفی) دارای ویژگی های پیشینی هستند یا خیر. اساساً، هنگامی که پارامترهای مدل تخمین زده می شوند، تفاوت بین مقادیر نظری و واقعی ویژگی حاصل محاسبه می شود تا بدین ترتیب خود مؤلفه تصادفی برآورد شود. مهم است که به خاطر داشته باشید که این فقط یک اجرای نمونه از باقی مانده مجهول یک معادله داده شده است.

ضرایب رگرسیون به دست آمده از یک سیستم معادلات نرمال تخمین نمونه ای از قدرت رابطه هستند. واضح است که آنها فقط زمانی اهمیت عملی دارند که بی طرف باشند. به یاد بیاوریم که در این مورد میانگین باقیمانده ها برابر با صفر است، یا، که یکسان است، میانگین تخمین برابر با خود پارامتر برآورد شده است. سپس بقایای زمانی که جمع نمی شوند تعداد زیادیبرآوردهای نمونه، و خود پارامتر رگرسیون یافت شده را می توان به عنوان میانگین در نظر گرفت مقدار زیادبرآوردهای بی طرفانه

علاوه بر این، تخمین ها باید کمترین واریانس را داشته باشند، یعنی. موثر باشد و سپس حرکت از تخمین نقطه ای عملاً غیرقابل استفاده به تخمین بازه ای امکان پذیر می شود. در نهایت، فواصل اطمینان زمانی مفید هستند که احتمال به دست آوردن تخمین در یک فاصله معین از مقدار واقعی (ناشناخته) پارامتر نزدیک به یک باشد. چنین برآوردهایی سازگار نامیده می شوند و خاصیت سازگاری با افزایش دقت آنها با افزایش حجم نمونه مشخص می شود.

با این حال، شرط سازگاری به طور خودکار برآورده نمی شود و به طور قابل توجهی به تحقق دو الزام مهم زیر بستگی دارد. اولاً، خود باقیمانده‌ها باید تصادفی با برجسته‌ترین تصادفی باشند، یعنی. تمام وابستگی های واضح عملکردی باید به طور خاص در مؤلفه تحلیلی رگرسیون چندگانه گنجانده شوند، و علاوه بر این، مقادیر باقیمانده ها باید به طور مستقل از یکدیگر برای نمونه های مختلف توزیع شوند (بدون همبستگی خودکار باقیمانده ها). دوم، نه کمتر نیاز مهمشامل همان واریانس هر انحراف (باقیمانده) برای همه مقادیر متغیرهای X (همسانی). آن ها همسویی با ثبات واریانس برای همه مشاهدات بیان می شود:

در مقابل، ناهمسانی نقض چنین ثبات واریانسی برای مشاهدات مختلف است. در این حالت، احتمال پیشینی (قبل از مشاهدات) به دست آوردن مقادیر بسیار انحرافی با توزیع های نظری مختلف عبارت تصادفی برای مشاهدات مختلف در نمونه نسبتاً زیاد خواهد بود.

خودهمبستگی باقیمانده ها یا وجود همبستگی بین باقیمانده های مشاهدات فعلی و قبلی (بعدی) با مقدار ضریب همبستگی خطی معمول تعیین می شود. اگر تفاوت قابل توجهی با صفر داشته باشد، پسماندها همبستگی خودکار دارند و بنابراین، تابع چگالی احتمال (توزیع باقیمانده ها) به نقطه مشاهده و به توزیع مقادیر باقیمانده در سایر نقاط مشاهده بستگی دارد. تعیین همبستگی خودکار باقیمانده ها با استفاده از اطلاعات آماری موجود، در صورتی که ترتیب مشاهدات بر اساس فاکتور X وجود داشته باشد، راحت است. عدم وجود همبستگی خودکار باقیمانده ها، سازگاری و اثربخشی برآورد ضرایب رگرسیون را تضمین می کند.

35. Homoscedasticity و heteroscedasticity، خودهمبستگی باقیمانده ها، حداقل مربعات تعمیم یافته (GLM).

یکسانی واریانس باقیمانده ها برای همه مقادیر متغیرهای X، یا هموسداستیسیته، برای به دست آوردن تخمین های ثابت از پارامترهای رگرسیون با استفاده از OLS کاملاً ضروری است. عدم احراز شرط هموسداستیسیته منجر به به اصطلاح ناهمسانی می شود. می تواند منجر به تخمین های مغرضانه ضرایب رگرسیون شود. ناهمسانی عمدتاً بر کاهش کارایی برآوردهای ضریب رگرسیون تأثیر می گذارد. در این مورد، استفاده از فرمول برای خطای استاندارد ضریب رگرسیون به ویژه دشوار می شود، استفاده از آن پراکندگی یکنواخت باقیمانده ها برای هر مقدار عامل را فرض می کند. در مورد بی طرفی تخمین ضرایب رگرسیون، در درجه اول به استقلال باقیمانده ها و مقادیر خود عوامل بستگی دارد.

یک روش نسبتاً واضح، هرچند غیر دقیق و نیازمند مهارت برای آزمایش همسویی، مطالعه گرافیکی ماهیت وابستگی باقیمانده‌ها به میانگین محاسبه‌شده (نظری) مشخصه حاصل، یا زمینه‌های همبستگی مربوطه است. روش های تحلیلی برای مطالعه و ارزیابی ناهمگنی دقیق تر هستند. اگر وجود ناهمگنی قابل توجهی وجود دارد، توصیه می شود به جای OLS از OLS تعمیم یافته (GLM) استفاده شود.

علاوه بر الزامات رگرسیون چندگانه ناشی از استفاده از OLS، رعایت شرایط متغیرهای موجود در مدل نیز ضروری است. اینها، اول از همه، شامل الزامات مربوط به تعداد فاکتورهای مدل برای حجم معینی از مشاهدات (1 تا 7) است. در غیر این صورت، پارامترهای رگرسیون از نظر آماری ناچیز خواهند بود. از نقطه نظر اثربخشی استفاده مناسب روشهای عددیهنگام اجرای OLS، لازم است که تعداد مشاهدات از تعداد پارامترهای تخمین زده شده بیشتر باشد (در یک سیستم معادلات، تعداد معادلات بیشتر از تعداد متغیرهای مورد نظر است).

مهمترین دستاورد اقتصاد سنجی، توسعه قابل توجه روشهای تخمین پارامترهای ناشناخته و بهبود معیارهایی برای شناسایی اهمیت استاتیکی اثرات مورد بررسی است. در این راستا، عدم امکان یا عدم مصلحت استفاده از OLS سنتی به دلیل هتروسکداستیکی بودن که به درجات مختلف آشکار شد، منجر به ایجاد یک OLS تعمیم یافته (GLM) شد. در واقع، این شامل تنظیم مدل، تغییر مشخصات آن، و تبدیل داده های اصلی برای اطمینان از تخمین های بی طرفانه، کارآمد و سازگار ضرایب رگرسیون است.

فرض بر این است که میانگین باقیمانده ها صفر است، اما پراکندگی آنها دیگر ثابت نیست، بلکه متناسب با مقادیر Ki است، جایی که این مقادیر ضرایب تناسبی هستند، برای معانی مختلففاکتور x بنابراین، این ضرایب (مقادیر Ki) هستند که ناهمگنی پراکندگی را مشخص می کنند. به طور طبیعی، اعتقاد بر این است که میزان پراکندگی خود، که یک عامل مشترک برای این ضرایب تناسب است، ناشناخته است.

مدل اصلی، پس از وارد کردن این ضرایب در معادله رگرسیون چندگانه، همچنان هتروسکداستیک باقی می ماند (به طور دقیق تر، این مقادیر باقیمانده مدل هستند). اجازه دهید این باقیمانده ها (باقیمانده ها) همبستگی خودکار نداشته باشند. اجازه دهید متغیرهای جدیدی را معرفی کنیم که از تقسیم متغیرهای مدل اولیه ثبت شده در نتیجه مشاهده i بر جذر ضرایب تناسب K i به دست آمده است. سپس یک معادله جدید در متغیرهای تبدیل شده به دست می آوریم که در آن باقیمانده ها هموسداستیک خواهند بود. خود متغیرهای جدید، متغیرهای قدیمی وزنی (اصلی) هستند.

بنابراین، تخمین پارامترهای معادله جدید به‌دست‌آمده از این طریق با باقیمانده‌های هموسداستیک به روش حداقل مربعات وزنی کاهش می‌یابد (در اصل این روش OLS است). هنگامی که به جای خود متغیرهای رگرسیون استفاده می شود، انحراف آنها از میانگین ها، عبارات ضرایب رگرسیون شکلی ساده و استاندارد (یکنواخت) به خود می گیرند، که برای OLS و OLS با ضریب تصحیح 1/K در صورت و مخرج کمی متفاوت است. از کسری که ضریب رگرسیون را می دهد.

باید در نظر داشت که پارامترهای مدل تبدیل شده (تعدیل شده) به طور قابل توجهی به این بستگی دارد که چه مفهومی به عنوان مبنایی برای ضرایب تناسب K i استفاده می شود. اغلب فرض می شود که باقیمانده ها به سادگی با مقادیر عامل متناسب هستند. این مدل زمانی ساده ترین شکل خود را به خود می گیرد که این فرضیه پذیرفته شود که خطاها به ترتیب با مقادیر آخرین عامل متناسب هستند. سپس OLS امکان افزایش وزن مشاهدات را با مقادیر کوچکتر متغیرهای تبدیل شده در هنگام تعیین پارامترهای رگرسیون در مقایسه با کار OLS استاندارد با متغیرهای منبع اصلی فراهم می کند. اما این متغیرهای جدید در حال حاضر محتوای اقتصادی متفاوتی دریافت می کنند.

فرضیه مربوط به تناسب باقیمانده ها با اندازه عامل ممکن است مبنای واقعی داشته باشد. اجازه دهید مجموعه‌ای از داده‌های ناهمگن به‌اندازه کافی پردازش شود، به عنوان مثال، از جمله شرکت‌های بزرگ و کوچک به طور همزمان. سپس مقادیر حجمی بزرگ فاکتور می تواند هم با پراکندگی زیاد مشخصه حاصل و هم پراکندگی زیاد مقادیر باقیمانده مطابقت داشته باشد. استفاده بیشتر از OMC و انتقال مربوطه به ارزش های نسبینه تنها تغییرات عامل را کاهش می دهد، بلکه واریانس خطا را نیز کاهش می دهد. بنابراین، ساده‌ترین حالت در نظر گرفتن و تصحیح ناهمگونی در مدل‌های رگرسیون از طریق استفاده از OLS محقق می‌شود.

رویکرد فوق برای اجرای OLS در قالب OLS وزنی کاملاً عملی است - به سادگی اجرا می شود و یک تفسیر اقتصادی شفاف دارد. البته، این کلی ترین رویکرد نیست، و در زمینه آمار ریاضی، که به عنوان مبنای نظری اقتصاد سنجی عمل می کند، روش بسیار دقیق تری به ما پیشنهاد می شود که OLS را در خود پیاده سازی می کند. نمای کلی. در آن باید ماتریس کوواریانس بردار خطا (ستون باقیمانده) را بدانید. و این معمولاً در موقعیت‌های عملی ناعادلانه است، و یافتن این ماتریس به این صورت غیرممکن است. بنابراین، به طور کلی، لازم است به نحوی ماتریس مورد نیاز را تخمین بزنیم تا از چنین تخمینی در فرمول های مربوطه به جای خود ماتریس استفاده شود. بنابراین، نسخه توصیف شده اجرای OMNC یکی از این برآوردها را نشان می دهد. گاهی اوقات حداقل مربعات تعمیم یافته قابل دسترسی نامیده می شود.

همچنین باید در نظر گرفت که ضریب تعیین نمی تواند به عنوان معیار رضایت بخش کیفیت تناسب در هنگام استفاده از OLS باشد. در بازگشت به استفاده از OLS، همچنین متذکر می شویم که روش استفاده از انحرافات استاندارد (خطاهای استاندارد) به شکل سفید (به اصطلاح خطاهای استاندارد سازگار در حضور ناهمسانی) از کلیت کافی برخوردار است. این روش به شرطی قابل اجرا است که ماتریس کوواریانس بردار خطا مورب باشد. اگر همبستگی خودکار باقیمانده ها (خطاها) وجود داشته باشد، زمانی که عناصر غیر صفر (ضرایب) در ماتریس کوواریانس و خارج از قطر اصلی وجود دارد، باید از یک روش خطای استاندارد کلی تری در فرم Neve West استفاده شود. یک محدودیت قابل توجه وجود دارد: عناصر غیر صفر، علاوه بر مورب اصلی، فقط در مورب های مجاور یافت می شوند که از مورب اصلی بیشتر از مقدار معینی فاصله ندارند.

از موارد فوق واضح است که لازم است بتوان داده ها را از نظر هتروسکداستیکی بررسی کرد. تست های زیر در خدمت این هدف هستند. آنها فرضیه اصلی را در مورد برابری واریانس باقیمانده ها در برابر فرضیه جایگزین (در مورد نابرابری این فرضیه ها) آزمایش می کنند. علاوه بر این، محدودیت‌های ساختاری پیشینی در ماهیت ناهمسانی وجود دارد. آزمون گلدفلد-کواندت معمولاً از این فرض استفاده می کند که واریانس خطا (باقیمانده) مستقیماً به مقدار برخی از متغیرهای مستقل وابسته است. طرح استفاده از این تست به شرح زیر است. ابتدا، داده ها به ترتیب نزولی از متغیر مستقلی که ناهمسانی بودن آن مشکوک است، مرتب می شوند. این مجموعه داده های مرتب شده سپس میانگین چند مشاهدات را حذف می کند، جایی که کلمه "چند" به معنای حدود یک چهارم (25٪) است. تعداد کلهمه مشاهدات در مرحله بعد، دو رگرسیون مستقل بر روی اولین مشاهدات میانگین باقیمانده (پس از حذف) و دو آخرین مشاهده از میانگین باقی مانده اجرا می شوند. پس از این، دو باقیمانده مربوطه ساخته می شود. در نهایت، آماره فیشر F جمع آوری می شود و اگر فرضیه مورد بررسی درست باشد، F در واقع توزیع فیشر با درجات آزادی مناسب است. سپس مقدار زیاد این آمار به این معنی است که فرضیه مورد آزمایش باید رد شود. بدون مرحله حذف، قدرت این تست کاهش می یابد.

آزمون بروش-پاگان در مواردی استفاده می شود که پیش از این فرض می شود که واریانس ها به برخی از متغیرهای اضافی بستگی دارد. ابتدا رگرسیون معمولی (استاندارد) انجام می شود و بردار باقیمانده ها به دست می آید. سپس یک برآورد واریانس ساخته می شود. در مرحله بعد، یک رگرسیون از بردار مجذور باقیمانده تقسیم بر واریانس تجربی (تخمین واریانس) انجام می شود. برای آن (رگرسیون)، بخش توضیح داده شده از تنوع یافت می شود. و برای این توضیح بخشی از تغییرات، تقسیم به نصف، آمار ساخته شده است. اگر فرضیه صفر درست باشد (هیچ ناهمسانی درست نیست)، این مقدار دارای توزیع است. هی-مربع. اگر آزمون، برعکس، ناهمسانی را نشان دهد، مدل اصلی با تقسیم اجزای بردار باقیمانده بر مولفه‌های مربوطه بردار متغیرهای مستقل مشاهده‌شده تبدیل می‌شود.

36. روش انحراف معیار به صورت سفید.

می توان نتیجه گیری های زیر را گرفت. استفاده از OLS در حضور هتروسکداستیکی به حداقل رساندن مجموع انحرافات مجذور وزنی منجر می شود. استفاده از OLS موجود با نیاز به داشتن تعداد زیادی مشاهدات بیش از تعداد پارامترهای تخمین زده شده همراه است. مطلوب ترین حالت برای استفاده از OLS حالتی است که خطا (باقیمانده ها) متناسب با یکی از متغیرهای مستقل باشد و تخمین های حاصل منطبق باشند. با این وجود، اگر در مدلی با ناهمسانی لازم باشد که از OLS استفاده نشود، بلکه از OLS استاندارد استفاده شود، برای به دست آوردن تخمین های سازگار، می توان از تخمین های خطا در فرم سفید یا نوج-وست استفاده کرد.

هنگام تجزیه و تحلیل سری های زمانی، اغلب لازم است که وابستگی آماری مشاهدات در مقاطع مختلف زمانی را در نظر بگیریم. در این حالت، فرض خطاهای نامرتبط برآورده نمی شود. در نظر بگیریم مدل ساده، که در آن خطاها یک فرآیند خودرگرسیون مرتبه اول را تشکیل می دهند. در این مورد، خطاها یک رابطه عود ساده را برآورده می کنند، که در سمت راست آن یکی از عبارت ها دنباله ای از متغیرهای تصادفی مستقل با توزیع نرمال با میانگین صفر و واریانس ثابت است. جمله دوم حاصل ضرب پارامتر (ضریب خودرگرسیون) و مقادیر باقیمانده در نقطه قبلی در زمان است. توالی مقادیر خطا (بقایای) خود یک فرآیند تصادفی ثابت را تشکیل می دهد. یک فرآیند تصادفی ثابت با ثبات ویژگی های آن در طول زمان، به ویژه، میانگین و واریانس مشخص می شود. در این مورد، ماتریس کوواریانس (شرایط آن) مورد علاقه ما را می توان به راحتی با استفاده از توان های پارامتر نوشت.

تخمین یک مدل خودرگرسیون برای یک پارامتر شناخته شده با استفاده از OLS انجام می شود. در این مورد، کافی است مدل اصلی را با یک تبدیل ساده به مدلی که خطاهای آن شرایط یک مدل رگرسیون استاندارد را برآورده می کند، کاهش دهیم. بسیار نادر است، اما هنوز موقعیتی وجود دارد که در آن پارامتر خودرگرسیون شناخته شده است. بنابراین، به طور کلی لازم است که برآورد با یک پارامتر اتورگرسیو ناشناخته انجام شود. سه روش متداول برای چنین ارزیابی وجود دارد. روش کاکرین-اورکات، روش هیلدرث-لو و روش دوربین.

به طور کلی، نتایج زیر درست است. تجزیه و تحلیل سری زمانی نیاز به تصحیح OLS معمولی دارد، زیرا خطاها در این مورد معمولاً مرتبط هستند. اغلب این خطاها یک فرآیند اتورگرسیوی ثابت مرتبه اول را تشکیل می دهند. برآوردگرهای OLS برای خودرگرسیون مرتبه اول بی طرف، سازگار، اما بی اثر هستند. با یک ضریب خودرگرسیون شناخته شده، OLS به تغییرات ساده (اصلاحات) سیستم اصلی و سپس به استفاده از OLS استاندارد کاهش می یابد. اگر، همانطور که اغلب مورد است، ضریب خودرگرسیون ناشناخته است، چندین روش برای OLS وجود دارد که شامل تخمین پارامتر مجهول (ضریب) است، پس از آن همان تبدیل‌ها مانند مورد قبلی شناخته شده اعمال می‌شود. پارامتر.

37. مفهوم آزمون بروش-پاگان، آزمون گلدفلد-کواندت

ما ضرایب رگرسیون تجربی b 0 , b 1 را با استفاده از ابزار "Regression" افزونه "تحلیل داده" پردازنده صفحه گسترده MS Excel تعیین خواهیم کرد.

الگوریتم تعیین ضرایب به شرح زیر است.

1. داده های اولیه را در پردازشگر صفحه گسترده MS Excel وارد کنید.

2. افزونه Data Analysis را فراخوانی کنید (شکل 2).

3. ابزار تحلیل Regression را انتخاب کنید (شکل 3).

4. موقعیت های مربوط به پنجره رگرسیون را پر کنید (شکل 4).

5. روی دکمه OK در پنجره رگرسیون کلیک کنید و یک پروتکل برای حل مشکل دریافت کنید (شکل 5).

شکل 3 – انتخاب ابزار رگرسیون

شکل 4 - پنجره رگرسیون

شکل 5 - پروتکل برای حل مشکل

از شکل 5 می توان دریافت که ضرایب رگرسیون تجربی به ترتیب برابر با

b 0 = 223،

b1 = 0.0088.

سپس معادله رگرسیون خطی زوجی که مقدار حقوق بازنشستگی ماهانه y را با مقدار حداقل معیشت مرتبط می کند، شکل می گیرد.

.(3.2)

در مرحله بعد، مطابق با تکلیف، لازم است نزدیکی رابطه آماری بین ارزش هزینه زندگی x و ارزش مستمری ماهانه y ارزیابی شود. این تخمین را می توان با استفاده از ضریب همبستگی انجام داد. مقدار این ضریب در شکل 5 به صورت R مضربی تعیین شده و بر این اساس برابر با 0.038 است. از آنجایی که از لحاظ نظری ارزش ضریب داده شدهدر محدوده 1- تا 1+ است، پس می توان نتیجه گرفت که ارتباط آماری بین هزینه زندگی x و مستمری ماهانه y معنی دار نیست.

پارامتر "R – مربع" که در شکل 5 ارائه شده است، مربع ضریب همبستگی است و ضریب تعیین نامیده می شود. مقدار این ضریب سهم واریانس متغیر وابسته y را که با رگرسیون توضیح داده شده است (متغیر توضیحی x) مشخص می کند. بر این اساس، مقدار 1- سهم واریانس در متغیر y را مشخص می کند که ناشی از تأثیر همه متغیرهای توضیحی دیگر در مدل اقتصادسنجی در نظر گرفته نشده است. از شکل 5 می توان دریافت که سهم تمام متغیرهای توضیحی که در مدل اقتصاد سنجی حاصل در نظر گرفته نشده اند، تقریباً 1 - 0.00145 = 0.998 یا 99.8٪ است.

بر مرحله بعد، مطابق با تکلیف، لازم است با استفاده از ضریب کشش، میزان ارتباط متغیر توضیحی x و متغیر وابسته y را تعیین کنیم. ضریب کشش برای یک مدل رگرسیون خطی زوجی به صورت زیر تعریف می شود:

بنابراین، اگر هزینه زندگی 1٪ تغییر کند، مستمری ماهیانه 0.000758٪ تغییر می کند.

. (3.4)

برای انجام این کار، جدول اصلی 1 را با دو ستون تکمیل می کنیم که در آن مقادیر محاسبه شده را با استفاده از وابستگی (3.2) و مقدار تفاوت تعیین می کنیم.

جدول 3.2. محاسبه میانگین خطای تقریب.

سپس میانگین خطای تقریب است

از روی عمل مشخص است که مقدار میانگین خطای تقریب نباید از (12...15)٪ تجاوز کند.

بر آخرین مرحلهبیایید پایایی آماری مدل‌سازی را با استفاده از آزمون F فیشر ارزیابی کنیم. برای انجام این کار، فرضیه صفر H 0 را در مورد بی اهمیت بودن آماری معادله رگرسیون حاصل با توجه به شرط آزمایش می کنیم:

اگر در سطح معناداری معین a = 0.05 مقدار نظری (محاسبه شده) معیار F از مقدار بحرانی آن F crit (جدول‌بندی شده) بیشتر باشد، فرضیه صفر رد می‌شود و معادله رگرسیون حاصل به عنوان معنی‌دار پذیرفته می‌شود.

از شکل 5 نتیجه می شود که F calc = 0.0058. مقدار بحرانی معیار F با استفاده از تابع آماری FASTER تعیین می شود (شکل 6). پارامترهای ورودیتابع سطح معنی داری (احتمال) و تعداد درجات آزادی 1 و 2 است. برای مدل رگرسیون زوجی، تعداد درجه آزادی به ترتیب 1 (یک متغیر توضیحی) و n-2 = 6-2=4 است. .

شکل 6 - پنجره تابع آماری FASTER

از شکل 6 می توان دریافت که مقدار بحرانی آزمون F 7.71 است.

از آنجایی که F محاسبه شد< F крит, то нулевая гипотеза не отвергается и полученное معادله رگرسیوناز نظر آماری ناچیز است.

13. ساخت مدل رگرسیون چندگانه با استفاده از EXCEL.

مطابق با گزینه انتساب، استفاده از مواد آماری ضروری است.

1. یک معادله رگرسیون چندگانه خطی بسازید و معنای اقتصادی پارامترهای آن را توضیح دهید.

2. یک ارزیابی مقایسه ای از نزدیکی رابطه بین عوامل و ویژگی حاصل با استفاده از ضرایب کشش متوسط (عمومی) ارائه دهید.

3. اهمیت آماری ضرایب رگرسیون را با استفاده از آزمون t استودیو و فرضیه صفر در مورد معنی دار بودن معادله را با استفاده از آزمون F ارزیابی کنید.

4. کیفیت معادله را با تعیین میانگین خطای تقریب ارزیابی کنید.

داده های اولیه برای ساخت مدل رگرسیون زوجی در جدول 3.3 آورده شده است.

جدول 3.3. اطلاعات اولیه.

درآمد خالص، میلیون دلار آمریکا	گردش سرمایه، میلی لیتر دلار آمریکا، x 1	سرمایه استفاده شده، میلی لیتر. دلار آمریکا x 2
6,6	6,9	83,6
2,7	93,6	25,4
1,6	10,0	6,4
2,4	31,5	12,5
3,3	36,7	14,3
1,8	13,8	6,5
2,4	64,8	22,7
1,6	30,4	15,8
1,4	12,1	9,3
0,9	31,3	18,9

فناوری ساخت معادله رگرسیون مشابه الگوریتم شرح داده شده در بند 3.1 است. پروتکل ساخت معادله رگرسیون در شکل 7 نشان داده شده است.

نتیجه گیری از نتایج
آمار رگرسیون
جمع R	0,901759207
R-square	0,813169667
R-squared نرمال شده	0,759789572
خطای استاندارد	0,789962026
مشاهدات
تحلیل واریانس
	df	ام‌اس	اف
پسرفت		9,50635999	15,23357468
باقی مانده		0,624040003
جمع
	شانس	آمار t
تقاطع Y	1,113140304	2,270238114
متغیر X 1	-0,000592199	-0,061275574
متغیر X 2	0,063902851	5,496523193

شکل 7. خروجی نتایج.

در میان روش های مختلفپیش بینی نمی تواند کمک کند اما تقریب را برجسته می کند. با کمک آن می توانید محاسبات تقریبی انجام دهید و با جایگزینی اشیاء اصلی با موارد ساده تر، شاخص های برنامه ریزی شده را محاسبه کنید. در اکسل نیز امکان استفاده از این روش برای پیش بینی و تحلیل وجود دارد. بیایید ببینیم که چگونه می توان این روش را در برنامه مشخص شده با استفاده از ابزارهای داخلی اعمال کرد.

نام این روش از کلمه لاتین proxima گرفته شده است - "نزدیک ترین" این تقریب با ساده سازی و هموارسازی شاخص های شناخته شده است و آنها را در یک روند قرار می دهد که اساس آن است. ولی این روشمی تواند نه تنها برای پیش بینی، بلکه برای مطالعه نتایج موجود نیز استفاده شود. از این گذشته، تقریب، در اصل، ساده‌سازی داده‌های اصلی است و مطالعه نسخه ساده‌شده آسان‌تر است.

ابزار اصلی که با آن هموارسازی در اکسل انجام می شود، ساخت خط روند است. نکته اصلی این است که بر اساس شاخص های موجود، نمودار تابع برای دوره های آینده تکمیل می شود. همانطور که ممکن است حدس بزنید هدف اصلی یک خط روند، پیش بینی یا شناسایی یک روند کلی است.

اما می توان آن را با استفاده از یکی از پنج نوع تقریب ساخت:

خطی؛
نمایی؛
لگاریتمی؛
چند جمله ای؛
قدرتمند

بیایید هر یک از گزینه ها را با جزئیات بیشتر به طور جداگانه در نظر بگیریم.

روش 1: هموارسازی خطی

اول از همه، اجازه دهید ساده ترین نسخه تقریب، یعنی استفاده از یک تابع خطی را بررسی کنیم. ما با جزئیات بیشتری در مورد آن صحبت خواهیم کرد ، زیرا نکات کلی مشخصه سایر روش ها ، یعنی ساخت برنامه و برخی تفاوت های ظریف دیگر را بیان می کنیم ، که هنگام در نظر گرفتن گزینه های بعدی به آنها نمی پردازیم.

اول از همه، ما یک نمودار می سازیم که بر اساس آن روند هموارسازی را انجام می دهیم. برای ساخت یک نمودار، جدولی را در نظر می گیریم که هزینه ماهانه به ازای هر واحد تولید تولید شده توسط شرکت و سود مربوطه را در یک دوره معین نشان می دهد. تابع گرافیکی، که ما خواهیم ساخت، وابستگی افزایش سود را به کاهش هزینه های تولید منعکس خواهد کرد.

Antialiasing که در در این مورد، با فرمول زیر توصیف می شود:

در مورد خاص ما، فرمول به شکل زیر است:

y=-0.1156x+72.255

مقدار قابلیت اطمینان تقریبی ما برابر است با 0,9418 ، که نتیجه نسبتاً قابل قبولی است و صاف کردن را قابل اعتماد توصیف می کند.

روش 2: تقریب نمایی

حال بیایید به نوع نمایی تقریب در اکسل نگاه کنیم.

ظاهر کلی تابع هموارسازی به شرح زیر است:

جایی که ه- این اساس است لگاریتم طبیعی.

در مورد خاص ما، فرمول به شکل زیر بود:

y=6282.7*e^(-0.012*x)

روش 3: هموارسازی لگاریتمی

حال نوبت به بررسی روش تقریب لگاریتمی است.

به طور کلی، فرمول هموارسازی به صورت زیر است:

جایی که لوگاریتممقدار لگاریتم طبیعی است. از این رو نام روش.

در مورد ما، فرمول به شکل زیر است:

y=-62.81ln(x)+404.96

روش 4: هموارسازی چند جمله ای

اکنون زمان آن است که روش هموارسازی چند جمله ای را در نظر بگیریم.

فرمولی که توصیف می کند این نوعصاف کردن، شکل زیر را به خود گرفت:

y=8E-08x^6-0.0003x^5+0.3725x^4-269.33x^3+109525x^2-2E+07x+2E+09

روش 5: صاف کردن قدرت

در نهایت به روش تقریب توان در اکسل می پردازیم.

این روش به طور موثر در موارد تغییرات شدید در داده های تابع استفاده می شود. توجه به این نکته ضروری است که این گزینه فقط در صورتی قابل اجرا است که تابع و آرگومان مقادیر منفی یا صفر را قبول نکنند.

فرمول کلی برای توصیف این روش به شرح زیر است:

در مورد خاص ما، به نظر می رسد این است:

y = 6E+18x^(-6.512)

همانطور که می بینید، هنگام استفاده از داده های خاصی که به عنوان مثال استفاده کردیم، بالاترین سطح پایایی با روش تقریب چند جمله ای با چند جمله ای تا درجه ششم نشان داده شد. 0,9844 ) پایین ترین سطح اطمینان است روش خطی (0,9418 ). اما این به هیچ وجه به این معنی نیست که هنگام استفاده از نمونه های دیگر، همین روند رخ خواهد داد. خیر، سطح اثربخشی روش های فوق بسته به نوع خاصی از تابعی که خط روند برای آن ساخته می شود ممکن است به طور قابل توجهی متفاوت باشد. بنابراین، اگر روش انتخاب شده موثرترین روش برای این عملکرد باشد، این به هیچ وجه به این معنی نیست که در موقعیت دیگری نیز بهینه خواهد بود.

اگر هنوز نمی توانید بلافاصله بر اساس توصیه های بالا تعیین کنید که کدام نوع تقریب به طور خاص در مورد شما مناسب است، پس منطقی است که همه روش ها را امتحان کنید. پس از ساخت خط روند و مشاهده سطح اطمینان آن، می توانید بهترین گزینه را انتخاب کنید.