شرح تحلیل رگرسیون. مبانی رگرسیون خطی

نتیجه گیری از نتایج

جدول 8.3a. آمار رگرسیون
آمار رگرسیون
جمع R 0,998364
R-square 0,99673
R-squared نرمال شده 0,996321
خطای استاندارد 0,42405
مشاهدات 10

بیایید ابتدا در نظر بگیریم قسمت بالامحاسبات ارائه شده در جدول 8.3a - آمار رگرسیون.

مقدار R-square که معیار قطعیت نیز نامیده می شود، کیفیت خط رگرسیون حاصل را مشخص می کند. این کیفیت با درجه مطابقت بین داده های منبع و مدل رگرسیون (داده های محاسبه شده) بیان می شود. معیار اطمینان همیشه در فاصله زمانی است.

در بیشتر موارد، مقدار R-squared بین این مقادیر قرار می‌گیرد که به آن مقادیر شدید می‌گویند. بین صفر و یک

اگر مقدار R-squared نزدیک به یک باشد، به این معنی است که مدل ساخته شده تقریباً تمام تغییرات متغیرهای مربوطه را توضیح می دهد. برعکس، یک مقدار R-squared نزدیک به صفر به این معنی است که کیفیت مدل ساخته شده ضعیف است.

در مثال ما، اندازه گیری قطعیت 0.99673 است که نشان دهنده تناسب بسیار خوب خط رگرسیون با داده های اصلی است.

جمع R- ضریب همبستگی چندگانه R - میزان وابستگی متغیرهای مستقل (X) و متغیر وابسته (Y) را بیان می کند.

R چندگانه برابر است با ریشه دوماز ضریب تعیین، این کمیت مقادیری در محدوده صفر تا یک می گیرد.

در تحلیل رگرسیون خطی ساده، R مضربی برابر با ضریب همبستگی پیرسون است. در واقع، R مضاعف در مورد ما برابر است با ضریب همبستگی پیرسون از مثال قبلی (0.998364).

جدول 8.3b. ضرایب رگرسیون
شانس خطای استاندارد آمار t
تقاطع Y 2,694545455 0,33176878 8,121757129
متغیر X 1 2,305454545 0,04668634 49,38177965
* یک نسخه کوتاه از محاسبات ارائه شده است

حالا بیایید در نظر بگیریم بخش میانیمحاسبات ارائه شده در جدول 8.3b. در اینجا ضریب رگرسیون b (2.305454545) و جابجایی در امتداد محور ارتین آورده شده است، یعنی. ثابت a (2.694545455).

بر اساس محاسبات، می توانیم معادله رگرسیون را به صورت زیر بنویسیم:

Y= x*2.305454545+2.694545455

جهت رابطه بین متغیرها بر اساس علائم (منفی یا مثبت) تعیین می شود. ضرایب رگرسیون(ضریب ب).

اگر علامت در ضریب رگرسیون- مثبت، رابطه بین متغیر وابسته و متغیر مستقل مثبت خواهد بود. در مورد ما، علامت ضریب رگرسیون مثبت است، بنابراین، رابطه نیز مثبت است.

اگر علامت در ضریب رگرسیون- منفی، رابطه بین متغیر وابسته و متغیر مستقل منفی (معکوس) است.

در جدول 8.3c. نتایج حاصل از استخراج باقیمانده ها ارائه شده است. برای اینکه این نتایج در گزارش ظاهر شوند، هنگام اجرای ابزار Regression، باید کادر "Residuals" را فعال کنید.

انصراف بقیه

جدول 8.3c. باقی مانده
مشاهده Y را پیش بینی کرد باقی مانده ترازهای استاندارد
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

با استفاده از این قسمت گزارش می توان انحراف هر نقطه از خط رگرسیون ساخته شده را مشاهده کرد. بزرگترین مقدار مطلق

تحلیل رگرسیون روشی برای ایجاد یک بیان تحلیلی برای وابستگی تصادفی بین ویژگی های مورد مطالعه است. معادله رگرسیون نشان می دهد که چگونه میانگین تغییر می کند درهنگام تغییر هر یک از ایکس من , و دارای شکل:

جایی که y -متغیر وابسته (همیشه یکسان است)؛

ایکس من - متغیرهای مستقل (عوامل) (ممکن است چندین مورد از آنها وجود داشته باشد).

اگر تنها یک متغیر مستقل وجود داشته باشد، این یک تحلیل رگرسیون ساده است. اگر تعدادی از آنها وجود داشته باشد ( پ 2), سپس چنین تحلیلی چند عاملی نامیده می شود.

تحلیل رگرسیون دو مشکل اصلی را حل می کند:

    ساخت یک معادله رگرسیون، یعنی یافتن نوع رابطه بین شاخص نتیجه و عوامل مستقل ایکس 1 , ایکس 2 , …, ایکس n .

    ارزیابی اهمیت معادله حاصل، یعنی. تعیین اینکه چقدر ویژگی های عامل انتخاب شده تنوع یک صفت را توضیح می دهد تو

تحلیل رگرسیون عمدتاً برای برنامه ریزی و همچنین برای توسعه یک چارچوب نظارتی استفاده می شود.

بر خلاف تجزیه و تحلیل همبستگی، که تنها به این سوال پاسخ می دهد که آیا بین ویژگی های تحلیل شده رابطه وجود دارد یا خیر، تحلیل رگرسیون نیز بیان رسمی آن را ارائه می دهد. علاوه بر این، اگر تحلیل همبستگی هر گونه رابطه بین عوامل را مطالعه کند، تحلیل رگرسیون به مطالعه وابستگی یک طرفه می‌پردازد. ارتباطی که نشان می دهد چگونه تغییر در ویژگی های عامل بر ویژگی مؤثر تأثیر می گذارد.

تحلیل رگرسیون یکی از پیشرفته ترین روش هاست آمار ریاضی. به بیان دقیق، برای اجرای تحلیل رگرسیون، لازم است تعدادی از الزامات ویژه (به ویژه، ایکسل ،ایکس 2 ،...،ایکس n ;yباید متغیرهای تصادفی مستقل و معمولی با واریانس ثابت باشند). که در زندگی واقعیرعایت دقیق الزامات رگرسیون و تحلیل همبستگی بسیار نادر است، اما هر دوی این روش ها در تحقیقات اقتصادی بسیار رایج هستند. وابستگی ها در اقتصاد نه تنها می توانند مستقیم، بلکه معکوس و غیرخطی نیز باشند. در صورت وجود هر وابستگی می توان یک مدل رگرسیون ساخت، با این حال، در تحلیل چند متغیره فقط از مدل های خطی شکل استفاده می شود:

معادله رگرسیون معمولاً با استفاده از روش ساخته می شود کمترین مربعات، که ماهیت آن به حداقل رساندن مجموع انحرافات مجذور مقادیر واقعی مشخصه حاصل از مقادیر محاسبه شده آن است، یعنی:

جایی که تی -تعداد مشاهدات؛

j =a+b 1 ایکس 1 j + ب 2 ایکس 2 j + ... + ب n ایکس n j - مقدار محاسبه شده ضریب نتیجه

توصیه می شود ضرایب رگرسیون را با استفاده از بسته های تحلیلی برای رایانه شخصی یا ماشین حساب ویژه مالی تعیین کنید. در ساده ترین حالت، ضرایب رگرسیون یک معادله رگرسیون خطی یک عاملی شکل y = a + bxرا می توان با استفاده از فرمول های زیر پیدا کرد:

آنالیز خوشه ای

تحلیل خوشه ای یکی از روش های تحلیل چند بعدی است که برای گروه بندی (خوشه بندی) جمعیتی در نظر گرفته شده است که عناصر آن با ویژگی های بسیاری مشخص می شوند. مقادیر هر ویژگی به عنوان مختصات هر واحد از جمعیت مورد مطالعه در فضای چند بعدی ویژگی ها عمل می کند. هر مشاهده ای که با مقادیر چند شاخص مشخص می شود، می تواند به عنوان یک نقطه در فضای این شاخص ها نمایش داده شود که مقادیر آن به عنوان مختصاتی در یک فضای چند بعدی در نظر گرفته می شود. فاصله بین نقاط آرو qبا کمختصات به صورت زیر تعریف می شود:

معیار اصلی برای خوشه بندی این است که تفاوت بین خوشه ها باید بیشتر از مشاهدات اختصاص داده شده به همان خوشه باشد. در یک فضای چند بعدی نابرابری زیر باید رعایت شود:

جایی که r 1، 2 - فاصله بین خوشه های 1 و 2.

درست مانند روش های تجزیه و تحلیل رگرسیون، روش خوشه بندی کاملاً کار فشرده است.

در آثار او به سال 1908 باز می گردد. او آن را با استفاده از مثال کار یک عامل فروش املاک توصیف کرد. در سوابق خود، متخصص فروش خانه طیف گسترده ای از داده های ورودی را برای هر ساختمان خاص پیگیری می کرد. بر اساس نتایج مزایده مشخص شد که چه فاکتوری دارد بیشترین تاثیربه قیمت معامله

تحلیل و بررسی مقدار زیادمعاملات نتایج جالبی به همراه داشت. قیمت نهایی تحت تأثیر عوامل بسیاری قرار گرفت، که گاهی اوقات منجر به نتایج متناقض و حتی "غیرطبیعی" آشکار می شود که خانه ای با پتانسیل اولیه بالا با قیمت کاهش یافته فروخته می شود.

دومین نمونه از کاربرد چنین تحلیلی، تعیین دستمزد کارکنان به عهده کار آن است. پیچیدگی کار در این واقعیت نهفته است که مستلزم توزیع یک مقدار ثابت برای همه نیست، بلکه مطابقت دقیق آن با کار خاص انجام شده است. ظهور بسیاری از مسائل با راه حل های عملا مشابه مستلزم مطالعه دقیق تر آنها در سطح ریاضی بود.

جایگاه قابل توجهی به بخش "تحلیل رگرسیون" اختصاص یافت روش های عملی، برای مطالعه وابستگی هایی که تحت مفهوم رگرسیون قرار می گیرند استفاده می شود. این روابط بین داده های به دست آمده از مطالعات آماری مشاهده می شود.

در میان بسیاری از مسائلی که باید حل شوند، او سه هدف اصلی را تعیین می کند: تعیین معادله رگرسیون. نمای کلی; ساخت تخمین پارامترهایی که مجهول هستند و بخشی از معادله رگرسیون هستند. آزمون فرضیه های رگرسیون آماری. در جریان بررسی رابطه ای که بین یک جفت کمیت به دست آمده در نتیجه مشاهدات تجربی و تشکیل یک سری (مجموعه) از نوع (x1, y1), ..., (xn, yn) به وجود می آید. مفاد نظریه رگرسیون و فرض می کنیم که برای یک کمیت Y توزیع احتمال مشخصی وجود دارد، در حالی که X دیگر ثابت می ماند.

نتیجه Y به مقدار متغیر X بستگی دارد. مدل تجربی مبتنی بر مفروضات خاصی است که ساده اما قابل قبول هستند. شرط اصلی این است که پارامتر X یک کمیت کنترل شده باشد. مقادیر آن قبل از شروع آزمایش تنظیم می شود.

اگر آزمایشی از یک جفت متغیر XY کنترل نشده استفاده کند، تحلیل رگرسیون به همان روش انجام می شود، اما برای تفسیر نتایج، که طی آن رابطه بین متغیرهای مورد مطالعه بررسی می شود. متغیرهای تصادفیروش ها اعمال می شوند روش های آمار ریاضی موضوعی انتزاعی نیستند. آنها بیشترین کاربرد را در زندگی پیدا می کنند زمینههای مختلففعالیت انسانی

که در ادبیات علمیبرای تعیین روش بالا که پیدا کردم استفاده گستردهتحلیل رگرسیون خطی اصطلاحی برای متغیر X از اصطلاح رگرسیون یا پیش بینی کننده استفاده می شود و متغیرهای وابسته Y نیز متغیرهای معیار نامیده می شوند. این اصطلاح فقط وابستگی ریاضی متغیرها را منعکس می کند، اما رابطه علت و معلولی را نشان نمی دهد.

تجزیه و تحلیل رگرسیونبه عنوان رایج ترین روشی است که در پردازش نتایج طیف گسترده ای از مشاهدات استفاده می شود. وابستگی‌های فیزیکی و بیولوژیکی با استفاده از این روش مورد مطالعه قرار می‌گیرند. بسیاری از زمینه های دیگر از مدل های تحلیل رگرسیون استفاده می کنند. تحلیل واریانس، تحلیل آماریکار چند بعدی از نزدیک با این روش مطالعه.

هدف از تحلیل رگرسیون اندازه گیری رابطه بین یک متغیر وابسته و یک (تحلیل رگرسیون زوجی) یا چند (چند) متغیر مستقل است. متغیرهای مستقل را متغیرهای عامل، توضیحی، تعیین کننده، رگرسیون و پیش بینی نیز می نامند.

متغیر وابسته گاهی اوقات متغیر تعیین شده، توضیح داده شده یا "پاسخ" نامیده می شود. به شدت استفاده گستردهتحلیل رگرسیون در تحقیقات تجربی نه تنها به این دلیل است که ابزار مناسبی برای آزمون فرضیه ها است. رگرسیون به ویژه رگرسیون چندگانه است روش موثرمدل سازی و پیش بینی

بیایید توضیح اصول کار با تحلیل رگرسیون را با یک روش ساده تر - روش جفتی - شروع کنیم.

تحلیل رگرسیون زوجی

اولین گام ها هنگام استفاده از تحلیل رگرسیون تقریباً مشابه اقداماتی است که در محاسبه ضریب همبستگی برداشتیم. سه شرط اصلی برای اثربخشی تحلیل همبستگی با استفاده از روش پیرسون - توزیع نرمال متغیرها، اندازه‌گیری فاصله متغیرها، رابطه خطی بین متغیرها - برای رگرسیون چندگانه نیز مرتبط است. بر این اساس، در مرحله اول، نمودارهای پراکنده ساخته شده، تجزیه و تحلیل آماری و توصیفی متغیرها انجام شده و خط رگرسیون محاسبه می شود. همانطور که در چارچوب تحلیل همبستگی، خطوط رگرسیون با استفاده از روش حداقل مربعات ساخته می‌شوند.

برای توضیح واضح‌تر تفاوت‌های بین دو روش تجزیه و تحلیل داده‌ها، اجازه دهید به مثالی که قبلاً با متغیرهای «حمایت SPS» و «سهم جمعیت روستایی» مورد بحث قرار گرفت، برویم. داده های منبع یکسان است. تفاوت در نمودارهای پراکندگی این خواهد بود که در تحلیل رگرسیون، ترسیم متغیر وابسته - در مورد ما، "حمایت SPS" روی محور Y صحیح است، در حالی که در تحلیل همبستگی این مهم نیست. پس از تمیز کردن نقاط پرت، نمودار پراکندگی به شکل زیر است:

ایده اساسی تحلیل رگرسیون این است که داشتن روند کلیبرای متغیرها - در قالب یک خط رگرسیون - می توانید مقدار متغیر وابسته را با توجه به مقادیر متغیر مستقل پیش بینی کنید.

بیایید ریاضی معمول را تصور کنیم تابع خطی. هر خط مستقیم در فضای اقلیدسی را می توان با فرمول توصیف کرد:

که در آن a ثابتی است که جابجایی را در امتداد محور ارتین مشخص می کند. b ضریبی است که زاویه میل خط را تعیین می کند.

با دانستن شیب و ثابت، می توانید مقدار y را برای هر x محاسبه (پیش بینی) کنید.

این ساده ترین تابع اساس مدل تحلیل رگرسیون را با این احتیاط تشکیل داد که ما مقدار y را دقیقاً پیش بینی نمی کنیم، بلکه در یک مقدار مشخص فاصله اطمینان، یعنی تقریبا

ثابت نقطه تقاطع خط رگرسیون و محور y است (تقاطع F که معمولاً در بسته‌های آماری «رهگیر» نشان داده می‌شود). در مثال ما با رای دادن به اتحادیه نیروهای راست، مقدار گرد شده آن 10.55 خواهد بود. ضریب زاویه ای b تقریباً 0.1- خواهد بود (همانطور که در تحلیل همبستگی، علامت نوع اتصال را نشان می دهد - مستقیم یا معکوس). بنابراین، مدل حاصل به شکل SP C = -0.1 x Sel خواهد بود. ما + 10.55.

ATP = -0.10 x 47 + 10.55 = 5.63.

تفاوت بین مقادیر اصلی و پیش بینی شده باقیمانده نامیده می شود (ما قبلاً با این اصطلاح روبرو شده ایم که برای آمار در هنگام تجزیه و تحلیل جداول احتمالی ضروری است). بنابراین، برای مورد "جمهوری آدیگه" باقیمانده برابر با 3.92 - 5.63 = -1.71 خواهد بود. هر چه مقدار مدولار باقیمانده بزرگتر باشد، مقدار پیش بینی شده با موفقیت کمتر است.

ما مقادیر پیش بینی شده و باقیمانده ها را برای همه موارد محاسبه می کنیم:
اتفاق می افتد نشست. ما ممنون

(اصل)

ممنون

(پیش بینی شده)

باقی مانده
جمهوری آدیگه 47 3,92 5,63 -1,71 -
جمهوری آلتای 76 5,4 2,59 2,81
جمهوری باشقیرستان 36 6,04 6,78 -0,74
جمهوری بوریاتیا 41 8,36 6,25 2,11
جمهوری داغستان 59 1,22 4,37 -3,15
جمهوری اینگوشتیا 59 0,38 4,37 3,99
و غیره.

تجزیه و تحلیل نسبت مقادیر اولیه و پیش بینی شده برای ارزیابی کیفیت مدل حاصل و توانایی پیش بینی آن است. یکی از شاخص های اصلی آمار رگرسیونی است ضریب چندگانههمبستگی R - ضریب همبستگی بین مقادیر اصلی و پیش بینی شده متغیر وابسته. در تحلیل رگرسیون زوجی، برابر است با ضریب همبستگی معمول پیرسون بین متغیرهای وابسته و مستقل، در مورد ما - 0.63. برای تفسیر معنادار چندگانه R، باید آن را به ضریب تعیین تبدیل کرد. این کار به همان روشی که در تجزیه و تحلیل همبستگی انجام می شود - با مربع کردن انجام می شود. ضریب تعیین R-squared (R2) نسبت تغییرات در متغیر وابسته را نشان می دهد که توسط متغیر(های) مستقل توضیح داده می شود.

در مورد ما، R 2 = 0.39 (0.63 2)؛ این بدان معناست که متغیر «سهم جمعیت روستایی» تقریباً 40 درصد از تغییرات متغیر «حمایت SPS» را توضیح می‌دهد. هر چه ضریب تعیین بزرگتر باشد، کیفیت مدل بالاتر است.

یکی دیگر از شاخص های کیفیت مدل، خطای استاندارد برآورد است. این معیاری است که نشان می‌دهد چقدر نقاط در اطراف خط رگرسیون "پراکنده" هستند. اندازه گیری اسپرد برای متغیرهای بازه ای است انحراف معیار. بر این اساس، خطای استانداردبرآوردها انحراف استاندارد توزیع باقیمانده ها هستند. هر چه مقدار آن بیشتر باشد، پراکندگی بیشتر و مدل بدتر است. در مورد ما، خطای استاندارد 2.18 است. در این مقدار است که مدل ما هنگام پیش‌بینی مقدار متغیر «حمایت SPS» «به طور متوسط» اشتباه می‌کند.

آمار رگرسیون شامل تحلیل واریانس نیز می باشد. با کمک آن متوجه می شویم: 1) چه نسبتی از تغییرات (پراکندگی) متغیر وابسته توسط متغیر مستقل توضیح داده می شود. 2) چه نسبتی از واریانس متغیر وابسته توسط باقیمانده ها به حساب می آید (بخش غیرقابل توضیح). 3) نسبت این دو کمیت چقدر است (/"-ratio) آمار پراکندگی به ویژه برای مطالعات نمونه مهم است - نشان می دهد که چقدر احتمال دارد که بین متغیرهای مستقل و وابسته در جمعیت. با این حال، حتی برای تحقیقات مستمر (مانند مثال ما)، مطالعه نتایج تحلیل واریانسبی فایده. در این مورد، آنها بررسی می‌کنند که آیا الگوی آماری شناسایی‌شده ناشی از تصادفی شرایط تصادفی است یا خیر، برای مجموعه شرایطی که جامعه مورد مطالعه در آن قرار دارد، چقدر معمول است، یعنی. این حقیقت نتیجه به‌دست‌آمده برای برخی از جمعیت عمومی بزرگ‌تر نیست، بلکه میزان منظم بودن و آزادی آن از تأثیرات تصادفی است.

در مورد ما، آمار ANOVA به شرح زیر است:

اس اس df ام‌اس اف معنی
پسرفت. 258,77 1,00 258,77 54,29 0.000000001
باقی مانده 395,59 83,00 L,11
جمع 654,36

نسبت F 54.29 در سطح 0.0000000001 قابل توجه است. بر این اساس، می‌توانیم با اطمینان فرضیه صفر را رد کنیم (اینکه رابطه‌ای که کشف کردیم ناشی از شانس است).

معیار t عملکرد مشابهی را انجام می دهد، اما در رابطه با ضرایب رگرسیون(نبش و تقاطع F). با استفاده از معیار / این فرضیه را آزمایش می کنیم که در جامعه عمومی ضرایب رگرسیون برابر با صفر است. در مورد ما، دوباره می توانیم با اطمینان فرضیه صفر را رد کنیم.

تحلیل رگرسیون چندگانه

مدل رگرسیون چندگانه تقریباً مشابه مدل رگرسیون زوجی است. تنها تفاوت این است که چندین متغیر مستقل به صورت متوالی در تابع خطی گنجانده می شوند:

Y = b1X1 + b2X2 + …+ bpXp + a.

اگر بیش از دو متغیر مستقل وجود داشته باشد، نمی توانیم به دست آوریم بازنمایی بصریدر مورد ارتباط آنها، از این نظر، رگرسیون چندگانه کمتر «بصری» است تا زوجی. هنگامی که دو متغیر مستقل دارید، نمایش داده ها در یک نمودار پراکنده سه بعدی می تواند مفید باشد. در بسته های نرم افزاری آماری حرفه ای (مثلا Statistica) گزینه ای برای چرخاندن نمودار سه بعدی وجود دارد که به شما امکان می دهد ساختار داده ها را به صورت بصری نمایش دهید.

هنگام کار با رگرسیون چندگانه، بر خلاف اتاق بخار، تعیین الگوریتم تجزیه و تحلیل ضروری است. الگوریتم استاندارد شامل تمامی پیش بینی کننده های موجود در مدل رگرسیون نهایی می باشد. الگوریتم گام به گامشامل گنجاندن متوالی (حذف) متغیرهای مستقل بر اساس "وزن" توضیحی آنها است. روش گام به گاموقتی متغیرهای مستقل زیادی وجود دارد خوب است. این مدل را از پیش‌بینی‌کننده‌های آشکار ضعیف «پاک می‌کند» و آن را فشرده‌تر و مختصرتر می‌کند.

یک شرط اضافی برای صحت رگرسیون چندگانه (همراه با فاصله، نرمال بودن و خطی بودن) عدم وجود چند خطی - وجود همبستگی قوی بین متغیرهای مستقل است.

تفسیر آمار رگرسیون چندگانه شامل تمام عناصری است که برای مورد رگرسیون زوجی در نظر گرفتیم. علاوه بر این، مؤلفه های مهم دیگری برای آمار تحلیل رگرسیون چندگانه وجود دارد.

ما کار را با رگرسیون چندگانه با استفاده از مثال آزمایش فرضیه هایی که تفاوت در سطح فعالیت های انتخاباتی در مناطق روسیه را توضیح می دهد، نشان خواهیم داد. مطالعات تجربی خاص نشان داده اند که میزان مشارکت رای دهندگان تحت تأثیر موارد زیر است:

عامل ملی (متغیر "جمعیت روسیه"؛ عملیاتی شده به عنوان سهم جمعیت روسیه در نهادهای تشکیل دهنده فدراسیون روسیه). فرض بر این است که افزایش در سهم جمعیت روسیه منجر به کاهش مشارکت رای دهندگان می شود.

عامل شهرنشینی (متغیر "جمعیت شهری"؛ عملیاتی شده به عنوان سهم جمعیت شهری در نهادهای تشکیل دهنده فدراسیون روسیه؛ ما قبلاً با این عامل به عنوان بخشی از تحلیل همبستگی کار کرده ایم). فرض بر این است که افزایش در سهم جمعیت شهری نیز منجر به کاهش مشارکت رای دهندگان می شود.

متغیر وابسته - "شدت فعالیت انتخاباتی" ("فعال") از طریق داده های میانگین مشارکت به تفکیک منطقه در انتخابات فدرال از سال 1995 تا 2003 عملیاتی می شود. جدول داده های اولیه برای دو متغیر مستقل و یک متغیر وابسته به شرح زیر خواهد بود:

اتفاق می افتد متغیرها
دارایی های. گور ما روس ما
جمهوری آدیگه 64,92 53 68
جمهوری آلتای 68,60 24 60
جمهوری بوریاتیا 60,75 59 70
جمهوری داغستان 79,92 41 9
جمهوری اینگوشتیا 75,05 41 23
جمهوری کالمیکیا 68,52 39 37
جمهوری کاراچایی-چرکس 66,68 44 42
جمهوری کارلیا 61,70 73 73
جمهوری کومی 59,60 74 57
ماری ال جمهوری 65,19 62 47

و غیره. (پس از پاکسازی آلاینده ها، 83 مورد از 88 مورد باقی می ماند)

آماری که کیفیت مدل را توصیف می کند:

1. چندگانه R = 0.62; L-square = 0.38. در نتیجه، عامل ملی و عامل شهرنشینی با هم حدود 38 درصد از تغییرات متغیر «فعالیت انتخاباتی» را توضیح می‌دهند.

2. خطای متوسط 3.38 است. این دقیقاً همان مقدار "به طور متوسط" اشتباه است که مدل ساخته شده هنگام پیش‌بینی میزان مشارکت در انتخابات انجام می‌شود.

3. نسبت /l تغییرات توضیح داده شده و غیرقابل توضیح 25.2 در سطح 0.000000003 است. فرضیه صفر در مورد تصادفی بودن روابط شناسایی شده رد می شود.

4. معیار / برای ضرایب ثابت و رگرسیون متغیرهای «جمعیت شهری» و «جمعیت روسیه» در سطح 0000001/0 معنادار است. 0.00005 و 0.007 به ترتیب. فرض صفر مبنی بر تصادفی بودن ضرایب رد می شود.

آمار مفید اضافی در تجزیه و تحلیل رابطه بین مقادیر اصلی و پیش بینی شده متغیر وابسته، فاصله ماهالانوبیس و فاصله کوک است. اولی معیاری از منحصر به فرد بودن مورد است (نشان می دهد که ترکیب مقادیر همه متغیرهای مستقل چقدر است این مورداز میانگین برای همه متغیرهای مستقل به طور همزمان انحراف دارد). دومی معیاری برای سنجش تأثیر پرونده است. مشاهدات مختلف اثرات متفاوتی بر شیب خط رگرسیون دارند و می توان از فاصله کوک برای مقایسه آنها در این شاخص استفاده کرد. این می تواند هنگام تمیز کردن نقاط پرت مفید باشد (یک مورد پرت را می توان به عنوان یک مورد بسیار تأثیرگذار در نظر گرفت).

در مثال ما، موارد منحصر به فرد و تأثیرگذار شامل داغستان است.

اتفاق می افتد اصلی

ارزش های

پردسکا

ارزش های

باقی مانده فاصله

ماهالانوبیس

فاصله
آدیگه 64,92 66,33 -1,40 0,69 0,00
جمهوری آلتای 68,60 69.91 -1,31 6,80 0,01
جمهوری بوریاتیا 60,75 65,56 -4,81 0,23 0,01
جمهوری داغستان 79,92 71,01 8,91 10,57 0,44
جمهوری اینگوشتیا 75,05 70,21 4,84 6,73 0,08
جمهوری کالمیکیا 68,52 69,59 -1,07 4,20 0,00

خود مدل رگرسیون دارای پارامترهای زیر است: Y-تقاطع (ثابت) = 75.99; b (افقی) = -0.1; کومرسانت (ناس روسی) = -0.06. فرمول نهایی

تحلیل رگرسیون وابستگی یک کمیت معین به کمیت دیگر یا چند کمیت دیگر را بررسی می کند. تحلیل رگرسیون عمدتاً در پیش بینی میان مدت و همچنین در پیش بینی بلند مدت استفاده می شود. دوره های میان مدت و بلندمدت شناسایی تغییرات در محیط کسب و کار و در نظر گرفتن تاثیر این تغییرات بر شاخص مورد مطالعه را ممکن می سازد.

برای انجام تحلیل رگرسیون به موارد زیر نیاز دارید:

    در دسترس بودن داده های سالانه در مورد شاخص های مورد مطالعه،

    وجود پیش‌بینی‌های یک‌باره، یعنی. چنین پیش بینی هایی که با ورود داده های جدید اصلاح نمی شوند.

تحلیل رگرسیون معمولاً برای اشیایی که ماهیت پیچیده و چند عاملی دارند، مانند حجم سرمایه گذاری، سود، حجم فروش و غیره انجام می شود.

در روش پیش بینی هنجاریراه ها و مهلت های دستیابی به حالات احتمالی پدیده که به عنوان هدف در نظر گرفته شده است، تعیین می شود. این در مورد پیش بینی دستیابی به حالت های مطلوب یک پدیده بر اساس هنجارها، آرمان ها، انگیزه ها و اهداف از پیش تعیین شده است. این پیش بینی به این سوال پاسخ می دهد: از چه راه هایی می توانید به آنچه می خواهید برسید؟ روش هنجاری بیشتر برای پیش بینی های برنامه یا هدف استفاده می شود. هم از بیان کمی استاندارد و هم مقیاس خاصی از قابلیت های تابع ارزیابی استفاده می شود

در مورد استفاده از یک عبارت کمی، به عنوان مثال، هنجارهای فیزیولوژیکی و منطقی مصرف مواد غذایی و غیر خوراکی فردی، که توسط متخصصان برای گروه های مختلف جمعیت ایجاد شده است، می توان سطح مصرف این کالاها را تعیین کرد. سالهای قبل از دستیابی به هنجار مشخص شده. چنین محاسباتی درون یابی نامیده می شود. درون یابی روشی برای محاسبه شاخص های گم شده در سری پویا یک پدیده بر اساس یک رابطه ایجاد شده است. با در نظر گرفتن مقدار واقعی اندیکاتور و مقدار استانداردهای آن به عنوان اعضای افراطی سری پویا، می توان مقادیر مقادیر درون این سری را تعیین کرد. بنابراین، درون یابی یک روش هنجاری در نظر گرفته می شود. فرمول قبلی (4) که در برون یابی استفاده می شود، می تواند در درون یابی استفاده شود، جایی که y دیگر داده های واقعی را مشخص نمی کند، بلکه نشانگر استاندارد است.

در مورد استفاده از مقیاس (میدان، طیف) در روش هنجاری، قابلیت های تابع ارزیابی، یعنی تابع توزیع ترجیحی، تقریباً درجه بندی زیر را نشان می دهد: نامطلوب - کمتر مطلوب - مطلوب تر - مطلوب ترین - بهینه ( استاندارد).

روش پیش بینی هنجاری به توسعه توصیه هایی برای افزایش سطح عینیت و در نتیجه اثربخشی تصمیمات کمک می کند.

مدل سازی، شاید پیچیده ترین روش پیش بینی باشد. مدل سازی ریاضی به معنای توصیف یک پدیده اقتصادی از طریق فرمول ها، معادلات و نابرابری های ریاضی است. دستگاه ریاضی باید به طور دقیق پس‌زمینه پیش‌بینی را منعکس کند، اگرچه انعکاس کامل عمق و پیچیدگی شی پیش‌بینی‌شده بسیار دشوار است. اصطلاح "مدل" از کلمه لاتین modelus به معنای "اندازه گیری" گرفته شده است. بنابراین، درست تر است که مدل سازی را نه یک روش پیش بینی، بلکه روشی برای مطالعه یک پدیده مشابه با استفاده از یک مدل در نظر بگیریم.

در یک مفهوم گسترده، مدل‌ها جایگزین‌هایی برای موضوع مطالعه هستند که مشابه آن هستند، به گونه‌ای که به فرد اجازه می‌دهد تا دانش جدیدی در مورد آن شی به دست آورد. یک مدل باید به عنوان توصیف ریاضی یک شی در نظر گرفته شود. در این حالت، مدل به عنوان پدیده ای (شیء، تنظیم) تعریف می شود که با شی مورد مطالعه مطابقت دارد و می تواند جایگزین آن در فرآیند تحقیق، ارائه اطلاعاتی در مورد شیء باشد.

با درک محدودتر مدل، به عنوان یک هدف پیش بینی در نظر گرفته می شود، مطالعه آن به فرد اجازه می دهد تا اطلاعاتی در مورد حالت های احتمالی شی در آینده و راه های دستیابی به این حالت ها به دست آورد. در این مورد، هدف مدل پیش‌بینی، به‌دست آوردن اطلاعات نه در مورد شی به طور کلی، بلکه فقط در مورد وضعیت‌های آینده آن است. سپس، هنگام ساخت یک مدل، ممکن است بررسی مستقیم انطباق آن با شی غیرممکن باشد، زیرا مدل فقط حالت آینده آن را نشان می دهد و ممکن است خود شی در حال حاضر وجود نداشته باشد یا وجود متفاوتی داشته باشد.

مدل ها می توانند مادی یا ایده آل باشند.

اقتصاد از مدل های ایده آل استفاده می کند. کامل‌ترین مدل ایده‌آل برای توصیف کمی یک پدیده اجتماعی-اقتصادی (اقتصادی) یک مدل ریاضی با استفاده از اعداد، فرمول‌ها، معادلات، الگوریتم‌ها یا نمایش گرافیکی است. با استفاده از مدل های اقتصادی، آنها تعیین می کنند:

    وابستگی بین شاخص های مختلف اقتصادی؛

    انواع محدودیت های اعمال شده بر شاخص ها؛

    معیارهایی برای بهینه سازی فرآیند

محتوا شرح شیمی تواند در قالب نمودار رسمی آن ارائه شود که نشان می دهد برای محاسبه مقادیر مورد نیاز چه پارامترها و اطلاعات اولیه باید جمع آوری شود. یک مدل ریاضی، بر خلاف یک طرح رسمی، حاوی داده‌های عددی خاصی است که شیء را مشخص می‌کند. او بر اساس ایده های خود یک فرضیه کاری را مطرح می کند که با کمک آن یک رکورد تحلیلی از مدل در قالب فرمول ها، معادلات و نابرابری ها ایجاد می شود. در نتیجه حل سیستم معادلات، پارامترهای خاصی از تابع به دست می آید که تغییر متغیرهای مورد نظر را در طول زمان توصیف می کند.

ترتیب و توالی کار به عنوان عنصری از سازمان پیش بینی بسته به روش پیش بینی مورد استفاده تعیین می شود. به طور معمول این کار در چند مرحله انجام می شود.

مرحله 1 - پیش بینی گذشته نگری، یعنی ایجاد شی پیش بینی و پس زمینه پیش بینی. کار در مرحله اول به ترتیب زیر انجام می شود:

    شکل‌گیری توصیفی از یک شی در گذشته، که شامل تجزیه و تحلیل پیش‌بینی شده از شی، ارزیابی پارامترهای آن، اهمیت آنها و روابط متقابل است.

    شناسایی و ارزیابی منابع اطلاعات، روش و سازماندهی کار با آنها، جمع آوری و قرار دادن اطلاعات گذشته نگر.

    تعیین اهداف تحقیق

پیش‌بینی‌کنندگان با انجام وظایف گذشته‌نگری پیش‌بینی، تاریخچه توسعه شی و پیش‌زمینه پیش‌بینی را بررسی می‌کنند تا توصیف سیستماتیک آنها را به دست آورند.

مرحله 2 - تشخیص پیش بینی، که طی آن یک توصیف سیستماتیک از شی پیش بینی و پس زمینه پیش بینی به منظور شناسایی روند توسعه آنها و انتخاب مدل ها و روش های پیش بینی بررسی می شود. کار به ترتیب زیر انجام می شود:

    توسعه یک مدل از شی پیش بینی، از جمله توصیف رسمی از شی، بررسی میزان کفایت مدل به شی.

    انتخاب روش های پیش بینی (اصلی و کمکی)، توسعه الگوریتم و برنامه های کاری.

مرحله 3 - حفاظت، یعنی فرآیند توسعه گسترده پیش بینی، از جمله: 1) محاسبه پارامترهای پیش بینی شده برای یک دوره سرب معین. 2) سنتز اجزای فردی پیش بینی.

مرحله 4 - ارزیابی پیش بینی، از جمله تأیید آن، یعنی تعیین درجه قابلیت اطمینان، دقت و اعتبار.

در مسیر پیش‌بینی و ارزیابی، بر اساس مراحل قبل، مشکلات پیش‌بینی و ارزیابی آن حل می‌شود.

مراحل ذکر شده تقریبی بوده و به روش اصلی پیش بینی بستگی دارد.

نتایج پیش بینی در قالب یک گواهی، گزارش یا مطالب دیگر تهیه و به مشتری ارائه می شود.

در پیش بینی می توان میزان انحراف پیش بینی را از وضعیت واقعی جسم نشان داد که به آن خطای پیش بینی می گویند که با فرمول محاسبه می شود:

;
;
. (9.3)

منابع خطا در پیش بینی

منابع اصلی ممکن است:

1. انتقال ساده (برون یابی) داده ها از گذشته به آینده (به عنوان مثال، شرکت هیچ گزینه پیش بینی دیگری به جز 10 درصد رشد فروش ندارد).

2. ناتوانی در تعیین دقیق احتمال وقوع یک رویداد و تاثیر آن بر شی مورد مطالعه.

3. مشکلات پیش بینی نشده (رویدادهای مخرب) موثر بر اجرای طرح، به عنوان مثال، برکناری ناگهانی رئیس بخش فروش.

به طور کلی، با انباشته شدن تجربه پیش‌بینی و اصلاح روش‌های آن، دقت پیش‌بینی افزایش می‌یابد.



مقالات مشابه

parki48.ru 2024. ما در حال ساخت یک خانه قاب هستیم. طراحی منظر. ساخت و ساز. پایه.