رگرسیون خطی چند متغیره در Stata

بازدید: 476 بازدید

در این مقاله رگرسیون خطی چند متغیره در Stata را با حل یک مثال ادامه می دهیم.

سوال تحقیق:

چه رابطه ای بین بروز بیماری قلبی با سیگار کشیدن و دوچرخه سواری وجود دارد؟

در این مثال آموزشی رگرسیون خطی در Stata، ابتدا باید داده ها را از لینک زیر دانلود کنیم و در لپ تاپ یا کامپیوتر در مسیر مشخصی ذخیره نماییم.

شروع کار با Stata

گام اول: وارد کردن داده ها

برای وارد کردن داده ها به نرم افزار استاتا می توانیم از مقاله، نحوه وارد کردن داده به نرم افزار Stata کمک بگیریم.

اکنون با استفاده از import delimited using در قسمت کامند Stata و تنظیم مسیر داده هایمان، داده ها وارد نرم افزار Stata می شوند.

import delimited using "C:\Users\ATLAS\Desktop\heart.data.csv"

توجه داشته باشید که قسمت آدرس را باید با توجه به مسیر داده هایتان تنظیم کنید.

بعد از اینکه داده را وارد کردیم، متغیرهای اضافی را حذف می کنیم، برای مثال در دیتاست ما متغیر v1 اضافی است و با دستور drop v1، این متغیر را حذف می کنیم. اکنون با استفاده از دستور Summarize خلاصه ای از توزیع داده را می توانیم ببینیم.

گام دوم: بررسی فروض اساسی در رگرسیون خطی

1-استقلال مشاهدات

با استفاده از آزمون خودهمبستگی بین متغیرهای مستقل، استقلال مشاهدات را بررسی می کنیم

correlate smoking biking

نتایج جدول نشان می دهد که بین متغرهای مستقل همبستگی وجود ندارد.

2- نرمال بودن توزیع داده ها

با رسم نمودار هیستوگرم، نرمال بودن توزیع داده های متغیر بیماری قلبی را می توانیم بررسی کنیم.

histogram( heartdisease)

داده های متغیر وابسته تقریبا به صورت نرمال توزیع شده اند. بنابراین می توانیم به رگرسیون خطی ادامه دهیم.

3- خطی بودن

برای بررسی خطی بودن رابطه بین متغیرهای وابسته و مستقل از رسم نمودار نقطه ای (scatter) استفاده می کنیم.

graph twoway (scatter heartdisease biking )
دو متغیر رابطه خطی دارند
graph twoway (scatter heartdisease smoking)
دو متغیر تقریبا رابطه خطی دارند

4-واریانس ناهمسانی

آزمون واریانس ناهمسانی را بعد از تخمین مدل، بررسی می کنیم.

گام سوم: تخمین مدل رگرسیون خطی در Stata

reg heartdisease smoking biking

تفسیر ضرایب:

همه ضرایب مدل در سطح 5 درصد معنادار شده اند. ضریب متغیر smoking برابر با 0.178 است. یعنی با افزایش یک درصد در متغیر smoking، بروز بیماری قلبی 0.17 درصد افزایش می یابد. ضریب biking برابر با 0.20- است. یعنی با افزایش یک درصد در متغیر biking، بروز بیماری قلبی 0.2 درصد کاهش پیدا می کند.

آماره Std.Err هرچقدر کوچکتر باشد، مدل بهتری برآورد کرده ایم. آماره t هرچقدر بزرگتر باشد، برازش مدل بهتر است. اگر t کمتر از 2 باشد، ضرایب متغیر معنادار نیست.

P>|t| در سطح 5 درصد ضرایب مدل را بررسی می کند، اگر P>|t| کوچکتر از 0.05 باشد یعنی ضرایب معندار هستند.

هر چه R-squared نزدیک به عدد 1 باشد، یعنی متغیرهای توضیحی، متغیر وابسته را به خوبی توضیح داده اند.

Prob > F معناداری مدل را بررسی می کند، زمانیکه Prob > F کمتر از 0.05 باشد، مدل معنادار است یا می توانیم بگوییم مدل به درستی تبیین شده است.

گام چهارم: بررسی همسانی واریانس

یکی از آزمون های مهم در رگرسیون خطی، بررسی واریانس همسانی است. در آزمون واریانس همسانی ما به دنبال بخش خطاهای مدل هستیم. یک برآورد خوب باید باقیمانده هایی با واریانس همسان داشته باشد.

جهت بررسی واریانس ناهمسانی در استاتا از روش رسم نمودار residuals یا از طریق آزمون های وایت و بروش-پاگان اقداام می کنیم.

روش اول: استفاده از رسم نمودار

در آزمون رسم نمودارهای بخش خطای مدل از طریق تایپ و اجرای کد زیر در استاتا استفاده می کنیم.

rvfplot , yline(0)
در نمودار بیشتر مشاهدات حول محور صفر توزیع شده اند، بنابراین می توانیم فرض واریانس همسان را بپذیریم

روش دوم: استفاده از آزمون white

از طریق تایپ و اجرای کد زیر در قسمت کامند استاتا، آزمون واریانس ناهمسانی را چک می کنیم.

estat imtest
اگر مقدار p کمتر از 0.05 باشد، واریانس ناهمسانی داریم

گام پنجم: مصورسازی نتایج رگرسیون

مصور سازی نتایج جهت ارائه نتایج به مخاطبان در یک دید اجمالی نکات برجسته ای را نمایان می کند. بنابراین هرچقدر مهارت مصورسازی داده ها را بیشتر یاد بگیریم و در رسم نمودارها خلاقیت به خرج بدهیم، مخاطبان در سمینارها حرف های ما را بهتر متوجه خواهند شد.

بعد از برآورد مدل رگرسیون، کد avplots را در قسمت کامند Stata تایپ و اجرا می کنیم.

avplots