مروری بر آزمون‌های فرض در R، بخش اول

ژوئن

در این پست قرار است نگاهی داشته باشیم بر انواع مختلف آزمونهای فرض که می‌توانید در R از آنها استفاده کنید. آزمون‌های فرض می‌توانند کمی مشکل‌آفرین باشند، بعضی از آنها نیازمند نمونه‌هایی هستند که از توزیع نرمال پیروی می‌کنند، برخی دیگر نیاز به دو نمونه با وارایانسهای برابر دارند و خیلی از آزمونهای فرض هم وجود دارند که چنین پیشنیازهایی ندارند.

این پست را با تست نرمال بودن که در یکی از پست‌های قبلی وبلاگ درباره‌ی آن نوشته بودم آغاز می‌کنیم، سپس به سراغ آزمون فرض برای برابری واریانس (با فرض نرمال بودن و نبودن) خواهیم رفت و در نهایت نگاهی بر آزمون‌های فرض برابری میانگین خواهیم انداخت.

آزمون فرض نرمال بودن

قبلا در این پست درباره‌ی توزیع نرمال به تفصیل صحبت شد اما باز هم مرور آزمون‌ها و روش‌های بررسی نرمال بودن خالی از لطف نیست. اولین روش استفاده از نمودار qq نرمال است. کار با این نمودار بسیار ساده است. اگر تقریبا تمامی نقاط نمودار روی یک خط بودند داده‌ی مورد نظر از توزیع نرمال پیروی می‌کند:

x <- rnorm(1000, mean = 5, sd = 1)
 qqnorm(x)

با همین دستور و برای یک سری داده تصادفی با توزیع نمایی این اتفاق نمی‌افتد:

x <- rexp(1000 )
 qqnorm(x)

آزمون شاپیروـویلک

فرض صفر این آزمون نرمال بودن داده است و عده‌ی زیادی آن را به آزمون‌های فرض دیگری چون کولموگروف اسمیرنف ترجیح می‌دهند. نحوه استفاده از آن در R بسیار ساده است. اگر بعد از اجرای آزمون، p-value به دست آمده از آلفای مورد نظر شما کمتر بود، می‌توانید فرض صفر نرمال بودن داده را رد کنید. برای داده‌های x که در پاراگراف قبلی بررسی نمودیم این مساله قابل مشاهده است:

shapiro.test(x)
	Shapiro-Wilk normality test
data:  x
W = 0.8055, p-value < 2.2e-16

برابری واریانس برای نمونه‌های نرمال

با فرض این که بدانیم نمونه‌های ما از توزیع نرمال پیروی می‌کنند، می‌توانیم از F-test برای دو نمونه یا آزمون بارتلت برای دو نمونه یا بیشتر استفاده کنیم. برای اجرای این آزمون‌ها، نیازی به هم‌اندازه بودن نمونه‌ها نیست.

F-Test

F-test به نسبت واریانس دو نمونه توجه می‌کند. اگر این نسبت به یک نزدیک باشند دو نمونه واریانس یکسانی دارند. اما در صورتی که نسبت واریانس دو نمونه به طور قابل ملاحظه‌ای از یک بیشتر یا کمتر باشد، دو نمونه واریانس غیریکسان خواهند داشت. فرض صفر اینن آزمون برابری واریانس‌ دو نمونه است.

x <- rnorm( 100, mean=1, sd=2 )
 y <- rnorm(  85, mean=2, sd=3 )
 var.test( x, y )

	F test to compare two variances

data:  x and y
F = 0.38403, num df = 99, denom df = 84, p-value = 5.915e-06
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.2530007 0.5788002
sample estimates:
ratio of variances 
         0.3840317

در اینجا با توجه به کوچک بودن p-value فرض صفر (برابری واریانس‌ها) رد می‌شود.

آزمون بارتلت

آزمون بارتلت می‌تواند چندین نمونه را با هم بررسی کند. فرض صفر این آزمون برابری واریانس تمامی نمونه‌ها است. در مثال زیر، سه نمونه‌ی A و B و C را می‌سازیم که در آن واریانس A و B با هم برابر و واریانس C متفاوت است.

A <- rnorm(70, mean = 0 , sd =2)
B <- rnorm(75, mean = 1 , sd =2)
C <- rnorm(95, mean = 2 , sd =1)
bartlett.test(list(A,B,C))
	Bartlett test of homogeneity of variances

data:  list(A, B, C)
Bartlett's K-squared = 57.465, df = 2, p-value = 3.324e-13

همانطور که می‌بینید نتیجه آزمون رد فرض صفر ( برابری واریانس‌ها) است.

برچسب ها : آمار

منبع اصلی نوشتار زیر در این لینک قرار دارد