در این پست قرار است نگاهی داشته باشیم بر انواع مختلف آزمونهای فرض که میتوانید در R از آنها استفاده کنید. آزمونهای فرض میتوانند کمی مشکلآفرین باشند، بعضی از آنها نیازمند نمونههایی هستند که از توزیع نرمال پیروی میکنند، برخی دیگر نیاز به دو نمونه با وارایانسهای برابر دارند و خیلی از آزمونهای فرض هم وجود دارند که چنین پیشنیازهایی ندارند.
این پست را با تست نرمال بودن که در یکی از پستهای قبلی وبلاگ دربارهی آن نوشته بودم آغاز میکنیم، سپس به سراغ آزمون فرض برای برابری واریانس (با فرض نرمال بودن و نبودن) خواهیم رفت و در نهایت نگاهی بر آزمونهای فرض برابری میانگین خواهیم انداخت.
آزمون فرض نرمال بودن
قبلا در این پست دربارهی توزیع نرمال به تفصیل صحبت شد اما باز هم مرور آزمونها و روشهای بررسی نرمال بودن خالی از لطف نیست. اولین روش استفاده از نمودار qq نرمال است. کار با این نمودار بسیار ساده است. اگر تقریبا تمامی نقاط نمودار روی یک خط بودند دادهی مورد نظر از توزیع نرمال پیروی میکند:
x <- rnorm(1000, mean = 5, sd = 1) qqnorm(x)
با همین دستور و برای یک سری داده تصادفی با توزیع نمایی این اتفاق نمیافتد:
x <- rexp(1000 ) qqnorm(x)
آزمون شاپیروـویلک
فرض صفر این آزمون نرمال بودن داده است و عدهی زیادی آن را به آزمونهای فرض دیگری چون کولموگروف اسمیرنف ترجیح میدهند. نحوه استفاده از آن در R بسیار ساده است. اگر بعد از اجرای آزمون، p-value به دست آمده از آلفای مورد نظر شما کمتر بود، میتوانید فرض صفر نرمال بودن داده را رد کنید. برای دادههای x که در پاراگراف قبلی بررسی نمودیم این مساله قابل مشاهده است:
shapiro.test(x) Shapiro-Wilk normality test data: x W = 0.8055, p-value < 2.2e-16
برابری واریانس برای نمونههای نرمال
با فرض این که بدانیم نمونههای ما از توزیع نرمال پیروی میکنند، میتوانیم از F-test برای دو نمونه یا آزمون بارتلت برای دو نمونه یا بیشتر استفاده کنیم. برای اجرای این آزمونها، نیازی به هماندازه بودن نمونهها نیست.
F-Test
F-test به نسبت واریانس دو نمونه توجه میکند. اگر این نسبت به یک نزدیک باشند دو نمونه واریانس یکسانی دارند. اما در صورتی که نسبت واریانس دو نمونه به طور قابل ملاحظهای از یک بیشتر یا کمتر باشد، دو نمونه واریانس غیریکسان خواهند داشت. فرض صفر اینن آزمون برابری واریانس دو نمونه است.
x <- rnorm( 100, mean=1, sd=2 ) y <- rnorm( 85, mean=2, sd=3 ) var.test( x, y ) F test to compare two variances data: x and y F = 0.38403, num df = 99, denom df = 84, p-value = 5.915e-06 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.2530007 0.5788002 sample estimates: ratio of variances 0.3840317
در اینجا با توجه به کوچک بودن p-value فرض صفر (برابری واریانسها) رد میشود.
آزمون بارتلت
آزمون بارتلت میتواند چندین نمونه را با هم بررسی کند. فرض صفر این آزمون برابری واریانس تمامی نمونهها است. در مثال زیر، سه نمونهی A و B و C را میسازیم که در آن واریانس A و B با هم برابر و واریانس C متفاوت است.
A <- rnorm(70, mean = 0 , sd =2) B <- rnorm(75, mean = 1 , sd =2) C <- rnorm(95, mean = 2 , sd =1) bartlett.test(list(A,B,C)) Bartlett test of homogeneity of variances data: list(A, B, C) Bartlett's K-squared = 57.465, df = 2, p-value = 3.324e-13
همانطور که میبینید نتیجه آزمون رد فرض صفر ( برابری واریانسها) است.