منبع اصلی نوشتار زیر در این لینک قرار دارد

انواع ساختار‌‌های داده در R، بخش پایانی

در پست قبلی، با ماتریس و data frame (معادل‌های چارچوب‌داده یا داده چارچوب‌دار برای آن پیشنهاد شده است) آشنا شدیم. این ساختارهای داده، دو بعدی بودند و معمولا هر ردیف آن، نماینده یک مشاهده و هر ستون آن نماینده یک مشخصه بود. فرض کنید داده‌ای داریم که نیازمند بعد زمان نیز هست. مثلا چهار دانش‌آموز، سه امتحان را در دو هفته پشت سر گذاشته‌اند و می‌خواهیم به جای این که یک ماتریس جداگانه برای هر هفته داشته باشیم، در یک ساختار داده همه چیز را خلاصه کنیم، در اینجا ساختار داده‌ای به نام Array کار ما را راه می‌اندازد. داده‌های اولیه را در R به وجود می‌آوریم:

> firstweek <- matrix(sample(10:20,12,replace = TRUE), nrow = 4)
> secondweek <- matrix(sample(10:20,12,replace = TRUE), nrow = 4)
> firstweek
   [,1] [,2] [,3]
[1,]  20  18  12
[2,]  15  16  18
[3,]  12  16  20
[4,]  19  19  15
> secondweek
   [,1] [,2] [,3]
[1,]  13  20  15
[2,]  11  14  13
[3,]  10  17  15
[4,]  17  16  11

دستور sample ، از داده‌ای که به آن می‌دهید نمونه‌گیری تصادفی انجام می‌دهد و در اینجا، داده‌ی ورودی آن اعداد ۱ تا ۱۰ هستند و ما ۱۲ عدد بین این اعداد لازم داریم، به همین دلیل منطقی است که نمونه‌گیری باید با جایگذاری باشد (replace = TRUE) تا به مشکل بر نخوریم. حالا با دستور array این دو ماتریس را به هم وصل می‌کنیم:

> a <- array(firstweek,secondweek, dim= c(4,3,2))
> a
, , 1

   [,1] [,2] [,3]
[1,]  20  18  12
[2,]  15  16  18
[3,]  12  16  20
[4,]  19  19  15

, , 2

   [,1] [,2] [,3]
[1,]  20  18  12
[2,]  15  16  18
[3,]  12  16  20
[4,]  19  19  15

Array لزوما سه‌بعدی نیست و می‌تواند هر تعداد که بخواهید بعد داشته باشد. مثلا، در همین مثال بالا، فرض کنید ۸ دانش‌آموز در دو کلاس a و b باشیم، داده‌ها رو دوباره با دستور sample تولید می‌کنیم:

> secondweeka <- matrix(sample(10:20,12,replace = TRUE), nrow = 4)
> secondweekb <- matrix(sample(10:20,12,replace = TRUE), nrow = 4)
> firstweekb <- matrix(sample(10:20,12,replace = TRUE), nrow = 4)
> firstweeka <- matrix(sample(10:20,12,replace = TRUE), nrow = 4)

و آرایه a را دوباره با ترکیب این چهار ماتریس به وجود می‌آوریم:

> a <- array(c(firstweeka,firstweekb,secondweeka,secondweekb), dim= c(4,3,2,2))
> a
, , 1, 1

   [,1] [,2] [,3]
[1,]  12  18  10
[2,]  14  19  15
[3,]  17  18  11
[4,]  13  11  11

, , 2, 1

   [,1] [,2] [,3]
[1,]  18  11  12
[2,]  13  10  15
[3,]  17  13  15
[4,]  17  14  14

, , 1, 2

   [,1] [,2] [,3]
[1,]  14  19  15
[2,]  13  17  15
[3,]  18  18  15
[4,]  10  16  11

, , 2, 2

   [,1] [,2] [,3]
[1,]  20  11  11
[2,]  12  11  10
[3,]  14  11  15
[4,]  11  12  18

همان طور که می‌بینید آرایه ما چهاربعدی شد. نکته دیگری که وجود دارد این است که آرایه ما در حال حاضر خیلی گویا نیست، پس بهتر است بعدهای آن را نام‌گذاری کنیم، دستور dimnames یا آرگیومنتی به همین نام در تابع array این کار را برای ما انجام می‌دهد:

> a <- array(c(firstweeka,firstweekb,secondweeka,secondweekb), dim= c(4,3,2,2),dimnames = list(LETTERS[1:4],c("math","sci","lit"),c("1st week","2ndweek"),c("class a","class b")))
> a
, , 1st week, class a

 math sci lit
A  12 18 10
B  14 19 15
C  17 18 11
D  13 11 11

, , 2ndweek, class a

 math sci lit
A  18 11 12
B  13 10 15
C  17 13 15
D  17 14 14

, , 1st week, class b

 math sci lit
A  14 19 15
B  13 17 15
C  18 18 15
D  10 16 11

, , 2ndweek, class b

 math sci lit
A  20 11 11
B  12 11 10
C  14 11 15
D  11 12 18

> str(a)
 int [1:4, 1:3, 1:2, 1:2] 12 14 17 13 18 19 18 11 10 15 ...
 - attr(*, "dimnames")=List of 4
 ..$ : chr [1:4] "A" "B" "C" "D"
 ..$ : chr [1:3] "math" "sci" "lit"
 ..$ : chr [1:2] "1st week" "2ndweek"
 ..$ : chr [1:2] "class a" "class b"
> dim(a)
[1] 4 3 2 2

در دستور خط اول کد بالا، از تابعی به نام list استفاده شده است، این تابع، یکی دیگر از ساختارهای داده در R به نام لیست را به وجود می‌آورد، لیست در واقع مجموعه‌ای از چند نوع شئ یا ساختار داده مختلف است، مثلا می‌توان چند بردار، ماتریس و دیتافریم را در کنار هم در یک لیست قرار داد. لیست ساختار داده‌ی پرکاربردی است و مثلا برای ذخیره‌ی خروجی‌های یک تابع، می‌تواند ساختار داده‌ی مناسبی باشد. با یک مثال کوتاه لیست را بررسی می‌کنیم، با یک آرایه، یک بردار و یک دیتا فریم، یک لیست می‌سازیم:

> list <- list(a,s,df)
> str(list)
List of 3
 $ : int [1:4, 1:3, 1:2, 1:2] 12 14 17 13 18 19 18 11 10 15 ...
 ..- attr(*, "dimnames")=List of 4
 .. ..$ : chr [1:4] "A" "B" "C" "D"
 .. ..$ : chr [1:3] "math" "sci" "lit"
 .. ..$ : chr [1:2] "1st week" "2ndweek"
 .. ..$ : chr [1:2] "class a" "class b"
 $ : int [1:5] 14 8 19 10 9
 $ :'data.frame':	5 obs. of 5 variables:
 ..$ student: Factor w/ 5 levels "a","b","c","d",..: 1 2 3 4 5
 ..$ midTerm: int [1:5] 6 3 8 5 4
 ..$ final : int [1:5] 7 4 9 2 4
 ..$ project: int [1:5] 1 1 2 3 1
 ..$ result : Factor w/ 2 levels "failed","passed": 2 1 2 2 1

می‌توان به هر عضو لیست، یک نام اختصاص داد، این کار استفاده از لیست را آسانتر می‌کند:

> names(list) <- c("array","vector","data.frame")
> names(list)
[1] "array"   "vector"   "data.frame"

برای دسترسی به هر عضو یک لیست، دو راه وجود دارد، استفاده از $ و استفاده از [[]]

> list$vector
[1] 14 8 19 10 9
> list[[2]]
[1] 14 8 19 10 9

بردار، ماتریس، دیتافریم، آرایه و لیست ساختارهای داده‌ی اصلی در R هستند. ساختار داده‌ی دیگری به نام داده‌های سری زمانی نیز وجود دارد که در واقع مبحثی آماری با کاربردهای خاص است و مطلبی مخصوص خودش را می‌طلبد.