10 Ağustos 2015 Pazartesi

Veri Altkümeleri(Subset) Düzenleme ve Listeleme (R&RStudio)

0 Yorum
Veri Alt Kümeleri(Subset) Oluşturmak, Düzenlemek ve Listelemek 


R programlama dilinde, elimizdeki verileri alt kümeler halinde listelemek için aşağıdaki adımları kullanabiliriz.


#Uygulama yapacağımız ilk veriseti hsb2

hsb2<-read.table("http://www.ats.ucla.edu/stat/data/hsb2.csv", sep=",", header=T)

#write kolonundaki 60'dan büyük değerleri listeler
yazma <- subset(hsb2, write > 60) 


#write kolunundaki 60'a eşit ve büyük değerler, read kolonunda 70'e eşit ve büyük değerleri listeler
# race, prog, write, read kolonlarını da beraber listeler
yazma_okuma <- subset(hsb2, write >= 60 & read >= 70, select = c("race", "prog", "write", "read"))



#airquality veriseti uygulamaları
attach(airquality)


#Ozone kolonundaki boş değerleri (missing values) listelemek ve kaç tane olduğunu görmek

sum(is.na(Ozone)) #Ozone kolonundaki NA değerlerinin sayısını gösterir.
summary(airquality$Ozone) #Buradan da NA değerlerini görebiliriz.

#Ozone kolonundaki değerlerin ortalamasını bulmak
mean(airquality$Ozone, na.rm=T)

#Temp kolonundaki 90'dan büyük değerleri listelemek
temp_90lar <- subset(airquality, Temp > 90)


#Ozone kolonundaki 31'den büyük ve Temp kolonundaki 90dan büyük değerleri hesaplayıp ve Ozone, Temp, Solar.R kolonlarını listelemek
ozon_30_temp90lar<- subset(airquality, Ozone >31 & Temp > 90, select = c(Ozone, Temp, Solar.R))

#Bu alt kümenin Solar.R kolunundaki değerler ortalaması 
mean(ozon_30_temp90lar$Solar.R, na.rm=T)

#Yalnızca, Haziran Ayındaki (6.Ay) verileri listelemek (Month kolonu)

haziran_degerleri <- subset(airquality, Month == 6)


#Yalnızca, Mayıs Ayını(5.Ay) verilerini listeleyip, Ozone kolonundaki max değeri bulmak
mayis_hava <- subset(airquality, Month == 5)
max(mayis_hava$Ozone, na.rm=T)
mean(mayis_hava$Ozone, na.rm=T) #Aynı alt kümdeki Ozone kolonunun ortalamasını almak

hava_kalitesi <- airquality

#Yalnızca Eylül Ayının(9.Ay) Verilerini seçip, Ozone kolonunu listelemek
alt_kume1 <- subset(hava_kalitesi, Month==9, select = c("Ozone"))
alt_kume2 <- is.na(alt_kume1)  #NA değerlerini tanımlama
alt_kume3 <- alt_kume1[!alt_kume2] #NA dışındaki verileri seçme 
mean(alt_kume3 ) #Yeni alt kümenin ortalamasını


Sefa Şahin Blog

Comments

5 Ağustos 2015 Çarşamba

Gün, Ay ve Yıl Verilerini Tek Kolon Altında Birleştirme (R&RStudio)

0 Yorum
Gün Ay ve Yıl Verilerini Tek Kolon Altında ve Tarih Formatında Birleştirme 



Elimizdeki veri dosyası, aşağıdaki gibi olduğu durumlarda

Day Month Year  St1 St2  St3
1 1 2012 20 51 NA
2 1 2012 33 62 NA
3 1 2012 71 82 NA
4 1 2012 70 79 NA
5 1 2012 44 41 78
6 1 2012 38 NA 49
7 1 2012 15 NA 21
8 1 2012 10 NA 26
9 1 2012 18 27 23
10 1 2012 17 NA 22
11 1 2012 17 NA 22
12 1 2012 13 25 18
13 1 2012 16 29 21
14 1 2012 17 33 24
15 1 2012 10 18 22
16 1 2012 17 25 24
17 1 2012 39 55 NA
18 1 2012 61 59 NA
19 1 2012 33 38 27
20 1 2012 41 40 41
21 1 2012 33 55 40
22 1 2012 16 23 14
23 1 2012 18 34 24
24 1 2012 55 55 40
25 1 2012 NA 43 16
26 1 2012 22 41 20
27 1 2012 10 16 17
28 1 2012 20 29 24
29 1 2012 22 23 22
30 1 2012 27 27 24
31 1 2012 17 23 18


Görüldüğü üzere, Gün, Ay ve Yıl kayıtları ayrı ayrı kolonlarda ve numeric format olarak düzenlenmiş. Bu verileri, Tarih/Data formatında yeniden düzenlemek için ;

rm(list=ls())
veri1 <- read.table("sefa_ornek_veri.txt", header=T)   #ornek datayi tanımlama

days = as.character(veri1$Day)                    #günleri karakter formatına çeviriyoruz
months = as.character(veri1$Month)           # ayları karakter formatına çeviriyoruz
years = as.character(veri1$Year)                 #yılları karakter formatına çeviriyoruz

gun_ay_yil = paste(days, months, years)             #Gün Ay ve Yıl verilerini tek çatı altında birleştirme
dates = strptime(gun_ay_yil, "%d %m %Y")       #Son olarak R için zaman formatı dönüşümü

veriseti1 <- veri1[4:6]                            #Gün, Ay ve Yıl kolonlarını atlayıp diğer veri kolonlarını seçme
veriseti2 = data.frame(dates,veriseti1)  #yeni veri seti gün, ay ve yıl aynı kolon altında birleşir


Yeni Eklenen "date" Kolonunun adını değiştirmek için aşağıdaki iki farklı komut kullanılabilir

veriseti2 = data.frame(Date=dates,veriseti1) 
colnames(veriseti2)[1] <- "Date"



Sefa Şahin Blog

Comments
Related Posts Plugin for WordPress, Blogger...