Yoshi Nishikawa's Blog

〜医学・疫学・統計学編〜

データクリーニング (1) dplyrを使いこなすための教材

データクリーニング

データから、知識を入れて、情報を作る際には、以下のようなプロセスがある(と認識している)。

1データ収集→2データクリーニング→3解析・モデリング
このプロセスにより、生データ→クリーニングされたデータ→解析用データ→結果、となる。

1データ収集については、アンケートの作り方や、実験計画法などのさまざまな教材がある。 3解析・モデリングも然り。

クリーニングについては、それほど多くないのだが、得られるデータ量が膨大になっているので、技術(センス)を身につけることが必要だと実感した。

coursera

www.coursera.org

swirl()

上のMOOCでも紹介されていたのだが、これはなかなか良かった。以下で実行できる。

install.packages("swirl")
library(swirl)
install_from_swirl("Getting and Cleaning Data")
swirl()

こんな感じでめっちゃ励ましてくれる。 f:id:yoshi_nishikawa:20161014210619p:plain

datacamp

これも受けようとしたが、intro以降は有料。

campus.datacamp.com