データクリーニング
データから、知識を入れて、情報を作る際には、以下のようなプロセスがある(と認識している)。
1データ収集→2データクリーニング→3解析・モデリング
このプロセスにより、生データ→クリーニングされたデータ→解析用データ→結果、となる。
1データ収集については、アンケートの作り方や、実験計画法などのさまざまな教材がある。 3解析・モデリングも然り。
クリーニングについては、それほど多くないのだが、得られるデータ量が膨大になっているので、技術(センス)を身につけることが必要だと実感した。
coursera
swirl()
上のMOOCでも紹介されていたのだが、これはなかなか良かった。以下で実行できる。
install.packages("swirl") library(swirl) install_from_swirl("Getting and Cleaning Data") swirl()
こんな感じでめっちゃ励ましてくれる。
datacamp
これも受けようとしたが、intro以降は有料。