多変量の見せ方 [4章]
Rによる計算機統計学
Rによる計算機統計学を読んでいる。 英語の原書はこちら。
Rコードの例:R code examples
多変量の見せ方
データを分析するにあたり、統計手法は勿論大切なのだが、モデルを作るとき等の変数選択には、大きく分けて2通りのアプローチがある。
ひとつは、機械的に抽出する方法。
もう1つは、過去に得られている臨床的な(医学研究の場合)知見に基づいて選択する方法。
どちらも大切なのだが、後者を行う上では、データの性状を観察することが重要だ。
今回は、多変数をどのように可視化するかについて。
Scatterplot matrix
data(iris) # irisデータを用いる。 pairs(iris[1:50, 1:4]) #50行4列だけ使う panel.d <- function(x, ...) { usr <- par("usr") on.exit(par(usr)) par(usr = c(usr[1:2], 0, .5)) lines(density(x)) } x <- scale(iris[1:50, 1:4]) r <- range(x) pairs(x, diag.panel = panel.d, xlim = r, ylim = r) library(lattice) splom(iris[1:50, 1:4]) #先のデータでsplom splom(iris[,1:4], groups = iris$Species) #Species でグループ分け splom(~iris[1:4], groups = Species, data = iris, col = 1, pch = c(1, 2, 3), cex = c(.5,.5,.5)) #白黒でマーク分け