Rによる計算機統計学

多変量の見せ方

データを分析するにあたり、統計手法は勿論大切なのだが、モデルを作るとき等の変数選択には、大きく分けて2通りのアプローチがある。
ひとつは、機械的に抽出する方法。
もう１つは、過去に得られている臨床的な（医学研究の場合）知見に基づいて選択する方法。
どちらも大切なのだが、後者を行う上では、データの性状を観察することが重要だ。
今回は、多変数をどのように可視化するかについて。

Scatterplot matrix

data(iris) # irisデータを用いる。
pairs(iris[1:50, 1:4]) #50行4列だけ使う

panel.d <- function(x, ...) {
        usr <- par("usr")
        on.exit(par(usr))
        par(usr = c(usr[1:2], 0, .5))
        lines(density(x))
}
    
x <- scale(iris[1:50, 1:4])
r <- range(x)
pairs(x, diag.panel = panel.d, xlim = r, ylim = r)

    
library(lattice)
splom(iris[1:50, 1:4])    #先のデータでsplom
splom(iris[,1:4], groups = iris$Species) #Species でグループ分け
splom(~iris[1:4], groups = Species, data = iris,
        col = 1, pch = c(1, 2, 3),  cex = c(.5,.5,.5)) #白黒でマーク分け

f:id:yoshi_nishikawa:20161001150330p:plain