Yoshi Blog

Public Health and Case Study

Rで21世紀の相関係数を算出する(MIC)

相関

2変数とも連続データで,正規分布に従っているならばPearsonの相関係数を用いることができる。
少なくとも1変数が非連続データの時にはノンパラメトリック検定のSpearmanやKendallの相関係数を用いる。これらは、実データでなく、順位付け(大小関係)で判定する。
これらの相関係数は、線形相関を見ている。 (訂正:Pearsonは線形の相関を調べるが、SpearmanやKendallは順位だけで見るので線形の仮定は要らない)

非線形相関を実データで調べる

Rにminervaというpackageがある。 MIC(Maximal information coefficient)は実データによる非線形相関係数も応用可能。
直線的な相関はピアソンで良いのですが、そうでないものは、順位検定になります。
直線ではない視覚的には明らかな相関を実データを用いて証明したい場合には、MICは有効かも。

www.r-bloggers.com

R二乗値

エクセルでのR二乗値についての質問を受けたので、覚書程度に。
Microsoft officeのサイトによると、R二乗値(決定係数といいます)が近似曲線と並んで出る。近似曲線を引いた場合、その近似曲線がどのくらい実データを近似できているか、ということ。0.8を超えていたらよく、1に近いほどgood。

ここで、決定係数は、直線近似では相関係数の二乗ですが、非線形回帰では相関を示すものではない。 http://note.chiebukuro.yahoo.co.jp/detail/n168494

なので、「指数関数にこのくらい近似できる!!」とはいえても、「これくらい相関している」と言うためには注意を要する。

MICは、Science誌でも「21世紀の相関」として取り上げられている手法。

今度相関を調べる機会に使ってみようと思います。