Rで21世紀の相関係数を算出する(MIC)
相関
2変数とも連続データで,正規分布に従っているならばPearsonの相関係数を用いることができる。
少なくとも1変数が非連続データの時にはノンパラメトリック検定のSpearmanやKendallの相関係数を用いる。これらは、実データでなく、順位付け(大小関係)で判定する。
これらの相関係数は、線形相関を見ている。
(訂正:Pearsonは線形の相関を調べるが、SpearmanやKendallは順位だけで見るので線形の仮定は要らない)
非線形相関を実データで調べる
Rにminervaというpackageがある。
MIC(Maximal information coefficient)は実データによる非線形相関係数も応用可能。
直線的な相関はピアソンで良いのですが、そうでないものは、順位検定になります。
直線ではない視覚的には明らかな相関を実データを用いて証明したい場合には、MICは有効かも。
R二乗値
エクセルでのR二乗値についての質問を受けたので、覚書程度に。
Microsoft officeのサイトによると、R二乗値(決定係数といいます)が近似曲線と並んで出る。近似曲線を引いた場合、その近似曲線がどのくらい実データを近似できているか、ということ。0.8を超えていたらよく、1に近いほどgood。
ここで、決定係数は、直線近似では相関係数の二乗ですが、非線形回帰では相関を示すものではない。 http://note.chiebukuro.yahoo.co.jp/detail/n168494
なので、「指数関数にこのくらい近似できる!!」とはいえても、「これくらい相関している」と言うためには注意を要する。
MICは、Science誌でも「21世紀の相関」として取り上げられている手法。
今度相関を調べる機会に使ってみようと思います。