Yoshi Nishikawa Blog

医学となにかのインタラクティブ

R

csvファイルの読み込み

元データから読み込む際に、高頻度で出現する(していた)R上のエラー。対応策を備忘録として残しておく。 読み込みたいcsvを「UTF-8」形式にしておく。 私はmiというエディタを用いている。 “as.is=T"を入れる 文字列、数値が混在していてもOK。もし、数値…

ggplot2でグラフ作成 (3)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2、の続き。この本、最後まで読み解いて分かるが、本当におすすめ。データを扱うすべての人が読んだら良いと思う。 コンテンツ 大きく分けて3部で構成され、全12章にわか…

MCMC

はじめての統計データ分析 「はじめての統計データ分析」 に関して覚書。 1章の記事はこちら。 2章のハイライト 1) MCMC(Markov chain Monte Carlo method)により事後分布のデータを用い、 2) MCMCには、Metropolis-Hasting method, Gibbs sampling methods,…

survival analysisをRのggplot2で行う

ggplot2でsurvival analysisのプロットをしたいときは、 GGally パッケージに含まれる、ggsurv関数がある。 https://cran.r-project.org/web/packages/GGally/GGally.pdf 自分でggsurv関数を入れ込みたい場合は以下を参照。 www.r-statistics.com 上記から転…

ggraphでグラフ作成

ggraph/README.md at master · thomasp85/ggraph · GitHub ggplot2 extensions: ggraph ggplotのextensionはこんなところにも。

Rで21世紀の相関係数を算出する(MIC)

相関 2変数とも連続データで,正規分布に従っているならばPearsonの相関係数を用いることができる。 少なくとも1変数が非連続データの時にはノンパラメトリック検定のSpearmanやKendallの相関係数を用いる。これらは、実データでなく、順位付け(大小関係)…

データ解析チートシート cheat sheet

チートシート R Studioのウェブサイトにまとまっており、 www.rstudio.com 以下のように様々なチートシートがある。 Data Wrangling with dplyr and tidyr Cheat Sheet Data Visualization with ggplot2 Cheat Sheet これは便利だ。

Network Meta-Analysisについて

Network Meta-Analysis (NMA) 従来のメタアナリシスの課題 従来のメタアナリシスでは、2つの治療についての比較しか得られない。例えばうつ病に対する薬剤には多くの種類があり、有効性・安全性・薬価は様々である。 そこで、利用可能なすべての薬剤につい…

qplotで日本語を使う

ggplotを手軽に ggplotのコードが覚えられない、忘れる。 何故かエラーになる、そんなことはありませんか? ggplotを手軽に行うための関数があります。 その名も、qplot(quickplot) qplot qplot. ggplot2 2.1.0 ここを参考に色々な事ができる。 plot関数に近…

GLMMを実装する

The glmmADMB package このパッケージを用いて、以下でinstallする。 install.packages("R2admb") install.packages("glmmADMB", repos=c("http://glmmadmb.r-forge.r-project.org/repos", getOption("repos")), type="source") これでzero inflationなどの…

circular statistics (角度統計)について

髄膜炎に関する論文 Seasonal dynamics of bacterial meningitis: a time-series analysis. The Lancet Global Health http://dx.doi.org/10.1016/S2214-109X(16)30064-X 以前読んだ論文。前回はWaveletについて述べた。今日は、角度統計(circular statistic…

疫学・統計・Rなどの役立つリンク集 (Useful Links for Epidemiology, Statistics, R etc)

統計学 Statistics 統計学の学習(Learning statistics) Basics of Statistics (Jarkko Isotalo) 統計解析結果のレポーティング(Reporting statistical results) JJCO誌のガイドラインは1997年と古い物だが、有用。 日本語:福田治彦、大橋靖雄「Japanese Jou…

羽鳥さんのR4DS

r4ds.had.co.nz データサイエンスとか、ビッグデータとか言った文言が流行っていますが、この際の作業の殆ど前処理です。 データサイエンティストの80%はマエショリストで出来ていると言っても過言ではありません。 世界でマエショリストを夢見るみんなへの…

WaveletCompを使って気象データの周期性を解析する

WaveletComp 以前読んだ論文を参考に、WaveletCompを使ってみた。 気象データ www.data.jma.go.jp ここからA村のデータをとってくる。 A村のデータ 5年間の気温、降水量、風速のデータを取得。以下で実装。 library(WaveletComp) w.temp <- analyze.wavelet(…

髄膜炎のGlobal Trendに関する時系列データ解析論文

髄膜炎に関する論文 Seasonal dynamics of bacterial meningitis: a time-series analysis. The Lancet Global Health http://dx.doi.org/10.1016/S2214-109X(16)30064-X 読んだ。 米プリンストン大学の研究者らからの報告。 髄膜炎の発症には、季節性があっ…

GIS再入門

岩波データサイエンス vol.4 読んでみた。 今回のテーマは、地理空間情報処理。再入門するには、基礎のところが良かった。あとは、個人情報保護の問題点まで、触れられていてよかった。雰囲気をつかむには良いと思われる。顧客データ等々の専門外のところは…

ggplot 2軸でプロットする

ggplot 美麗グラフが気に入っているのだが、そのままでは、左右で異なる軸を提示したいときにうまくいかない。 Rで解析:ggplot2の利便性が向上「plotflow」パッケージを参考にしたら、"plotflow"というパッケージを用いて二軸表示出来るようになった。 デー…

データクリーニング (1) dplyrを使いこなすための教材

データクリーニング データから、知識を入れて、情報を作る際には、以下のようなプロセスがある(と認識している)。 1データ収集→2データクリーニング→3解析・モデリング このプロセスにより、生データ→クリーニングされたデータ→解析用データ→結果、となる。…

ggplot2でグラフ作成 (2)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2、の続き。 コンテンツ 大きく分けて3部で構成され、全12章にわかれている。今回は第2回。 Part2 文法 4 文法 文法が大切である。 5 レイヤー データ、aes、stat、geom…

ggplot2でグラフ作成 (1)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2。読んでみた。 コンテンツ 大きく分けて3部で構成され、全12章にわかれている。 Part1 はじめる 1 イントロダクション 自身のGitHubなどが紹介されている。 いつもどお…

秋の気配のMontecarlo integration [5章]

モンテカルロ積分 Monte Carlo integrationは、random samplingに基づく統計手法である。 いつも通り公開コードを少しずつ改変しながら進める。 \begin{eqnarray} \theta = \int_m^{M} {e}^{-x}dx \end{eqnarray} n <- 10000 m<-3 ; M<-6 x <- runif(n, min=…

EZRを卒業する

R

EZRを卒業する EZRが、初学者にとても有用なツールであることは記した。 そして、多くのEZRユーザーは、起動時にEZRが起動するよう設定する。しかし、Rも十分に使えるようになってくると、逆にR起動時に、R コマンダー、EZRが開かれてしまうのは、何かと不便…

多変量の見せ方-2 [4章]

Rによる計算機統計学 Rによる計算機統計学を読んでいる。 英語の原書はこちら。 多変量の見せ方 の続き。lattice packageを用いて、3D scatterplotを作る。irisデータを用いる。 公開されているコードから少し改変してトライ。 3D scatterplot library(latti…

多変量の見せ方 [4章]

Rによる計算機統計学 Rによる計算機統計学を読んでいる。 英語の原書はこちら。 Rコードの例:R code examples 多変量の見せ方 データを分析するにあたり、統計手法は勿論大切なのだが、モデルを作るとき等の変数選択には、大きく分けて2通りのアプローチが…

確率変数 [3章]

Rによる計算機統計学 Rによる計算機統計学を読み始めた。 英語の原書はこちら。 Rコードの例:R code examples この本の特徴は、文献を豊富に引用しており、学習に拡がりをもたせることが出来る。 ただ、Rを最低限扱える人でないと厳しいと思う。 逆変換 乱…

Hadley Wickhamアニキのこと

Hadley Wickhamアニキ 各所でR神と崇められているHadley Wickham(ハドリーウィッカム)アニキの存在を、つい最近知った。 そのきっかけは、使っているpackageが気づいたらHadley Wickhamアニキのものばかりだった。しかもdplyr, ggplot2など、欠かせないもの…

わたしの統計解析の学習

Rを愛している Rは、フリーソフトで、可能な計算は多岐にわたる。 他の統計ソフトも用いてみたが、 1. パッケージの多様性 2. 関連書物・文献の増加 3. 無料であること という絶大なメリットが有る。 逆に、唯一デメリットといえるのが、コードの習得だ。私…

平均値の信頼区間とエラーバーの選定について [12章] [14章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は 12章, 14章について。 CI of the mean (平均値のCI) (Latexを使って以下、書いてみた。) 平均値のCIは、4つの値、サンプル平均、標準偏差、サンプルサイズ、信頼度により計算され…

数学解くガウス[回文] [10章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は 10章「ガウス分布」について。 この名前、恥ずかしながら初めて知ったが、いわゆる正規分布のことらしい。 Key words Gaussian distribution; norm distribution: KarL Gaussが180…

サンプルの散らばりを評価する dispersion [9章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は9章「散らばり」について。 「平均的な人間は1つの乳房と1つの精巣を備える。」 ーーーー統計学者 Des McHale 巻頭言から吹き出した。最高である。そして、「平均的な」議論だけ…