Yoshi Nishikawa's Blog

データと知識、その調和平均。

R

tableone パッケージでtable1をつくる

臨床研究のtable1は 臨床系の研究で、図表を見ると、まず高確率で遭遇するtable1 八割がたこういう患者背景だ。 (リンク先が「図」表記になっているッ・・・!) これをいとも簡単に作成できるR packageがある。その名も・・・ tableone table1 = 表1だ。 …

ggplot2で平均値の推移をプロットする

http://nfunao.web.fc2.com/files/sgplot_vs_ggplot2.pdf http://nfunao.web.fc2.com/files/R-ggplot2.pdf CRAN - Package doBy このあたりが参考になる。 ちなみに、 package “gplot"には、plotmeansという便利関数がある。

NAのある行を削除する

ある変数hogeの中に、NA(欠測値)があり、それを含む行だけを削除したい時。 data[complete.cases(data$hoge), ] でOK。

記述統計に立ち返る

記述統計にはいつもsummaryを使っていたが、 summary(data) を利用していたが、psych パッケージの describe(data) mean, sd, median, range, se, (歪度: skewness)https://en.wikipedia.org/wiki/Skewness, (尖度: Kurtosis)https://en.wikipedia.org/wiki/…

ベイズ統計を学ぶ

ネット上にも、いろいろと教材が有るので、備忘録として載せておく。 Stan超初心者入門 階層モデルの分散パラメータの事前分布について 階層ベイズとWAIC Stanコードの書き方 中級編 Prior distributions for variance parameters in hierarchical models. A…

StanとRでベイズ統計モデリング

StanとRでベイズ統計モデリング (Wonderful R) 読んでいる。これは名著である。前半部分は、ベイズ統計関わらず、役立つ内容。とくに6章、モデリングの視点から確率分布に迫る箇所は、なかなかまとまったものがないので一見の価値あり。 1章 統計モデリング…

csvファイルの読み込み

元データから読み込む際に、高頻度で出現する(していた)R上のエラー。対応策を備忘録として残しておく。 読み込みたいcsvを「UTF-8」形式にしておく。 私はmiというエディタを用いている。 “as.is=T"を入れる 文字列、数値が混在していてもOK。もし、数値…

ggplot2でグラフ作成 (3)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2、の続き。この本、最後まで読み解いて分かるが、本当におすすめ。データを扱うすべての人が読んだら良いと思う。 コンテンツ 大きく分けて3部で構成され、全12章にわか…

MCMC

はじめての統計データ分析 「はじめての統計データ分析」 に関して覚書。 1章の記事はこちら。 2章のハイライト 1) MCMC(Markov chain Monte Carlo method)により事後分布のデータを用い、 2) MCMCには、Metropolis-Hasting method, Gibbs sampling methods,…

survival aNalysis ~no no R more~

(またおっさんホイホイなタイトルをつけてしまった) ggplot2でsurvival analysisのプロットをしたいときは、 GGally パッケージに含まれる、ggsurv関数がある。 https://cran.r-project.org/web/packages/GGally/GGally.pdf 自分でggsurv関数を入れ込みた…

ggraphでグラフ作成

ggraph/README.md at master · thomasp85/ggraph · GitHub ggplot2 extensions: ggraph ggplotのextensionはこんなところにも。

Rで21世紀の相関係数を算出する(MIC)

相関 2変数とも連続データで,正規分布に従っているならばPearsonの相関係数を用いることができる。 少なくとも1変数が非連続データの時にはノンパラメトリック検定のSpearmanやKendallの相関係数を用いる。これらは、実データでなく、順位付け(大小関係)…

データ解析チートシート cheat sheet

チートシート R Studioのウェブサイトにまとまっており、 www.rstudio.com 以下のように様々なチートシートがある。 Data Wrangling with dplyr and tidyr Cheat Sheet Data Visualization with ggplot2 Cheat Sheet これは便利だ。

Network Meta-Analysisについて

Network Meta-Analysis (NMA) 従来のメタアナリシスの課題 従来のメタアナリシスでは、2つの治療についての比較しか得られない。例えばうつ病に対する薬剤には多くの種類があり、有効性・安全性・薬価は様々である。 そこで、利用可能なすべての薬剤につい…

qplotで日本語を使う

ggplotを手軽に ggplotのコードが覚えられない、忘れる。 何故かエラーになる、そんなことはありませんか? ggplotを手軽に行うための関数があります。 その名も、qplot(quickplot) qplot qplot. ggplot2 2.1.0 ここを参考に色々な事ができる。 plot関数に近…

GLMMを実装する

The glmmADMB package このパッケージを用いて、以下でinstallする。 install.packages("R2admb") install.packages("glmmADMB", repos=c("http://glmmadmb.r-forge.r-project.org/repos", getOption("repos")), type="source") これでzero inflationなどの…

circular statistics (角度統計)について

髄膜炎に関する論文 Seasonal dynamics of bacterial meningitis: a time-series analysis. The Lancet Global Health http://dx.doi.org/10.1016/S2214-109X(16)30064-X 以前読んだ論文。前回はWaveletについて述べた。今日は、角度統計(circular statistic…

疫学・統計・Rなどの役立つリンク集 (Useful Links for Epidemiology, Statistics, R etc)

統計学 Statistics 統計学の学習(Learning statistics) Basics of Statistics (Jarkko Isotalo) 統計解析結果のレポーティング(Reporting statistical results) JJCO誌のガイドラインは1997年と古い物だが、有用。 日本語:福田治彦、大橋靖雄「Japanese Jou…

羽鳥さんのR4DS

r4ds.had.co.nz データサイエンスとか、ビッグデータとか言った文言が流行っていますが、この際の作業の殆ど前処理です。 データサイエンティストの80%はマエショリストで出来ていると言っても過言ではありません。 世界でマエショリストを夢見るみんなへの…

WaveletCompを使って気象データの周期性を解析する

WaveletComp 以前読んだ論文を参考に、WaveletCompを使ってみた。 気象データ www.data.jma.go.jp ここからA村のデータをとってくる。 A村のデータ 5年間の気温、降水量、風速のデータを取得。以下で実装。 library(WaveletComp) w.temp <- analyze.wavelet(…

髄膜炎のGlobal Trendに関する時系列データ解析論文

髄膜炎に関する論文 Seasonal dynamics of bacterial meningitis: a time-series analysis. The Lancet Global Health http://dx.doi.org/10.1016/S2214-109X(16)30064-X 読んだ。 米プリンストン大学の研究者らからの報告。 髄膜炎の発症には、季節性があっ…

GIS再入門

岩波データサイエンス vol.4 読んでみた。 今回のテーマは、地理空間情報処理。再入門するには、基礎のところが良かった。あとは、個人情報保護の問題点まで、触れられていてよかった。雰囲気をつかむには良いと思われる。顧客データ等々の専門外のところは…

ggplot 2軸でプロットする

ggplot 美麗グラフが気に入っているのだが、そのままでは、左右で異なる軸を提示したいときにうまくいかない。 Rで解析:ggplot2の利便性が向上「plotflow」パッケージを参考にしたら、"plotflow"というパッケージを用いて二軸表示出来るようになった。 デー…

データクリーニング (1) dplyrを使いこなすための教材

データクリーニング データから、知識を入れて、情報を作る際には、以下のようなプロセスがある(と認識している)。 1データ収集→2データクリーニング→3解析・モデリング このプロセスにより、生データ→クリーニングされたデータ→解析用データ→結果、となる。…

ggplot2でグラフ作成 (2)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2、の続き。 コンテンツ 大きく分けて3部で構成され、全12章にわかれている。今回は第2回。 Part2 文法 4 文法 文法が大切である。 5 レイヤー データ、aes、stat、geom…

ggplot2でグラフ作成 (1)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2。読んでみた。 コンテンツ 大きく分けて3部で構成され、全12章にわかれている。 Part1 はじめる 1 イントロダクション 自身のGitHubなどが紹介されている。 いつもどお…

秋の気配のMontecarlo integration [5章]

モンテカルロ積分 Monte Carlo integrationは、random samplingに基づく統計手法である。 いつも通り公開コードを少しずつ改変しながら進める。 \begin{eqnarray} \theta = \int_m^{M} {e}^{-x}dx \end{eqnarray} n <- 10000 m<-3 ; M<-6 x <- runif(n, min=…

EZRを卒業する

R EZR

EZRを卒業する EZRが、初学者にとても有用なツールであることは記した。 そして、多くのEZRユーザーは、起動時にEZRが起動するよう設定する。しかし、Rも十分に使えるようになってくると、逆にR起動時に、R コマンダー、EZRが開かれてしまうのは、何かと不便…

多変量の見せ方-2 [4章]

Rによる計算機統計学 Rによる計算機統計学を読んでいる。 英語の原書はこちら。 多変量の見せ方 の続き。lattice packageを用いて、3D scatterplotを作る。irisデータを用いる。 公開されているコードから少し改変してトライ。 3D scatterplot library(latti…

多変量の見せ方 [4章]

Rによる計算機統計学 Rによる計算機統計学を読んでいる。 英語の原書はこちら。 Rコードの例:R code examples 多変量の見せ方 データを分析するにあたり、統計手法は勿論大切なのだが、モデルを作るとき等の変数選択には、大きく分けて2通りのアプローチが…

確率変数 [3章]

Rによる計算機統計学 Rによる計算機統計学を読み始めた。 英語の原書はこちら。 Rコードの例:R code examples この本の特徴は、文献を豊富に引用しており、学習に拡がりをもたせることが出来る。 ただ、Rを最低限扱える人でないと厳しいと思う。 逆変換 乱…

Hadley Wickhamアニキのこと

Hadley Wickhamアニキ 各所でR神と崇められているHadley Wickham(ハドリーウィッカム)アニキの存在を、つい最近知った。 そのきっかけは、使っているpackageが気づいたらHadley Wickhamアニキのものばかりだった。しかもdplyr, ggplot2など、欠かせないもの…

わたしの統計解析の学習

Rを愛している Rは、フリーソフトで、可能な計算は多岐にわたる。 他の統計ソフトも用いてみたが、 1. パッケージの多様性 2. 関連書物・文献の増加 3. 無料であること という絶大なメリットが有る。 逆に、唯一デメリットといえるのが、コードの習得だ。私…

平均値の信頼区間とエラーバーの選定について [12章] [14章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は 12章, 14章について。 CI of the mean (平均値のCI) (Latexを使って以下、書いてみた。) 平均値のCIは、4つの値、サンプル平均、標準偏差、サンプルサイズ、信頼度により計算され…

数学解くガウス[回文] [10章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は 10章「ガウス分布」について。 この名前、恥ずかしながら初めて知ったが、いわゆる正規分布のことらしい。 Key words Gaussian distribution; norm distribution: KarL Gaussが180…

サンプルの散らばりを評価する dispersion [9章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は9章「散らばり」について。 「平均的な人間は1つの乳房と1つの精巣を備える。」 ーーーー統計学者 Des McHale 巻頭言から吹き出した。最高である。そして、「平均的な」議論だけ…

ベイズ的<ポストp値時代>の統計学キーワード集

Keywords 「はじめての統計データ分析」 を読み解いています。 キーワードを列挙し、まとめていきます。 1章 2章 EAP (expected a posteriori) MED (posterior median) MAP (maximum a posteriori) 3章 4章 5章 6章

sourceでソースファイルを読み込み関数を呼び出す

ベイズ的~を読みこなすために、ソースファイル内の関数を呼び出す必要があった。そのために、source()について学んだので覚書をしておく。 macユーザーなので、まず、UTF-8に変更し、文字化けを防ぎ、 setwd("~/Rstan") #ワーキングディレクトリを設定 sourc…

日本語フォントをplotに表示させる

Rでplotするときに、□□□、などとなって日本語フォントが表示されない場合には、par()への設定をすれば解消する。 par(family="HiraKakuProN-W3") # ヒラギノ角ゴシックProN W3 par(family="HiraginoSans-W3") # ヒラギノ角ゴシック W3 par(family="HiraMaruP…

データ整理にまつわるエトセトラ

お盆のお供にRStan お盆ですね。京都では、有名な五山の送り火があります。 とは言っても、病院に休みはありません。むしろ私は"休日当番"として働いています。その傍ら、「はじめての統計データ分析 ベイズ的<ポストp値時代>の統計学」を読み解いています。…

apply(), tapply()でグループデータに対応する

R の基本 University of California Santa BarbaraのサイトにR: A self learn tutorial が置いてあったので、これを活用しながら、基礎的な計算をRに「お願い」してみます。 Rはフリーソフトですが、慣れるという意味での時間的コストがかかります。本稿は、…

psych packageを用いた心理尺度開発・因子分析

尺度開発 尺度開発の手順 測定概念の決定 construct validity 項目作成content validity パイロット調査→微調整 本調査 各項目の基礎統計量確認 因子分析 factorial validity 信頼性係数の推定 criterion-related validity R Scree Plot psychというpackage…

クオータニオンのこと quaternion

Quaternion Qaternionとは ・複素数を拡張した数体系である。 ・集合としては、四元数の全体 H は実数体上四次元の数ベクトル空間 R4 に等しい。 ・四元数は純粋数学のみならず応用数学、特に3Dグラフィクスやコンピュータビジョンにおいて三次元での回転の…

Rでヒートマップをつくる

ゲノム解析論文では頻出のheatmap(ヒートマップ)をRを用いて作ってみた。各種パッケージがあるようなので、色の設定とあわせて記しておく。 heatmapを使ってみる n1<-6 n2<-20 x<-matrix(rnorm(n1*n2),ncol=n1) x[sample(1:length(x),20)]<-10 heatmap(x) …