読者です 読者をやめる 読者になる 読者になる

Yoshi Nishikawa's Blog

データと知識、その調和平均。

ベイズ統計を学ぶ

ネット上にも、いろいろと教材が有るので、備忘録として載せておく。 Stan超初心者入門 階層モデルの分散パラメータの事前分布について 階層ベイズとWAIC Stanコードの書き方 中級編 Prior distributions for variance parameters in hierarchical models. A…

StanとRでベイズ統計モデリング

StanとRでベイズ統計モデリング (Wonderful R) 読んでいる。これは名著である。前半部分は、ベイズ統計関わらず、役立つ内容。とくに6章、モデリングの視点から確率分布に迫る箇所は、なかなかまとまったものがないので一見の価値あり。 1章 統計モデリング…

insetのある地図を作りたい

ArcGISでinsetのある地図を作る方法に関しては、ここで解説されている。 insetを入れるたびに探しているので、ここにリンクを貼り付けておく。 desktop.arcgis.com プレビュー画面と行き来しながら見ると良い。

csvファイルの読み込み

元データから読み込む際に、高頻度で出現する(していた)R上のエラー。対応策を備忘録として残しておく。 読み込みたいcsvを「UTF-8」形式にしておく。 私はmiというエディタを用いている。 “as.is=T"を入れる 文字列、数値が混在していてもOK。もし、数値…

5-フルオロウラシルによる高アンモニア血症では、異化産物のFBALとFMAが蓄積

抗がん薬5-FUで時々起こる「高アンモニア血症」を起こした症例の5-FU代謝物の血中濃度分析に関する論文の解説記事です。1990年代から仮説として提唱されていたことを実データとともに示しました。

フォレストプロットを描く~JMP編

JMP JMPという統計ソフトを用いて学んだ。 www.jmp.com SAS社が開発したソフトウェア。 Forest plot 以下のページでforest plotというアドインを以下で取得。Rでいうpackageですね。 community.jmp.com 同ページ内においてあったRosaMeta.jmpで作成 同ページ…

Epidemiology and the Delivery of Health Care Services: Methods and Applications

ざっと読んだ。 PART1 1. An Epidemiologic Framework for the Delivery of Health Care Services 2. Measurement Issues in the Use of Epidemiologic Data 3. Descriptive Epidemiological Methods 4. Epidemiological Study Designs for Evaluating Healt…

ggplot2でグラフ作成 (3)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2、の続き。この本、最後まで読み解いて分かるが、本当におすすめ。データを扱うすべての人が読んだら良いと思う。 コンテンツ 大きく分けて3部で構成され、全12章にわか…

MCMC

はじめての統計データ分析 「はじめての統計データ分析」 に関して覚書。 1章の記事はこちら。 2章のハイライト 1) MCMC(Markov chain Monte Carlo method)により事後分布のデータを用い、 2) MCMCには、Metropolis-Hasting method, Gibbs sampling methods,…

survival aNalysis ~no no R more~

(またおっさんホイホイなタイトルをつけてしまった) ggplot2でsurvival analysisのプロットをしたいときは、 GGally パッケージに含まれる、ggsurv関数がある。 https://cran.r-project.org/web/packages/GGally/GGally.pdf 自分でggsurv関数を入れ込みた…

Pubmedで文献検索

文献検索には型がある EBM資料集−最もシンプルで分かりやすいPubMed 検索法 [The SPELL] 文献検索とCritical Reading 若手研究者のためのシステマティックレビューの書き方指南 | Editage Insights 文献検索を我流でやっている勢も多いのではないかと思う今…

グラフ理論

読んだ。 1章 グラフの基礎 2章 最小全域木 3章 最短経路問題 4章 オイラー回路とハミルトン閉路 5章 グラフの彩色 6章 最大流問題 7章 マッチング グラフ理論の入門編としておすすめできる。 私が入門編の書物に求める要素 1. 読みやすい 具体例とともに簡…

ggraphでグラフ作成

ggraph/README.md at master · thomasp85/ggraph · GitHub ggplot2 extensions: ggraph ggplotのextensionはこんなところにも。

大腸がんスクリーニング (Colorectal Cancer Screening)

Colorectal Cancer Screening に関する書籍をざっと読んだ。大腸がんのスクリーニングが焦点。分子生物学的な観点も含めて記述してあって知識の確認になった。 Colorectal Cancer Pathways Petr Protiva Risk Factors and Screening for Colorectal Cancer J…

Rで21世紀の相関係数を算出する(MIC)

相関 2変数とも連続データで,正規分布に従っているならばPearsonの相関係数を用いることができる。 少なくとも1変数が非連続データの時にはノンパラメトリック検定のSpearmanやKendallの相関係数を用いる。これらは、実データでなく、順位付け(大小関係)…

データ解析チートシート cheat sheet

チートシート R Studioのウェブサイトにまとまっており、 www.rstudio.com 以下のように様々なチートシートがある。 Data Wrangling with dplyr and tidyr Cheat Sheet Data Visualization with ggplot2 Cheat Sheet これは便利だ。

Network Meta-Analysisについて

Network Meta-Analysis (NMA) 従来のメタアナリシスの課題 従来のメタアナリシスでは、2つの治療についての比較しか得られない。例えばうつ病に対する薬剤には多くの種類があり、有効性・安全性・薬価は様々である。 そこで、利用可能なすべての薬剤につい…

ポリファーマシー(Polypharmacy) [介護施設編]

ポリファーマシー(Polypharmacy)とは 単純に「4~6種類以上の薬を飲んでいる状態」をさすこともあるが、問題になるのは、不適切な多剤併用である。 これを受けて、Polypharmacyとは、往々にして「必要以上に薬を飲んでいて、薬による有害事象が起こっている…

可視セルのみをコピーする、隠れたA列を表示する

可視セルのみをコピーする ・Windows → 「Alt+;(セミコロン)」 ・Mac → 「shift + command + Z」 のショートカットキーで選択して貼り付ければOKです。 A列が表示されない場合 隠れたA列を表示するには、B列から左にドラッグして 2C と表示されてからマ…

qplotで日本語を使う

ggplotを手軽に ggplotのコードが覚えられない、忘れる。 何故かエラーになる、そんなことはありませんか? ggplotを手軽に行うための関数があります。 その名も、qplot(quickplot) qplot qplot. ggplot2 2.1.0 ここを参考に色々な事ができる。 plot関数に近…

GLMMを実装する

The glmmADMB package このパッケージを用いて、以下でinstallする。 install.packages("R2admb") install.packages("glmmADMB", repos=c("http://glmmadmb.r-forge.r-project.org/repos", getOption("repos")), type="source") これでzero inflationなどの…

google mapを用いてある地点のシェープファイルを生成する

シェープファイル(Shapefile)とは シェープファイル(Shapefile)とは、Esri 社の提唱したベクトル形式の業界標準フォーマットです。Esri 製品はもちろん、多くの GIS ソフトウェアで利用が可能です。シェープファイルは仕様が公開されています。シェープフ…

Mac bookのbootcampで起動したwindowsでスクリーンショットを撮る

ブートキャンプのウィンドウズでスクリーンショット Windowsをブートキャンプで起動することがあります。 私の場合、ArcGISを使う場合がほとんどです。 以下のサイトを参考にしました。 www.webantena.net 主に3つの方法があります。 osk (スクリーンキーボ…

UGT1A1*28*28と肺癌リスクについて

UGT1A1*28*28と肺癌リスクについての解説記事 最新の研究で、UGT1A1*28*28と肺癌の罹患との関係が明らかになりました。この研究は2016年11月10日のInternational Journal of Clinical Oncology誌(オンライン版)に掲載されました。本稿は、今年読んだ一番好…

circular statistics (角度統計)について

髄膜炎に関する論文 Seasonal dynamics of bacterial meningitis: a time-series analysis. The Lancet Global Health http://dx.doi.org/10.1016/S2214-109X(16)30064-X 以前読んだ論文。前回はWaveletについて述べた。今日は、角度統計(circular statistic…

疫学・統計・Rなどの役立つリンク集 (Useful Links for Epidemiology, Statistics, R etc)

統計学 Statistics 統計学の学習(Learning statistics) Basics of Statistics (Jarkko Isotalo) 統計解析結果のレポーティング(Reporting statistical results) JJCO誌のガイドラインは1997年と古い物だが、有用。 日本語:福田治彦、大橋靖雄「Japanese Jou…

羽鳥さんのR4DS

r4ds.had.co.nz データサイエンスとか、ビッグデータとか言った文言が流行っていますが、この際の作業の殆ど前処理です。 データサイエンティストの80%はマエショリストで出来ていると言っても過言ではありません。 世界でマエショリストを夢見るみんなへの…

WaveletCompを使って気象データの周期性を解析する

WaveletComp 以前読んだ論文を参考に、WaveletCompを使ってみた。 気象データ www.data.jma.go.jp ここからA村のデータをとってくる。 A村のデータ 5年間の気温、降水量、風速のデータを取得。以下で実装。 library(WaveletComp) w.temp <- analyze.wavelet(…

ワードで目次を作成する

プロトコル 研究プロトコルを作成するときに、目次を連動させたい。 プロトコルをワードで作成している。 TexではなくWord support.office.com 目次の作成(テキストの追加) | 初心者のためのOffice講座 基本は、それぞれの項目タイトル「見出し」に設定し…

QGISで日本地図を描く

GISに関するソフトウェア について、前回は、ArcGISというものを使ってみた。 QGIS QGISプロジェクトへようこそ! ここでインストールできる。 GDAL, python関係をインストールして、QGISを導入。 GDAL - Wikipedia 日本地図表示 QGISに地理院地図を追加する…

髄膜炎のGlobal Trendに関する時系列データ解析論文

髄膜炎に関する論文 Seasonal dynamics of bacterial meningitis: a time-series analysis. The Lancet Global Health http://dx.doi.org/10.1016/S2214-109X(16)30064-X 読んだ。 米プリンストン大学の研究者らからの報告。 髄膜炎の発症には、季節性があっ…

質的研究について

質的研究について Qualitative Research 質的研究の方法について、学んでみた。 数値で見るのが量的研究。 そうやって割り切れないものを見るのが質的研究。 調査する事象がどのように生起したか (how) を数値を使って説明する量的研究 (定量調査) とは異な…

標準化罹患比(SIR)と標準化死亡比(SMR)

SIRとSMR ある集団と、基準集団との疾病罹患・死亡の比較の指標について勉強してみた。 標準化罹患比 (SIR, Standardized Incidence Ratio) 人口構成の違いを除去して罹患率を比較するための指標。ある集団の罹患率が、基準となる集団と比べてどのくらい高い…

ソーシャルアントレプレナーシップについて

Entrepreneurship (アントレプレナーシップ) 少し文献を調べる機会があったので、忘れないうちに記述しておく。 アントレプレナーシップという単語は、1800年まで遡る。フランスの経済学者、Jean-Baptisteは以下のように述べた。 “The entrepreneur shifts e…

エビデンスレベルについての誤解がとけた

診療ガイドライン作成マニュアル 診療ガイドライン作成マニュアルを読んだ。 ガイドラインは、患者、医療者で意思決定を行う上で重要なツールである。 上記文献を読んだと同時に専門家に話を聞く機会があった。特にエビデンスレベルについて誤解していたので…

GIS再入門

岩波データサイエンス vol.4 読んでみた。 今回のテーマは、地理空間情報処理。再入門するには、基礎のところが良かった。あとは、個人情報保護の問題点まで、触れられていてよかった。雰囲気をつかむには良いと思われる。顧客データ等々の専門外のところは…

ggplot 2軸でプロットする

ggplot 美麗グラフが気に入っているのだが、そのままでは、左右で異なる軸を提示したいときにうまくいかない。 Rで解析:ggplot2の利便性が向上「plotflow」パッケージを参考にしたら、"plotflow"というパッケージを用いて二軸表示出来るようになった。 デー…

データクリーニング (1) dplyrを使いこなすための教材

データクリーニング データから、知識を入れて、情報を作る際には、以下のようなプロセスがある(と認識している)。 1データ収集→2データクリーニング→3解析・モデリング このプロセスにより、生データ→クリーニングされたデータ→解析用データ→結果、となる。…

ggplot2でグラフ作成 (2)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2、の続き。 コンテンツ 大きく分けて3部で構成され、全12章にわかれている。今回は第2回。 Part2 文法 4 文法 文法が大切である。 5 レイヤー データ、aes、stat、geom…

ggplot2でグラフ作成 (1)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2。読んでみた。 コンテンツ 大きく分けて3部で構成され、全12章にわかれている。 Part1 はじめる 1 イントロダクション 自身のGitHubなどが紹介されている。 いつもどお…

秋の気配のMontecarlo integration [5章]

モンテカルロ積分 Monte Carlo integrationは、random samplingに基づく統計手法である。 いつも通り公開コードを少しずつ改変しながら進める。 \begin{eqnarray} \theta = \int_m^{M} {e}^{-x}dx \end{eqnarray} n <- 10000 m<-3 ; M<-6 x <- runif(n, min=…

EZRを卒業する

R EZR

EZRを卒業する EZRが、初学者にとても有用なツールであることは記した。 そして、多くのEZRユーザーは、起動時にEZRが起動するよう設定する。しかし、Rも十分に使えるようになってくると、逆にR起動時に、R コマンダー、EZRが開かれてしまうのは、何かと不便…

多変量の見せ方-2 [4章]

Rによる計算機統計学 Rによる計算機統計学を読んでいる。 英語の原書はこちら。 多変量の見せ方 の続き。lattice packageを用いて、3D scatterplotを作る。irisデータを用いる。 公開されているコードから少し改変してトライ。 3D scatterplot library(latti…

多変量の見せ方 [4章]

Rによる計算機統計学 Rによる計算機統計学を読んでいる。 英語の原書はこちら。 Rコードの例:R code examples 多変量の見せ方 データを分析するにあたり、統計手法は勿論大切なのだが、モデルを作るとき等の変数選択には、大きく分けて2通りのアプローチが…

確率変数 [3章]

Rによる計算機統計学 Rによる計算機統計学を読み始めた。 英語の原書はこちら。 Rコードの例:R code examples この本の特徴は、文献を豊富に引用しており、学習に拡がりをもたせることが出来る。 ただ、Rを最低限扱える人でないと厳しいと思う。 逆変換 乱…

Hadley Wickhamアニキのこと

Hadley Wickhamアニキ 各所でR神と崇められているHadley Wickham(ハドリーウィッカム)アニキの存在を、つい最近知った。 そのきっかけは、使っているpackageが気づいたらHadley Wickhamアニキのものばかりだった。しかもdplyr, ggplot2など、欠かせないもの…

わたしの統計解析の学習

Rを愛している Rは、フリーソフトで、可能な計算は多岐にわたる。 他の統計ソフトも用いてみたが、 1. パッケージの多様性 2. 関連書物・文献の増加 3. 無料であること という絶大なメリットが有る。 逆に、唯一デメリットといえるのが、コードの習得だ。私…

平均値の信頼区間とエラーバーの選定について [12章] [14章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は 12章, 14章について。 CI of the mean (平均値のCI) (Latexを使って以下、書いてみた。) 平均値のCIは、4つの値、サンプル平均、標準偏差、サンプルサイズ、信頼度により計算され…

数学解くガウス[回文] [10章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は 10章「ガウス分布」について。 この名前、恥ずかしながら初めて知ったが、いわゆる正規分布のことらしい。 Key words Gaussian distribution; norm distribution: KarL Gaussが180…

サンプルの散らばりを評価する dispersion [9章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は9章「散らばり」について。 「平均的な人間は1つの乳房と1つの精巣を備える。」 ーーーー統計学者 Des McHale 巻頭言から吹き出した。最高である。そして、「平均的な」議論だけ…