Yoshi Nishikawa's Blog

データと知識、その調和平均。

ggplot 2軸でプロットする

ggplot 美麗グラフが気に入っているのだが、そのままでは、左右で異なる軸を提示したいときにうまくいかない。 Rで解析:ggplot2の利便性が向上「plotflow」パッケージを参考にしたら、"plotflow"というパッケージを用いて二軸表示出来るようになった。 デー…

データクリーニング (1) dplyrを使いこなすための教材

データクリーニング データから、知識を入れて、情報を作る際には、以下のようなプロセスがある(と認識している)。 1データ収集→2データクリーニング→3解析・モデリング このプロセスにより、生データ→クリーニングされたデータ→解析用データ→結果、となる。…

ggplot2でグラフ作成 (2)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2、の続き。 コンテンツ 大きく分けて3部で構成され、全12章にわかれている。今回は第2回。 Part2 文法 4 文法 文法が大切である。 5 レイヤー データ、aes、stat、geom…

ggplot2でグラフ作成 (1)

ggplot2 2016年に出版されたggplot2に関するHadley Wickhamによる著書。その名もggplot2。読んでみた。 コンテンツ 大きく分けて3部で構成され、全12章にわかれている。 Part1 はじめる 1 イントロダクション 自身のGitHubなどが紹介されている。 いつもどお…

秋の気配のMontecarlo integration [5章]

モンテカルロ積分 Monte Carlo integrationは、random samplingに基づく統計手法である。 いつも通り公開コードを少しずつ改変しながら進める。 \begin{eqnarray} \theta = \int_m^{M} {e}^{-x}dx \end{eqnarray} n <- 10000 m<-3 ; M<-6 x <- runif(n, min=…

EZRを卒業する

R EZR

EZRを卒業する EZRが、初学者にとても有用なツールであることは記した。 そして、多くのEZRユーザーは、起動時にEZRが起動するよう設定する。しかし、Rも十分に使えるようになってくると、逆にR起動時に、R コマンダー、EZRが開かれてしまうのは、何かと不便…

多変量の見せ方-2 [4章]

Rによる計算機統計学 Rによる計算機統計学を読んでいる。 英語の原書はこちら。 多変量の見せ方 の続き。lattice packageを用いて、3D scatterplotを作る。irisデータを用いる。 公開されているコードから少し改変してトライ。 3D scatterplot library(latti…

多変量の見せ方 [4章]

Rによる計算機統計学 Rによる計算機統計学を読んでいる。 英語の原書はこちら。 Rコードの例:R code examples 多変量の見せ方 データを分析するにあたり、統計手法は勿論大切なのだが、モデルを作るとき等の変数選択には、大きく分けて2通りのアプローチが…

確率変数 [3章]

Rによる計算機統計学 Rによる計算機統計学を読み始めた。 英語の原書はこちら。 Rコードの例:R code examples この本の特徴は、文献を豊富に引用しており、学習に拡がりをもたせることが出来る。 ただ、Rを最低限扱える人でないと厳しいと思う。 逆変換 乱…

Hadley Wickhamアニキのこと

Hadley Wickhamアニキ 各所でR神と崇められているHadley Wickham(ハドリーウィッカム)アニキの存在を、つい最近知った。 そのきっかけは、使っているpackageが気づいたらHadley Wickhamアニキのものばかりだった。しかもdplyr, ggplot2など、欠かせないもの…

わたしの統計解析の学習

Rを愛している Rは、フリーソフトで、可能な計算は多岐にわたる。 他の統計ソフトも用いてみたが、 1. パッケージの多様性 2. 関連書物・文献の増加 3. 無料であること という絶大なメリットが有る。 逆に、唯一デメリットといえるのが、コードの習得だ。私…

平均値の信頼区間とエラーバーの選定について [12章] [14章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は 12章, 14章について。 CI of the mean (平均値のCI) (Latexを使って以下、書いてみた。) 平均値のCIは、4つの値、サンプル平均、標準偏差、サンプルサイズ、信頼度により計算され…

数学解くガウス[回文] [10章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は 10章「ガウス分布」について。 この名前、恥ずかしながら初めて知ったが、いわゆる正規分布のことらしい。 Key words Gaussian distribution; norm distribution: KarL Gaussが180…

サンプルの散らばりを評価する dispersion [9章]

数学いらずの医科統計学 数学いらずの医科統計学 を読み解いている。 今日は9章「散らばり」について。 「平均的な人間は1つの乳房と1つの精巣を備える。」 ーーーー統計学者 Des McHale 巻頭言から吹き出した。最高である。そして、「平均的な」議論だけ…

ベイズ的<ポストp値時代>の統計学キーワード集

Keywords 「はじめての統計データ分析」 を読み解いています。 キーワードを列挙し、まとめていきます。 1章 2章 EAP (expected a posteriori) MED (posterior median) MAP (maximum a posteriori) 3章 4章 5章 6章

sourceでソースファイルを読み込み関数を呼び出す

ベイズ的~を読みこなすために、ソースファイル内の関数を呼び出す必要があった。そのために、source()について学んだので覚書をしておく。 macユーザーなので、まず、UTF-8に変更し、文字化けを防ぎ、 setwd("~/Rstan") #ワーキングディレクトリを設定 sourc…

日本語フォントをplotに表示させる

Rでplotするときに、□□□、などとなって日本語フォントが表示されない場合には、par()への設定をすれば解消する。 par(family="HiraKakuProN-W3") # ヒラギノ角ゴシックProN W3 par(family="HiraginoSans-W3") # ヒラギノ角ゴシック W3 par(family="HiraMaruP…

文字コードをmac対応のUTF-8に変更する

ベイズ的~の実装を試みても、 構文解析中に不正なマルチバイト文字列がありました (1 行) と表示されて全然Rファイルが文字化けして読み込めないので、文字コードをmac対応のUTF-8に変換してみました。 terminalでnkfコマンドを使うと、簡単に出来ます。 $ b…

地道に症例報告を記す〜CAREというガイドラインは有用か

論文執筆のためのガイドライン The EQUATOR Network | Enhancing the QUAlity and Transparency Of Health Researchには、数々の論文執筆のためのガイドラインが載せられている。 CARE ご多分に漏れず、症例報告にもCARE というガイドラインがある。 内容を…

データ整理にまつわるエトセトラ

お盆のお供にRStan お盆ですね。京都では、有名な五山の送り火があります。 とは言っても、病院に休みはありません。むしろ私は"休日当番"として働いています。その傍ら、「はじめての統計データ分析 ベイズ的<ポストp値時代>の統計学」を読み解いています。…

apply(), tapply()でグループデータに対応する

R の基本 University of California Santa BarbaraのサイトにR: A self learn tutorial が置いてあったので、これを活用しながら、基礎的な計算をRに「お願い」してみます。 Rはフリーソフトですが、慣れるという意味での時間的コストがかかります。本稿は、…

psych packageを用いた心理尺度開発・因子分析

尺度開発 尺度開発の手順 測定概念の決定 construct validity 項目作成content validity パイロット調査→微調整 本調査 各項目の基礎統計量確認 因子分析 factorial validity 信頼性係数の推定 criterion-related validity R Scree Plot psychというpackage…

地道に症例報告を記す〜EBM

症例報告とEBM EBM(Evidence Based Medicine)が浸透したいまだからこそ、症例報告を記すことが重要だと感じている。 EBM エビデンスレベルの1例として下記が挙げられる。[1] I システマティック・レビュー/RCTのメタアナリシス II 1つ以上のランダム化比較…

ArcGISで福島の空間線量をmapping

Mapping ArcGIS for Desktop (Esri Japan) を用いて福島県の2016年2月発表時の空間線量をマッピングしてみた。所属部局で分担して権利を購入している。 Comments 色々グラフィック的なものを入れやすく、レジェンドも綺麗に作れたので満足。 (よく見ると猪…

クオータニオンのこと quaternion

Quaternion Qaternionとは ・複素数を拡張した数体系である。 ・集合としては、四元数の全体 H は実数体上四次元の数ベクトル空間 R4 に等しい。 ・四元数は純粋数学のみならず応用数学、特に3Dグラフィクスやコンピュータビジョンにおいて三次元での回転の…

Rでヒートマップをつくる

ゲノム解析論文では頻出のheatmap(ヒートマップ)をRを用いて作ってみた。各種パッケージがあるようなので、色の設定とあわせて記しておく。 heatmapを使ってみる n1<-6 n2<-20 x<-matrix(rnorm(n1*n2),ncol=n1) x[sample(1:length(x),20)]<-10 heatmap(x) …

このブログについて

はじめまして。このブログに訪問いただき、ありがとうございます。 私は、消化器内視鏡(胃カメラ・大腸カメラ)、がん診療を専門とする内科医師です。 地域医療に携わり、そちらでは生活習慣病を含めた内科一般を診ています。 これまで、東京・福島・京都で…