福浦 附属病院 大庭です。 手塚先生とともに、大学でよく統計解析についての質問を受けるのですが、ある程度同じ内容について違う人から質問されることが多くなってきました。
そのため、手塚先生と相談して、基礎的な統計の知識について、皆様が見えるところに書いておいておくことにしました。
細かい部分の間違いがあるかもしれませんが、もし見つけたら m126014a@yokohama-cu.ac.jpまでおしらせください。
では第三回目の内容です。
散布図でデータの分布を見る
第2回目の内容で紹介した整然データの形でデータを収集した次は、このデータにどのような特徴があるかを見る段階になります。
データを収集する前に、概ねどのような傾向になりそうか、ある程度予想を立ててデータを集め始める訳ですが、いきなり検定を行ったりするのではなく、まずデータの分布を見てみるのが良いと思います。
その時に役立つのが「散布図」です。縦軸と横軸にいろいろなパラメータを取ってみて、そのデータにどのような特徴があるかを直感的に把握できる点で、散布図は役に立ちます。
例として「diamonds」というデータを使用します。これは約5万粒のダイアモンドについて、価格や大きさなどのデータを表にしたものです。
変数の名前にある、color や clarity、cutなどはいわゆるダイアモンドの4Cと呼ばれるダイアモンドの価値を決める要素になります。
まず、横軸にcarat(重さ)、縦軸にprice(値段)をとったシンプルな散布図です。
これを見て、いくつか気づく点を挙げてみましょう。自分なら
・大きさと値段は、比例関係というよりも指数関数的な関係にある?
・1、1.5、2といった、切りのいい数字の大きさにそろえられたものが多い?
・おなじカラット数でも値段にかなりばらつきがあることから、「品質」にかかわる因子がかなり価格に影響している?
といった感想を持ちます。
次に、4Cのうち color、色のグレードで各データポイントの色を塗り分けてみます。
これをみて、また気づく点を考えます。
例えば
・透明に近いグレードのものは小さくても価格が高くなりやすい。同じ大きさなら色の透明度によって価格が変わる。
・大きいものほど、透明であることが稀になる
・大きくて透明度が高いのに、そこまで高価値で取引されていないものがちらほらある
また、4cのうち clarity ( 透明度)によって色分けをした場合を示します。
これについても、どういった特徴があるかを考えてみてください。
最後に、これらのグラフを、Cutのグレードによって分けて(Facet)描いたものを示します。
やはり、良いダイアモンドは、グレードの高いカットを施されやすいのかなあ、とか思われます。
こんな感じに、整然データとして得たデータをいろいろな散布図にしてみて眺めてみると、データがなにを意味しているのか分かりやすいです。方向性を決めてデータを集めた場合でも、このようにデータを概観してみると、最初と違った発見があるかもしれません。
(参考)
医局でもEZRをお使いの先生をちらほら見かけるようになりました。
EZRに「ggplot2」というパッケージをインストールすると、これらの図をすぐに描くことができます。
例えばFig.4は (#はコメント)
Install.packages(“ggplot2”) #初回のみ必要
library(ggplot2) #パッケージ呼び出し
data(diamonds, package="ggplot2") #diamondデータを読み込む
g <- ggplot(diamonds, aes(x=carat, y=price, color=clarity)) + geom_point() + facet_grid(rows = vars(cut)) #ggplot2で散布図を描く操作をして、結果をgに代入
g # 結果を表示
で描けます。ggplot2の便利なところは、この4行目の中身をちょっと書き換えるだけで、Fig1-4のグラフをぱぱっと描けるところです。