福浦 附属病院 大庭です。 手塚先生とともに、大学でよく統計解析についての質問を受けるのですが、ある程度同じ内容について違う人から質問されることが多くなってきました。
そのため、手塚先生と相談して、基礎的な統計の知識について、皆様が見えるところに書いておいておくことにしました。
細かい部分の間違いがあるかもしれませんが、もし見つけたら m126014a@yokohama-cu.ac.jpまでおしらせください。
では第二回目の内容です。
整然データ 研究をしましょう、データを集めなさい、と言われたとき、エクセルを使ってデータを収集することが多いと思います。この次には統計解析ソフトウェアを用いて解析を行ったり、グラフを書いたりすると思います。しかし、データを解析したり加工する段階で躓いたり、わからなくなってしまうことが多いです。また、統計ソフトウェアでうまくデータを受け付けてくれないことがあると、かなりのストレスになります。 データを収集する際の記載の方法として、「整然データ」というものがあります。 (参考:https://id.fnshr.info/2017/01/09/tidy-data-intro/) 基本的には、上記のURLの内容を読んで理解してもらえれば一番簡単です。 ここでは、整形外科でよくある例を用いて、整然データとそうではない例をみていただき、どのように改善すればよいかをお話します。 <個々の観測が1つの行をなすルールの違反例>
上の表のどこがまずいかというと、一つの行に1か月、2か月、3か月の時点での観測が含まれてしまっているためです。
<個々の変数が一つの列をなすルールの違反例>
Implant の行に、Cupのサイズとstem のサイズの両方が記載されてしまっています。また、cup のサイズは寸法なので、連続変数に当たりますが、stem の番手は順序変数になります。したがって下記のような書き方が正しいです。
そして、このような整然データのルール以前に、エクセルを表計算ソフトとしてではなく、「枠を書くためのソフト」と思って使っているのだろうというデータを渡されることがあります。
例えばこういったデータを渡されて、統計解析のお手伝いをする場合に非常に困難を生じます。人間の目からみるとわかりやすいかもしれませんが、整然データのルールからすると無茶苦茶です。統計解析ソフトで解析する前に、このようなデータを整然データに直す必要があります(この作業をデータクリーニングといいます)が、大概このデータクリーニング作業に一番時間と労力を取られます。
ですので、最初から整然データの形式でデータを収集することをお勧めします。整然データの形式から、ほかのレイアウトにしたり、グラフを書いたりするのはさほど時間がかかりません。
そして、整然データと直接関係がない場合もありますが、データの表を作るときの「べからず」集です。上記の表にもいくつか当てはまるところがありますので、注意してみてください。
・セルの結合をつかうべからず
→整然データにならなくなります。
・変数名に日本語を使うべからず
→すべて半角英数字が無難です。
・変数名の中にスペースを使うべからず
→ソフトによってはスペースを変数の区切りと考えてしまうものがあり、混乱します。スペースではなく( _ アンダーバー)を使いましょう 例)× Ope date 〇 Ope_date
・データのセルのなかにコメントを入れるべからず。色をつけるのも同じ
・一つのセルに2つの数字を入れるべからず
・欠損データを「 」 空白セルにするべからず
→欠損データの書き方はソフトウェアによりルールがあります。例えばエクセルの場合欠損データは#N/A と書きます。こうすることで、ここのデータが無いということをソフトウェアが正しく認識します。そのほか「NA」「na」などを用いる場合もあります。空白をデフォルトで欠損と正しく認識するソフトもありますが、これらの記号を用いたほうが無難です。