専門外の人でも『遺伝統計学の基礎』を読むべき理由

概要
遺伝研究者だけでなく、統計を使う必要がある人ならば読むに値する。やさしくはないが、様々な統計手法が分かりやすく書かれている。また、概念でなく、目的や意義をベースに説明しているという特徴がある。

はじめに

今日は、以下の遺伝統計学に関する本を紹介したい。タイトルに「遺伝統計学」と書かれているが、遺伝と関係のない分野の人にとっても、統計を学ぶ際に有用な本であると思う。

この本は、タイトルにあるように、遺伝に関わる現象を数理的・統計的に扱う手法について書かれている。このため、出てくる事例は遺伝に関するものが多いが、この本で扱われている数理的・統計的手法は他の分野に通用する。

また、説明も非常に分かりやすく、かなり読みやすい教科書である。遺伝の研究者であるかどうかに関わらず、統計を使う必要がある分野の人ならこの本を読んでおいても損はないだろう。なお、言語研究者として言わせてもらうと、コーパス処理をする人、特にテキストマイニング的なことをする人にとって、この本は有用であると思う [1]

読む前に注意すべきこと

この本は決してやさしい [2] 本ではない。統計もRも全然知らないという人が読んでも理解できないだろう。最低限の知識として、高校での数学や、大学初年次で学ぶような数学の知識(行列、微積など)が必要となるだろう。また、グラフ理論などにも触れたことがあるとよいし、統計も基礎的な知識(簡単な検定の行い方など)があるとよい。また、R の使い方の説明はあまり詳しくないので、他の本を読んでおくとよいと思う。

「ryamada本を教科書として用いることが可能な知識の前提条件」という記述があったので、これも参照されたい。

また、著者が作ったウェブサイトにこの本についていろいろな記述がある。

特徴

内容

以下で、この本の内容について、簡単に述べていきたい。詳しい目次は、出版元のオーム社の紹介ページに載っているので、そちらを参照されたい。

最初の3章は、遺伝に関する基本的な概念について述べている。遺伝とは何か、染色体とは何か、DNAの複製や組み換えはどう起きるのかといったごく基礎的な話から説明している [6] 。第3章になると、ハーディ・ワインバーグ平衡など少し高度な話が出てくるが。最初の3章で扱っている統計に関する概念としては、期待値・分散・共分散・モーメントなどがある。後は、遺伝子の組み換えがどう起こるのか、数理的モデルを R でシミュレーションしてみるといった内容もある。

第4章で扱われている内容としては、データ型の話、関係、距離などがある。

第5章は、タイトルの通り、サンプルを個別に捉えることをしている。主にグラフ理論に関するものを扱っている。端的に言えば、個々のサンプルをグラフのノードと見て何らかの処理を行うということがメインテーマである。クラスタリングやネットワークの話などもある。第6章では、サンプルを集団として捉えると称して、散布図を作ったり、非階層的クラスタリングなどをしている。

第7章では、分割表、分散分析、自由度、固有値分解などの話がある。

第8章は、ひたすら確率分布の話が書かれている。第9章はタイトルの通り、確率と尤度の話をしている。この2章は新しい技法を紹介するというより、統計を勉強するに当たっての数学的基礎について触れているという印象だ。第10章は第9章の内容を受けて、DNAの連鎖解析の事例を挙げている。第11章は、4ページしかなく非常に短いが、「指数は相対的な値」ということを中心として述べようとしているようだ。

第12章は、最尤推定、信頼区間、ベイズ推定、EMアルゴリズムが扱われている。第13章は、主に分割表に関する検定が題材として挙げられている。第14章は、短くてあまり大したことは書いていないが、因果関係、有向グラフ、ベイジアンネットワークの話が挙げられている。

第15章は、あり得る組み合わせの数や分割の方法の数、木やグラフのパターンの数を数え上げるにはどうすれば良いかということが書かれている。第16章は、主に抽出と近似の問題が扱われ、ランダムサンプリングやランダムウォーク、極値分布や多項式近似などが紹介されている。

第17章は、タイトルの通り、複数の検定が行われる際に、どう解釈すればよいかということが書かれている。

追記(2012年7月7日)

この書評に関して、著者の方のブログで「目的・意義ベース」というタイトルでコメントをいただいた。私は上で「重要な用語は太字になっている」と書いたが、著者の方に言わせると、太字は「相互リンクを張ってある用語」となるとのことである。索引を活用して、他のところを参照する対象ということだろう。

この他、『ryamada の弟子日記(遺伝学・統計遺伝学・数学・コンピュータのメモ)』にて、「「言語研究者のための統計の学び方」を「統計遺伝学者のための統計の学び方」として読み直してみる(総論)」というタイトルで、本記事に触れていただいたので、ここに紹介しておく。

脚注
  1. なお、言語の系統の分析は生物の系統の分析と同じように行えるので、そういった言語分析をしたい人にも有用。 []
  2. やさしくないとわかりにくいはイコールでないことに注意。 []
  3. もちろん、単にタイトルだけの問題ではなくて、地の文もそのような感じでやっている。 []
  4. 例えば、この本ではあちこちで階乗 (n!) を計算すら際に、階乗そのものではなくガンマ函数を用いている。それを理解するには、階乗とガンマ函数との関係を知らなくてはならない。だが、この本で階乗とガンマ函数の関係が出てくるのは、中盤の第12章。 []
  5. あとは、分からない用語があったら、ネットで検索して説明がないか探してみるというのでも良いだろう。 []
  6. 高校の生物の教科書にも載っている程度の話である。生命科学が専門でない人でも、食わず嫌いにならなければ問題なく理解できると思う。 []