バイオインフォマティクス

日本語訳は生命情報科学国立衛生研究所(NIH)の生物医学情報科学技術イニシアチブ(BISTI)コンソーシアムの定義は、以下の通りである。

バイオインフォマティクス
生物学、医学、行動学、健康に関するデータの取得、蓄積、体系化、データベース化(archive)、解析及び可視化を含めた展開のためのコンピュータツール及びアプローチの研究、開発または応用

コンピュテーショナルバイオロジー
生物学、行動学及び社会システムの研究に関するデータ解析手法、理論的手法、数学的モデリング技術及びコンピューターシミュレーション技術の開発及び応用

バイオインフォマティクスは、ポストゲノム時代の競争の勝敗を分かつと言われるほど重要視されている分野である。まだ新しい分野であり、世界的に人材不足が叫ばれていおいる分野でもある。分子生物学と情報学の学際領域なので人材が少ないのだろう。*1最近では大学院の専門コースや生物学専攻の学部生向けに講義が行われる例もちらほら見かけるようになってきたが、日本では立ち遅れが指摘されている。*2

バイオインフォマティクスについて話す前に、ポストゲノム時代について少し触れておきたい。ポストゲノム時代とは、一般にヒトゲノム解読の完了後を指して使われる。ゲノム時代、つまりヒトゲノム解読の完了前は、いかにゲノム解読の効率を上げるかに注力されてきた。しかし、ゲノム解読が完了に近づくにつれ単にゲノムを解読しただけでは何の役にも立たないという事実に直面することになった。そうして、ポストゲノム時代の研究の方向性について盛んに議論されるようになったのである。

ポストゲノム時代で重要だと言われる問題領域には、発現プロファイルの解析、たんぱく質の機能性予測、たんぱく質の立体構造予測、パスウェイ解析などがある。これらの問題領域は、創薬の効率化、オーダーメイド医療、遺伝子医療、生命システムの解明といった応用が期待されている。これらの問題領域では、共通して大量のデータ処理を行う必要がある。例えば、発現プロファイル解析ではDNAチップやDNAマイクロアレイによって複数の遺伝子の発現状態を一度に調べることができるため大量のデータが生成される。これらのデータは統計解析などの手法を用いて既に解析された結果などと比較され、生物学的に意味のある結果が導き出される。こうして得られた情報は企業が抱える私的なデータベースや世界各地に点在する公的データベースに蓄積される。

発現プロファイルのデータベースには代表的なものとして、

などがある。

これはほんの一例に過ぎずこの他にも、たんぱく質機能データベースPROSITE(http://expasy.nhri.org.tw/prosite/)、たんぱく質の立体構造データベースPDB(http://www.rcsb.org/pdb/)、など様々な種類のデータベースが存在し世界中で解析が行われている。

こうしたデータを単にデータ処理をするだけならば、SIな人達がデータベースを構築して終わりなのだがポストゲノムで必要とされているデータ処理技術はその程度では間に合わない。というのも扱っているデータ量、複雑さ、ともに尋常ではなく汎用アルゴリズムでは満足の行く結果を得ることが難しい。こうした問題がうまく解決できていないのは、情報技術者が生物分野の素養をあまり養っていないからなのではないかと思う。汎用アルゴリズムは所詮汎用であり、本当に効率的な処理を行おうとしたらその問題領域固有の特性を取り込まなければならない。情報技術者が生物分野の素養がなければそういった問題領域固有の特性に対する勘が働かず、効率的なアルゴリズムは生まれないだろう。また、アルゴリズムだけでなく研究支援ツールに関しても同様のことが言えると思われる。かなり古い記事ではあるが、同様のことがNature jobs&event Japanに書かれていた

ざっとしか見ていないが、バイオインフォマティクスはまだまだこれからって感じを受ける。2010年には、国内だけでも20兆円を超える市場になるだろうという予測もあるようだし、分子生物学を勉強してみるのも悪くないかなと思った。

*1:従来、情報学を専攻している人間は物理を専攻するため生物学を学んでいるのは非常に稀である。

*2:ほとんどのソフトウェアは海外からの輸入に頼っている