ホモロジーサーチ

緒方博之 金久實

* OGATA Hiroyuki, KANEHISA Minoru / 京都大学化学研究所


−要旨−
アミノ酸配列間の類似性は進化的な関係を示唆し,進化的に関係の あるタンパク質は,立体構造や機能において類似している.したがっ て二本の配列に予期せぬ配列との類似性が得られれば大きな発見に つながることも少なくない.配列解析の基本的な手法であるホモロ ジーサーチがいかにして類似配列をデータベース中に検索するのか, 本稿ではその利用法も含めて紹介する.
【キーワード】 ゲノム計画、ホモロジーサーチ、モチーフサーチ、立体構造ホモロジー、 計算機生物学


はじめに
今から約 40 億年前地球上に最初の細胞が誕生して以来,DNA は 自己複製を繰り返し細胞から細胞へと代々受け継がれてきた.自分 の宿となる細胞が必要とするタンパク質と RNA をコードする DNA は,その情報にランダムな変化を受け自然選択を乗り越えて 代々子孫へと受け継がれてきており,現在もなおその営みは繰り返 されている.細胞内の DNA に蓄えられている全遺伝情報をゲノム という.1990 年代初頭から,ヒト,その他様々な生物の全ゲノム あるいは全遺伝子の塩基配列を決定するためのプロジェクトが各国 で始まり,多くの研究室の協力により進められている.ゲノム DNA 上のA, T, G, Cの塩基の並び(ヒトの場合 30 億塩基対)を全 て決定する作業はいくつかのステップに分かれており,比較的短い DNA 断片の塩基配列を決定する作業はすでに多くの研究室で自動 化されている.だが,470 万塩基対の小さなゲノムを持つ大腸菌の 染色体でさえ,まだ完全な決定には至っておらず( 60 % はすでに 決定されている),ましてや塩基の数で約 1000 倍の遺伝情報をも つヒトゲノムの塩基配列決定の道のりは長い.しかしこれまでの医 学の歴史に解剖学が大きな役割を果たしたように,様々な生物の遺 伝子を DNA レベルで解剖することにより,生命の神秘は少しずつ ひもとかれ,遺伝子診断・治療,薬剤開発,農作物の改良など,医・ 薬・農・工の広い分野にわたる成果があがりつつあり,今後の期待 も極めて大きい.ここでは,日々増加している核酸とタンパク質の 大量な配列データを有効に利用するための最も手軽で最も基本的な 手法であるホモロジーサーチ(相同性検索)について,そのインター ネットを介した利用法を含めて紹介する.

まず,DNA の塩基配列とタンパク質の性質がどのような関係に あったのか振り返ってみよう.遺伝子の上流にはその遺伝子に特有 の DNA 配列があり,そこに転写因子(タンパク質)が結合し, RNA ポリメラーゼにより遺伝子の塩基配列はメッセンジャー RNA にコピー(転写)される.メッセンジャー RNA はタンパク質合成 工場であるリボソームに移動し,メッセンジャー RNA の塩基配列 の簡単な解読(翻訳)によりトランスファー RNA が引き連れてき たアミノ酸が鎖状に繋げられてタンパク質が合成される.様々な遺 伝子のコピーと解読の過程を経て合成されたタンパク質は,それぞ れ固有のアミノ酸配列を持っており周囲の環境とその物理化学的性 質に従って折り畳まり,細胞内・外の適切な場所でその役割を果た す.このことが即ち遺伝情報の発現である.

アミノ酸の配列が分かればそのタンパク質分子の化学構造式が分 かり,化学構造式によって表される実際の原子の並びは物理化学の 法則に基づいて運動し酵素機能を果たしたり筋肉を形成したりする のだが,ある一本の塩基配列そしてアミノ酸配列を見ただけで,そ の性質を予測することは極めて難しい.それならば,何ができるの か.立体構造や機能の知られていないアミノ酸やそれをコードする DNA の配列が手元にあるときに,最初にやるべきことがホモロジー サーチである.ホモロジーサーチとはデータベースの中に自分が持っ ている配列と似ている配列がないかと検索することで,その結果, 運よく似た配列が見つかり,その配列の構造や機能について良く調 べられていれば,自分の持っている配列も類似した機能や立体構造 を持っているだろうと類推できる.配列間の類似性は進化的な関係 を示唆し,進化的に関係のある,つまり遺伝子の重複や種の分化に よって共通の祖先から分かれたタンパク質は,立体構造や機能にお いても類似しているであろうという仮定を基礎とした推論である. 予期せぬ配列との類似性が得られれば大きな発見につながることも 少なくない.

1.ホモロジーとアラインメント
(1) ホモロジー
相同という言葉は,起源が共通の器官をさすのにしばしば使用さ れてきたが,現在では染色体,タンパク質のアミノ酸配列,DNA の塩基配列にも使用されるようになっている.

相同なアミノ酸配列をならべると似ている度合いが良く分かる (図1).ただし進化の過程で起こった DNA 上の突然変異はアミ ノ酸の置換を招くだけでなく欠失・挿入も起こすので,適宜ハイフ ン "-" で表されるギャップを入れてアラインメントを作成する.進 化的に離れていればいるほど保存された領域は通常少なくなり,全 体で一致しているアミノ酸が減少していく.人工的に作ったランダ ムな2本の配列でさえギャップを入れてうまいこと並べると 10〜 20 % のアミノ酸が一致してしまう1).従って,20 % の一致に満た ないタンパク質間の相同性をアラインメントだけから示唆すること は難しく,アミノ酸が 20 % 以上一致していれば二本の配列は相同 なアミノ酸配列である可能性が高い.

(2) アラインメント
残基間の対応付けの尺度,つまり残基間の類似性スコアを用い, ギャップに適当なペナルティーを課したならば,アラインメントを 作成する作業は,横に並んだ2本(あるいは複数)の文字列にスコ アを最大にするようにギャップを入れるという問題を解くことであ り,組み合わせ最適化問題として計算機によって解決できる.核酸 配列では一致した回数,アミノ酸配列では PAM行列2) などがスコ アとしてしばしば使用されるが,これまでに数十もの様々なスコア が提案されている.

アミノ酸配列であれ核酸配列であれ,ダイナミックプログラミン グ( DP )と呼ばれるアルゴリズム(計算手順)により配列の長さ の積に比例した計算量で最適なアラインメントを得ることができる 3).DP は格子上の可能な経路のうち最高のスコアを与える経路を 計算し,最適アラインメントを見出すのである(図2).

しかし,ある一本の配列(質問配列)をデータベースに対して DP を用いて検索する場合,計算量は(質問配列の長さ)×(デー タベース中の配列の長さの和)の程度となり,実際には要求される 大量な検索にはとても対応しきれない.そこでホモロジーサーチ用 の高速アルゴリズムがいくつか開発されている.以下では BLAST4) と FASTA5) について述べる.両者とも質問配列の部分配 列と類似した配列をデータベース中に検索する.

2.ホモロジーサーチ
(1) BLAST のアルゴリズム
BLAST はギャップなしでホモロジーサーチを極めて高速に行な う.BLAST はまず,質問配列と比較した時にある値 T 以上のスコ アを持つ長さ k 文字の全てのパターンを生成し,そのリストを作 成する.その後これらのリストにあるパターンをデータベース中に 検索するのだが,その際パターンサーチでしばしば使われる決定性 有限オートマトンと呼ばれるアルゴリズムにより効率良く検索が行 なわれる.結果,長さ k のギャップなしのローカルアラインメン トが多数得られる.次にアラインメントの両端を延長し最も高いス コアを得た領域, Maximal Segment Pair(MSP),がカットオフ値 S 以上のスコアを持っていればこれを出力する.この際,MSPの統 計学的有意性に関する数学的成果が利用されているのが BLAST の 特徴でもある.また,スコアには通常良く使われる PAM 行列以外 に,特に保存されやすい領域を抽出するのに適した BLOSUM 行列 6)も利用できる.

ギャップを考慮しないことにより次に述べる FASTA より高速な サーチを可能にしているBLAST は,sensitivity (距離の離れた関連 配列を見逃さずに発見する能力)を押さえて selectivity (関連のな い配列間には低い得点を与える能力)を上げているといえる.

(2) FASTA のアルゴリズム
FASTA は ktup = k 個の連続した組文字( k-tuple )を単位として, あらかじめ二配列間の類似性の見積りをして,類似性の高い部分だ けDP によるアラインメントを行なう.ギャップを考慮することに より sensitivity を高くしてある分, selectivity が低くなっているた め,結果の解釈は慎重に行なうべきである.また,ktup の値はア ミノ酸配列で 1 か 2 ,塩基配列で 1 〜 6 の間の値を選択でき,こ の値を小さく設定するほど検索時間が長くなるが sensitivity が向上 する.FASTA は「組文字→位置」の逆引きのためのハッシュテー ブルを利用し,DP を応用する領域を適度に限定するなど様々な工 夫により高速性を実現している.BLAST で類似配列を検索できな かった場合に FASTA を使用するというのも一つのやり方である. FASTA を実行すると得られたアラインメントのそれぞれについ て3つのスコア"init1","initn","opt"を返してくれる.何を意味す るのかはアルゴリズムを知る必要がある.FASTA のアルゴリズム は4つのステップからなる.最初のステップで,FASTA は質問配 列とデータベース中の配列間で ktup 個以上の残基が連続して一致 しているセグメントを 1 個以上含むギャップなしのローカルアラ インメント(領域)を探す.次に,一致度がよい領域について類似 性スコアを用いて再評価し,両端を切りつめを行う.領域に対する この評価値が init1 値である.第三のステップでは,ステップ2で 得られた複数の領域をギャップを考慮して連結する.このとき連結 された領域の評価値が initn 値と呼ばれる.initn 値の高い順番に類 似領域が出力されることになる.最後のステップでは,ステップ2 で得られた init1 値が最も高い領域の近傍で DP を行い最適なアラ インメントを得る.この評価値を opt 値と呼ぶ.3つのスコア "init1","initn","opt"は考慮されている領域がが異なり,それぞれ 類似性を見積もるための重要な指標となる.

(3) FASTAとBLASTの利用法
ゲノムプロジェクトが進むにつれ日本国内のコンピュータネット ワークそしてデータベース検索サービスも充実してきた.医学・生 物学関連の多様なデータベースの情報サービス網であるゲノムネッ ト(GenomeNet)によって,上述の FASTA,BLAST も一般利用者 に無料で公開されている(表1).

電子メールで BLAST を利用するならば blast@genome.ad.jp に, FASTA ならば fasta@genome.ad.jp に検索依頼のメールを出せばよ い.いずれも,本文に help とだけ書いたメールを送ると利用方法 を返送してくれる.

世界中のインターネットサイトで行なわれている様々な情報サー ビスを利用するための,マルチメディアの情報ネットワークである World Wide Web (WWW)を使って BLAST を利用することもでき る(図3).WWW ならマウスを使った簡単な画面操作で BLAST を起動できる.ゲノムネットの WWW サーバーのアドレスは http://www.genome.ad.jp である.

3.モチーフサーチ
ホモロジーサーチは基本的にデータベース中の全ての配列と照合 を行なうので,どんな高速なアルゴリズムを用いても検索時間がデー タベース中の全配列の長さの和に比例してしまう.ところで,デー タベース中にはほとんど同じ配列が重複して含まれており,データ ベースの内容は吟味を要する.また,ホモロジーサーチによって類 似配列を見つけたとしてもその類似性がなにを意味するのか,つま り生物学的な解釈は文献などにあたって調べなくてはならない.ど うにかタンパク質の機能予測まで含めた高速な検索システムはでき ないか.こういった発想から生まれたのがモチーフライブラリーで あり,モチーフサーチである.

共通の機能をもつタンパク質のグループでとくに保存されていて 機能的に重要なアミノ酸残基のパターンをモチーフという(図4). モチーフライブラリーは,機能的にはそれほど重要でない部分を配 列データベースから省き,高度な圧縮を試みたデータベースがであ る.モチーフは機能と結びついているので,問い合わせ配列をモチー フライブラリーに対して検索して対応するモチーフが見つかればす ぐに機能を類推できまた,ホモロジーサーチに比べ検索速度も速い. ゲノムネットを利用する場合は MOTIF7) によりモチーフサーチが 行なえる.電子メールによる検索依頼は motif@genome.ad.jp にメー ルを送ればよい.本文に help とだけ書けば利用方法が返送される. BLAST と同様WWW を利用することもできる. MOTIF では PROSITE と MotifDic の二つのモチーフライブラリーを選択できる. 前者はジュネーブ大学で,後者は京都大学で作成されている.配列 データベースからモチーフライブラリーを自動作成する手法の研究 は計算機生物学の大きなテーマの一つであり,MotifDic は統計的操 作により PIR から自動作成された.

4.立体構造を考慮したアプローチ
タンパク質の立体構造は X線結晶解析や NMR により決定される が,そのデータの蓄積とデータ解析が進むにつれて,今までは機能 的にも進化的にも関係ないと考えられていたタンパク質間での立体 構造の類似性が見つかっている.タンパク質の立体構造のバリエー ションは意外と少ないのかも知れない.そこで,質問配列を配列デー タベースに検索するかわりに,立体構造データベースに検索すると いう一種のホモロジーサーチが考案された(3D-1D 法).3D-1D 法は,質問配列が立体構造データベース中に登録されている立体構 造をとると仮定して一種のエネルギーを見積もることにより,その 質問配列がその立体構造を取る可能性(適合性)を計算する.現在 のところ局所的な適合性を示唆できるほど sensitivity は高くないが, 進化の過程で配列よりも構造の方が保存されやすいことを考えると 有効なアプローチといえるかも知れない.

おわりに
DNA やタンパク質の配列から進化の痕跡を読みとり,また生体 分子としての機能がそこにいかにコードされているのかについて真 の理解はまださきであろう.そもそも,生命現象の理解とは何かと いう問いさえ生物学は模索中である.ここに紹介したホモロジーサー チは,大量の配列データを有効利用するための一つの手法として確 立された配列解析法である.今後,配列のみならず,立体構造,遺 伝病,細胞内シグナル伝達等,様々なタイプの医学・生物学関連の データが蓄積される.これらのデータをどのように統合し容易な利 用を可能にするか,そして生物学的な意味づけをいかにして行うか, 計算機生物学が取り組むべき課題は多い.


文 献
1) Doolittle, E. F.: Of urfs and orfs. A primer on how to analyze derived amino acid sequences. University Science Books, Mill Valley, CA, 1986
2) Dayhoff, M. O., Schwartz, R. M. and Orcutt, B. C.: A model for evolutionary change in proteins. Atlas of Protein Sequence and Structure, vol.5, suppl.3, (Dayhoff, M. O. ed.), National Biomedical Research Foundation, Washington, DC, 1978, pp.345-358
3) Needleman, S. B. and Wunsch, C. D.: A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol. 48: 443-453, 1970
4) Altschul, S. F., Gich, W., Miller, W., et al.: Basic local alignment search tool. J. Mol. Biol. 215: 403-410, 1990
5) Pearson, B. R.: Rapid sensitive sequence comparison with FASTP and FASTA. Methods in Enzymology, (Doolittle, R. F. ed.), vol.183, Academic Press, San Diego, CA, 1990, pp.63-98,
6) Henikoff, S. and Henikoff, J. G.: Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919,
1992 7) Ogiwara, A., Uchiyama, I., Seto, Y., et al.: Construction of a dictionary of sequence motifs that characterize groups of related proteins. Prot. Engng. 5: 479-488, 1992