実験と計算の時間スケールが重なったことで見えてきたこと

理化学研究所・計算科学研究機構


  • 公開日
  • 受理日

© 日本蛋白質科学会 2016 Licensed under クリエイティブ・コモンズ 表示 - 非営利 - 改変禁止 4.0 国際 ライセンス

分子シミュレーションを専門とする私にとって、本学会は実験の話を多く聞ける機会であり、参加する度に実験の成果に圧倒されています。そんな中、この度若手奨励賞優秀賞を頂けたことは大変光栄であり、今後の研究の励みになります。特に、奨励賞シンポジウムでの他のご講演者の研究成果やプレゼンの見事さをその場で感じた身としては嬉しい限りです。奨励賞シンポジウムで発表した内容は現在論文投稿中であるため詳細を記載することはできませんが、ここでは発表内容である「1分子 FRET データと分子動力学シミュレーションによるタンパク質ダイナミクス解析」に至った背景と展望をシミュレーションの立場から紹介します。

生体分子の分子動力学シミュレーションの分野では、2010年に大きな出来事がありました。それは、米国の D. E. Shaw Research(DESRES)で開発された分子動力学シミュレーション専用計算機 Anton の登場と、その Anton によって計算された蛋白質全原子モデルのミリ秒におよぶシミュレーションの論文です(1)。現在でも一般のスパコンや PC クラスタでは10マイクロ秒のシミュレーションができればすごい方なので、Anton はその100倍も早いことになります。この速度を達成できたのは、理論天文学分野で有名な重力多体問題専用計算機 GRAPE と同様に、Anton が原子間相互作用計算を専用パイプラインで並列化したことに加え、専用ネットワークにより計算の遅延を徹底的に排除したことにあると言われています。Anton 出現により長時間シミュレーションが可能となったことで、その後、NMR などの実験データとのシステマティックな比較検証が行われました(2)。その中でわかってきたことは、シミュレーションで用いられる力場パラメータの不正確さです。例えば、典型的な力場パラメータを使うと、実験に比べて蛋白質がほどけた状態がコンパクトすぎることがよく知られています(3)。力場パラメータの改善は着々と進んでいてこの問題も解決されようとされていますが(4,5)、一方で力場パラメータの改善とは異なる方向の興味深いアプローチも提案されています。それは、使用する力場パラメータの不正確さを予め甘受した上で、個々の実験データに合うように都度統計的な修正をかけるというアプローチです。古典的には NMR データに合うように原子間に距離拘束をかけるという手法がありますが、現在は唯一の構造ではなく構造アンサンブルをサンプルしてやろうという野心的な試みが行われています(6)。例えば、最大エントロピー原理は、NMR や SAXS データを力場パラメータに対する摂動として、データを重み付ける、または原子間束縛を付加する理論的フレームワークを与えます(7,8)。しかしながら、進展著しい一分子計測で得られる時系列データをどのようにシミュレーションへ取り込むかは未だ解決されていない課題です。特に、最先端の一分子計測実験ではマイクロ秒の時間解像度で蛋白質が構造変化する瞬間を捉えることに成功しています(9)。この時系列情報を上手く活かすことができれば構造遷移のメカニズムを解明できると考え、我々はこれまで基礎手法の開発を行ってきました(10)。

Anton の出現により変わったもうひとつのことは、データ解析によるモデリングへと研究の比重が移ってきたということです。2010年の DESRES による論文(1)を読んだ際も感じましたが、丹念にデータ解析をやっているにも関わらず、シミュレーションで観測されたフォールディング等のメカニズムがわかった気になりませんでした。このことは逆にデータ解析の重要性を印象付けたようで、現在では DESRES がシミュレーションデータを世界中の研究者に提供し、データ提供を受けた研究者が独自の方法論でデータ解析を行い論文を書く、という研究スタイルが成立しています(11,12,13)。データ解析の中で最近確立してきた手法のひとつがマルコフ状態モデル1(14)によるモデリングです。マルコフ状態モデリングでは、まずシミュレーションで得られた蛋白質の多数の構造をクラスタリングして分類し、その後でトラジェクトリから単位時間 τ あたりの代表構造間の遷移確率を計算します。構造間の遷移が確率的であり「過去の履歴に依らない」ことを仮定してしまえば、後は確率計算を行って単位時間 τ よりも長時間スケールの動的な量を簡単に推定することができます。この大きな仮定である「過去の履歴に依らない」という仮定についても、Anton による長時間シミュレーションデータを使った検証により妥当性が支持されています(11)。マルコフ状態モデルの良い点は、そのちょうどよいバランスの複雑さにあります。「過去の履歴に依らない」仮定を満たすためにそれなりに多数の状態数が使われるので、実験との定量的な比較をすることができます。一方で、動的な特徴量と各状態の構造を結びつけて理解できるギリギリの複雑さです(状態数を縮約する手法もいろいろと提案されています)。また、もうひとつ我々にとっての良い点は、ダイナミクスが遷移確率というモデルパラメータで全て表現されている点です。この特徴から、我々は一分子計測の時系列データから遷移確率を推定できないか、という着想を得ました。

背景が長くなりましたが、今回の奨励賞シンポジウムでは、機械学習を用いて一分子計測の時系列データからマルコフ状態モデルの遷移確率を推定した応用結果を報告しました。ターゲットは WW ドメインという小蛋白質のフォールディングです(9)。マルコフ状態モデルを用いるといっても、シミュレーションによる大量のサンプリングは要求されるわけで、正味で400マイクロ秒という大規模シミュレーションを行い、大容量シミュレーションデータを実験データと比較し機械学習を行いました。シミュレーションのみから構築したフォールディングのマルコフ状態モデルと、1分子計測データから遷移確率を機械学習させた後のマルコフ状態モデルの違いを報告し、機械学習させた後のほうが他の実験結果とも合致するフォールディングメカニズムに至ることを説明しました。機械学習の想像以上の威力に自分でも驚きましたが、何よりも、シミュレーションと実験の時間情報を直接比較できるという機会はめったにあることではなく、とても刺激的な経験でした。

今回の研究では、GPU クラスタや京コンピュータを駆使して400マイクロ秒に相当するシミュレーションを行いましたが、今後は同じ規模のシミュレーションを流すコストはどんどん下がってくると期待します。こうした実験・シミュレーション双方のハイスループット化や世界的なオープンサイエンス化に伴って、Anton の登場で起こった変化が、ひとつ上のレベルで起こるのではと予感しています。データの波に押しつぶされないように、将来的に求められるのは、種類の異なるデータを統合して汎用的にモデリングすることのできる手法かもしれません。今後は、シミュレーション・一分子計測データに限らず様々な実験データを統合してモデリングし、蛋白質科学の新たな知見を得る手法の開発へと展開していきたいと思います。

文献

  1. Shaw, D.E. et al., Science 330, 341–346 (2010).
  2. Lindorff-Larsen, K. et al., PLoS ONE 7, e32131 (2012).
  3. Piana-Agostinetti, S. et al., Curr. Opin. Struct. Biol. 24, 98–105 (2014).
  4. Best, R.B. et al., J. Chem. Theory Comput. 10, 5113 (2014).
  5. Piana-Agostinetti, S. et al., J. Phys. Chem. B 119, 5113–5124 (2015).
  6. Lindorff-Larsen, K. et al., Nature 433, 128–132 (2005).
  7. Różycki, B. et al., Structure 19, 109–116 (2011).
  8. Boomsma, W. et al., PLoS Comput. Biol. 10, e1003406 (2014).
  9. Chung, H.S. et al., Science 335, 981–984 (2012).
  10. Matsunaga, Y. et al., J. Chem. Phys. 142, 214115 (2015).
  11. Lane, T.J. et al., J. Am. Chem. Soc. 133, 18413–18419 (2011).
  12. Jain, A. & Stock, G., J. Phys. Chem. B 118, 7750–7760 (2014).
  13. Mori, T. & Saito, S., J. Chem. Phys. 142, 135101 (2015).
  14. Pande, V.S. et al., Methods 52, 99–105 (2010).
  1. 生体分子の構造ダイナミクスを、代表的な構造間の確率遷移により近似する確率モデルである。構造間の遷移が過去の履歴に依らないと仮定し、長時間ダイナミクスを遷移確率というパラメータのみで全て記述するところに特徴がある。