論文解説: Distance-Restraint-Guided Diffusion Models for Sampling Protein Conformational Changes and Ligand Dissociation Pathways

2026年05月22日

D2の堀です。最近弊ラボから出版された距離拘束誘導推論法についての論文[1]を紹介します。タンパク質の構造変化を追う手段として分子動力学シミュレーションや、 AlphaFoldを用いたMSAサブサンプリング手法があります。これらの手法は計算コストが高かったり、構造ガチャを何回も回す必要があったりします。本研究では、AlphaFold3のような拡散モデル型構造予測を拡張し、逆拡散過程に原子グループ間距離の拘束を導入することで、モデルの再学習なしに指定の状態の構造を直接生成したり、反応座標に沿った系統的な構造サンプリングを行ったりできる手法を開発しました。本研究の成果は Journal of Chemical Theory and Computation 誌に掲載されました。

背景：構造変化サンプリングと深層学習モデル

タンパク質の立体構造は固定された剛体ではなく、ドメイン運動・ループの揺らぎ・リガンド結合に伴う構造変化など、様々な動的振る舞いを示します。これらは酵素反応機構、アロステリック制御、構造ベース創薬といった文脈で本質的に重要です。

伝統的にこうした構造変化を追う標準ツールは分子動力学(MD)シミュレーションです。 MDで得たトラジェクトリにマルコフ状態モデル(MSM)やmultistate Bennett acceptance ratio (MBAR)を組み合わせることで、構造遷移に伴う自由エネルギー変化を定量できます。ただし、生物学的に意味のある構造変化はマイクロ秒〜ミリ秒スケールで起こることが多く、 conventional MDで十分なサンプリングを行うには計算コストが厳しいケースが多いです。そのため、GaMD、metadynamics、PaCS-MDといったenhanced sampling手法が広く使われてきました。

AlphaFold2の登場以降は、深層学習による構造変化サンプリングが急速に発展しています。特に注目されたのがMSA改変法で、入力MSA中の共進化シグナルを部分的に弱めることで複数の構造状態を出させる手法です。ランダムサブサンプリング[2]、構造変化関連残基のalanine置換、MSAクラスタリング、残基マスキングなど様々なバリエーションが提案されており、膜輸送体のopen/closed状態などを実際に再現することに成功しています。これらは「MSA中の共進化情報がAlphaFoldをエネルギー面の探索にガイドする」という解釈と整合しています。

別系統のアプローチとして、生成モデルでBoltzmann分布を直接学習する手法もあります。 Boltzmann generatorsは可逆ニューラルネットワークでBoltzmann分布から独立サンプルを生成しますし、最近発表されたBioEmuはMDトラジェクトリに熱力学的重み付けを行って学習したdiffusionモデルです。 BioEmuは熱力学的アンサンブルを反映する構造を生成できますが、主鎖しか出力できず、側鎖や小分子は扱えないという制約があります。一方AlphaFold3とそのクローン群はリガンドや核酸を含む複合体を予測できますが、学習データが静的な実験構造のため、Boltzmann分布を熱力学的精度で再現するのは困難です。

我々は以前、AF3類似の拡散モデルでは逆拡散過程の各ステップで原子座標に任意の拘束を導入できるという性質を利用し、キラル体積・結合長・結合角の拘束を入れることでリガンドの立体化学を改善する手法を開発しました(詳細は前回のブログ記事参照)。本研究はこの拘束誘導推論のフレームワークを、原子グループ間距離を反応座標として拘束する形に拡張したものです。さらにMDシミュレーションと組み合わせることで、反応座標に沿った自由エネルギー計算まで可能なワークフローを構築しました。

距離拘束誘導推論法の開発

反応座標として、系内の2つの原子グループ $\{a_1\}, \{a_2\}$ の重心(center-of-mass)間距離 $d$ を定義します。

\[d(\{\vec{x}\}) = \left\| \frac{1}{|\{a_1\}|}\sum_{i \in \{a_1\}} \vec{x}_i - \frac{1}{|\{a_2\}|}\sum_{j \in \{a_2\}} \vec{x}_j \right\|\]

目標距離 $d_\theta$ を与えたとき、誤差関数を

\[L_d(\{\vec{x}\}) = (d(\{\vec{x}\}) - d_\theta)^2\]

と定義し、逆拡散過程の各ステップでこの $L_d$ を最小化するように原子座標を更新します。これによって、生成構造の反応座標が指定した $d_\theta$ に近づくよう誘導できます。

簡単のため上では1組の原子グループペアを使った1次元反応座標で説明していますが、複数の距離拘束を同時にかける多次元反応座標への拡張も自明にできます (例えばリガンド-タンパク質距離とドメイン間距離を同時に拘束など)。

実装

本手法はBoltz-2に実装しました。前回のキラル体積・結合長・結合角の拘束[3]と同様、拡散モデルの逆拡散過程に最適化ステップを挿入するだけなので、モデルの再学習は不要です。

ベンチマーク：3つのモデルタンパク質の構造変化サンプリング

対象系

リガンド結合に伴うopen-closed構造変化がよく特徴づけられている3つのタンパク質を選びました。いずれも大規模なドメイン運動を起こすことが知られている系です。

QBP (glutamine-binding protein): open PDB 1GGG[4] / closed PDB 1WDN[5]、d=29.1→25.0 Å
MBP (maltose-binding protein): open PDB 1OMP[6] / closed PDB 1ANF[7]、d=30.3→27.4 Å
ADK (adenylate kinase): open PDB 4AKE[8] / closed PDB 1AKE[9]、d=35.9→19.7 Å

各タンパク質について、d_min (closed) から d_max (open) までを4等分した5点で目標距離を設定し、各点で乱数シードを変えて9構造、合計45構造を生成しました。

比較対象

距離拘束法を、構造変化サンプリングの代表的なアプローチ7条件と比較しました：

AlphaFold3 (default、complete MSA)
AlphaFold3 + MSA subsampling
Boltz-2 (default、complete MSA)
Boltz-2 + MSA subsampling
AlphaFold2 (complete MSA)
AlphaFold2 + MSA subsampling
BioEmu (default)

MSA subsamplingでは、MSA depthを16, 32, 64, 128, 256の5段階で評価しました[2]。

結果：距離拘束法のみが構造遷移経路を一様にサンプリング

予測構造をopen/closedの実験構造に対するTM-scoreで2次元プロットすると、各手法のサンプリング特性が一目でわかります。

距離拘束法はQBP・MBP・ADKいずれも、closedからopenまで反応座標 $d$ に沿って一様に構造を生成できていました。中間状態もきれいに埋まっており、明示的に反応座標を制御することで系統的なサンプリングが可能であることがわかります。

一方、AF3・Boltz-2・AF2にMSAサブサンプリングを適用した条件では、構造遷移経路を完全にカバーできた例は限定的でした。 ADKやQBPでは生成構造がopenまたはclosedのどちらかに偏り、中間状態がほとんど出ません。 MBPでは比較的一様な分布が得られたので、MSAサブサンプリングの効きはタンパク質依存で、共進化シグナルをうまく弱めて両状態を出させるには結局トライアンドエラーが必要になる、ということがわかります。

興味深いのは、complete MSAを使ったAF3 vanillaでもMBPでは多少のばらつきが見られ、Boltz-2 vanillaもADKで遷移経路の一部をカバーしていた点です。これは拡散モデルが潜在空間のサンプリングだけでもある程度の構造多様性を生み出せることを示唆していますが、いずれにせよ距離拘束法に比べるとサンプリング効率は劣りました。

BioEmuはMDトラジェクトリ込みで学習されているため、conformational空間をより広くカバーするのではと期待されました。実際、他の従来手法より広い領域をサンプリングしていましたが、距離拘束法ほど一様ではなく、さらに他の手法とは大きく外れた領域に外れ値を生成していました。これらを可視化してみると、結合長が極端に伸びるなどタンパク質としては物理的に非現実的な構造が含まれていました。

構造品質：信頼度とstereochemistry

「拘束をかけると無理な構造ができるのでは？」という懸念に対し、距離拘束法で生成された構造はpLDDT > 80、pTM > 0.7と全条件で良好な信頼度を維持していました。 MolProbity[10]によるAngle RMSD、Bond RMSD、Clashscoreなどのstereochemistryベース指標でも、 3系すべてで適切な範囲に収まっていました。 距離拘束を適用してもタンパク質構造の立体化学的妥当性は損なわれないことが確認できたわけです。

対照的に、BioEmuの生成構造はstereochemistry指標が明らかに悪化しており、物理的に非現実的な構造のサンプリングが品質を引きずり下げていることが示唆されました。

適用範囲：実験構造がなくても拘束範囲を推定可能

「open/closed両方の実験構造が手元にないと、$d_\mathrm{min}$ / $d_\mathrm{max}$ をどう決めればいいのか分からないのでは？」という疑問は当然あると思います。そこで、QBPを例に、実験構造から決めた適切範囲(25.0〜29.1 Å)を超えて $d=$ 20〜40 Åまで広げて拘束をかけてみました。

結果は明快で、適切範囲の外ではpLDDTスコアが全体的に低下し、同時にMolProbityで評価したAngle RMSD、Bond RMSD、Clashscoreも明らかに悪化しました。逆に言えば、これらの品質指標を監視することで、実験構造が片方しかない（あるいは予測構造しかない）系であっても、 「どこまで距離を引き伸ばしてよいか」を経験的に判定できるということになります。構造変化が知られているけれど両端の実験構造が得られていない系にも、ある程度適用できる方法と言えるでしょう。

そのほかにも距離拘束で初期構造を生成したあと、MDでサンプリングを行い、MSMやMBARなどで自由エネルギー計算も行っています。 MSMによる2次元自由エネルギー曲面と、US/MBARによる1次元自由エネルギープロファイルの両方を構築しました。

リガンド解離経路への応用：MDM2-p53複合体

距離拘束法はタンパク質内のドメイン間運動だけでなく、 タンパク質-リガンド間の相対位置も同様に制御できます。この能力を活用し、MDM2-p53複合体[11]の解離経路サンプリングに応用しました。

生成された構造アンサンブルを見ると、結合状態から完全解離までの様々な中間状態を含む構造を、距離拘束で系統的に生成できていることが分かります。既存の構造予測モデルは訓練データの偏りから結合状態（bound state）を出力しがちですが、我々の手法はこの問題を巧妙に回避しています。

構造の信頼度を見ると、pLDDTは全範囲で良好でしたが、interface関連スコア（ipTM）は拘束距離が大きくなるにつれ低下しました。これは元のモデルが結合状態の構造データを中心に学習されているため、解離状態がout-of-distributionになっているからと考えられ、解離状態の構造を意図的に生成できていることの裏返しでもあります。

タンパク質の構造変化と同様に距離拘束で初期構造を生成し、USでサンプリング、MBARで自由エネルギー計算を行っています。

議論：何が新しいのか

本手法と既存手法との関係を整理すると、以下のように位置づけられます：

MD のUSとの類似性: 逆拡散過程に距離拘束をかけることは、MDのUSが反応座標に沿って調和ポテンシャルでサンプリングを誘導するのと、概念的に類似しています。我々の手法は「USの拡散モデル版」と捉えることもできます。
メタダイナミクス的なdiffusion手法との対比: 最近、過去にサンプリングした構造を抑制して多様性を促す、メタダイナミクス的な拡散モデル手法も提案されています[12]。これらは多様性は得られますが、どの状態をサンプリングしたいかの明示的な制御は困難です。本手法は反応座標上の任意の点を狙えるという点で本質的に異なります。
MSA改変法に対する優位性: MSA改変は試行錯誤的で、構造変化を起こさない領域まで意図せず擾乱してしまう可能性があります。本手法はMSAをそのまま使うため、安定領域への副作用がありません。また、共進化シグナルを持たない小分子-タンパク質複合体にも適用可能です。

限界

一方、本手法には以下の制限があります：

距離で記述しにくい構造変化は苦手: GPCRの活性化など、複数のヘリックスの協調的運動を伴う構造変化は、低次元の距離拘束では適切に記述できません。このような系では従来のMSA改変法が依然として有用な選択肢となり得ます。
どこが動くかの事前知識が必要: 距離拘束法は、構造変化を起こすドメインを事前に指定する必要があります。逆にMSA系の手法は未知の構造変化を発見できる可能性があります。
多次元反応座標の探索効率: リガンド解離に伴うタンパク質構造変化を捉えるには、リガンド-タンパク質距離とタンパク質ドメイン間距離の両方の拘束が必要ですが、反応座標を増やすと探索空間が指数的に増大します。意味のある低エネルギー領域だけを効率的に探索する戦略が今後の課題です。

今後の展望

本手法はMSM/MBAR以外の自由エネルギー計算にも応用可能です。例えば、string method[13]は反応座標に沿った初期構造を必要としますが、従来はsteered MDやtargeted MDで生成しており、計算コストとヒステリシスが問題でした。我々の手法はこれらのartifactを伴わない高速な代替手段となり得ます。(多分)

もう一つの有望な応用先は構造ベースバーチャルスクリーニングです。 AlphaFold3類似モデルを用いたcofolding型のアプローチは、conventional dockingの代替として注目されていますが、リガンドがどの結合サイトに入るかを制御するのが難しいという既知の問題があります。本手法を使えば、cryptic siteやアロステリック部位など、特定の部位にリガンドを明示的に誘導することが可能になるかもしれません。 Boltzなどでもポケットを指定する、みたいな機能はあるのですが、こちらは石谷先生曰くあまり強い制約ではないそうです。

データとコードの公開

本論文のコード等は、以下からアクセス可能です：

ソースコード: GitHub (https://github.com/cddlab/boltz_restr)

なお、本リポジトリは前回の研究で公開したboltz_extの後継にあたり、Boltz-2への対応と距離拘束機能の追加を行っています。

気が向いたら他の構造予測ツールにも実装したいと考えております。

あとがき（ポエム）

失礼ながら当方DC1を持たずにD進したので(東工大→医科歯科)、急いで申請書用にAI関連で研究テーマを探していたところ、石谷先生と森脇先生がBoltzでリガンドの化学構造を拘束するというプレプリントをちょうど出していたのを見て、距離に注目してやれば構造サンプリングが出来そうじゃないですか?、という感じでやることになりました。学会とかでよく「追加して実装するの難しそうですね」などと言われるのですが、距離拘束はあんまり難しくなく、石谷先生のconformer拘束の方が難しいです。今はClaudeCodeやCodexにやらせればすぐできると思います。また、幾何中心距離しか拘束をかけていないのでconformer拘束より収束も早いと思います。(距離拘束はただ平行移動しているだけなので。。。)

構造変化をしている途中のタンパク質の構造を距離拘束で出すのはMSAサブサンプリングの例もありますし、まあ許されそうです。しかし、リガンドの解離過程なんて学習データに無いしそんなものを距離拘束で無理やり出していいのか、という疑問はあったのですが、やってみると意外とMDまで出来ました。ただ、今回はペプチドリガンドを採用したのですが、有機小分子のリガンドを70 Åレベルで外す場合は、リガンドの構造がぐちゃぐちゃになることがあるので、石谷先生のconformer restraintによってリガンドの化学構造を拘束してあげる必要がありそうです。これは石谷先生曰く、拡散モデルの学習されている分布外まで動かしているせいではないかと考察していました。そのため、boltz_restrではconformer restraintとdistance restraintを同時に適用できるようにしています。

また、論文には載せていませんが、MFSトランスポーターのような構造変化も上側と下側を拘束するみたいなことをして頑張れば出来そうでした。ただ、やはり設定(どこの原子グループをどれくらい拘束するのか等)が結構めんどくさいので、そういうのも含めてMSAサブサンプリングなどのMSA改変法は楽で良いと思います。狙った構造が余程出ない場合は距離拘束でやる、といった具合に使い分けるのがいいのかなあと思います。拘束誘導推論法は動かしてみるとわかるのですが、少しコツが必要です。

去年(2025年)の夏ぐらいには結果がだいたいできていたのですが、USじゃなくてREUSにするかとか違う題材でやってみるとか、ズルズル引きずってました。そうしていたところ、分子研の岡崎先生のところからAF3を用いてメタダイナミクス的にサンプリングをするというプレプリントを出されてしまいました。急いでプレプリントを出した1ヶ月後ぐらいに、この分野の大御所であるFrank NoéらがBioEmuの推論時にガイダンスでなんやかんやするUS-Diff/Meta-Diff/ΔG-Diffという似てるアプローチのプレプリントが発表されました[14]。結果的にJCTCに無事アクセプトされましたが、この分野は競合が多いのでさっさと出すべきだったなあとよく反省しました。

Frank Noéらのガイダンスのコードはまだ出ていなさそうなので、公開され次第ベンチマークで比較したりガイダンスと拘束誘導推論法の手法的な違いについてのブログを投稿したいと思います。

宣伝

計算創薬科学研究室では、本研究で紹介したような深層学習構造予測と分子シミュレーションの融合、あるいは創薬応用に興味のある大学院生を募集しています。ぜひ研究室のWebサイトをご覧いただくか、お問い合わせください。

本記事は2026年5月時点の研究成果に基づいています。

参考文献

[1] Hori, T.; Moriwaki, Y.; Ishitani, R. Distance-Restraint-Guided Diffusion Models for Sampling Protein Conformational Changes and Ligand Dissociation Pathways. J. Chem. Theory Comput. 2026. DOI: 10.1021/acs.jctc.6c00199

[2] Del Alamo, D.; Sala, D.; Mchaourab, H. S.; Meiler, J. Sampling Alternative Conformational States of Transporters and Receptors with AlphaFold2. eLife 2022, 11, e75751.

[3] Ishitani, R.; Moriwaki, Y. Improving Stereochemical Limitations in Protein-Ligand Complex Structure Prediction. ACS Omega 2025, 10 (46), 56075–56084.

[4] Hsiao, C. D.; Sun, Y. J.; Rose, J.; Wang, B. C. The Crystal Structure of Glutamine-Binding Protein from Escherichia Coli. J. Mol. Biol. 1996, 262 (2), 225–242.

[5] Sun, Y. J.; Rose, J.; Wang, B. C.; Hsiao, C. D. The Structure of Glutamine-Binding Protein Complexed with Glutamine at 1.94 Å Resolution. J. Mol. Biol. 1998, 278 (1), 219–229.

[6] Sharff, A. J.; Rodseth, L. E.; Spurlino, J. C.; Quiocho, F. A. Crystallographic Evidence of a Large Ligand-Induced Hinge-Twist Motion between the Two Domains of the Maltodextrin Binding Protein Involved in Active Transport and Chemotaxis. Biochemistry 1992, 31 (44), 10657–10663.

[7] Quiocho, F. A.; Spurlino, J. C.; Rodseth, L. E. Extensive Features of Tight Oligosaccharide Binding Revealed in High-Resolution Structures of the Maltodextrin Transport/Chemosensory Receptor. Structure 1997, 5 (8), 997–1015.

[8] Müller, C. W.; Schlauderer, G. J.; Reinstein, J.; Schulz, G. E. Adenylate Kinase Motions during Catalysis: An Energetic Counterweight Balancing Substrate Binding. Structure 1996, 4 (2), 147–156.

[9] Müller, C. W.; Schulz, G. E. Structure of the Complex between Adenylate Kinase from Escherichia Coli and the Inhibitor Ap5A Refined at 1.9 Å Resolution. J. Mol. Biol. 1992, 224 (1), 159–177.

[10] Williams, C. J.; et al. MolProbity: More and Better Reference Data for Improved All-Atom Structure Validation. Protein Sci. 2018, 27 (1), 293–315.

[11] Kussie, P. H.; Gorina, S.; Marechal, V.; Elenbaas, B.; Moreau, J.; Levine, A. J.; Pavletich, N. P. Structure of the MDM2 Oncoprotein Bound to the P53 Tumor Suppressor Transactivation Domain. Science 1996, 274 (5289), 948–953.

[12] Ohnuki, J.; Okazaki, K.-I. Enhanced Sampling of Protein Conformations in AlphaFold3 with Repulsive Bias in the Diffusion Generative Model. bioRxiv 2025, 2025.12.17.693105.

[13] E, W.; Ren, W.; Vanden-Eijnden, E. String Method for the Study of Rare Events. Phys. Rev. B 2002, 66 (5), 052301.

[14] Xie, Y.; Winkler, L.; Sun, L.; Lewis, S.; Foster, A. E.; Jiménez Luna, J.; Hempel, T.; Gastegger, M.; Chen, Y.; Zaporozhets, I.; Clementi, C.; Bishop, C. M.; Noé, F. Enhanced Diffusion Sampling: Efficient Rare Event Sampling and Free Energy Calculation with Diffusion Models. arXiv 2026, arXiv:2602.16634.