AlphaFold3やその派生モデルBoltz-1によるタンパク質-リガンド複合体構造予測において、 リガンドの立体化学(キラリティ、結合長、結合角)の再現性に問題があることが知られています。 本研究では、この問題を解決するための新しい手法「拘束誘導推論(restraint-guided inference)」を開発し、 キラリティの再現率を100%に到達させることに成功しました。 本研究の成果はACS Omega誌に掲載されました[1]。
背景:AI構造予測における立体化学の問題
2024年にノーベル化学賞を受賞したAlphaFold2に続き、AlphaFold3(AF3)は、タンパク質だけでなく、RNA、DNA、糖鎖、さらには小分子リガンドを含む複雑な生体分子複合体の構造予測を可能にしました[2]。
しかし、実際にAlphaFold3を使ってみると、予測されたリガンド構造にキラリティ(鏡像異性)の反転や、 結合長・結合角の異常が意外と頻繁に発生します。 AlphaFold3の論文でもこの問題は言及されており、数パーセントの誤差があるとされていましたが、 キラル中心を持つ化合物に焦点を当てた我々の評価では、 実に30〜40%もの構造でキラリティの誤りが発見されました。
拘束誘導推論法の開発
この問題を解決するため、我々はモデルを再訓練することなく、推論時に立体化学的拘束を適用する「拘束誘導推論(restraint-guided inference)」という新しい手法を開発しました。
技術的なアプローチ
AlphaFold3とBoltz-1が使用する拡散モデル(Elucidating Diffusion Model, EDM)[3]では、 ノイズの多い構造から徐々にノイズを除去していく逆拡散過程を経て最終的な構造を生成します。 我々の手法は、この逆拡散過程の各ステップで、以下の立体化学的拘束を適用しています:
- キラル体積の拘束:キラル中心の四面体構造を正しく維持
- 結合長の拘束:理想的な結合長からの逸脱を最小化
- 結合角の拘束:理想的な結合角からの逸脱を最小化
重要なのは、これらの拘束を最終ステップだけでなく、逆拡散過程の複数ステップにわたって反復的に適用することです。我々の実験では、200ステップの逆拡散過程のうち、全ステップで拘束を適用すればベストなのですが、 拘束による計算量の増加と出力構造のクオリティを検討した結果、 後半の50ステップ程度拘束を適用することで十分なことがわかりました。
この手法はRFDiffusionで使われた対称性制約の手法[4]にインスパイアされたものです。拡散モデルのデノイザー関数の出力に拘束を適用することで、ニューラルネットワーク自体を変更することなく、立体化学的に正確な構造を生成できます。
実装
本手法はBoltz-1(AlphaFold3のPyTorchベースのクローン)[5]に実装しました。 拘束の最適化にはSciPyの共役勾配法を使用し、CPU版とGPU版の両方を実装しました。 GPU実装により、複数の拡散サンプルを並列計算する場合でも、 追加の計算コストをほぼ一定に抑えることができました。
評価結果:100%のキラリティ再現率を達成
データセット
PLINDER[6]から抽出した、すべてキラル化合物からなるデータセットを作成して評価を行いました。
キラリティの改善
最も重要な結果は、拘束を適用した手法(Boltz R、Boltz Rc)では、 すべての条件でキラリティ再現率が100%に到達したことです。 一方、AF3では70.77%、Boltz-1では60.58%に留まっていました。
興味深いことに、キラル体積のみに拘束を適用した条件(Boltz Rc)でも100%の再現率が得られ、 結合長や結合角への悪影響もありませんでした。 これは、キラリティの制御にはキラル体積の拘束で十分であることを示しています。 ただ実用上はbondやangle geometryの改善も期待してこれらの拘束も同時に導入するのがベストでしょう。
結合長・結合角の改善
すべての拘束(キラル体積、結合長、結合角)を適用したBoltz R条件では、 結合長RMSD(中央値)が0.0003 Å、結合角RMSD(中央値)が0.0448°となり、 AF3の値(それぞれ0.0192 Å、0.1895°)を大きく上回る性能を達成しました。
タンパク質構造と結合ポーズへの影響
重要なことに、これらの拘束を適用しても、タンパク質構造のRMSDやリガンド結合ポーズのRMSD、 タンパク質-リガンド間の最小相対距離には実質的な悪影響がありませんでした。 つまり、立体化学の精度を向上させつつ、全体的な構造予測の品質は維持されているということになります。
具体的な事例について
本研究では、D-アミノ酸の予測誤り、芳香環と非芳香環の誤認識、アルキン基の混成状態の誤りなど、 様々な立体化学エラーの具体例を詳細に分析しています。 詳しくは、原著論文のFigures 4-7およびSupplementaryのFigures S3-S8をごらんください。
根本的な原因と今後の展望
化合物立体化学の問題の根本原因は、AF3の入力特徴表現の設計にあると考えられます。具体的には:
- 原子・結合の埋め込みに混成状態や結合次数(単結合、二重結合など)の明示的な情報が含まれていない
- キラル中心の情報が原子表現に含まれていないため、モデルはsp3炭素周りの置換基の配置を学習できない
- 原子名に依存した特徴表現により、SMILESとCCDコードで異なる入力が生成される
根本的な解決には、混成状態、キラリティ、結合次数などの不変な化学構造特徴を直接組み込んだモデル設計が必要でしょう。 あるいは、訓練データの化学的多様性を大幅に拡張するアプローチも考えられますが、 小分子の化学空間は生体高分子の構成要素よりも桁違いに大きいため、実用的ではありません。 一方、我々の拘束誘導推論法はモデルの再訓練を必要とせず、現在のモデルでも実用的に使用できる解決策といえるでしょう。
さらに、本手法はboltzと同じくPyTorchベースのAF3 clone、(例えばProtenix等)なら同様に実装できると考えられます。 一方、本家AlphaFold3はJAXベースでJITの兼ね合いもあり、こういった最小化を含む反復処理を逆拡散プロセスの途中に差し込むのは困難そうです(頑張ればできんことはないとは思いますが、、、)。
データとコードの公開
本論文のコード等は、以下からアクセス可能です:
- ソースコード: GitHub (https://github.com/cddlab/boltz_ext)
- Google Colaboratoryノートブック: (Boltz1.ipynb)
- 評価データセット: Zenodo (DOI: 10.5281/zenodo.17075124)
Google Colaboratoryノートブックを使えば、GPUを持っていない方でも簡単に本手法を試すことができます。
あとがき (ポエム)
本研究は、昨年末にAlphaFold3のソースコードとBoltz-1が公開されたことから始まりました。 冬休みにいろいろと試していたところ、リガンドのキラリティの再現性が意外とうまくいかないことが判明(AF3の論文にも記載されていましたが、実際に手を動かすまで深刻さが分かっていませんでした)。 そこで拘束誘導推論の方法を思いつき試してみたところ、 予想以上にうまくいったため、論文化することにしました。
2月頃には第一弾の結果がまとまり、1-2ヶ月程度で論文の形にまとめ、 3月末に最初のジャーナルに投稿すると同時にbioRxivに公開しました。 4月中旬には再投稿ではあるものの何とかなりそうな返事をもらいましたが、 4月末にBoltz-1のグループから類似内容を含む論文([5のv3])が発表されました。 ただ、我々の方が先にbioRxivに公開していたため、彼らの論文で引用してもらうことができ、 プレプリントに早期公開する意義を強く実感しました。
その後、指摘された内容を全て実行しrevisionを提出したにもかかわらず、 再投稿ということもあってかレフェリーが大幅に入れ替わってネガティブなコメントが多くつき、 7月末に結局rejectとなりました。 そこで心機一転ACS Omegaに再投稿したところ、今度はmajor revisionとなり、8月末にrevisionを返しました。 その後さらに新たなレフェリーが登場するなど紆余曲折がありましたが、何とかacceptに至りました。
ところで、今回の論文では早く論文化したかったこともあり、レフェリーの要望をできる限り取り入れる(=なるべく反論しない)方針でリバイズを行いました。 その結果、conventional dockingやニューラルネットワークベースのdocking手法との比較など、 本来の主題である「複合体構造予測における立体化学エラーの改善」からはやや逸れた内容もどんどん追加することになり、主題がぼやけてしまった感が拭えません。 振り返ってみると、反論すべき点は臆せずrebuttalした方が良かったのかもしれません。
初稿は2ヶ月弱でサクッと書いて投稿しましたが、最終的には約1年がかりの仕事となりました。 研究の道のりは必ずしも真っすぐではありませんが、最終的に論文として世に出すことができ、 また本手法を多くの方に使っていただける形で公開できたことを嬉しく思います。
宣伝
計算創薬科学研究室では、本研究で紹介したような計算構造生物学や機械学習に興味があり、これらの技術を創薬研究に応用したいという意欲のある大学院生を募集しています。 ぜひ研究室のWebサイトをご覧いただくか、お問い合わせください。
本記事は2025年11月時点の研究成果に基づいています。
参考文献
[1] Ishitani, R.; Moriwaki, Y. Improving Stereochemical Limitations in Protein-Ligand Complex Structure Prediction. ACS Omega 2025 (in press).
[2] Abramson, J.; et al. Accurate Structure Prediction of Biomolecular Interactions with AlphaFold 3. Nature 2024, 630, 493–500.
[3] Karras, T.; Aittala, M.; Aila, T.; Laine, S. Elucidating the Design Space of Diffusion-Based Generative Models. arXiv 2022, arXiv:2206.00364.
[4] Watson, J. L.; et al. De Novo Design of Protein Structure and Function with RFdiffusion. Nature 2023, 620, 1089–1100.
[5] Wohlwend, J.; et al. Boltz-1 Democratizing Biomolecular Interaction Modeling. bioRxiv 2024, 2024.11.19.624167.
[6] Durairaj, J.; et al. PLINDER: The Protein-Ligand Interactions Dataset and Evaluation Resource. bioRxiv 2024, 2024.07.17.603955.