學界新聞
生物醫藥

IBM 與 Cleveland Clinic 創新合作成果:量子計算應用於蛋白質結構預測

# IBM 與 Cleveland Clinic 創新合作成果:量子計算應用於蛋白質結構預測 2023 年 IBM 在 Cleveland Clinc 設置量子電腦,是世界上首個擁有量子電腦的醫療機構,用於疾病、藥物與醫療研究。經過一年的合作,IBM Quantum 與 Cleveland Clinc 於今年五月在期刊 [《Journal of Chemical Theory and Computation》](https://pubs.acs.org/doi/10.1021/acs.jctc.4c00067?fig=agr1&ref=pdf)聯合發表了他們的第一篇論文,該論文使用量子電腦與經典電腦計算蛋白質結構,在某些方面的表現超越了 Google 的深度學習模型 AlphaFold。 ## 簡介 研究蛋白質結構有助於科學家了解生命的運行、疾病的產生與新藥研發。實驗上我們能使用 X 光晶體繞射、核磁共振光譜(NMR)與冷凍電子顯微鏡(CryoEM)等方法觀察蛋白質實際結構,然而這些方法十分耗時與昂貴,且有部分蛋白質無法透過這些方法得知結構細節。
圖片內容

預測蛋白質的流程圖。首先會從細胞中取得該蛋白質對應的基因,從基因推估氨基酸序列,接著在實驗室中用基改細胞大量產生欲研究的蛋白質,將之純化、分離(、結晶)後用 X-ray, NMR, CryoEM 等方法取得蛋白質結構。另外也可以透過基於物理計算或是機器學習從氨基酸序列預測蛋白質結構。

對於這類不易透過實驗取得結構的蛋白質,我們能用機器學習(如 [AlphaFold 2](https://www.nature.com/articles/s41586-021-03819-2))來預測蛋白質完整結構,然而,這些方法依賴於大量的已知數據,且常常缺乏對基本物理學的理解;另一個方法是使用分子動力學與熱力學等物理方法進行計算,但隨著分子量的增加,所需計算變數也會大幅增加,導致計算時間變得更長。 研究蛋白質結構的方法有很多種,但因上述困難,使得蛋白質結構預測成為一大研究主題。 ## 模擬蛋白質結構的困難 讓預測蛋白質結構變得困難的原因有以下幾個 ### 變數太多 如下圖,如果採用基於物理的方法計算蛋白質結構,隨著蛋白質序列越長,要計算的變數變得更多,計算蛋白質結構所需的時間會隨著氨基酸數量呈指數成長。除此之外,還得考慮環境溫度、溶劑等因素,這些因素都會影響蛋白質會摺疊成什麼樣子,所以基於物理的方法適合計算幾十個氨基酸組成的蛋白質。
圖片內容

當蛋白質由 n 個氨基酸組成,就有 n-1 個 peptide bonds。每個 peptide bond 有兩個角度,因此這蛋白質會有 3^{2(n-1)} 種結構,假設每個結構都用 1 皮秒的時間計算其能量值,全部都計算出來,隨著氨基酸越多,要消耗的時間非常可觀(即 Levinthal’s paradox)。

為了解決這問題,常常會將問題簡化以降低電腦負荷,像是將氨基酸區分為親水性與疏水性兩類,雖然能縮短計算時間,但就只能提供有限的結構細節。另一種解決方法就是依靠像是 AlphaFold2 與 RoseTTaFold 這類深度學習,從蛋白質資料庫 [PDB](https://www.rcsb.org/) 中學習,能夠快速產生由幾千個氨基酸組成的蛋白質結構。 ### 氨基酸突變 基於物理計算或是深度學習,在預測 [wildtype](https://en.wikipedia.org/wiki/Wild_type)(野生型)蛋白質上表現優異,但如果要預測有幾個氨基酸因為基因突變而改變時,則結果與實際結果有顯著差異,可能是演算法在尋找能量最低的結構時卡在局部最低點。 ### Intrinsically Disordered(固有無序) Regions/Protein, IDR/P IDR 指的是蛋白質中有些區域是沒有穩定與固定結構,而是一直在動態改變。因為這些區域沒有固定模式,深度學習很難從中學習通則並預測高可信度的結果。 ## 融合經典與量子計算 雖然經典電腦在蛋白質結構預測上表現優異,但仍有侷限性,量子電腦亦是如此。因此研究團隊融合經典電腦與量子電腦,將問題拆成適合給量子電腦與適合給經典電腦。
圖片內容

這次研究開發的演算法流程

先使用 tetrahedral lattice model 將蛋白質以 [coarse grain](https://en.wikipedia.org/wiki/Coarse-grained_modeling) 形式表達,接著用 variational quantum eigensolver (VQE)計算這模型的最低能量構型,接著透過經典電腦在模型加上最初被簡化忽略的基團(側鏈),最後利用分子力學對全原子做最後結構微調和優化。 ## 實驗結果 團隊將這方法用於預測 Zika 病毒中 [NS3 helicase](https://www.rcsb.org/structure/5gjb) 酵素的 P loop 上一段由七個氨基酸組成的片段,結果如下圖。
圖片內容

圖中的藍色是實際實驗結果,剩下綠色、橘色、黃色和紅色是相對應的模型計算結果

(a) 是使用基於物理方法的 PEP-FOLD3 模型 (b)是採用混合經典與量子計算方法(c)是採用 Ising model 與暴力搜尋演算法(d)是使用深度學習模型 AlphaFold2。在這裡會以 RMSD 來描述預測結果與實際結果的差異,數字越小表示與實際蛋白質結構越接近。 可以看出專門用於小結構(5~50 個氨基酸) PEP-FOLD3 的表現最優異(RMSD 1.64 Å),團隊開發的方法僅次於它,而 AlphaFold2 表現最差,因為其更適合預測大型蛋白質。 團隊也將他們開發的方法應用於預測血小板上某個部份[片段結構](https://www.rcsb.org/structure/1M8O)),以估算預測蛋白質結構會需要多少硬體資源。在下圖中,隨著要預測的氨基酸數量越多,所需的 qubit 數會隨二次曲線成長,當要預測由 22 個氨基酸組成的片段結構時,這方法會需要 118 個 qubits。
圖片內容


此外,他們探討在不同能量誤差值下,所需的測量次數會怎麼隨氨基酸數量成長
圖片內容


在不同的優化下(Qiskit transpiler 提供四種電路優化)下,所需的 [ECR gate](https://docs.quantum.ibm.com/api/qiskit/qiskit.circuit.library.ECRGate)數(左圖)與 depth(右圖)。
圖片內容


## 結語 這項研究表明,量子計算在蛋白質結構預測中具有巨大潛力,能夠補足現有方法的不足。隨著量子硬體和算法的不斷發展,我們可以期待量子計算在生物醫學領域的應用越來越廣泛,最終有望帶來革命性的突破。 這次合作為量子計算在實際應用中的潛力提供了有力證據,展示了量子計算如何在解決複雜的生物醫學問題上超越傳統方法。在未來,我們期待看到更多這樣的研究,將量子計算的優勢帶入更多的科學和技術領域。
此文章僅作初步導讀,有更多內容在本文中沒有詳細提到,歡迎參看原論文
## 延伸閱讀 [Hakan Doga, Bryan Raubenolt, Fabio Cumbo, Jayadev Joshi, Frank P. DiFilippo, Jun Qin, Daniel Blankenberg, and Omar Shehab. *Journal of Chemical Theory and Computation* **2024** 20 (9), 3359-3378](https://pubs.acs.org/doi/10.1021/acs.jctc.4c00067?fig=agr1&ref=pdf)
林昱誠
林昱誠
LinkedIn
林昱誠是 EntangleTech 技術長,同時也是一名藥師,研究所期間致力於藥物化學研究。2023 年 IBM 評選為臺灣第七個 Qiskit advocate,也是臺灣唯一一個非理工出身的 Qiskit advocate,致力於推廣量子計算應用於藥學與醫學領域。