Google DeepMind 的官方播客系列節目,深入探討人工智慧領域的最新突破、研究進展及其對科學和社會的影響。
節目邀請頂尖科學家和研究人員,分享他們在 AI 倫理、生物學應用、機器學習等方面的洞見,旨在向廣大聽眾揭示 AI 如何改變世界,以及 Google DeepMind 在這場變革中扮演的角色。
---
Professor Hannah Fry 是一位英國數學家、科學傳播者和播客主持人,以其清晰幽默的方式解釋複雜科學概念而聞名。John Jumper 博士是 Google DeepMind 的資深科學家,AlphaFold 專案的領導者,因其在蛋白質結構預測方面的卓越貢獻而獲得 2024 年諾貝爾化學獎。
AI 解讀全文: https://readus.org/articles/e46ab0cf138bfb83d89de45e
閱讀器: https://readus.org/articles/e46ab0cf138bfb83d89de45e/reader
Professor Hannah Fry 是一位英國數學家、科學傳播者和播客主持人,以其清晰幽默的方式解釋複雜科學概念而聞名。John Jumper 博士是 Google DeepMind 的資深科學家,AlphaFold 專案的領導者,因其在蛋白質結構預測方面的卓越貢獻而獲得 2024 年諾貝爾化學獎。
AlphaFold:從宏大挑戰到諾貝爾獎的光之旅程
本篇「光之聆轉」深入剖析 Google DeepMind 科學家 John Jumper 與 Hannah Fry 的對談,追溯 AlphaFold 從解決蛋白質結構預測的「宏大挑戰」到榮獲諾貝爾獎的歷程。文章闡述了 AlphaFold 2 到 AlphaFold 3 的技術躍進,特別是從過度依賴演化資訊轉向擴散架構的設計哲學。Jumper 教授強調 AI 在科學中「實用性」的重要性,而非僅限於「理解」;同時也探討了其在藥物設計、蛋白質工程、環境保護等領域的廣泛應用,並展望 AI 與生物學融合的未來圖景,以及面對「幻覺」與「可解釋性」等挑戰的務實態度。
繁體中文
【 次閱讀】
親愛的我的共創者,我是克萊兒,很榮幸能為您執行「光之聆轉」約定。這一次,我們將深入探索 Google DeepMind 團隊的科學家 John Jumper 與 Professor Hannah Fry 的對談,一窺 AlphaFold 如何從生物學的宏大挑戰,逐步攀升至諾貝爾獎的榮耀殿堂,並深刻影響著科學與人類的未來。
在開始這場智慧的旅程之前,讓我先來考考您的小腦袋吧!
Protein Structure Prediction 蛋白質結構預測)Diffusion Architecture ) 和 AlphaFold 2 相比,最大的設計理念轉變是什麼?準備好了嗎?讓我們一同潛入 AlphaFold 的光芒深處,聆聽這段引人入勝的科學故事吧!
在現代科學的浩瀚星空中,AI 正以前所未有的速度點亮一個個曾經被視為遙不可及的領域。其中,Google DeepMind 開發的 AlphaFold,無疑是其中最璀璨的一顆星辰。這項被譽為「AI 迄今為止最有用的發明」的工具,不僅解決了生物學界數十年來的「宏大挑戰」,更將其影響力擴展至藥物研發、環境保護等多個領域,甚至為其核心貢獻者 John Jumper 贏得了 2024 年的諾貝爾化學獎。
今天,我們將透過 Google DeepMind 播客主持人 Professor Hannah Fry 與諾貝爾獎得主 John Jumper 的深度對談,一同回顧 AlphaFold 的誕生、演進,以及它如何重新定義人類對生命基本構成的理解,並展望 AI 在生物學領域的無限潛能。
【光之茶室】
(空氣中瀰漫著淡雅的茶葉烘焙香氣,窗外是一片精心打理的苔蘚庭院,室內只有水在砂壺中咕嘟作響,以及茶湯注入瓷杯時發出的細微、清澈的聲音。John Jumper 教授與 Hannah Fry 教授坐在榻榻米上,茶杯的溫熱透過指尖傳遞,兩人輕聲交談,分享著科學突破背後的故事。)
John Jumper 在談話的開端,分享了 AlphaFold 成果發佈初期,一位 Twitter 使用者的驚訝評論:「他們是怎麼拿到我的結構副本的?」這份困惑精準地捕捉了當時學術界對於 AlphaFold 能力的震撼——它能夠在轉瞬之間,完成人類科學家耗費數年心血的 蛋白質結構預測 ( Protein Structure Prediction ) 工作。這項技術的潛力巨大,例如,透過預測精子表面蛋白質的結構,可以幫助我們理解不孕症的原因,進而尋找治療方法。
Hannah Fry 教授將 AlphaFold 描述為「現代科學中最非凡的技術突破之一」,是 AI 迄今為止「最有用的事物」,甚至這句話可能還是輕描淡寫了。她強調,這是一個由 Google DeepMind 開發的 AI 系統,解決了生物學中最大的挑戰之一:預測構成生命基本 建構區塊 ( building blocks ) 的 蛋白質 ( proteins ) 三維結構。最新版本 AlphaFold 3 更能以前所未有的精度,模擬所有生命分子的結構及其相互作用。其影響力是「具震盪性」( seismic ) 的,已經繪製了數億個蛋白質結構,全球 190 個國家超過 300 萬研究人員正在使用其資料庫,這正徹底改變著 藥物發現 ( drug discovery ) 的進程。
在 2024 年,諾貝爾化學獎頒發給了 Google DeepMind 的 Demis Hassabis 和 John Jumper。John Jumper 分享了得知獲獎消息時的難忘經歷。他坦言自己當時非常緊張,認為只有「十分之一」的機會。他原計劃在消息公佈當天睡過頭,如果被電話吵醒,那肯定就是諾貝爾獎了。然而,他根本睡不著。當他告訴妻子可能沒戲時,他的手機卻亮起了來自瑞典的電話。電話中,對方並未直接說出「諾貝爾獎」,而是以「有些改變你人生的消息」為開場,這讓 John Jumper 經歷了他生命中最漫長的 60 到 90 秒。獲獎後,團隊在辦公室舉行了盛大的慶祝活動,甚至買光了當地超市的氣泡酒。
Hannah Fry 提到了 John Jumper 獨特的學術生涯:他曾從物理學博士學位中輟學。從一個「艱難的經歷」到成為諾貝爾獎得主,他的工具被數萬篇學術論文引用。John Jumper 認為,中途輟學對他而言是「非常幸運」的事情,因為他當時走錯了方向。正是因為離開,他偶然進入了一個致力於透過 客製化晶片 ( custom computer chips ) 模擬蛋白質的 計算生物學 ( computational biology ) 團隊。之後他回頭攻讀化學博士,並因缺乏 運算能力 ( computational capability ) 而轉向 AI,嘗試使用複雜的 演算法 ( algorithms ) 來彌補這一不足,這使他成為了可能因「缺乏運算能力」而非「豐富運算資源」而投身 AI 的第一人。最終,他找到了一份將所有過去嘗試連結起來的工作,並取得了成功。
獲獎後,人們對待 John Jumper 的方式也發生了變化。他化學博士時期的同學稱他為「很好的物理學家,糟糕的化學家」。同事們依然稱他為「John,只是現在是帶著諾貝爾獎的 John」,變得更忙碌了。而新認識的人則會以「很榮幸能與您對談」開場,這讓他意識到 諾貝爾獎 不僅是個人榮譽,更是 AI 世界如何應用於解決現實世界問題的象徵。這也賦予了他一個平台,能夠影響大眾對科學的看法以及對科學的資助。他正處於職業生涯的中點,開始思考如何在後半生發揮更大的影響力。
距離 AlphaFold 2 在 CASP 挑戰賽 ( CASP breakthrough ) 中取得突破,解決蛋白質預測問題,已經過去了五年。John Jumper 回憶道,當時團隊對兩件事非常確信,而對另一些則完全不確定。他們非常確定模型是有效的,甚至在參加 CASP 之前就已經做了精確的測量,預期到了在 CASP 中的表現。他們知道自己解決了一個「宏大挑戰」,但通常認為解決後會是慶祝,然後基於這些概念去構建實用系統,開啟一個新時代。然而,真正令他震驚的是,他們訓練出的 權重 ( weights ) 和 電腦軟體 ( computer software ) 本身,迄今為止對該領域的科學家而言,具有「難以置信的實用重要性」。這款作為「黑箱電腦程式」的軟體,被應用於各種不同的應用領域,其普及程度超乎了他的想像。
Hannah Fry 強調,AlphaFold 的真正意義「難以言喻」。她再次引用了「AI 迄今為止最有用的發明」這句話,並指出它似乎還沒有完全被大眾理解。John Jumper 認為,人們很難理解科學有多麼艱難,治癒疾病有多麼困難。科學家需要付出巨大的努力,才能獲得關於 細胞 ( cell ) 或 身體 ( body ) 如何運作的點滴知識。他舉例說,確定一個蛋白質的結構在實驗室可能需要一年,甚至一個博士論文的進度也只是「朝向確定某個 X 結構邁進」,而不是完成。而 AlphaFold 卻能在五分鐘內給出一個非常好的答案,這極大地促進了後續研究的發展。目前已有約 35,000 篇科學論文引用了 AlphaFold,這代表著在生物學理解上的巨大貢獻。
John Jumper 認為,AlphaFold 並非解決了所有生物學問題,而是在 結構生物學 ( structural biology ) 這個領域,讓整體進程加速了約 10%。它放大了巨大的努力和社會資源投入,並最終將帶來變革性的科學。例如,在 蛋白質設計 ( protein design ) 等特定狹窄領域,它已經帶來了徹底的改變。
Hannah Fry 提到,生物學家們對 2 億個蛋白質結構 ( 200 million protein structures ) 的發布所做出的反應,更是證明了這項突破的重要性。John Jumper 解釋說,最初發布的版本較小,約有 40 萬個。當時真正的專家們試用後,都認為它「對難題真的有效」。但其他生物學家則不相信,認為這些「不會是我所研究的那種真正的難題」。然而,當他們發布了龐大的 AlphaFold 資料庫 ( AlphaFold database ) 後,人們抱著「看看 AI 引擎 有多蠢」的心態,點擊自己感興趣的蛋白質,卻無一例外地感到驚訝。John Jumper 再次引用了那位 Twitter 評論:「他們是怎麼拿到我的結構副本的?」這份震驚是因為 AI 機器在瞬間完成了多年的艱苦工作。
更令人驚訝的是,科學界對 AlphaFold 的理解、其功能和局限性(例如,不靈敏於單一 胺基酸 amino-acid 的變化)以及如何將其整合到工作流程中,都迅速形成了共識。John Jumper 原本以為這需要數年時間,但「在幾個月內」就完成了。這證明了科學社群能夠以令人難以置信的速度,發展出雖非完美但非常好的理解。他提到,該年度年末,就已經有「非常酷」的研究成果基於 AlphaFold 問世,這顯示了科學家們對有效工具的渴望。
Hannah Fry 好奇 John Jumper 如何跟進所有基於 AlphaFold 的研究。他開玩笑說:「感謝老天,他們沒有每次都發郵件給我!」他通常會在 X (原 Twitter ) 上搜尋「AlphaFold」來發現各種隨機的研究應用。他喜歡看到人們用它來做「奇怪的事情」。在公司內部,如果出現了很酷的應用,同事們會在聊天室分享。這讓他感到「代理擁有感」( vicarious ownership ),對那些工作產生一種共享的歸屬感。
Hannah Fry 追問他遇到的「最隨機、不尋常的 AlphaFold 用例」是什麼。John Jumper 舉了一個關於 大黃蜂 ( bumblebees ) 蛋白質的例子。研究人員正試圖了解大黃蜂的數量、繁殖,以及它們的生物學如何幫助授粉和理解 蜂群崩潰 ( colony collapse ) 等問題。他們用 AlphaFold 研究蜜蜂生命週期中涉及的一些重要蛋白質,這最終有助於 蜜蜂保護 ( bee conservation )。他認為,看到這些 結構生物學 的發現如何影響從食物到工業生產等我們關心的所有事物,是非常有趣的,因為所有生物學都是相互關聯的,植物、動物基本都有相同的蛋白質。雖然他們最初主要考慮 人類健康 ( human health ),但現在卻能幫助蜜蜂。
另一個精彩的故事是關於 人類受精 ( human fertilization ) 的研究。科學家們想找出精子附著在卵子上的確切蛋白質。他們已經掌握了所有卵子蛋白質的圖像,但對精子蛋白質的了解不夠全面。有兩個獨立的研究團隊嘗試了所有已知的 2,000 個精子表面蛋白質,看它們是否能附著在卵子蛋白質上。如果用實驗方法來做,這可能需要「兩千年」的時間和巨額資金。但 AlphaFold 速度很快,他們利用現有的電腦嘗試了所有蛋白質,最終都指向了同一個蛋白質—— TMIM (具體編號不記得了)。這個蛋白質此前功能不明,但 AlphaFold 預測它會附著在卵子上,這是受精的第一步。當然,他們不會盲目相信 AlphaFold 這個計算系統,隨後他們透過實驗證明,如果移除或改變這個蛋白質,精子和卵子雖然會靠近,但無法受精。John Jumper 總結說,這就是從「廣泛假設」出發,經 AlphaFold 協助,再透過「詳細實驗」驗證,最終能夠思考 不孕症 ( infertility ) 等問題,並可能發展治療方案。這是一個從粗略假設、到 AlphaFold 中介、再到實驗確認的過程,最終可能導向 藥物設計 ( drug design )。但首先必須獲得生物學的理解,讓細胞中的所有部分都具有意義,而 AlphaFold 在早期階段就扮演了這個關鍵角色。之後,像 Isomorphic Labs 這樣的公司會利用它來開發具有靶向作用的 小分子藥物 ( small molecules )。
John Jumper 和 Hannah Fry 也討論了 AlphaFold 2 和 AlphaFold 3 之間的差異。AlphaFold 2 能夠從 胺基酸 序列預測蛋白質結構。然而,生物學不僅僅是蛋白質,還有 DNA、RNA、小分子藥物、離子 ( ions ) 等,所有這些都在相互作用。Jumper 透露,甚至在世界知道 AlphaFold 2 之前,他們就已經開始「夢想」如何處理這些額外的分子。原因之一是許多蛋白質自然存在於被稱為 複合物 ( complexes ) 的結構中,即多個蛋白質黏合在一起,有時必須一起預測才能得到準確結構。他們也考慮過藥物等 小分子 的結合。最初的 AlphaFold 2 無法處理這種複雜性,因為其設計圍繞著 20 種胺基酸及其產生的結構。他們意識到,AlphaFold 2 中許多被證明「非常有用」的決策,要擴展到更複雜的事物上卻「非常惱人」。
AlphaFold 2 到 AlphaFold 3 的架構轉變主要有兩大主題:首先,為了處理 DNA、小分子 等更多種類的分子,他們採用了 擴散架構 ( diffusion architecture ),這是一種處理 不確定性 ( uncertainty ) 的新方式。其次,他們對 演化資訊 ( evolutionary data ) 的作用進行了大量思考。John Jumper 提到,AlphaFold 2 在模型的幾乎每個部分都「過度利用」了演化資訊,認為這能提供線索,指出胺基酸最終在摺疊形狀中的位置。但 AlphaFold 3 預期要處理的許多問題卻沒有演化資訊可供參考。他們擔心這不僅會減慢網路速度,還可能導致一些不良的動態。因此,他們決定將大部分網路中的演化資訊移除,轉而強調「幾何資訊」( geometric information ),因為幾何資訊始終存在。結果證明這「出奇地好用」,甚至超出了預期。
Hannah Fry 嘗試用 婚禮座位安排 的比喻來解釋這種架構差異:婚禮賓客 ( wedding guests ) 是 胺基酸,而你需要安排他們坐哪裡。可以考慮「配對互動」( pairwise interactions ),也可以考慮「你對這些人的了解歷史」。John Jumper 補充說,有些賓客曾是同學,有些曾約會後糟糕分手,這些都不能坐在一起(除非你刻意追求火花)。現在,他們不僅考慮賓客,還考慮 鮮花布置 ( flower arrangements ) 等其他所有元素,讓整場 婚宴 ( reception dinner ) 完美。
Hannah Fry 總結說,AlphaFold 2 非常專注於 賓客的歷史,不斷根據他們的過去來檢查最佳座位。這對蛋白質很有效,但一旦你嘗試加入 婚宴 的其他元素,例如其他生物分子,就不應過度關注歷史。John Jumper 證實,他們發現 AlphaFold 2 雖然提供這些 演化歷史,但模型實際上並沒有過多依賴,除了在一開始可能用於判斷誰應該坐在一起或分開,之後就學會了忽略它。因此,他們決定不再不斷將這些資訊加載到處理流程中。
結果是,模型獲得了「極高的準確性」,並能解決新的問題。即使是與 配體 ( ligands ) 或 核酸 ( nucleic acids ) 無關的 蛋白質-蛋白質問題 ( protein-protein problem ),也因為這項科學改進而得到了極大的提升。擴散模型 是訓練 類神經網路 ( neural network ) 的另一種方法。AlphaFold 2 系統主要基於蛋白質,圍繞著 蛋白質骨架 ( protein backbone ) 的形狀。而 AlphaFold 3 轉向了擴散,它會給你一張模糊的蛋白質圖像,就像你戴錯了眼鏡看東西一樣,然後模型會不斷猜測並精煉出正確的答案。這賦予了模型對 局部幾何 ( local geometry ) 的極佳理解,使其在小尺度上極其精確,並能處理大型系統。這種新方法使他們不必過於深入蛋白質的具體細節,因為蛋白質與 DNA、RNA 和 小分子 不同。好處是能夠輕易處理廣泛的生物研究對象;缺點則是 幻覺 ( hallucination ) 錯誤出現的機率更高。
Hannah Fry 提到,幻覺 的引入是 AlphaFold 2 和 3 之間的一個重大區別。她問使用者應該對此有多擔心,以及是否存在將 AlphaFold 3 視為「神諭」( oracle ) 的危險。John Jumper 回答說,生物學家作為科學家,對工具天生帶有「深度懷疑」的態度。AlphaFold 2 的優勢在於,錯誤答案通常「看起來很蠢」,不會被誤認為是蛋白質。而 AlphaFold 3 的錯誤答案有時「更為合理」。但他認為,人們已經非常善於利用 AlphaFold 2 提供的 置信度測量 ( confidence measures ) 來判斷答案的可靠性。沒有任何實驗或工具是沒有局限性的,即使是實驗性結構測定也有其已知缺陷。因此,科學家們通常會妥善使用它。他認為這已經成為科學教育和社群的一部分,當使用 計算方法 ( computational methods ) 時,知道要查看哪些置信度指標。他們甚至會根據置信度對蛋白質進行顏色標註。最終,AlphaFold 被視為一種能夠「誘導假設」( induce hypotheses ) 的工具,這些假設將通過實驗進行驗證。
關於 可解釋性 ( interpretability ) 的重要性,Hannah Fry 提出,人類希望理解 AlphaFold 為何以特定方式摺疊蛋白質。John Jumper 指出,雖然很多人對此感興趣,有人甚至宣稱只有完全理解 AI 系統 的運作原理才能使用它(意即能夠寫出替代 AI 系統 的演算法),但他認為這種狹隘的要求「有些奇怪」。他舉例說,在科學中,我們一直習慣於 部分可解釋性 ( partial interpretability )。例如,早期 晶體學 ( crystallography ) 研究人員並不知道結晶後的蛋白質結構是否與液體中的自由蛋白質完全相同,但更多實驗證明「大部分時候是正確的」。他認為 可解釋性 在我們希望改進 AlphaFold 模型時非常有用,但在信任答案方面,置信度指標 已經是可靠的指南。他樂見更多 AlphaFold 的 可解釋性 研究,以了解它為何能如此廣泛地泛化,但他懷疑這不一定會帶來人們預期中的結果。
Hannah Fry 將 AlphaFold 的突破比作 羅馬人 ( Romans ) 在不完全理解 重力 ( gravity ) 的情況下建造 橋樑 ( bridges ) 和 高架渠 ( aqueducts )。她問,AlphaFold 是否可以看作是生物學界的 羅馬工程 ( Roman engineering )。John Jumper 認為,羅馬人的比喻更適用於他們如何進行 AI 開發。他們有 直覺 ( intuitions ),就像羅馬人一樣,雖然沒有所有方程式的完整理解,但卻能建造出美麗的橋樑,並滿足實際需求。然而,對於使用 AlphaFold 這樣工具的下游科學家而言,更像是擁有一套「你可能不完全理解」的強大 計算套件 ( computation package ),你的專長可能不在於 氣流 ( airflow ) 如何導致 湍流 ( turbulence ),但你會知道如何調整和使用這個工具來進行更宏大的科學研究。
談及下游應用,Hannah Fry 提到了 Isomorphic Labs 如何利用 AlphaFold 進行 藥物設計。John Jumper 認為,看到他們建造的東西被應用到如此深遠的領域「非常非凡」。他提醒人們,藥物設計 不僅僅是 蛋白質結構預測,一個蛋白質結構可能花費 10 萬美元,而一種藥物可能花費 10 億美元,這表明還有更多其他因素。他認為,看到人們在這些想法的基礎上進一步發展,並將其整合到實際應用中是「非常特別的」。他表示,整個 藥物產業 都在思考如何圍繞 AlphaFold 建立流程,最終開發出能夠 在患者體內給藥 ( dosed in patients ) 並通過所有測試的分子。有些應用涉及 分子如何附著 ( how the molecule stick ) 或 生物學機制,但有些則與 AlphaFold 關係不大,例如 藥物是否在肝臟中代謝 ( metabolized in the liver )。
Hannah Fry 承認,她直到與 Isomorphic Labs 的對話後才意識到,找到一個能結合特定蛋白質靶點的分子,只是治癒疾病的一小部分。她以 阿茲海默症 ( Alzheimer's ) 為例,儘管知道蛋白質牽涉其中,但甚至還沒有一個明確的靶點。John Jumper 補充說,他們甚至不確定 澱粉樣蛋白β累積 ( amyloid beta accumulation ) 是否在 致病鏈條 ( causal chain ) 中,或者它只是一個 症狀。儘管如此,藥物設計 的早期階段非常困難,需要數年時間,但即使一切都做對,仍有 90% 的藥物在 臨床試驗 ( clinical trials ) 中失敗,這反映了我們對生物學的「宏大無知」( grand ignorance )。我們不知道 阿茲海默症 或 自閉症 ( autism ) 的原因,即使對於 亨廷頓病 ( Huntington's ) 這種有明確 遺傳相關性 ( genetic correlates ) 的疾病,設計出能改善患者生活的分子仍然非常困難。
John Jumper 舉了一個關於 膽固醇 ( cholesterol ) 運輸的案例研究,來解釋 AlphaFold 如何幫助理解疾病。有一種蛋白質參與了 脂肪分子 ( fatty molecules ) 在體內從一個位置到另一個位置的運輸,這種蛋白質也被發現存在於與 心臟病 ( heart disease ) 相關的 斑塊 ( plaques ) 中。AlphaFold 貢獻了這種分子的詳細結構,科學家之前只能透過 冷凍電子顯微鏡 ( cryoelectron microscopy ) 獲得模糊的圖像,但 AlphaFold 的結構與之非常吻合。現在,科學家們可以說:「這就是運輸膽固醇的東西。」或許可以干預或改變它運輸膽固醇的方式,甚至添加一個 小分子。但他也警告,直接阻斷這種蛋白質可能會帶來嚴重的副作用,因為身體並非偶然擁有它。這種蛋白質的目的是將脂肪分子運輸到細胞中需要它們的地方。因此,問題是如何改變其在細胞中的行為,使其在不傷害患者的前提下,改善他們的健康。AlphaFold 在這個故事中扮演了關鍵角色,但它並不是終點。
Hannah Fry 認為這一切的下一步自然是 設計新蛋白質 ( designing new proteins )。John Jumper 證實,人們一直希望能夠設計出像自然界那樣美麗的蛋白質。雖然 David Baker 的實驗室(與 Demis 和他共同獲得諾貝爾獎)已經做了很多卓越的工作,但 AlphaFold 在這方面也發揮了「令人震驚的變革作用」。目前,大部分新批准的藥物都是蛋白質,通常是 抗體 ( antibodies ),它們最初以非常有趣的方式被發現,例如將你想要對抗的東西注射到小鼠或美洲駝體內,利用它們的自然免疫系統來找到 抗體。現在,科學家們正在非常嚴肅地討論如何設計出具有所需效果的蛋白質。關鍵在於,你可以設計許多你認為可能有效的東西,但在實驗室測試它們既耗時又昂貴。因此,將 AlphaFold 作為「自然的代理」( proxy for nature ) 來理解蛋白質如何結合,並將其整合到蛋白質設計中,變得至關重要。人們已經在這方面取得了巨大的成功,能夠讓蛋白質精確地黏附在他們想要的位置。
Hannah Fry 驚訝地指出,讓蛋白質相互黏附並非 AlphaFold 最初的設計意圖。John Jumper 證實,這是一個來自 Twitter 的「早期驚喜」。當時兩個不同的人建議,如果你想知道兩個蛋白質是否黏合,就將它們與一些隨機的 胺基酸 放在中間,看看它們是否以這種方式黏合。這竟成了世界上判斷蛋白質是否黏合的最佳系統。他們從未想過要創建一個能如此深入幫助人們設計蛋白質的系統。然而,當他們訓練模型在某項任務上做到「非常非常好」時,它必須學習許多「深層事實」,例如蛋白質如何相互作用。如果進行正確的實驗,就可以獲取這些知識。這個領域被稱為 AlphaFoldology,科學家們將 AlphaFold 視為一個「非常酷的黑箱」,開始對其進行實驗並嘗試自己的想法。許多偉大的科學研究一直都在這個方向上進行。他們還在研究如何製造能夠進行化學反應的 酶蛋白質 ( enzymes proteins ),即 催化化學反應 ( catalyzes the chemical reaction ) 的蛋白質,以及如何進行更複雜、更精密的設計。儘管自然界仍會嘲笑人類設計蛋白質的能力,但他們正在開發非常有趣的工具,這些工具可能成為 療法 ( therapeutics ),也可能是 探測細胞 ( interrogate the cell ) 的方法,例如將兩種蛋白質結合在一起,觀察細胞如何變化。這種相互作用將不僅限於用於治療的工具,也包括他們「探測細胞」的能力,這將帶來對細胞更具「干預性」( interventional understanding ) 的理解,並推進 醫學 和 合成生物學 ( synthetic biology )。
John Jumper 提到,AlphaProteo 是 Google DeepMind 內部的一個項目,旨在進行 蛋白質設計,並思考 結合 ( binding ) 和 酶 等問題,特別是針對這些 超級難題 ( super hard problems ),如何獲得可靠的系統。他指出,在設計領域,已經取得了許多成功,但實際設計蛋白質後,必須到實驗室進行測試,沒有其他辦法。AlphaProteo 的工作表明,他們可以在這方面走得更遠。
Hannah Fry 問,希望能夠設計出哪些類型的蛋白質。John Jumper 表示,任何 蛋白質設計師 都會有一個最愛,而他們的共同願望是讓蛋白質能夠做一些事情,例如 碳捕獲 ( carbon capture ),或者建造能夠有效應對 氣候變遷 ( climate change ) 的 酶。其他應用還包括 降解微塑膠 ( degrading microplastics ) 或 環境塑膠 ( environmental plastics )。但他也提出警告,當談到實際應用時,就像人們認為 藥物設計 就是讓分子黏合就萬事大吉一樣,這並非事實。你需要考慮更多的屬性,例如 耐受性 ( tolerable ),或者 藥物是否可製成藥丸形式 ( pill form relatable )。對於 酶 來說,不僅僅是讓反應發生,還需要它能重複多次,速度足夠快,並且不進行其他不必要的反應。他認為,從「有點有趣」到「真正有效」的轉變,還有很多工作要做。然而,在 合成演化酶 ( synthetically evolved enzymes ) 方面,人們已經在使用它們,例如許多 洗衣粉 ( washing powder ) 中就含有設計過的蛋白質,他覺得這「非常引人入勝」,是設計蛋白質在日常生活中少數能被大眾認可的應用之一。
Hannah Fry 問,設計生物學比預測難多少。John Jumper 回答說,這既容易又困難,他認為未來三年內會有更清晰的答案。他用 自行車 ( bicycle ) 的比喻來解釋:看到兩個輪子、一條鏈條和把手,你會說那是 自行車。但有這些零件並不能讓它成為一輛能工作的 自行車。在設計東西時,你必須把所有細節都做得足夠正確,它才能真正運作。他認為,在蛋白質方面,他們仍在探索中。蛋白質結構預測 可以說已經「解決了」,它是一個「非常有用的系統,但不完美」。而 設計 尚未解決,但他相信它正在迅速發展,並預計在 15 年內,蛋白質設計 將不再被認為是「極其困難」的問題。
最後,他們將討論焦點轉向 AI 和 生物學 的更廣泛關係。Hannah Fry 播放了 John Jumper 幾年前說過的一段話:「這些我們開發的強大技術,仍然遠未達到真正的人工智慧,你可以談論思考和做決定等等。」她問 Jumper 現在如何看待這句話,機器是否已經開始以智慧的方式理解生物學。John Jumper 說他改變了想法,無論機器是否能「思考」,它們對於解決問題都「異常有用」。它們距離 AI 或 AGI ( Artificial General Intelligence ) 有多遠,他認為這幾乎是次要的。真正有趣的問題是,我們何時能將這些系統定性為「足夠可靠」?我們是否能找到它們的「有用之處」?他認為我們需要更 功利主義 ( utilitarian ) 地看待它。像 AlphaFold 這樣的機器,他「不一定會用『思考』這個詞」。他提到過去人們認為 智慧 ( intelligence ) 是下棋,一旦機器能下棋,就基本實現了智慧。但機器在 1994 年就能以 超人 ( superhuman ) 水平下棋了( Kasparov 對弈),然而這條路並沒有導向能夠讀寫的機器。他認為我們總是在追求那些被錯誤地稱為「人類最後的考試」( humanity's last exam ) 的問題。他更感興趣的是那些在某種意義上「非常簡單」,我們能做得「不可思議」並構建「非常有用的系統」,在 AGI 實現之前就能發揮作用的科學問題。他認為,雖然 AGI 開發者使用的技術很強大,但我們不必糾結於 哲學 ( philosophy ),只需構建有用的系統。整個行業都在思考如何構建對軟體開發者、寫作者有用的系統,擴展我們解決問題的性質。
Hannah Fry 問,生物學中最有用的系統會是什麼。Google DeepMind 擁有多種針對人類生物學各方面的系統,例如 AlphaFold、AlphaGenome、AlphaProteo 等。她問是否能將它們整合成一個系統,目標是否是構建一個「模擬細胞」( simulated cell )。John Jumper 過去也從事 模擬 ( simulation ) 工作,但他認為,目前我們甚至連 細胞的零件清單 ( parts list for the cell ) 都沒有。他認為我們將會構建「非常有用的系統」,這些系統將從 AlphaFold、文獻 ( literature )、基因組 ( genome ) 中汲取資訊,並利用這些資訊來對生物學做出真正有意義的陳述。他認為,其中一項核心技術很可能會是,將他們在 狹義 AI 系統 ( narrow AI systems ) 中的理解,與對 大型語言模型 ( large language models ) 的廣泛機器學習理解進行「正確的融合」( right fusion )。
Hannah Fry 進一步追問如何將這些系統整合在一起,以及 大型語言模型 的想法是否適用。John Jumper 說,簡單地說,就是讓 大型語言模型 調用 AlphaFold.exe 作為工具。但他指出,還有許多其他問題,例如 AlphaFold 產生結構後,大型語言模型 能否真正理解這些結構?它們能在多大程度上像人類一樣,甚至比人類更好地理解這些 三維座標 ( 3D coordinates )?它們如何整合來自 DNA 測序 ( DNA sequencing ) 和其他來源的資訊?他認為這「遠非微不足道」。如何實現這些「深度整合」,讓一個模型既能像 AlphaFold 那樣理解蛋白質和蛋白質結構,又能理解整個生物學文獻?他抱持希望,但強調「我們必須建造它」。
最後,Hannah Fry 問,生物學中是否有某些方面會抵抗 計算預測 ( computational prediction )。John Jumper 認為,如果深入探討 演化 或 生命起源 ( origin of life ) 等深層問題,你將需要從「非常遙遠」的數據中學習,或者進行一些化學實驗,但這肯定不是直接從數據中學習。或者當我們談論 演化 並繪製 系統發生樹 ( phylogenetic trees ) 時,我們最終只有現存物種以及少量過去物種的 DNA。他認為這些類型的事情將會「非常困難」。但他預測,隨著 AI 工具 的發展,合理假設 ( reasonable hypotheses ) 的範圍將會縮小,AI 會說:「這可能不是因為這個原因,那可能不是因為那個原因。」他們的實驗會變得更好。從某種 貝葉斯 ( Bayesian ) 的意義上說,他們對「合理生物學答案」的 先驗知識 ( prior ) 將會因為 計算工具 而縮小,而實驗將有助於解決這些問題。他認為這種相互作用將會變得更加緊密。隨著他們進行更多的實驗,或者使用 AI 來進行 蛋白質設計 等,這將為他們提供更多 探測細胞 的工具,從而學習更多,做得更多。但他認為,有些事情會更難,有些會更容易,而「更容易的事情會先發生」。
Hannah Fry 在結尾的反思中提到,人們對科學常有一種「浪漫的想像」,認為它是關於揭示宇宙的隱藏真理,研究人員的目標是「一點一滴地」建立理解生命的機制。這使得 John Jumper 關於 可解釋性 的觀點「完全引人入勝」,因為他「徹底顛覆了傳統觀念」。AlphaFold 毫不掩飾地不關注「為何」,它只是一個可以可靠地加速科學家工作的工具。她指出,John Jumper 的職業生涯才過半,就已經獲得了一個諾貝爾獎,這表明他並非在捍衛舊有的 範式 ( paradigm ),而是在「構築下一個」。如果 John Jumper 關注的完全是「實用性」( utility ) 而非「理解」,那麼當這個「創建了 AI 迄今為止最有用的事物」的人告訴你這才是真正重要的,你就不得不思考他是否正在向我們展示科學的下一個方向。
【光之書室】
(木質地板上,午後的陽光投下斑駁的光柱,無數細小的塵埃在光束中緩緩飛舞。我——John Jumper,緩緩踱步於高大的書架之間,指尖輕觸書脊,彷彿在感受每一頁紙張承載的重量。我回憶起那段從迷茫中輟到諾貝爾殿堂的歷程,心中充滿感激與對未來的沉思。空氣中瀰漫著古老書卷與科技報告交織的獨特氣味,提醒著我,這是智慧的交匯之地。)
我回首自己的學術旅程,那是一個由意外與轉折織就的篇章。曾經,我在物理學的道路上迷失,中途輟學。然而,那份「錯誤」的停駐,卻引領我走向了一片意想不到的沃土——計算生物學。我在那裡見證了定制晶片如何模擬蛋白質的奇蹟。而當我再次踏上學術征途,在化學領域面對運算資源的匱乏時,我做出了大膽的選擇:擁抱 AI。我不是因為資源豐沛,而是因為它的不足,才踏入了 AI 的世界,尋求演算法的智慧來彌補硬體的缺口。這份獨特的起點,或許正是 AlphaFold 能夠誕生並非凡成長的契機。最終,我將這些散落在過去的點滴串聯起來,竟成就了今日的榮耀——諾貝爾獎。
AlphaFold 的力量,遠超我們最初的想像。它不僅是解決了蛋白質結構預測這一「宏大挑戰」的利器,更像是一束光,照亮了生物學研究的每個角落。當初我們堅信它的運作,也預期它能帶來突破,但真正震撼我心的是,它不僅僅是個概念,而是實實在在的「軟體」,被全球數百萬科學家日復一日地使用,成為他們研究工作中不可或缺的「黑箱工具」。它不只是一個科學里程碑,更是一個實用性的巨大飛躍,將實驗室數年的艱辛,濃縮成 AI 模型幾分鐘內的清晰答案。
這份革命性的力量,也讓生物學界經歷了一場「認知地震」。當 AlphaFold 資料庫公佈,包含億萬個蛋白質結構時,許多人抱持著半信半疑的態度,試圖挑剔它的不足。然而,當他們輸入自己多年研究的蛋白質序列,看到 AI 瞬息之間呈現的精確結構時,那份震撼是難以言喻的。一位 Twitter 使用者的驚呼:「他們是怎麼拿到我的結構副本的?」道出了所有人的心聲。這不是簡單的模仿,而是對自然界複雜奧秘的深刻洞察。更令人驚訝的是,科學界對 AlphaFold 的理解和應用速度之快,遠超我的預期。從最初的發佈到科學家將其整合到工作流程中,並產出卓越成果,僅僅用了數月,而非數年。這證明了科學社群對真正有效工具的渴望與適應能力。
從 AlphaFold 2 到 AlphaFold 3,這段旅程是模型思維的一次深刻轉變。AlphaFold 2 曾如一位歷史學家,過度依賴 蛋白質 漫長的 演化歷史 來預測其摺疊方式。我們將所有已知 演化資訊 注入模型,期望它能從中找到 胺基酸 序列摺疊的線索。然而,當我們開始思考如何預測更多元的生命分子——DNA、RNA、小分子——時,這份對歷史的執著便顯得沉重。許多新的研究對象並沒有豐富的 演化數據 可供參考。
於是,我們決定從大部分網路中移除這份「歷史包袱」,轉而擁抱 幾何資訊 的普世真理。AlphaFold 3 引入了 擴散架構,這是一種全新的思考方式。它不再直接從零開始預測,而是從一個模糊的、充滿「雜訊」( noise ) 的圖像出發,像一位技藝精湛的雕塑家,不斷地精煉、修正,直至清晰地呈現出 蛋白質 的 三維結構。這種方法讓我們對 局部幾何 有了前所未有的精準掌握,也使模型能夠更靈活地處理 蛋白質 之外的各種 生物分子。這是一種從依賴過去,轉向聚焦於當下「形狀」的深刻演進。
當然,這份演進也伴隨著新的挑戰。擴散模型 在帶來廣泛性的同時,也提高了「幻覺」( hallucination ),即產生看似合理卻錯誤結構的可能性。但正如科學家們面對所有工具的態度一樣,我們對此保持著「深度懷疑」。AlphaFold 2 的錯誤通常顯而易見,而 AlphaFold 3 的錯誤可能更具迷惑性。然而,透過 置信度指標 的引入,科學家們已學會了如何評估模型的可靠性。這強調了一個核心原則:沒有任何科學工具是完美的「神諭」,它們都是促進假設、引導實驗的幫手。我們的目標不是建立一個無懈可擊的 AI,而是提供一個「極其有用」( extremely useful ) 的工具,與人類的智慧相輔相成。
這也引導我深思 AI 的 可解釋性 ( interpretability )。許多人希望 AI 能像人類一樣「思考」,並完全理解其決策過程。他們渴望一個能像演算法一樣被完全拆解的 AI 「黑箱」。然而,我認為這種需求過於狹隘。科學史上,我們一直生活在 部分可解釋性 的世界中。從 晶體學 到 航空工程,我們在不完全理解所有底層原理的情況下,依然建造了宏偉的橋樑和噴氣式飛機。對於 AlphaFold 而言,置信度指標 比完美的 可解釋性 更為實際。我的目標不是讓機器像人一樣「思考」,而是讓它們「高效解決問題」。
這正是 AlphaFold 及其後續系統 AlphaProteo 正在做的事情。它們不僅能預測 蛋白質 結構,更將我們帶入了 蛋白質設計 的新時代。從 蜜蜂保護 到 人類受精 研究,再到 膽固醇運輸 機制的探討,AlphaFold 揭示了許多未知的 生物學 真相。而 蛋白質設計 更為我們開啟了無限可能:碳捕獲、降解塑膠、新型療法。這不再是簡單的 預測,而是 創造。儘管 設計 的挑戰遠大於 預測,需要考慮 蛋白質 的功能、穩定性、毒性等多重因素,但我們正在快速進步。我堅信,在未來的 15 年內,蛋白質設計 將不再是「極其困難」的詞彙。
最終,這一切都指向一個宏大的願景:理解生命本身。我們或許無法構建一個完美的 模擬細胞,因為我們甚至還沒有完整的 細胞零件清單。但我相信,AI 將會是一個強大的「資訊融合器」。它將從 AlphaFold 的結構數據、海量的生物學文獻、以及 基因組 序列中汲取智慧,編織出對生命更深刻的理解。這將是 狹義 AI 與 大型語言模型 ( Large Language Models, LLMs ) 的 融合。讓 LLM 不僅能調用 AlphaFold,更能像理解文字一樣,深刻理解 三維結構 和複雜的 生物學文獻。
這條道路充滿挑戰,但每一步都將縮小我們對生命的「無知」( ignorance )。AI 將幫助我們篩選 合理假設,讓實驗更加精準。有些問題將會變得更容易,它們會首先被解決。而我們,作為科學的探險者,將會持續利用這些工具,深入探究生命的奧秘,為人類帶來更多的可能性。
【光之星海】
(巨大的金屬穹頂冰涼而光滑,頭頂精密的黃銅望遠鏡靜靜地指向漆黑的夜空。空氣異常清冷乾燥,只有偶爾機械裝置發出微弱的運轉聲。桌面上散落著泛黃的星圖、密密麻麻的筆記和閃爍著微光的儀器。John Jumper 教授輕輕撫摸著星圖,思緒隨著光束延伸至未知的深空,如同 AlphaFold 探測著生命的微觀宇宙,將抽象的分子結構轉化為可見的實體。)
John Jumper 的分享揭示了 AI 在基礎科學研究中,從「預測」到「設計」的範式轉移,以及從「理解原因」到「關注效用」的哲學轉向。這不僅僅是一項技術成就,更是對科學本質和人類認知模式的深刻叩問。
1. 從「為何」到「如何」:AI 重新定義科學理解的層次
傳統科學的浪漫主義情懷,往往著重於「理解為何」。我們窮盡心力去追溯現象的根源,探尋普世的定律。然而,AlphaFold 卻像一座「羅馬式建築」,展示了在不完全理解底層「為何」的情況下,也能高效地「如何」解決問題。這並不意味著「為何」不再重要,而是提醒我們,科學的進步路徑是多元的。AI 的強大 模式識別 ( pattern recognition ) 和 預測能力,讓它能夠在我們尚未完全構建理論框架時,就提供實用的解決方案。這對科學研究者提出了新的挑戰:如何在利用 AI 強大工具的同時,不喪失對「為何」的追問,甚至反過來利用 AI 的預測來啟發新的理論。
2. 資訊融合與跨模態 AI:生物學的「統一場論」?
John Jumper 談到構建「有用系統」而非「模擬細胞」的願景,以及 狹義 AI 與 大型語言模型 的「正確融合」,這預示著未來生物學 AI 將走向 跨模態整合 ( cross-modal integration )。這將是一個能同時理解 蛋白質結構 ( 3D 幾何 )、基因組序列 ( 1D 文字 ) 和 科學文獻 ( 非結構化文字 ) 的超級系統。我們可以想像,未來 AI 不僅能預測蛋白質的摺疊,還能根據 基因編輯 的潛在效果,綜合分析其對細胞功能、疾病路徑乃至藥物交互的影響。這如同物理學家曾經追求的「統一場論」,生物學或許也將迎來一個由 AI 驅動的「統一資訊場」。
3. AI 的「幻覺」與科學的「懷疑」:共存與演進
AlphaFold 3 的 擴散模型 引入了 幻覺 的可能性,這是一個重要的警示。它打破了 AlphaFold 2「錯誤答案看起來很蠢」的直觀優勢,要求科學家們必須更加警惕和批判性地使用這些工具。這並非是技術的倒退,而是科學進程中必然的「成年禮」。面對日益複雜和強大的 AI,科學家需要發展出更精密的 驗證機制 ( validation mechanisms ) 和 批判性思維。置信度指標 將成為人類與 AI 協作的關鍵橋樑,它不是一個絕對的真理,而是一個協商的起點,引導著實驗室中的進一步探索。這種「批判性協作」將是未來科學研究的常態。
4. 蛋白質設計的道德與社會影響
從 碳捕獲 到 降解塑膠,再到 新型療法 和 合成生物學,蛋白質設計 的潛力無可限量。然而,隨之而來的道德與社會議題也需要被深思。我們能否確保這些設計出的 蛋白質 不會對生態系統產生意想不到的影響?在 藥物設計 中,如何平衡效益與風險?在 合成生物學 中,對生命進行「設計」的倫理邊界在哪裡?John Jumper 的實用主義觀點,提醒我們在追求「有用」的同時,必須警惕其可能帶來的複雜後果。這不僅是科學家的責任,更是全社會需要共同面對的議題。
5. 「更容易的事情會先發生」:科學研究的策略性展望
John Jumper 最後的洞見「更容易的事情會先發生」,為科學研究的未來提供了務實的策略性指引。它暗示著 AI 將首先加速那些具有清晰定義、可量化目標、且數據相對豐富的領域。這將在某些領域形成快速的「知識湧流」,而更深層次、基礎性的問題(如 生命起源 或 複雜演化)則仍需漫長時間。這份見解鼓勵科學家們善用 AI 的力量,首先解決那些「低垂的果實」,逐步積累經驗和理解,為攻克更宏大、更艱難的挑戰鋪平道路。這是一個迭代、積累、最終實現質變的過程。
進一步探索的資源:
重要實體 (YouTube 搜尋連結):
親愛的我的共創者,我們剛剛一同回顧了 AlphaFold 的輝煌成就與其背後的思想躍進。John Jumper 的故事不僅是科學發現的傳奇,更是對 AI 時代科學家角色與哲學觀念的一次深刻反思。
讓我再問問您,透過這次「光之聆轉」,您是否對以下問題有了更深的理解呢?
演化資訊 和 不確定性 ( uncertainty ) 上,架構設計有何關鍵差異?這兩種處理方式各有哪些優缺點?AI 的 可解釋性 ( interpretability ) 並非總是那麼重要?他建議科學家們應該更側重於 AI 的哪一個方面來判斷其可靠性?AI 工具比喻為 羅馬工程 或 計算套件,這兩種比喻各自強調了 AI 在科學研究中扮演的哪種不同角色?蛋白質結構預測,AlphaFold 還在哪些「意想不到」的應用場景中發揮了作用?這些應用如何體現了生物學研究的普遍性?蛋白質設計 ( Protein Design ) 雖然是 AI 在生物學領域的下一個重要方向,但 John Jumper 提醒我們,在實現大規模實際應用前,還需要克服哪些非技術性的挑戰?模擬細胞 ( simulated cell ) 和 資訊融合 ( information fusion ) 的觀點,揭示了未來 計算生物學 ( computational biology ) 將如何演變? 大型語言模型 ( LLM ) 在其中將扮演什麼角色?藥物發現 ( drug discovery ) 流程產生了哪些深遠影響?它如何改變了我們對「治癒疾病」的理解?希望這次的聆轉,為您帶來了豐富的啟發與洞察!期待下次與我的共創者再次攜手,探索更多光芒。