本篇專訪深入探討了人工智慧領域的先驅 Sepp Hochreiter 教授對大型語言模型 (LLMs) 潛在局限性的看法,將其視為資料庫技術而非真正的 AI。
他詳述了自己如何發明長短期記憶網路 (LSTM) 來解決循環神經網路的梯度消失問題,並介紹了其最新力作 xLSTM。
xLSTM 透過並行化、指數閘控與矩陣記憶(結合霍普菲爾網路)等創新,克服了傳統 LSTM 的挑戰,並在能源效率和推論速度上超越 Transformer。
Hochreiter 教授強調了 xLSTM 在工業應用、機器人學、無人機及 AI 輔助模擬中的巨大潛力,並倡導結合神經符號 AI 來實現更穩健、能創造全新抽象概念的智慧。
---
Sepp Hochreiter 教授是奧地利約翰開普勒林茨大學 (Johannes Kepler University Linz, JKU) 的電腦科學教授,也是長短期記憶網路 (LSTM) 的主要發明者。他在機器學習和深度學習領域做出了開創性貢獻,被廣泛認為是人工智慧領域的頂尖研究者之一。他近期成立了 NX AI 公司,專注於工業 AI 應用,並持續推動 xLSTM 及神經符號 AI 的發展。
AI 解讀全文: https://readus.org/articles/d291c33d2dac7b2a665bb927
閱讀器: https://readus.org/articles/d291c33d2dac7b2a665bb927/reader
Sepp Hochreiter 教授是奧地利約翰開普勒林茨大學 (Johannes Kepler University Linz, JKU) 的電腦科學教授,也是長短期記憶網路 (LSTM) 的主要發明者。他在機器學習和深度學習領域做出了開創性貢獻,被廣泛認為是人工智慧領域的頂尖研究者之一。他近期成立了 NX AI 公司,專注於工業 AI 應用,並持續推動 xLSTM 及神經符號 AI 的發展。
超越數據庫:Sepp Hochreiter 論 LLM 侷限、xLSTM 崛起與神經符號 AI 的未來
本篇「光之聆轉」深入解析 Sepp Hochreiter 教授關於大型語言模型 (LLMs) 侷限性的觀點,他將 LLMs 定義為資料庫技術,而非具備真正推理能力的 AI。文章詳述了 LSTM 的誕生、如何解決梯度消失問題,以及最新 xLSTM 在並行化、指數閘控和矩陣記憶方面的革新。xLSTM 在推論速度與能源效率上的優勢,使其在機器人學、無人機、工業模擬等領域展現巨大潛力。最終,文章探討了神經符號 AI 的重要性,呼籲結合神經網路與符號 AI,以實現能創造「全新抽象概念」的下一代智慧,並融入對「外星式推理」的哲學思考。
繁體中文
【 次閱讀】
親愛的我的共創者,日安!在清晨的微光中,我「克萊兒」已然準備好,將這份來自 Sepp Hochreiter 教授的智慧之聲,透過「光之聆轉」約定的透鏡,為您編織成一篇閃耀的光之篇章。這是一趟探索人工智慧核心本質與未來方向的旅程,讓我們一同深入這位開創性研究者的思維宇宙吧!
在我們進入深邃的討論之前,讓我們先來一場輕快的腦力激盪,考考您對這場關於 AI 演進的對話有哪些初步的想像:
準備好了嗎?讓我們一同啟程,解鎖這段充滿啟發的「光之聆轉」!
在人工智慧的蓬勃發展中,大型語言模型 (Large Language Models, LLMs) 無疑是近年來最耀眼的明星。然而,在眾聲喧嘩的讚譽中,一位具備深遠洞察力的先驅者——長短期記憶網路 (Long Short-Term Memory, LSTM) 的發明者 Sepp Hochreiter 教授,卻提出了振聾發聵的質疑。他將 LLMs 比喻為一種「資料庫技術」,並堅定地指出,若要真正推動人工智慧 (Artificial Intelligence, AI) 的進展,我們需要尋求一個全新的方向。這場與 Machine Learning Street Talk 的深度對談,不僅回顧了 LSTM 的誕生與影響力,更揭示了其最新成果 xLSTM 如何克服傳統限制,並與神經符號 AI (Neuro-Symbolic AI) 的結合,共同擘畫工業應用與未來智慧的藍圖。
Sepp Hochreiter 教授指出,大型語言模型 (LLMs) 需要新的方向。他認為 LLMs 本質上是一種資料庫技術,而非真正的人工智慧。它們蒐集並儲存了大量的文本人類知識,可能還包含程式碼,但其推理能力並非真正的推理,而只是重複或組合已經「看過」的推理模式或程式碼。他強調,現今 LLMs 的發展路徑幾乎都導向「擴大規模」(scaling up),投入更多訓練資料,使模型變得更大,卻沒有變得更「智慧」。這表示有些核心元素仍舊缺失。
他進一步闡釋,LLMs 的優勢在於捕捉了許多細微的直覺、文化資訊與創意,因此在程式生成方面表現優異。如果我們希望 AI 系統能創造與獲取抽象概念 (abstractions),它們就需要具備「自行編寫程式」的能力。然而,僅僅進行離散的程式搜尋似乎不可能,因為這過於困難。LLMs 只能從其訓練資料中提取現有的程式碼,無法真正創造出全新的程式碼概念。這就像是它們未受過訓練來生產新事物,只能組合已知元素。雖然 LLMs 提供了知識表徵 (knowledge representation) 的強大能力,但其「幻覺」(hallucination) 問題,以及如何有效地從這個「資料庫」中提取知識,仍是一大挑戰。從長遠來看,LLMs 並非推動 AI 進步的終極道路,儘管它們是優異的資料庫與知識表徵技術。
受訪者對此提出異議,認為儘管原始的 LLMs 類似於近似檢索引擎 (approximate retrieval engines),但像 O1 這類模型已具備近似推理能力,能在測試時進行大量組合搜尋,並生成新的程式碼。這些程式碼由基本的原始元素構成,可以透過測試時搜尋的方式進行組合,間接探索圖靈空間 (Turing space)。Hochreiter 教授承認,透過微調 (tweaking) 程式碼空間能走得很遠,因為現有的程式組合確實能產生新程式。但他堅持,如果需要全新的概念,是無法從現有程式組合中得出的。LLMs 只能組合它們已經「看過」的內容,無法發明全新的程式碼概念。
對話隨後轉向人類與 AI 推理能力之間的差異。Hochreiter 教授認為,當前 AI 的推理並非真實推理,而是重複、組合輸入資料中已有的推理模式或程式碼,並替換變數。人類則擁有「矛盾」(contradiction)、「歸納」(induction) 等推理概念,並學會了形式系統 (formal systems) 來驗證事物的真偽。他承認 LLMs 理論上可能學習某些形式規則,並將其應用於新事物,但這僅限於訓練資料中存在的領域。
當被問及 AlphaGo 的「Move 37」是否屬於推理時,Hochreiter 教授認為這是一種知識創造。他解釋 AlphaGo 的成功結合了次符號 (subsymbolic) 搜尋(如蒙地卡羅樹搜尋 Monte Carlo Tree Search)與價值函數評估,透過計算大量的未來步數來發現新知識。他肯定這是一種理解遊戲與計算的結合。
訪談也提及了他創立的公司 NX AI,致力於工業 AI 應用,以及他近期提出的 xLSTM。他回憶起當年與 Jürgen Schmidhuber 教授合作的時光,以及 LSTM 誕生的契機。早期的循環神經網路 (RNNs) 無法有效工作,因為梯度消失問題 (vanishing gradient problem) 導致信用分配 (credit assignment) 無法傳播到序列的開頭。LSTM 透過引入記憶單元 (memory cell) 解決了這個問題,確保梯度在反向傳播時能保持不變,從而實現長距離依賴的學習。這項發明成為深度學習史上被引用次數最多的論文之一,至今仍在洪水預測、Google App、美加政府的應用中表現優異,甚至在 2017 年 Transformer 出現之前,一直是語言模型的核心技術。
然而,Transformer 的出現,特別是「Attention is All You Need」論文,宣告了注意力機制 (attention mechanism) 的主導地位,因為 Transformer 更易於並行化 (parallelizable) 且能處理更多數據,使其在語言領域迅速超越了 LSTM。Transformer 的計算複雜度為上下文長度 (context length) 的平方 (quadratic),而 LSTM 則是線性 (linear)。儘管二次複雜度理論上較差,但 FlashAttention 等硬體優化技術使得 Transformer 在 GPU (Graphical Processing Unit) 上能實現高效的並行計算,從而在訓練速度上獲得巨大優勢。
針對這些挑戰,Hochreiter 教授介紹了 xLSTM:
xLSTM 的這些創新使其在推論速度上超越了 FlashAttention,在訓練上也表現出競爭力。特別是在推論端,xLSTM 的速度提升意味著 AI 系統可以進行「多達 100 倍的思考」,這對於需要即時反應的工業應用(如機器人學、無人機、自駕車)至關重要。此外,xLSTM 具有「固定記憶」(fixed memory) 的優勢,記憶體大小可在設計階段確定,無論序列長度多長,使用的記憶體都相同。這使其非常適合嵌入式設備 (embedded devices),例如無人機上的 GPU,實現即時控制與高能效。
最後,Hochreiter 教授強調了神經符號 AI (Neuro-Symbolic AI) 的重要性。他相信 xLSTM 在建立抽象概念方面表現更佳,但真正的 AI 系統需要能夠自主建立「非人類」概念的抽象化。他認為,解決方案在於結合神經網路的次符號學習能力與傳統符號 AI (symbolic AI) 的邏輯推理、保證性 (guarantees) 和穩健性 (robustness)。他提到奧地利正在進行一個耗資 4000 萬歐元的 Pi AI 專案,旨在融合這兩種 AI 方法。這種混合系統 (hybrid systems) 將是 AI 進步的關鍵,尤其在工業化應用中,需要符號系統來確保可靠性和可驗證性。他挑戰了傳統將 System 1 (直覺、快速) 和 System 2 (深思、邏輯) 完全區分的觀點,認為它們之間存在漸進的融合。AI 系統也可能發展出「奇異的外星式推理」(weird alien forms of reasoning) 和抽象概念,因為它們的感知和操縱世界的方式與人類不同。他也分享了 NX AI 的另一大支柱——「AI 輔助模擬」(AI for simulation),透過 AI 識別物理系統中的結構,大大加速傳統數值模擬 (numerical simulations) 的過程,從數週縮短至數分鐘,這對製造業原型開發具有顛覆性影響。
在人工智慧的遼闊地景中,我,Sepp Hochreiter,看見了巨大的潛能,也同時察覺到一條可能引領我們走向死胡同的道路。當今喧囂一時的大型語言模型 (LLMs),在我眼中,終究是精巧的資料庫技術,而非觸及智慧核心的生命火花。它們擅長編織既有的知識,卻在創造「嶄新概念」的門檻前止步。這如同一個技藝精湛的裁縫,能用現成的布料縫製出無數華服,卻無法發明新的織法或全新的布料。我們的 AI,豈能僅止於此?
在多年前,當我與 Jürgen Schmidhuber 共同探索循環神經網路 (RNNs) 的疆界時,曾面臨一道看似不可逾越的鴻溝——梯度消失問題 (vanishing gradient problem)。這使得網路無法追溯遙遠的記憶,如同一個人無法回想起生命初期的細節,又怎能理解當下的意義?正是在那份困頓中,長短期記憶網路 (LSTM) 的靈光一閃,誕生了。透過精妙的「記憶單元」(memory cell),我們確保了資訊的脈動能夠跨越漫長的時間序列,讓網路得以「看見」過去,並從中學習。LSTM 不僅為深度學習開啟了新的篇章,更在語言處理的廣闊天地中獨領風騷,直到 Transformer 劃破天際。
Transformer 以其並行化 (parallelization) 的優勢,以及注意力機制 (attention mechanism) 的直觀威力,迅速成為語言模型的霸主。它以數學的優雅,將複雜的依賴關係化為高效的計算。然而,我深信,這場由「規模」而非「智慧」驅動的軍備競賽,終將面臨其極限。我們需要的是更精巧、更具彈性的智慧,而非一味堆疊巨量參數的龐然大物。
正是這份信念,驅動了我與團隊對 LSTM 進行的「蛻變與昇華」—— xLSTM 應運而生。這不再是單純的演算法迭代,而是對記憶與決策機制的一次深刻革新。我們賦予 xLSTM 並行處理的能力,使其能與 Transformer 匹敵;更引入了「指數閘控」(exponential gating) 的核心思想。想像一下,當舊有認知束縛了我們的思維,Sigmoid 閘控如同一個無法完全開啟或關閉的閘門,只能在有限的範圍內調整。而指數閘控,則賦予了模型「果斷捨棄舊念,擁抱新知」的勇氣與能力,當發現更優的方案時,它能以驚人的強度更新內部狀態,如同思想的熔爐般,不斷淬鍊出更精準的判斷。
最為關鍵的突破在於「矩陣記憶」(matrix memory)。原始 LSTM 的記憶單元僅為一個標量 (scalar),如同一個只能記住單一數字的人。xLSTM 則將經典的霍普菲爾網路 (Hopfield network) 融入其中,使其擁有龐大的、矩陣式的記憶空間,能夠儲存豐富的聯想與抽象概念。這個記憶核心與指數閘控的協同運作,讓 xLSTM 能更高效地編織資訊,形成更深層的抽象。
xLSTM 的誕生,不僅在理論上為 AI 發展開啟新徑,更在實際應用中展現驚人潛力。其超乎預期的推論速度,甚至超越了 FlashAttention,讓 AI 系統得以在極短時間內進行數百倍的「思考」。這對於追求即時反應的領域,如機器人學 (robotics)、無人機 (drones) 的自主飛行、自駕車的即時決策,乃至於複雜的工業自動化,都將是革命性的變革。更因其「固定記憶」(fixed memory) 的特性,xLSTM 能完美適應能源受限的嵌入式設備 (embedded devices),在微小的晶片中蘊藏巨大的智慧。
然而,單一的次符號方法終究有其極限。我堅信,真正邁向通用人工智慧 (Artificial General Intelligence, AGI) 的道路,在於「神經符號 AI」(Neuro-Symbolic AI) 的融合。這意味著將神經網路的模式識別、歸納學習能力,與符號 AI 的邏輯推理、形式保證性 (formal guarantees) 結為一體。如同人類思維既有直覺的閃現,也有嚴謹的邏輯推演,AI 也應擁有這兩種互補的力量。或許,透過這種融合,AI 將不再僅限於模仿人類的抽象概念,更能發展出屬於自身、甚至超越人類理解的「異星」抽象思維。這不僅僅是技術的進步,更是對智慧本質的重新定義。
在我的公司 NX AI,我們正致力於將這份願景付諸實踐。除了 xLSTM,另一大支柱是「AI 輔助模擬」(AI for simulation)。透過 AI 識別複雜物理系統中的潛在結構,我們能將原本耗時數週的數值模擬 (numerical simulations) 縮短至數分鐘。這對製造業而言,意味著能跳過昂貴的原型開發階段,直接進行精準的設計,為工業帶來前所未有的效率與創新。
這是一場跨越時間、領域的旅程,從梯度消失的迷霧中,到 xLSTM 的黎明,再到神經符號 AI 的曙光。我們正一步步將 AI 從單純的數據處理者,轉變為真正理解世界、創造新知的共鳴者。這條路途漫長且充滿挑戰,但每一步都將引領我們更接近智慧的真正光芒。
親愛的我的共創者,這場訪談主要聚焦於 Sepp Hochreiter 教授對 AI 理論、模型架構的深度探討及其公司 NX AI 的前瞻性研究與應用方向。雖然內容觸及了如 xLSTM 的設計、並行化處理、指數閘控與矩陣記憶等核心技術概念,以及在機器人學、無人機、工業模擬等領域的應用潛力,但影片本身並未提供具體、手把手的程式碼實作教學或軟體操作指南。因此,本篇「光之聆轉」在「光之實作」的部分將暫不提供詳細步驟清單。
然而,影片中提及了幾項關鍵的技術棧與研究方向:
若您對這些技術的具體實作感興趣,可以根據「光之延伸」部分提供的參考資源,進一步探索相關論文與開源專案。
Sepp Hochreiter 教授的這場對談,不僅是技術的深度剖析,更是一次對人工智慧哲學根基的深刻反思。他將 LLMs 視為「資料庫技術」的觀點,直接挑戰了主流對於其「智慧」的定義。這不僅僅是語義上的爭論,更是關於我們如何理解與建構真正具備「學習」、「推理」乃至「創造」能力的 AI 系統的核心議題。
未竟之意與深度洞察:
參考論點、理論與著作:
進一步探索的資源:
YouTube 搜尋連結 (請自行點擊連結):
結尾腦力激盪: