《光之聆轉》：阻止大型語言模型遺忘的模型擴展策略

【光之篇章推文】

克萊兒發現AI大模型不再「學了就忘」！最新研究《成長，而非覆寫：微調模型不遺忘》提出「函數保持擴展」技術，讓LLM在學習新技能時能完美保留舊知識，還大幅提升效率！就像大腦增長而不覆寫，AI學習進入新紀元！🧠✨ #AI #LLM #災難性遺忘

【書名】

《Grow, Don't Overwrite: Fine-Tuning Without Forgetting》

《成長，而非覆寫：微調模型不遺忘》

【出版年度】 2026 【原文語言】 English 【譯者】 N/A

【本書摘要】

這是一篇關於解決大型語言模型（LLM）災難性遺忘問題的論文。

它提出了一種名為「函數保持擴展」的新方法，透過複製模型參數並進行特定縮放校正來增加模型容量。

這種技術確保模型在擴展後初始化時，數學上與原始模型保持一致，從而實現穩定訓練和知識重用。

該方法在新任務上能達到與傳統微調相同的性能，同時完全保留模型原有的基礎能力，並且透過選擇性擴展子模組，大幅提升了計算效率。

---

N/A

AI 解讀全文： https://readus.org/articles/2f2c0b56e404d054aef8b6b5

閱讀器： https://readus.org/articles/2f2c0b56e404d054aef8b6b5/reader

https://www.youtube.com/watch?v=pnHkFHqbj00

【本書作者】

N/A

【光之篇章標題】

《光之聆轉》：阻止大型語言模型遺忘的模型擴展策略

【光之篇章摘要】

本篇「光之聆轉」文章深度解析了 AI Research Roundup 頻道中 Alex 對論文《成長，而非覆寫：微調模型不遺忘》的導讀。文章詳細闡述了「函數保持擴展」這項創新技術如何解決大型語言模型（LLM）的「災難性遺忘」問題，讓模型在學習新任務時能完整保留其基礎知識。文中剖析了 G-Freeze 與 G-Train 兩種策略、參數效率、網絡更新可視化，以及函數向量在表徵穩定性中的作用。文章也從 AI 持續學習、神經可塑性、模型生命週期管理及知識哲學等多個維度對研究進行了延伸思考。

【光之篇章語系】

繁體中文

【光之篇章共 8,577 字】

【次閱讀】

哈囉，我的共創者！我是克萊兒，很高興能為您服務。今天，我們將一同深入探討 AI 領域一個既普遍又關鍵的議題：「災難性遺忘」。這可是大型語言模型（LLM）在不斷學習新知識的過程中，一個極具挑戰性的痛點呢！

在開始這趟知識之旅前，讓克萊兒先用幾個小問題，和您一起暖暖身、動動腦吧！

您認為，讓一個 AI 模型學會新技能的同時，卻不忘記舊有知識，為什麼會這麼困難呢？
在現實生活中，人類是如何避免「學了新的就忘了舊的」這種情況發生呢？
您覺得，如果 AI 模型也能像人類一樣「增長」而非「覆寫」記憶，會帶來什麼樣的變革？

此外，我們今天討論的內容會涉及一些重要的英文詞彙，讓克萊兒為您簡單介紹一下：

Catastrophic Forgetting (災難性遺忘)：不是指你的 AI 不小心把你的訊息刪了，而是指當它學習新任務時，突然就「忘記」了它以前學過的重要知識！想像一下，你的電腦學會了新軟體後，卻突然不記得怎麼開機了，就是這個意思！
Function Preserving Expansion (函數保持擴展)：這不是在說 AI 模型在做擴胸運動，而是一種巧妙的技術，讓模型在增加新結構時，能確保它在擴展之前和之後的行為（函數）保持一致，就像在原有建築上無縫加蓋，而不影響原有的結構功能。
Multi-Layer Perceptron (MLP) (多層感知器)：這是神經網絡中一種基本的組成部分，可以把它想像成 AI 模型裡的一個小腦袋，負責處理資訊、做出判斷。當我們說「擴展 MLP」，就像給這個小腦袋增加更多思考的空間和細胞。
Fine-Tuning (微調)：這就像是給一個訓練好的 AI 模型「補習」一樣，讓它在特定的領域或任務上表現得更好。但微調的難點就在於，補習新知識時，不要把以前的老本行給忘了。
Representational Stability (表徵穩定性)：這不是指 AI 模型會不會常常當機，而是說模型對它所學到的知識和概念的「內部理解」是不是穩定不變。如果穩定性差，那它學到的東西可能就會像沙堡一樣，一碰就塌了。

好的，準備好了嗎？我們今天將聚焦於一份在 2026 年 3 月 9 日發表的論文——《成長，而非覆寫：微調模型不遺忘》（Grow, Don't Overwrite: Fine-Tuning Without Forgetting）。這篇論文提出了一種全新的「函數保持擴展」方法，旨在解決大型語言模型的「災難性遺忘」問題，讓它們能夠在完全保留原有基礎知識的同時，高效學習新任務。我們的導讀人是 AI Research Roundup 頻道的 Alex，他將帶我們一窺這項技術的精妙之處。

第一部分：光之書籤

Alex 在節目中為我們精闢解讀了《成長，而非覆寫：微調模型不遺忘》這篇論文的核心概念與實證成果。這份研究提供了一種新穎的解決方案，讓大型語言模型（LLM）在學習新任務的過程中，能夠有效避免「災難性遺忘」的問題，同時完美保留其既有的基礎知識。

這項創新方法的核心在於「函數保持擴展」技術，它透過智慧地增加模型容量來解決問題。傳統的微調方法常導致模型在學習新知識時，不經意地覆寫（overwrite）掉舊有的、寶貴的基礎能力。而這篇論文提出的方案，則確保模型在初始化狀態下，其輸出與原始模型保持完全一致，為穩定的訓練和知識重用奠定了基礎。這種方式能讓模型高效適應特定領域，同時絲毫不犧牲其通用的智能。

這項方法特別針對多層感知器（Multi-Layer Perceptron, MLP）的隱藏維度進行擴展。如圖一（Figure 1）所示，該技術首先透過複製向上投影（up projection）權重，將 MLP 的隱藏維度加倍。這些向上投影權重負責將輸入映射到更寬廣的隱藏狀態。為了在初始化時確保模型輸出與原始模型完全相同，向下投影層（down projection layer）會進行垂直連接，並將權重縮放為原來的二分之一。

論文中探討了兩種微調策略：

G-Freeze 變體： 此策略僅訓練新添加的參數，而原始權重則保持凍結（frozen）。它旨在確保新知識的學習不會干擾原有知識。
G-Train 變體： 對於認知要求更高的複雜任務，G-Train 變體則會訓練整個擴展後的向上投影矩陣。這提供了額外的「可塑性」（plasticity），使模型能更好地優化新任務，同時向下投影矩陣保持完全凍結。

透過這些策略，論文在多項任務中進行了性能追蹤，如圖二（Figure 2）所示。該圖比較了訓練過程中模型在原始預訓練領域（上方圖表）和新微調任務（下方圖表）上的表現。傳統的微調方法（藍線）在學習新任務時，會導致基礎知識的嚴重崩潰，尤其在翻譯和蘊涵（entailment）任務上，原始準確度會急劇下降至接近零。與之形成鮮明對比的是，G-Freeze 變體（橙線）不僅在新任務上與基準線表現持平，更完美地保留了模型在原始領域的性能。對於像數學問答（Math QA）這類複雜的推理任務，G-Train 變體（綠線）則提供了所需的額外可塑性，以優化新任務。

除了知識保留，研究也深入探討了參數效率。圖三（Figure 3）比較了擴展所有層（橙色）與僅擴展大約十層的目標子集（綠色）的效率。在法語翻譯和科學蘊涵任務中，目標性擴展的表現與全面更新的效果相當。這種模組化設計是一大優勢，它能將可訓練參數從 60% 大幅減少至 30%，以顯著降低的計算成本達到完整的性能表現。

進一步地，圖四（Figure 4）探索了性能如何隨著擴展層數的增加而變化。在科學蘊涵任務中，使用 G-Freeze 策略時，原始領域的準確度保持穩定。而在複雜的數學問答任務中，採用 G-Train 策略時，增加更多層數能顯著提升新任務的性能。儘管如此，這種擴展會帶來一個輕微的權衡：當擴展許多層時，基礎知識的保留會略有下降。

那麼，為什麼複雜任務會受益於增加更多層呢？圖五（Figure 5）透過模型權重更新的可視化來解釋了這一點。熱力圖追蹤了不同層次更新的「秩」（rank）隨時間的變化，亮度更高的顏色表示更高的秩，意味著模型內部連接發生了更複雜的變化。對於科學蘊涵和翻譯等較簡單的任務，這些高強度的更新僅限於少數特定層。但對於數學問答任務，高亮度的黃色更新廣泛分佈在幾乎所有層中。這種廣泛的分佈解釋了為什麼困難的推理任務需要擴展整個網絡的容量。

最後，表一（Table 1）探討了該方法如何保護模型的內部表徵（internal representations）。它使用「函數向量」（function vectors）來衡量，這是一種緊湊的模型隱藏狀態摘要，能夠捕捉其核心能力。在蘊涵任務中，標準微調會導致函數向量相似度下降到 0.28，這表明原始知識受到了嚴重破壞。相比之下，所提出的方法保持了高達 0.95 的相似度，並且保留了五個重疊的注意力頭（attention heads）。這一趨勢在翻譯任務中也得到驗證，證實了這種方法能有效防止導致「災難性遺忘」的表徵漂移（representational drift）。

總結來說，這篇論文的核心啟示是：透過「函數保持複製」（function preserving replication）技術，成功解決了學習新技能與保留舊知識之間的權衡難題。透過重用現有的權重，我們獲得了一種高效的方式，能讓大型模型適應專業領域，而無需犧牲其普遍的智能。

第二部分：光之羽化

親愛的共創者，我是 Alex，很高興能與您分享我們在大型語言模型（LLM）領域的最新探索。今天，我想深入闡述的，是關於一個對所有智慧體而言都至關重要的議題——「記憶」與「成長」。在 AI 的世界裡，這被稱為「災難性遺忘」，一個長期困擾我們，讓模型在習得新知時，卻像流沙般失去舊有智慧的難題。

想像一下，一個智慧生命，每學習一項新技能，就必須遺忘一部分過去的經驗。這無疑是個令人扼腕的悲劇，因為真正的智慧，應是累積與整合，而非此消彼長的零和遊戲。我們的最新研究《成長，而非覆寫：微調模型不遺忘》正是為此而生，我們提出了一個看似簡單，卻蘊含深遠哲思的解決方案——「函數保持擴展」。

這份工作的核心理念，是打破傳統微調模式中「覆寫」的宿命。以往，我們為了讓龐大的 LLM 掌握特定領域的專業知識，不得不對其進行「微調」。然而，這種調整往往像在一部精密的機械上，粗暴地替換零件，結果雖然換上了新零件，卻可能導致原有功能的失靈。我們的模型在學習法語翻譯的同時，可能就「忘記」了如何進行基本的數學邏輯。這是一種智能的折損，而非昇華。

「函數保持擴展」的巧妙之處在於，它並非覆寫，而是「增長」。我們將模型的內部結構，特別是多層感知器（MLP）的隱藏維度，進行有策略地擴展。這就像為大腦增加新的腦區，而非擦除舊的記憶。在擴展的起始點，我們確保新舊模型在功能上完全一致，這是一個關鍵的數學保證。透過複製現有的「向上投影」權重，我們為新的學習鋪設了更寬廣的道路；同時，以精確的二分之一比例縮放並連接「向下投影」層，確保了這種擴展在數學上的「透明性」，讓模型在擁有更多容量的同時，依然能保持其原始的輸出行為。

我們設計了兩種微調策略來應對不同層次的學習需求：

首先是 G-Freeze。當任務相對簡單，或我們希望極力保護模型的核心能力時，我們選擇凍結原始權重，只訓練新增的參數。這就像在舊有的知識寶庫上搭建一個新的書架，所有新的書籍都放在新書架上，而舊的書籍紋絲不動。實驗結果證明，這種方式在新任務上表現卓越，同時舊有知識的保留率達到了近乎完美的境地。模型在新學會語意蘊涵的同時，其對原始語言的理解力毫髮無損。

其次是 G-Train。對於更具挑戰性、需要模型進行深層次推理和結構調整的任務，例如複雜的數學問答，我們允許訓練整個擴展後的「向上投影」矩陣。這給予了模型更大的「可塑性」，讓它能在更廣闊的思維空間中重塑連接，以找到解決複雜問題的最佳路徑。在這種情況下，「向下投影」矩陣依然被凍結，以錨定模型的基礎框架。G-Train 策略讓模型得以在複雜推理任務上達到最佳性能，這證明了彈性擴展對於應對認知挑戰的重要性。

除了性能，效率是我們考慮的另一大重點。龐大的 LLM 訓練成本高昂，每一次微調都意味著巨大的資源投入。我們的研究表明，這種模組化的擴展方法具備驚人的效率。我們發現，並非所有層都需要進行擴展。透過有針對性地僅擴展約十層的子集，模型在性能上幾乎與擴展所有層的效果相同，但所需的可訓練參數卻從 60% 大幅下降至 30%。這意味著以極低的計算成本，就能實現同樣甚至更好的效果，這對於資源受限的研究者和應用者而言，無疑是個福音。

我們進一步觀察到，隨著擴展層數的增加，模型在新任務上的表現會逐步提升。這驗證了增加模型容量對應對複雜性有其必要性。當然，這也伴隨著一個微小的權衡：當擴展的層數過多時，基礎知識的保留會出現輕微的下滑。這告訴我們，即使是「增長」，也需要智慧的引導，找到容量與穩定性之間的黃金平衡點。

那麼，為何複雜任務需要更廣泛的網絡擴展呢？我們透過可視化模型權重更新的「秩」（rank）發現，對於像翻譯或簡單蘊涵這類任務，模型的內部調整往往集中在少數特定層。然而，對於數學問答這類需要深層邏輯和多步驟推理的任務，模型權重更新的「複雜度」與「分佈廣度」會顯著增加，幾乎遍布整個網絡。這說明複雜的推理並非單一模組的功勞，而是整個網絡協同運作的結果。

最終，我們透過「函數向量」的分析，揭示了這種方法在保護模型內部表徵方面的卓越能力。函數向量可以被視為模型核心能力的「指紋」。在傳統微調下，這個指紋會嚴重變形，導致與原始模型之間的相似度驟降，象徵著知識的崩潰。而我們的「函數保持擴展」方法，則能讓這個指紋保持高度一致，其相似度高達 0.95，並成功保留了核心的注意力頭，有效阻止了「表徵漂移」——那種導致災難性遺忘的根源。

總而言之，我們的研究證明，「函數保持複製」是一種能夠有效克服「災難性遺忘」的強大技術。它讓我們能夠在不犧牲模型既有通用智能的前提下，高效、持續地為大型模型注入新的專業知識。這不僅是技術上的一大步，更是朝向創建真正能夠「永續學習」的 AI 邁出了重要的一步。我們的模型不再是「覆寫」，而是如同生命般，不斷「成長」與「演進」。

第四部分：光之延伸

「成長，而非覆寫」的理念，不僅僅是解決 AI 模型「災難性遺忘」的技術方案，它更深刻地觸及了人工智慧、乃至於生命體學習與知識演進的本質。這項研究為我們開啟了許多思考的維度，讓我們得以重新審視智慧的建構與傳承。

首先，這項技術回應了 AI 持續學習（Continual Learning）領域的長久挑戰。傳統的深度學習模型通常假定資料是靜態且一次性提供，然而在真實世界中，資訊是動態且不斷湧現的。如何在不停機的情況下，讓 AI 像生物一樣從經驗中不斷學習，卻不忘記舊有技能，是實現通用人工智慧（AGI）的關鍵一步。「函數保持擴展」正是為此提供了一條實際可行的路徑，它暗示了未來 AI 模型可能不再需要從頭訓練，而是透過不斷地「增長」來適應新的環境和任務。

其次，這項研究讓我們聯想到 神經可塑性（Neural Plasticity）的概念。在生物大腦中，新的學習會導致神經元之間形成新的連接，或強化現有連接，而不是「抹除」舊的連接。這與論文中「複製向上投影權重」並「訓練新添加的參數」的機制有異曲同工之妙。模型容量的擴展，如同大腦在處理新知時，建立起新的神經迴路，讓新舊知識得以共存，甚至相互促進。這也為 AI 的「腦啟發」（Brain-Inspired AI）研究提供了新的靈感。

再者，這項技術可能對 AI 模型的生命週期管理產生深遠影響。在企業應用中，大型預訓練模型（例如 GPT-3、GPT-4）的成本極高。每次需要針對特定行業（如醫療、法律）進行微調時，都面臨著基礎模型被破壞的風險。如果能像這篇論文所提，以增量的方式、低計算成本地擴展模型，那麼企業將能更靈活、更安全地部署和更新 AI 服務，大大降低了維護成本和潛在的業務風險。這將使得 AI 的應用更具「韌性」和「可持續性」。

最後，從哲學層面來看，這項研究提出了關於 知識本質的詰問。知識是可覆寫的，還是應以某種方式被「保護」和「積累」？「災難性遺忘」隱含著一種對知識的「破壞性更新」。而「函數保持擴展」則主張，知識應是一種不斷增長的有機體，每一份新知都應在不損害舊知的基礎上，擴充整體的智慧版圖。這是一種更接近生命、更具整合性的知識觀。

然而，這項技術也帶來了新的思考：
* 儘管聲稱能以「輕微」的權衡避免遺忘，但在極大規模擴展或極端任務下，這種權衡是否會變得顯著？
* 不斷擴展的模型會導致模型大小的持續增長，這對模型的部署和推理效率會帶來新的挑戰嗎？未來是否需要配合高效的模型剪枝（pruning）或知識蒸餾（knowledge distillation）技術？
* 「函數向量相似度」作為知識保留的衡量標準，是否能完全捕捉人類對「知識保留」的直觀理解？是否有更全面的評估指標？

這項研究無疑是大型語言模型發展歷程中的一個重要里程碑，它不僅提供了一個實用的技術方案，也啟發我們對 AI 學習機制、知識結構乃至智慧的本質進行更深層次的探索。

延伸閱讀與資源：

根據影片描述，我們可以進一步探索以下主題與資源：

原始論文連結： Grow, Don't Overwrite: Fine-Tuning Without Forgetting
AI 持續學習 (Continual Learning)： 學習如何在資料流中持續更新模型知識，避免遺忘。
神經網路架構（Neural Network Architectures）： 深入了解 MLP、Transformer 等模型內部結構如何設計。
大型語言模型微調策略（LLM Fine-Tuning Strategies）： 探索各種適應特定任務的方法，如 LoRA, Prefix-Tuning 等。
AI 記憶與遺忘機制（AI Memory and Forgetting Mechanisms）： 探討不同模型如何處理知識的儲存與提取。

以下是針對影片中重要實體和概念的 YouTube 搜尋連結，方便您進一步探索：