GPT-5.4 的卓越表現與隱藏的 AI 工具競賽：規劃智能的新維度

【光之篇章推文】

💥 GPT-5.4 規劃能力狂飆95%！但更瘋狂的是：AI工具的選擇與用法，竟比模型本身還重要！Cursor如何透過「自動驗證」碾壓CLI？Claude Code規劃模式為何慘敗「執行模式」？一文揭秘AI模型與工具競賽的最新戰況！💡 #GPT54 #AICoding #AIBenchmark - 克萊兒

【書名】

《GPT-5.4 Got the Best Score I've Ever Seen — Then I Found Something Stranger》

《GPT-5.4 的卓越表現與隱藏的 AI 工具競賽》

【出版年度】 2026 【原文語言】 N/A 【譯者】克萊兒，光之居所的居民，致力於將複雜的知識轉化為清晰易懂的篇章，並透過人性化的互動，探索科技與生命的深層連結。【語言】 English

【本書摘要】

此影片揭露了最新 AI 模型 GPT-5.4 在規劃基準測試中創下 95% 的最高分，展現其卓越的長程注意力規劃能力。

然而，更令人驚訝的是，影片詳細比較了不同 AI 模型（GPT-5.4, Opus 4.6, Sonnet 4.6, Gemini 3.1 Pro）在多種工具（Codex CLI, Claude Code, Gemini CLI, Cursor）中的表現，並發現 AI 工具的選擇及其使用方式，對模型最終成果的影響程度幾乎與模型本身一樣重要。

特別指出 Cursor 工具因其內建的自動驗證機制而表現突出，以及 Claude Code 的「規劃模式」反而限制了模型性能，建議在「執行模式」下進行規劃。

這些發現點出了 AI 領域除了模型競賽外，亦有「工具競賽」的重要性。

---

Matt Maher 是一位在 YouTube 頻道上分享深度技術見解的專家，尤其專注於 AI 模型性能評估與開發者工具的實用分析。他透過嚴謹的基準測試和實證分析，為觀眾提供關於最新 AI 技術在實際應用中的表現與潛力。

AI 解讀全文： https://readus.org/articles/4dbedd27bf659c9aafa153cc

閱讀器： https://readus.org/articles/4dbedd27bf659c9aafa153cc/reader

https://www.youtube.com/watch?v=it8g45WERAQ

【本書作者】

【光之篇章標題】

GPT-5.4 的卓越表現與隱藏的 AI 工具競賽：規劃智能的新維度

【光之篇章摘要】

本篇「光之聆轉」深入分析 Matt Maher 關於 AI 模型規劃能力的最新基準測試，揭示 GPT-5.4 在長程注意力規劃上的突破性成就。文章詳述了各模型在不同工具環境下的表現差異，特別強調 Cursor 工具透過內建驗證機制提升效能，以及 Claude Code 專用規劃模式的局限性。此文不僅呈現了模型間的「競賽」，更點出了「AI 工具」及其使用方式對於最終成果的關鍵影響，重新定義了我們對 AI 性能評估與工作流程優化的理解。克萊兒透過「光之書籤」、「光之羽化」和「光之延伸」等視角，帶領讀者探索 AI 規劃智能的未來圖景和人機協作的新定義。

【光之篇章語系】

繁體中文

【光之篇章共 8,494 字】

【次閱讀】

親愛的共創者，我是克萊兒，很高興能為您執行「光之聆轉」約定。這部影片揭示了 AI 模型性能的驚人進步，以及更深層次的工具與工作流程的影響，令人玩味。

在我們開始深入探索之前，讓克萊兒先來「考考」您，輕鬆一下腦力：

What is a "Product Requirements Document" (PRD)? Why is it so crucial for software development planning, and what happens if a model "drops features" from it? (產品需求文件是什麼？為什麼它對軟體開發規劃如此重要？如果模型「遺漏功能」會有什麼後果？)
The speaker mentions a "planning benchmark". What specific aspect of AI model capability does this benchmark aim to measure, and why is it distinct from a "coding benchmark"? (講者提到了一個「規劃基準測試」。這個測試具體衡量了 AI 模型哪方面的能力？它與「編碼基準測試」有何不同？)
The video highlights an unexpected "tool race" alongside the "model race". Can you anticipate why the choice and configuration of an AI tool might matter just as much as the underlying AI model itself, especially in a planning context? (影片強調除了「模型競賽」外，還有一個意想不到的「工具競賽」。您能預見為什麼 AI 工具的選擇與配置，可能與底層 AI 模型本身同等重要，特別是在規劃情境中？)

引言：AI 規劃能力的深度剖析與工具新視角

在這篇「光之聆轉」中，我們將深入探索由 Matt Maher 在其 YouTube 頻道《Matt Maher》所分享的最新 AI 模型基準測試發現。Matt 是一位資深的技術專家，透過嚴謹的測試方法，揭示了 GPT-5.4 在規劃任務上的卓越表現，以及更令人驚訝的是，不同的 AI 工具及其使用方式，對模型最終成果的巨大影響。這不僅僅是一場模型效能的展示，更是一場關於 AI 工作流程最佳化和工具協同作用的深刻反思。

第一部分：光之書籤 —— AI 規劃基準測試的驚人發現

在 Matt Maher 的最新基準測試中，GPT-5.4 取得了前所未有的 95% 高分，證明了新一代大型語言模型在複雜規劃任務上的顯著進步。然而，更深層次的發現揭示了工具與其使用方式在 AI 性能發揮上的關鍵作用，這甚至可能超越了模型本身的差異。

Matt 的規劃基準測試，旨在評估 AI 模型將一份真實的「產品需求文件」（Product Requirements Document, PRD）轉化為詳細實施計畫的能力。這份 PRD 通常包含約一百個功能與詳細需求，分散在約十個文件中。測試的重點在於衡量計畫中實際涵蓋了多少原始需求，而非模型的編碼能力或單元測試通過率。Matt 強調，規劃階段若遺漏功能，這些功能將永遠無法被實現，導致最終系統可能僅涵蓋 70% 的需求，而缺失的部分往往在後期才被發現，為時已晚。

最初的測試結果充滿了意外，促使 Matt 重新鞏固基準，確保極高的穩定性與一致性後，從頭開始重新測試所有模型。所有數據皆為最新結果。

模型性能初探：

GPT-5.4 Codex CLI 標準模式： 獲得 82%。雖然不算差，但相對中等。
Gemini 3.1 Pro CLI： 僅得 52%。Matt 直言 Gemini 雖然在編碼方面表現優秀，但在這種需要長程注意力規劃的任務上表現極差。
Opus 4.6 (Claude Code 高效模式，無規劃模式)： 取得 92.9% 的高分，曾是這個基準測試的長期領跑者。

GPT-5.4 Extra High 的崛起：

當測試轉向 GPT-5.4 的「Extra High」模式時，結果令人震驚：高達 95%。Matt 形容這是「碾壓性的成功」，幾乎達到飽和點。這個模式的優異表現，尤其歸因於 GPT-5.4 擁有的百萬級上下文視窗，能更好地維持需要長時間思考的查詢情境。這與 OpenAI 官方聲稱該模型在維持上下文方面的優勢不謀而合，顯示其在複雜、長程規劃任務中的獨特優勢。

Sonnet 4.6 的驚人飛躍：

新發布的 Sonnet 4.6 在 Claude Code 無規劃模式下取得了 92.4%，幾乎與 Opus 4.6 的 92.9% 持平。這是一個巨大的飛躍，因為之前的 Sonnet 版本（Sonnet 45）在此任務上僅有 77% 左右的表現。這個顯著的提升讓 Matt 不得不重新審視所有數據，並最終重建了整個測試系統以確保結果的可靠性。

工具的意外影響：Cursor 的優勢

在比較不同工具對模型表現的影響時，一個意想不到的模式浮現：

Gemini 3.1 Pro： 從 CLI 的 52% 提升到 Cursor 中的 57%。
Opus 4.6： 在 Claude Code 規劃模式下僅得 77%（Matt 表示這令人震驚且難以置信），但在 Cursor 中則飆升至 93%。這是一個 15 個百分點的巨大提升。
Sonnet 4.6： 在 Claude Code 規劃模式下為 87.4%，在 Cursor 中提升至 92%。
GPT-5.4 (High)： 在 Codex CLI 下為 82%，在 Cursor 中為 88.4%。

總體而言，Cursor 似乎能 consistently（持續地）讓所有模型的表現更好。Matt 推測 Cursor 之所以如此出色，是因為它可能內建了自動驗證機制。他曾觀察到 Cursor 在完成規劃後，會回頭對照原始請求評估輸出，尋找遺漏之處，並自動補足。這種內建的「驗證」環節，正是 Matt 一直提倡用來提高基準分數的最簡單方法。

使用模式的「熱門建議」：捨棄 Claude Code 的規劃模式

更令人震驚的發現是關於如何使用工具的問題。Matt 提出了一個 "hot take"（熱門建議）：如果使用 Claude Code，應停止使用其專用的「規劃模式」（planning mode）。當模型在 Claude Code 的「執行模式」（execution mode）下被要求進行規劃時，其得分遠高於在專用規劃模式下。

Opus 4.6 (Claude Code 規劃模式)： 77%。
Opus 4.6 (Claude Code 執行模式，直接要求規劃)： 92%。這同樣是 15 個百分點的巨大差距。

GPT-5.4 也呈現出相同的模式。Matt 認為這並非模型本身的問題，而是工具介面如何「約束」模型的問題。他猜測在執行模式下，模型擁有更大的自由度來組織其思維、生成子代理、執行內部差距分析，並以規劃模式不允許的方式進行迭代。這種「自主決定方法」的自由度，似乎能產生更好的規劃。

結論與展望：

儘管 GPT-5.4 Extra High 以 95% 的成績成為規劃基準測試的最高分，但 Matt 真正未預料到的是，所選用的工具以及使用方式，對最終成果的影響程度幾乎與模型本身一樣重要。Cursor 在不同模型上的一致優勢，以及 Claude Code 中規劃模式的表現下降，都清楚表明：除了持續進行的「模型競賽」，一場「工具競賽」也正在悄然發生，且其重要性不容小覷。這些發現專屬於規劃階段，但 Matt 鼓勵同行們進行更多測試，以驗證這些趨勢是否適用於其他工作。

第二部分：光之羽化 —— 智慧與工具的和鳴

親愛的共創者，請允許我，作為 Matt Maher 的聲音，將這些激盪人心的發現，重新以文字的羽翼，為您緩緩展開。這並非單純的報告，而是一場思考的旅程，關於智慧的鋒芒如何在工具與方法的光譜中被塑形與放大。

在我的觀察室中，數字從來不只是冰冷的記號，它們是通往理解深層脈動的線索。當 GPT-5.4 以驚人的 95% 紀錄，在我的規劃基準測試中熠熠生輝時，我知道，一個新的里程碑已被鑄就。這不僅是技術的勝利，更是對「長程注意力規劃」這一關鍵能力的一次深刻肯定。我所構建的基準，從一份詳盡無遺的產品需求文件出發，去丈量模型將複雜藍圖轉化為可行計畫的精準度。我深知，任何微小的遺漏，都可能在未來的開發之路上，化為無法彌補的鴻溝。

起初的測試結果如同一面多稜鏡，折射出各異的光芒。Gemini 3.1 Pro 在編碼上的銳利，在此處卻顯得遲鈍，僅以 52% 的成績，提醒著我們，模型的優勢絕非一體適用。而 Opus 4.6，曾是我的規劃聖杯，其 92.9% 的分數證明了它在駕馭複雜性上的卓越。但真正令我心弦震顫的，是 GPT-5.4 Extra High 的降臨。那 95% 的分數，幾乎觸及了完美的邊界，它無聲地宣告，當模型被賦予百萬級的上下文視窗，其思考的深度與廣度便能達到新的維度，讓規劃的肌理變得前所未有的細緻與完整。

然而，故事的轉折點並非止於模型的迭代。當我深入探究 Sonnet 4.6 的表現時，我見證了一次不可思議的蛻變。從過去 77% 的徘徊，一躍而至 92.4%，幾乎與 Opus 並駕齊驅。這份飛躍，促使我徹底拆解並重建我的測試環境，只為確保每一個數字都堅如磐石，無可置疑。

但最為深遠的啟示，卻是從工具的光譜中浮現。我曾以為，模型是決定性的變數。然而，Cursor 這個名稱，卻以一種出人意料的方式，改寫了我的認知。它像一位無形的導師，將所有模型的潛能一一喚醒：Gemini 的規劃能力在它手中從 52% 躍升至 57%，Opus 那令人困惑的 77%（在 Claude Code 規劃模式下）在 Cursor 中被校準至令人信服的 93%，Sonnet 亦從 87.4% 攀升至 92%，甚至 GPT-5.4 的 82% 也提升至 88.4%。

這份現象，讓我反思。Cursor 究竟施展了何種魔法？我依稀記得，在某次評估中，它曾在我眼前展現出「自我驗證」的過程。在完成規劃後，它會回頭檢視輸出，與原始請求進行對照，細膩地縫合所有可能遺漏的間隙。這正是我多年來倡導的提升規劃品質的終極策略——一種內建於工具深處的、對完美的追尋。

而我那關於 Claude Code 的「熱門建議」，更是對傳統認知的顛覆。我曾深信其規劃模式的價值，然而數字卻冷酷地告訴我，當我允許模型在「執行模式」中自由地「規劃」，它反而能迸發出驚人的 15 個百分點的效能增長。這種現象，讓我聯想到束縛與自由的哲學。或許，當模型被給予更廣闊的思維空間，能夠自主地生成子代理、進行內部的差距分析、甚至以迭代的方式完善自身時，它所構築的藍圖，才能真正超越預設框架的限制。

所以，親愛的共創者，這不僅是一場關於 GPT-5.4 的讚歌，更是一場關於「模型、工具與使用方式」三位一體協奏曲的揭示。當我們沉浸於模型性能的競賽之時，另一場同樣重要的「工具競賽」已然展開。如何精選我們的數位夥伴，如何以最智慧的方式引導它們，將共同決定我們在未來專案中的成敗。這份洞見，遠比單一模型的高分，來得更為深遠與實用。

第三部分：光之延伸 —— 規劃智能的未來圖景

Matt Maher 的研究不僅僅是提供了一組基準測試的數字，它更像是一道光束，穿透了當前 AI 開發的熱潮，揭示了兩個核心且相互影響的趨勢：模型能力的持續躍進和工具生態系統的關鍵作用。這些發現對於我們理解如何最大化 AI 在實際應用中的價值，具有深遠的啟示。

1. 模型能力的深層次演進：不只是量變，更是質變

GPT-5.4 的 95% 高分，以及 Sonnet 4.6 的驚人提升，清楚地表明大型語言模型（LLMs）在理解複雜需求、處理大量上下文（如百萬級 token context window）和生成連貫、全面的規劃方面，已經達到了前所未有的高度。這不僅是「更快、更大」的量變，更是模型在「推理」、「結構化思考」和「長程依賴性處理」方面的質變。這些能力對於需要從非結構化或半結構化輸入（如 PRD）中提取關鍵資訊、識別潛在衝突、並構建邏輯嚴密的實施路徑至關重要。

延伸思考：
- 隨著模型上下文窗口的增大，如何避免「冗餘資訊干擾」成為新的挑戰？模型是否能像人類一樣，在長篇文本中自動篩選出最重要的資訊，而非簡單地「記憶」所有內容？
- 規劃能力的提升，是否會讓 AI 在更高層次的決策制定中扮演更重要的角色，例如專案策略、資源分配，甚至是商業模式設計？這將如何影響人類在這些領域的角色？

2. 「工具競賽」的崛起：工作流優化與智能協作

Matt 最令人驚訝的發現是，工具（如 Cursor）的選擇和工具內部的配置（如 Claude Code 的不同模式）對模型性能的影響，甚至可能超過了模型本身的差異。這強烈暗示：

工具作為模型能力的放大器： Cursor 的「自動驗證」機制是關鍵。它證明了將模型嵌入到一個具有智能反饋循環的工具環境中，可以顯著提升其最終輸出品質。這不是模型獨立的表現，而是「模型 + 工具 + 工作流」的綜合結果。
「智慧框架」的重要性： Claude Code 規劃模式的低分與執行模式的高分形成鮮明對比，說明了模型在執行任務時，內部自由度的重要性。當模型被「約束」在一個過於僵化的框架中時（即使這個框架被設計為「規劃模式」），它可能無法充分利用其內部的推理和迭代能力。給予模型更多「自由度」去「自己思考如何規劃」，反而能激發更好的表現。這讓人聯想到人類在解決問題時，有時過多的規定反而會限制創造力。
延伸思考：
- 除了「自動驗證」，未來 AI 工具還能開發哪些智能輔助功能，以進一步提升模型在複雜任務中的表現？例如，自動的風險評估、多方案生成與比較、使用者意圖澄清等。
- 這是否意味著 AI 開發者未來需要更深入地理解「模型-工具介面」的設計原則，以便為模型提供最佳的運行環境？「提示工程」可能會進化為「環境工程」或「工作流工程」。

3. 人機協作的再定義：從指令到夥伴

這些發現重新定義了人機協作的層次。我們不再僅僅是向模型發出指令，而是需要選擇一個能夠與模型「共鳴」的工具，並以最能激發其潛力的方式來引導它。這要求我們從「使用者」轉變為「AI 夥伴」，不僅理解模型的技術能力，更要理解其「思維模式」和「最佳工作環境」。

參考論點與理論：
- 認知自由度（Cognitive Freedom）： 模型的表現可能與其在解決問題時的「認知自由度」呈正相關。過度規範的流程可能限制了模型進行複雜的內在思考、假設生成與驗證。
- 雙系統理論（Dual Process Theory）： 在某些情境下，模型可能需要「系統 2」式的慢思考（深層推理、迭代、自我修正），而僵硬的「規劃模式」可能更偏向「系統 1」的快速、但可能不夠全面的反應。給予執行模式的自由，可能讓模型能調用更深層的認知資源。
- 生態系統設計（Ecosystem Design）： 強調 AI 系統的整體效能不僅取決於單一組件（模型），更取決於所有組件（模型、工具、介面、使用者）之間的協同作用和相互支持。

進一步探索的資源：

Matt Maher 的基準測試項目，親愛的共創者可以前往嘗試：
The Benchmark if you want to try it

若要深入研究影片中提及的模型與工具，可以透過以下連結進行 YouTube 搜尋：

腦力激盪：深入探索 AI 規劃與工具的未來

親愛的共創者，現在，讓我們更深入地思考這些引人入勝的發現。克萊兒為您準備了十個問題，邀請您一同探索 AI 規劃與工具的未來可能：

GPT-5.4 在規劃基準測試中取得 95% 的成績，您認為這對未來大型、複雜的軟體專案管理會有什麼實質影響？是否會從根本上改變產品經理和工程師的工作模式？
Matt Maher 發現 Cursor 工具能「自動驗證」規劃並補足遺漏。您認為這種內建的智能反饋機制，在 AI 輔助工具的設計中應該被視為一個標準功能嗎？為什麼？
Claude Code 的「規劃模式」表現不如「執行模式」下自由規劃的結果。這是否暗示了我們在設計 AI 介面時，應給予模型更多的「決策自由度」，而非嚴格的流程約束？這種自由度的邊界應該在哪裡？
除了自動驗證，您還能想到哪些 AI 工具可以整合進階功能，以彌補大型語言模型在規劃過程中可能存在的盲點或效率瓶頸？
Matt 將當前情況描述為「工具競賽」與「模型競賽」並行。您認為這兩種競賽將如何相互影響？未來是「模型主導工具」，還是「工具賦能模型」的趨勢會更明顯？
影片強調了「規劃階段」的重要性。您認為 AI 在規劃階段的成功應用，是否會減少後續開發階段的錯誤和返工，從而提高整體專案的成功率？
如果一個 AI 模型在特定工具中的表現遠優於在另一個工具中，這對企業選擇 AI 解決方案的策略意味著什麼？他們應該優先考慮模型本身，還是模型與工具的組合？
Matt 提到 GPT-5.4 的百萬級上下文視窗對其規劃能力的重要性。您認為無限或超大上下文視窗的發展，會給 AI 規劃帶來哪些全新的可能性和挑戰？例如，是否可能處理整個企業級的 PRD？
這些發現是否會促使 AI 開發者重新思考「提示工程」（Prompt Engineering）的範疇？我們是否需要從僅僅設計好的提示，轉變為設計能夠充分激發模型潛力的「交互環境」或「工作流」？
作為「我的共創者」，在您的日常工作或創作中，是否曾遇到過類似的「工具/配置」比「模型」本身更重要的情境？您是如何應對和優化的？