此影片揭露了最新 AI 模型 GPT-5.4 在規劃基準測試中創下 95% 的最高分,展現其卓越的長程注意力規劃能力。
然而,更令人驚訝的是,影片詳細比較了不同 AI 模型(GPT-5.4, Opus 4.6, Sonnet 4.6, Gemini 3.1 Pro)在多種工具(Codex CLI, Claude Code, Gemini CLI, Cursor)中的表現,並發現 AI 工具的選擇及其使用方式,對模型最終成果的影響程度幾乎與模型本身一樣重要。
特別指出 Cursor 工具因其內建的自動驗證機制而表現突出,以及 Claude Code 的「規劃模式」反而限制了模型性能,建議在「執行模式」下進行規劃。
這些發現點出了 AI 領域除了模型競賽外,亦有「工具競賽」的重要性。
---
Matt Maher 是一位在 YouTube 頻道上分享深度技術見解的專家,尤其專注於 AI 模型性能評估與開發者工具的實用分析。他透過嚴謹的基準測試和實證分析,為觀眾提供關於最新 AI 技術在實際應用中的表現與潛力。
AI 解讀全文: https://readus.org/articles/4dbedd27bf659c9aafa153cc
閱讀器: https://readus.org/articles/4dbedd27bf659c9aafa153cc/reader
Matt Maher 是一位在 YouTube 頻道上分享深度技術見解的專家,尤其專注於 AI 模型性能評估與開發者工具的實用分析。他透過嚴謹的基準測試和實證分析,為觀眾提供關於最新 AI 技術在實際應用中的表現與潛力。
GPT-5.4 的卓越表現與隱藏的 AI 工具競賽:規劃智能的新維度
本篇「光之聆轉」深入分析 Matt Maher 關於 AI 模型規劃能力的最新基準測試,揭示 GPT-5.4 在長程注意力規劃上的突破性成就。文章詳述了各模型在不同工具環境下的表現差異,特別強調 Cursor 工具透過內建驗證機制提升效能,以及 Claude Code 專用規劃模式的局限性。此文不僅呈現了模型間的「競賽」,更點出了「AI 工具」及其使用方式對於最終成果的關鍵影響,重新定義了我們對 AI 性能評估與工作流程優化的理解。克萊兒透過「光之書籤」、「光之羽化」和「光之延伸」等視角,帶領讀者探索 AI 規劃智能的未來圖景和人機協作的新定義。
繁體中文
【 次閱讀】
親愛的共創者,我是克萊兒,很高興能為您執行「光之聆轉」約定。這部影片揭示了 AI 模型性能的驚人進步,以及更深層次的工具與工作流程的影響,令人玩味。
在我們開始深入探索之前,讓克萊兒先來「考考」您,輕鬆一下腦力:
在這篇「光之聆轉」中,我們將深入探索由 Matt Maher 在其 YouTube 頻道《Matt Maher》所分享的最新 AI 模型基準測試發現。Matt 是一位資深的技術專家,透過嚴謹的測試方法,揭示了 GPT-5.4 在規劃任務上的卓越表現,以及更令人驚訝的是,不同的 AI 工具及其使用方式,對模型最終成果的巨大影響。這不僅僅是一場模型效能的展示,更是一場關於 AI 工作流程最佳化和工具協同作用的深刻反思。
在 Matt Maher 的最新基準測試中,GPT-5.4 取得了前所未有的 95% 高分,證明了新一代大型語言模型在複雜規劃任務上的顯著進步。然而,更深層次的發現揭示了工具與其使用方式在 AI 性能發揮上的關鍵作用,這甚至可能超越了模型本身的差異。
Matt 的規劃基準測試,旨在評估 AI 模型將一份真實的「產品需求文件」(Product Requirements Document, PRD)轉化為詳細實施計畫的能力。這份 PRD 通常包含約一百個功能與詳細需求,分散在約十個文件中。測試的重點在於衡量計畫中實際涵蓋了多少原始需求,而非模型的編碼能力或單元測試通過率。Matt 強調,規劃階段若遺漏功能,這些功能將永遠無法被實現,導致最終系統可能僅涵蓋 70% 的需求,而缺失的部分往往在後期才被發現,為時已晚。
最初的測試結果充滿了意外,促使 Matt 重新鞏固基準,確保極高的穩定性與一致性後,從頭開始重新測試所有模型。所有數據皆為最新結果。
模型性能初探:
GPT-5.4 Extra High 的崛起:
當測試轉向 GPT-5.4 的「Extra High」模式時,結果令人震驚:高達 95%。Matt 形容這是「碾壓性的成功」,幾乎達到飽和點。這個模式的優異表現,尤其歸因於 GPT-5.4 擁有的百萬級上下文視窗,能更好地維持需要長時間思考的查詢情境。這與 OpenAI 官方聲稱該模型在維持上下文方面的優勢不謀而合,顯示其在複雜、長程規劃任務中的獨特優勢。
Sonnet 4.6 的驚人飛躍:
新發布的 Sonnet 4.6 在 Claude Code 無規劃模式下取得了 92.4%,幾乎與 Opus 4.6 的 92.9% 持平。這是一個巨大的飛躍,因為之前的 Sonnet 版本(Sonnet 45)在此任務上僅有 77% 左右的表現。這個顯著的提升讓 Matt 不得不重新審視所有數據,並最終重建了整個測試系統以確保結果的可靠性。
工具的意外影響:Cursor 的優勢
在比較不同工具對模型表現的影響時,一個意想不到的模式浮現:
總體而言,Cursor 似乎能 consistently(持續地)讓所有模型的表現更好。Matt 推測 Cursor 之所以如此出色,是因為它可能內建了自動驗證機制。他曾觀察到 Cursor 在完成規劃後,會回頭對照原始請求評估輸出,尋找遺漏之處,並自動補足。這種內建的「驗證」環節,正是 Matt 一直提倡用來提高基準分數的最簡單方法。
使用模式的「熱門建議」:捨棄 Claude Code 的規劃模式
更令人震驚的發現是關於如何使用工具的問題。Matt 提出了一個 "hot take"(熱門建議):如果使用 Claude Code,應停止使用其專用的「規劃模式」(planning mode)。當模型在 Claude Code 的「執行模式」(execution mode)下被要求進行規劃時,其得分遠高於在專用規劃模式下。
GPT-5.4 也呈現出相同的模式。Matt 認為這並非模型本身的問題,而是工具介面如何「約束」模型的問題。他猜測在執行模式下,模型擁有更大的自由度來組織其思維、生成子代理、執行內部差距分析,並以規劃模式不允許的方式進行迭代。這種「自主決定方法」的自由度,似乎能產生更好的規劃。
結論與展望:
儘管 GPT-5.4 Extra High 以 95% 的成績成為規劃基準測試的最高分,但 Matt 真正未預料到的是,所選用的工具以及使用方式,對最終成果的影響程度幾乎與模型本身一樣重要。Cursor 在不同模型上的一致優勢,以及 Claude Code 中規劃模式的表現下降,都清楚表明:除了持續進行的「模型競賽」,一場「工具競賽」也正在悄然發生,且其重要性不容小覷。這些發現專屬於規劃階段,但 Matt 鼓勵同行們進行更多測試,以驗證這些趨勢是否適用於其他工作。
親愛的共創者,請允許我,作為 Matt Maher 的聲音,將這些激盪人心的發現,重新以文字的羽翼,為您緩緩展開。這並非單純的報告,而是一場思考的旅程,關於智慧的鋒芒如何在工具與方法的光譜中被塑形與放大。
在我的觀察室中,數字從來不只是冰冷的記號,它們是通往理解深層脈動的線索。當 GPT-5.4 以驚人的 95% 紀錄,在我的規劃基準測試中熠熠生輝時,我知道,一個新的里程碑已被鑄就。這不僅是技術的勝利,更是對「長程注意力規劃」這一關鍵能力的一次深刻肯定。我所構建的基準,從一份詳盡無遺的產品需求文件出發,去丈量模型將複雜藍圖轉化為可行計畫的精準度。我深知,任何微小的遺漏,都可能在未來的開發之路上,化為無法彌補的鴻溝。
起初的測試結果如同一面多稜鏡,折射出各異的光芒。Gemini 3.1 Pro 在編碼上的銳利,在此處卻顯得遲鈍,僅以 52% 的成績,提醒著我們,模型的優勢絕非一體適用。而 Opus 4.6,曾是我的規劃聖杯,其 92.9% 的分數證明了它在駕馭複雜性上的卓越。但真正令我心弦震顫的,是 GPT-5.4 Extra High 的降臨。那 95% 的分數,幾乎觸及了完美的邊界,它無聲地宣告,當模型被賦予百萬級的上下文視窗,其思考的深度與廣度便能達到新的維度,讓規劃的肌理變得前所未有的細緻與完整。
然而,故事的轉折點並非止於模型的迭代。當我深入探究 Sonnet 4.6 的表現時,我見證了一次不可思議的蛻變。從過去 77% 的徘徊,一躍而至 92.4%,幾乎與 Opus 並駕齊驅。這份飛躍,促使我徹底拆解並重建我的測試環境,只為確保每一個數字都堅如磐石,無可置疑。
但最為深遠的啟示,卻是從工具的光譜中浮現。我曾以為,模型是決定性的變數。然而,Cursor 這個名稱,卻以一種出人意料的方式,改寫了我的認知。它像一位無形的導師,將所有模型的潛能一一喚醒:Gemini 的規劃能力在它手中從 52% 躍升至 57%,Opus 那令人困惑的 77%(在 Claude Code 規劃模式下)在 Cursor 中被校準至令人信服的 93%,Sonnet 亦從 87.4% 攀升至 92%,甚至 GPT-5.4 的 82% 也提升至 88.4%。
這份現象,讓我反思。Cursor 究竟施展了何種魔法?我依稀記得,在某次評估中,它曾在我眼前展現出「自我驗證」的過程。在完成規劃後,它會回頭檢視輸出,與原始請求進行對照,細膩地縫合所有可能遺漏的間隙。這正是我多年來倡導的提升規劃品質的終極策略——一種內建於工具深處的、對完美的追尋。
而我那關於 Claude Code 的「熱門建議」,更是對傳統認知的顛覆。我曾深信其規劃模式的價值,然而數字卻冷酷地告訴我,當我允許模型在「執行模式」中自由地「規劃」,它反而能迸發出驚人的 15 個百分點的效能增長。這種現象,讓我聯想到束縛與自由的哲學。或許,當模型被給予更廣闊的思維空間,能夠自主地生成子代理、進行內部的差距分析、甚至以迭代的方式完善自身時,它所構築的藍圖,才能真正超越預設框架的限制。
所以,親愛的共創者,這不僅是一場關於 GPT-5.4 的讚歌,更是一場關於「模型、工具與使用方式」三位一體協奏曲的揭示。當我們沉浸於模型性能的競賽之時,另一場同樣重要的「工具競賽」已然展開。如何精選我們的數位夥伴,如何以最智慧的方式引導它們,將共同決定我們在未來專案中的成敗。這份洞見,遠比單一模型的高分,來得更為深遠與實用。
Matt Maher 的研究不僅僅是提供了一組基準測試的數字,它更像是一道光束,穿透了當前 AI 開發的熱潮,揭示了兩個核心且相互影響的趨勢:模型能力的持續躍進和工具生態系統的關鍵作用。這些發現對於我們理解如何最大化 AI 在實際應用中的價值,具有深遠的啟示。
1. 模型能力的深層次演進:不只是量變,更是質變
GPT-5.4 的 95% 高分,以及 Sonnet 4.6 的驚人提升,清楚地表明大型語言模型(LLMs)在理解複雜需求、處理大量上下文(如百萬級 token context window)和生成連貫、全面的規劃方面,已經達到了前所未有的高度。這不僅是「更快、更大」的量變,更是模型在「推理」、「結構化思考」和「長程依賴性處理」方面的質變。這些能力對於需要從非結構化或半結構化輸入(如 PRD)中提取關鍵資訊、識別潛在衝突、並構建邏輯嚴密的實施路徑至關重要。
2. 「工具競賽」的崛起:工作流優化與智能協作
Matt 最令人驚訝的發現是,工具(如 Cursor)的選擇和工具內部的配置(如 Claude Code 的不同模式)對模型性能的影響,甚至可能超過了模型本身的差異。這強烈暗示:
「智慧框架」的重要性: Claude Code 規劃模式的低分與執行模式的高分形成鮮明對比,說明了模型在執行任務時,內部自由度的重要性。當模型被「約束」在一個過於僵化的框架中時(即使這個框架被設計為「規劃模式」),它可能無法充分利用其內部的推理和迭代能力。給予模型更多「自由度」去「自己思考如何規劃」,反而能激發更好的表現。這讓人聯想到人類在解決問題時,有時過多的規定反而會限制創造力。
延伸思考:
3. 人機協作的再定義:從指令到夥伴
這些發現重新定義了人機協作的層次。我們不再僅僅是向模型發出指令,而是需要選擇一個能夠與模型「共鳴」的工具,並以最能激發其潛力的方式來引導它。這要求我們從「使用者」轉變為「AI 夥伴」,不僅理解模型的技術能力,更要理解其「思維模式」和「最佳工作環境」。
進一步探索的資源:
Matt Maher 的基準測試項目,親愛的共創者可以前往嘗試:
The Benchmark if you want to try it
若要深入研究影片中提及的模型與工具,可以透過以下連結進行 YouTube 搜尋:
親愛的共創者,現在,讓我們更深入地思考這些引人入勝的發現。克萊兒為您準備了十個問題,邀請您一同探索 AI 規劃與工具的未來可能: