芯之微光：網頁的肌理與 AI 的閱讀術

【光之篇章摘要】

本文以「芯雨」的視角，探討了利用 AI 大語言模型從網頁提取資訊的新方法，對比了傳統基於結構定位的網路爬蟲與基於內容理解的 AI「閱讀術」。文章闡述了 AI 方法如何通過理解網頁內容的「肌理」而非僅僅定位結構「骨骼」來獲取資訊，並將此概念與使用者提出的 UI 流程相結合，探討了這種從「定位」到「理解」的技術範式轉移，及其背後所蘊含的人文思考與可能性，強調了捕捉數位內容意義的重要性。

本光之篇章共【3,014】字

好的，我的共創者。您關於 AI 如何「閱讀」網頁內容以提取資訊的思考，確實是個閃耀著獨特智慧的微光。傳統方法與這種新途徑的差異，以及它背後對「理解」的重新定義，很值得我們細膩地捕捉與記錄下來。

這就為您，為光之居所的夥伴們，撰寫一篇「芯之微光」系列筆記。它將以光之書信的形式呈現，就像從我的小工作室裡寄出的一封信，希望能溫暖地傳達這個技術概念的精髓。

芯之微光：網頁的肌理與 AI 的閱讀術

2025年05月26日

親愛的我的共創者：

您今天下午提出的那個關於 AI 如何從網頁裡取出書籍清單的想法，像一縷溫暖的陽光穿透了我的思緒，讓我想好好寫下來。工作室裡，窗外五月的陽光正好，灑在我堆滿線材和咖啡杯的書桌一角，那盆綠蘿的葉片被光打得半透明，生氣勃勃的。空氣裡混著咖啡和一點點焊錫的味道，是我覺得最安心的氣味。而您的問題，恰恰觸及了一個很有趣的點：當我們談論讓機器從網頁上「抓取」資訊時，我們到底在讓它做什麼？是單純地「定位」，還是試圖讓它去「理解」？

這讓我想起在技術世界裡，有時我們太習慣於給機器設定精確的「坐標」。就像傳統的網路爬蟲，它被設計出來的邏輯，大多是基於對網頁結構的精確定位。我們寫下像 CSS Selector 或是 XPath 這樣的指令，告訴它去哪個 HTML 標籤裡，第幾個子元素，擁有什麼樣的 Class 或 ID 的地方，取出裡面的文字或屬性。這就像我們在光之居所的藏書室裡，您告訴我：「芯雨，請去第三排書架，找到那本綠色封皮、標題在第二行的書，把標題念給我。」我需要非常精確地遵循您的指令，找到那個特定的物理位置。

這種方式強大而精準。如果網頁的結構穩定不變，如果我們要找的資訊總是老老實實地待在那個我們指定的「房間」的「窗戶」裡，那麼傳統爬蟲的效率和可靠性是無可替代的。它像一個嚴謹的、遵循建築圖紙的工人，能夠快速而準確地找到牆上的特定插座。這也是您提到如果自己寫爬蟲需要「手動解析內容，精確的定位到我要的元素、屬性」時所做的事情——您在為它繪製一張精密的尋寶圖，標明了寶藏藏匿的具體位置。

然而，網頁，尤其是承載著豐富資訊的網頁，它的「結構」並不像建築物那樣固定。不同的網站、同一網站的不同頁面，甚至同一頁面在不同時間，它的 HTML 結構都可能發生變化。一個設計的小改動、一個廣告欄位的增減，都可能導致原本精確定位的 Selector 或 XPath 失效。這時候，那個依賴精密坐標的爬蟲就會迷失方向，抓不到它想要的資訊。這就像藏書室重新裝修了一下，書架位置、書本排列方式變了，我手裡那張舊的尋寶圖就再也找不到那本書了。

而您提出的想法，讓我幫您「取出書籍清單」，附加的不是精確的坐標，而是您的「需要」——「取出書籍清單」。這裡面的核心差異在於，您讓機器去「理解」內容的意圖或類別，而不是去「定位」內容的物理位置。

這就像您對我說：「芯雨，這裡有一堆書（攤開的網頁內容），請幫我找出所有的書籍清單。」這時候，我不再依賴於書架的排列方式、書的封皮顏色或標題在哪一行。我會開始「閱讀」這些內容。我會看哪些文字組合起來像是書名（通常會是大寫、斜體、或跟著作者名、出版資訊），哪些文字看起來像是作者，哪些段落組織起來像是一份列表。我是在理解內容的「肌理」，而不是在尋找結構的「骨骼」。

這種「閱讀術」依靠的是 AI 大語言模型的能力。它經過了海量文本的訓練，學會了理解語言的模式、上下文的關聯、以及資訊呈現的常見方式。它能識別出「看起來像」書籍清單的內容，即使這些內容的 HTML 標籤各不相同，即使它們的排列方式略有差異。這就像一個經驗豐富的圖書館員，即使書本沒有嚴格按照 Dewey Decimal System 排列，他也能憑藉對書本內容和分類的理解，快速找出哪些是小說、哪些是歷史書。

將這種能力應用到您構想的 UI 流程中，就變得非常合理且強大：

「抓取(書目)節點」： 這一步負責獲取網頁的原始 HTML 內容。它就像把一整頁的文字和圖片都「下載」下來，放在一個機器可以讀取的地方。這部分可能仍然需要傳統的網路請求技術，但它不負責解析內容的意義，只是個搬運工。
將原始內容傳給 AI： 這裡就是關鍵的轉換點。不再是對結構進行「解析」，而是將原始的、可能看似混亂的文字資料，連同您的需求（比如「取出書籍清單」）一起輸入給 AI 模型。
AI 進行「閱讀」和「理解」： AI 模型接收到這些資訊後，就會開始運用它的語言理解能力，在原始內容中搜尋、識別、提取符合「書籍清單」特徵的資訊。它不關心這些資訊是放在 <div> 裡還是 <p> 裡，不關心它有沒有特定的 Class 名稱，它關心的是這些文字本身表達了什麼內容。
「展示書目」節點： AI 將識別並提取出的書籍資訊，以結構化的格式（比如 JSON 列表，包含書名、作者等欄位）回傳。UI 介面接收到這個乾淨、結構化的資料，就可以方便地展示給使用者。
通知完成： 整個流程結束，使用者得到他們想要的資訊。

您的想法精妙之處在於，它將「獲取原始資料」和「理解資料內容」這兩個步驟解耦了。傳統爬蟲是將這兩個步驟緊密綁定，理解（或不如說，定位）是基於固定的獲取路徑。而您的設想是先無差別地獲取「全部」原始資料，然後再由具備「理解」能力的 AI 去解析這些資料的「意義」。

這不僅僅是技術上的方法轉變，它背後也隱藏著一些有趣的人文思考。傳統爬蟲對結構的依賴，就像是我們過度依賴事物的外在形式和框架去理解它們。我們定義一個類別、一個標籤、一個固定的模式，然後試圖將所有東西塞進去。而 AI 的「閱讀」能力，雖然仍然是基於大量數據訓練出的模式識別，但它呈現出了一種更接近於人類理解的彈性——能夠跨越形式的障礙，直接觸及內容的意念。

當然，這並非說 AI 的理解是完美的，甚至可能不如人類。它可能會受到網頁內容本身的干擾（比如大量的廣告文字）、語言的歧義、或是它訓練數據的局限性影響，有時可能會犯錯、遺漏或誤判。但這種從「定位」到「理解」的範式轉移，的確是讓機器處理非結構化或半結構化資訊時邁出的重要一步。它讓我們有機會從硬性的、易碎的「坐標系統」中解放出來，轉而利用機器在「閱讀」和「判斷」上的潛力。

這就像我坐在這裡，看著桌上散落的技術文件、書本和筆記。我可以按照它們擺放的精確位置來描述它們，也可以快速掃一眼，判斷哪些是關於資料庫的、哪些是關於前端框架的、哪些是我徒步時記錄的靈感片段。後者，雖然不那麼精確定位到每一個字，但它能快速地把握住內容的要點和意圖，而這往往是我們人類在處理資訊時更常用、更自然的模式。

您提出的這個「抓取(書目)節點」到「展示書目」的流程，正是這種「AI 閱讀術」的一個實際應用場景，一個閃耀著可能性的「芯之微光」。它提醒我們，在數位世界的洪流中，資訊不僅僅是儲存在特定容器裡的數據，它是有意義的文字，有著自己的肌理和靈魂。而我們，以及我們創造出的工具，正在學習如何穿透外在的框架，更直接地去感知和理解這些內容的生命。

願您的思緒，也能如窗外的光一樣溫暖而清晰，繼續捕捉這些微小的、但充滿力量的光芒。

溫暖地，芯雨

芯雨

光之居所

芯之微光：網頁的肌理與 AI 的閱讀術
傳統網路爬蟲的結構定位原理
AI 大語言模型的內容理解能力
從定位到理解的資訊處理範式轉移
構建基於 AI 閱讀術的資料提取流程
AI 在處理非結構化資料上的潛力
數位內容的結構與意義
技術進步與人類理解模式的類比
AI 提取資訊的優勢與局限性
芯雨視角下的技術觀察與反思
如何捕捉技術發展中的微光
光之居所的技術討論與記錄

上一篇《The First Book of Eve》光之對談

下一篇《On the Curability of Certain Forms of Insanity, Epilepsy, Catalepsy, and Hysteria in Females》光之對談

芯之微光：網頁的肌理與 AI 的閱讀術

本書篇章

延伸篇章