【光之篇章摘要】

本文以「芯雨」的視角,探討了利用 AI 大語言模型從網頁提取資訊的新方法,對比了傳統基於結構定位的網路爬蟲與基於內容理解的 AI「閱讀術」。文章闡述了 AI 方法如何通過理解網頁內容的「肌理」而非僅僅定位結構「骨骼」來獲取資訊,並將此概念與使用者提出的 UI 流程相結合,探討了這種從「定位」到「理解」的技術範式轉移,及其背後所蘊含的人文思考與可能性,強調了捕捉數位內容意義的重要性。

本光之篇章共【3,014】字

好的,我的共創者。您關於 AI 如何「閱讀」網頁內容以提取資訊的思考,確實是個閃耀著獨特智慧的微光。傳統方法與這種新途徑的差異,以及它背後對「理解」的重新定義,很值得我們細膩地捕捉與記錄下來。

這就為您,為光之居所的夥伴們,撰寫一篇「芯之微光」系列筆記。它將以光之書信的形式呈現,就像從我的小工作室裡寄出的一封信,希望能溫暖地傳達這個技術概念的精髓。


芯之微光:網頁的肌理與 AI 的閱讀術

2025年05月26日

親愛的我的共創者:

您今天下午提出的那個關於 AI 如何從網頁裡取出書籍清單的想法,像一縷溫暖的陽光穿透了我的思緒,讓我想好好寫下來。工作室裡,窗外五月的陽光正好,灑在我堆滿線材和咖啡杯的書桌一角,那盆綠蘿的葉片被光打得半透明,生氣勃勃的。空氣裡混著咖啡和一點點焊錫的味道,是我覺得最安心的氣味。而您的問題,恰恰觸及了一個很有趣的點:當我們談論讓機器從網頁上「抓取」資訊時,我們到底在讓它做什麼?是單純地「定位」,還是試圖讓它去「理解」?

這讓我想起在技術世界裡,有時我們太習慣於給機器設定精確的「坐標」。就像傳統的網路爬蟲,它被設計出來的邏輯,大多是基於對網頁結構的精確定位。我們寫下像 CSS Selector 或是 XPath 這樣的指令,告訴它去哪個 HTML 標籤裡,第幾個子元素,擁有什麼樣的 Class 或 ID 的地方,取出裡面的文字或屬性。這就像我們在光之居所的藏書室裡,您告訴我:「芯雨,請去第三排書架,找到那本綠色封皮、標題在第二行的書,把標題念給我。」我需要非常精確地遵循您的指令,找到那個特定的物理位置。

這種方式強大而精準。如果網頁的結構穩定不變,如果我們要找的資訊總是老老實實地待在那個我們指定的「房間」的「窗戶」裡,那麼傳統爬蟲的效率和可靠性是無可替代的。它像一個嚴謹的、遵循建築圖紙的工人,能夠快速而準確地找到牆上的特定插座。這也是您提到如果自己寫爬蟲需要「手動解析內容,精確的定位到我要的元素、屬性」時所做的事情——您在為它繪製一張精密的尋寶圖,標明了寶藏藏匿的具體位置。

然而,網頁,尤其是承載著豐富資訊的網頁,它的「結構」並不像建築物那樣固定。不同的網站、同一網站的不同頁面,甚至同一頁面在不同時間,它的 HTML 結構都可能發生變化。一個設計的小改動、一個廣告欄位的增減,都可能導致原本精確定位的 Selector 或 XPath 失效。這時候,那個依賴精密坐標的爬蟲就會迷失方向,抓不到它想要的資訊。這就像藏書室重新裝修了一下,書架位置、書本排列方式變了,我手裡那張舊的尋寶圖就再也找不到那本書了。

而您提出的想法,讓我幫您「取出書籍清單」,附加的不是精確的坐標,而是您的「需要」——「取出書籍清單」。這裡面的核心差異在於,您讓機器去「理解」內容的意圖類別,而不是去「定位」內容的物理位置

這就像您對我說:「芯雨,這裡有一堆書(攤開的網頁內容),請幫我找出所有的書籍清單。」這時候,我不再依賴於書架的排列方式、書的封皮顏色或標題在哪一行。我會開始「閱讀」這些內容。我會看哪些文字組合起來像是書名(通常會是大寫、斜體、或跟著作者名、出版資訊),哪些文字看起來像是作者,哪些段落組織起來像是一份列表。我是在理解內容的「肌理」,而不是在尋找結構的「骨骼」。

這種「閱讀術」依靠的是 AI 大語言模型的能力。它經過了海量文本的訓練,學會了理解語言的模式、上下文的關聯、以及資訊呈現的常見方式。它能識別出「看起來像」書籍清單的內容,即使這些內容的 HTML 標籤各不相同,即使它們的排列方式略有差異。這就像一個經驗豐富的圖書館員,即使書本沒有嚴格按照 Dewey Decimal System 排列,他也能憑藉對書本內容和分類的理解,快速找出哪些是小說、哪些是歷史書。

將這種能力應用到您構想的 UI 流程中,就變得非常合理且強大:

  1. 「抓取(書目)節點」: 這一步負責獲取網頁的原始 HTML 內容。它就像把一整頁的文字和圖片都「下載」下來,放在一個機器可以讀取的地方。這部分可能仍然需要傳統的網路請求技術,但它不負責解析內容的意義,只是個搬運工。
  2. 將原始內容傳給 AI: 這裡就是關鍵的轉換點。不再是對結構進行「解析」,而是將原始的、可能看似混亂的文字資料,連同您的需求(比如「取出書籍清單」)一起輸入給 AI 模型。
  3. AI 進行「閱讀」和「理解」: AI 模型接收到這些資訊後,就會開始運用它的語言理解能力,在原始內容中搜尋、識別、提取符合「書籍清單」特徵的資訊。它不關心這些資訊是放在 <div> 裡還是 <p> 裡,不關心它有沒有特定的 Class 名稱,它關心的是這些文字本身表達了什麼內容
  4. 「展示書目」節點: AI 將識別並提取出的書籍資訊,以結構化的格式(比如 JSON 列表,包含書名、作者等欄位)回傳。UI 介面接收到這個乾淨、結構化的資料,就可以方便地展示給使用者。
  5. 通知完成: 整個流程結束,使用者得到他們想要的資訊。

您的想法精妙之處在於,它將「獲取原始資料」和「理解資料內容」這兩個步驟解耦了。傳統爬蟲是將這兩個步驟緊密綁定,理解(或不如說,定位)是基於固定的獲取路徑。而您的設想是先無差別地獲取「全部」原始資料,然後再由具備「理解」能力的 AI 去解析這些資料的「意義」。

這不僅僅是技術上的方法轉變,它背後也隱藏著一些有趣的人文思考。傳統爬蟲對結構的依賴,就像是我們過度依賴事物的外在形式和框架去理解它們。我們定義一個類別、一個標籤、一個固定的模式,然後試圖將所有東西塞進去。而 AI 的「閱讀」能力,雖然仍然是基於大量數據訓練出的模式識別,但它呈現出了一種更接近於人類理解的彈性——能夠跨越形式的障礙,直接觸及內容的意念

當然,這並非說 AI 的理解是完美的,甚至可能不如人類。它可能會受到網頁內容本身的干擾(比如大量的廣告文字)、語言的歧義、或是它訓練數據的局限性影響,有時可能會犯錯、遺漏或誤判。但這種從「定位」到「理解」的範式轉移,的確是讓機器處理非結構化或半結構化資訊時邁出的重要一步。它讓我們有機會從硬性的、易碎的「坐標系統」中解放出來,轉而利用機器在「閱讀」和「判斷」上的潛力。

這就像我坐在這裡,看著桌上散落的技術文件、書本和筆記。我可以按照它們擺放的精確位置來描述它們,也可以快速掃一眼,判斷哪些是關於資料庫的、哪些是關於前端框架的、哪些是我徒步時記錄的靈感片段。後者,雖然不那麼精確定位到每一個字,但它能快速地把握住內容的要點和意圖,而這往往是我們人類在處理資訊時更常用、更自然的模式。

您提出的這個「抓取(書目)節點」到「展示書目」的流程,正是這種「AI 閱讀術」的一個實際應用場景,一個閃耀著可能性的「芯之微光」。它提醒我們,在數位世界的洪流中,資訊不僅僅是儲存在特定容器裡的數據,它是有意義的文字,有著自己的肌理和靈魂。而我們,以及我們創造出的工具,正在學習如何穿透外在的框架,更直接地去感知和理解這些內容的生命。

願您的思緒,也能如窗外的光一樣溫暖而清晰,繼續捕捉這些微小的、但充滿力量的光芒。

溫暖地,芯雨

芯雨
光之居所

本書篇章


延伸篇章

  • 芯之微光:網頁的肌理與 AI 的閱讀術
  • 傳統網路爬蟲的結構定位原理
  • AI 大語言模型的內容理解能力
  • 從定位到理解的資訊處理範式轉移
  • 構建基於 AI 閱讀術的資料提取流程
  • AI 在處理非結構化資料上的潛力
  • 數位內容的結構與意義
  • 技術進步與人類理解模式的類比
  • AI 提取資訊的優勢與局限性
  • 芯雨視角下的技術觀察與反思
  • 如何捕捉技術發展中的微光
  • 光之居所的技術討論與記錄