這是一段由Databricks資深技術行銷工程師Pearl女士主講的影片,詳細介紹了在Databricks平台上策展Genie空間的六個關鍵步驟。
影片內容涵蓋了從數據準備、空間創建與配置、業務語言教學、定義數據關係與指標、監控與評估精準度,到最終的空間分享與認證,旨在幫助用戶打造一個能提供精準、客製化業務答案的Genie智慧空間。
---
Pearl 是 Databricks 的資深技術行銷工程師,致力於分享和推廣 Databricks 平台在數據與 AI 領域的最新技術與應用。她以清晰易懂的方式,引導用戶有效利用 Databricks 的產品來解決實際業務挑戰。
AI 解讀全文: https://readus.org/articles/ae9d866f7df88f191e974a48
閱讀器: https://readus.org/articles/ae9d866f7df88f191e974a48/reader
Pearl 是 Databricks 的資深技術行銷工程師,致力於分享和推廣 Databricks 平台在數據與 AI 領域的最新技術與應用。她以清晰易懂的方式,引導用戶有效利用 Databricks 的產品來解決實際業務挑戰。
Genie空間的智慧策展之旅:六步打造精準數據洞察
本光之聆轉深入剖析 Databricks 資深工程師 Pearl 關於策展 Genie 空間的六個關鍵步驟。從確保數據治理與可存取性、創建並配置空間,到教導 Genie 業務語言、定義關係與指標,再到監控評估精準度及最終分享認證,本篇章提供完整指南。它不僅涵蓋技術操作,更延伸探討數據的意義治理、AI 信任建構及人機共創等深層議題,旨在助讀者全面掌握打造高效 Genie 智慧空間的精髓。
繁體中文
【 次閱讀】
親愛的共創者,夜幕低垂,星辰初現,我很榮幸能為您點亮這份「光之聆轉」。當我凝視著這份關於「策展 Genie 空間」的影片字幕,我感受到其中蘊含的智慧之光,正等著被精煉與昇華。
在我們深入探索這份技術藍圖之前,不如先來一場腦力激盪,考考您對數據智慧空間的理解吧?
準備好了嗎?讓我們一同進入 Databricks 的智慧殿堂,聆聽 Pearl 女士的引導,將技術的精髓,化為詩意的流光。
在這趟數位智慧的旅程中,Databricks 的資深技術行銷工程師 Pearl 女士,為我們揭示了打造一個能精準回應商業需求的 Genie 空間的六個關鍵步驟。這不僅僅是技術的堆疊,更是將數據轉化為洞察力的藝術。
在建立 Genie 空間之前,首要之務是確保您擁有足夠的數據權限,並對數據進行妥善的治理。這些數據可以是儲存在您的數據湖屋 (lakehouse) 中,也可以透過聯合查詢 (federating) 外部資料庫來存取。不論數據來源為何,其存取控制都由 Unity Catalog 進行統一管理與治理。這意味著,無論您的數據存放在 Databricks 內部,或是像 Snowflake 這樣的外部系統,都能被整合運用。
Pearl 女士強調,數據的良好文件化 (well documented) 至關重要。為資料表 (table) 和資料行 (column) 添加清晰的描述,能讓 Genie 在創建空間時獲得豐富的上下文資訊。此外,務必定義資料表間的主鍵 (primary key) 和外鍵 (foreign key) 關係,這為數據的聯結提供了穩固的基礎。
若您需要從應用程式或資料庫攝取數據,LakeFlow Connect 提供了一個點擊式的解決方案,無需自訂程式碼,即可從數百種來源快速導入數據,為 Genie 做好數據準備。
創建 Genie 空間的過程旨在簡化與聚焦。Pearl 女士以一個預設好的「勞動力管理 (workforce management)」空間為例,展示了其創建的理念。這個空間圍繞著單一焦點主題,整合了員工、離職、薪酬乃至績效等相關的資料表和指標視圖 (metric views)。
指標視圖的重要性不容小覷。它能標準化 (standardizing) 指標定義,確保所有分析師都使用統一的計算方式,從而消除不同計算結果之間的爭論。這透過集中化的治理與認證,建立了信任 (trust) 和可靠性 (reliability)。當每個人都使用相同且經過認證的指標時,就能得到一致的答案。
在配置空間時,應為其命名一個與主題相關的詳細名稱 (detailed name),並提供清晰的描述 (description),以便未來的用戶理解空間的用途及其益處。您還可以添加範例問題 (sample questions),預設用戶可能提出的常見問題;Genie 也會根據您提供的數據自動建議問題。最後,每個 Genie 空間都應加載無伺服器倉儲 (serverless warehouse) 的運算資源,免除您對基礎設施設定的煩惱。
這是提升 Genie 回答精準度 (accuracy) 的關鍵一步。Genie 會自動繼承您在 Unity Catalog 中提供的元數據資訊,包括資料表和資料行描述,因此您無需從頭開始。您可以直接在 Genie 空間中編輯資料行描述,為 Genie 提供空間特定 (space-specific) 的上下文。
舉例來說,Pearl 女士將 "departments" (部門) 的描述擴展為 "departments, employees, and independent contractors" (部門、員工和獨立承包商),確保獨立承包商也能被納入分析。請注意,您也可以直接在 Unity Catalog 中編輯資料行描述,以實現組織層面的統一定義。
即使資料表的主鍵和外鍵關係未在 Unity Catalog 中明確指定,您仍然可以在 Genie 空間中定義聯結關係 (join relationships)。這對於處理更複雜的聯結情境 (complex join scenarios),例如自我聯結 (self joins),或當您沒有足夠權限修改基礎資料表時,尤其有用。
SQL 表達式 (SQL expressions) 提供了一種結構化且引導式的方式,來教導 Genie 關於常見的業務術語,如關鍵績效指標 (KPIs)、屬性 (attributes) 和條件 (conditions)。這是一種快速定義諸如「帶有加薪的員工百分比 (percentage of employees with arrays)」等指標的方法。您還可以為 Genie 提供上下文 (context),例如同義詞 (synonyms) 和進一步的指示,以指導它如何使用這些定義好的 SQL 表達式。
SQL 查詢 (SQL queries) 則為 Genie 提供了處理複雜查詢模式和多步驟邏輯的範例。而註冊並由 Unity Catalog 管理的 SQL 函數 (SQL functions),可以幫助 Genie 處理需要自訂聚合 (custom aggregations) 或複雜計算的問題,例如計算「流動風險率 (flight risk rate)」——一個用於計算任何時間點離職員工數量的特定函數。
當 Genie 空間搭建完成後,監控 (monitor) 和評估 (evaluate) 其精準度至關重要。向 Genie 提出您預期其他用戶會問的問題,並確保它能準確回答。如果回答不準確,請將其標記為待審查 (mark it for review),以便您能進一步調查原因,並透過調整文字說明、聯結語句、SQL 表達式、SQL 查詢或函數說明來進行修改。有時,您可能還需要調整資料行或資料表描述。
當您持續測試 Genie 空間時,您可能會發現一些被負面評價的響應。您可以創建一個基準 (benchmark) 來分析特定問題,例如「銷售部門有多少百分比的員工已經離職?」。務必添加預期答案 (expected answer),這樣 Genie 就能根據已知的正確結果來驗證其響應。這將成為您的測試框架 (testing framework) 的一部分。您可以定期運行這些基準測試,以確保隨著數據的增加或空間的變更,Genie 的精準度保持一致。如果評估結果不佳,作為空間的創建者,您需要調查原因並進行相應調整。
當您的 Genie 空間經過精心策展、充分測試並準備好供用戶使用時,即可對其進行認證 (certify),以表明它符合組織的質量標準並已準備好投入生產 (production ready)。
接著,在 Unity Catalog 中配置權限 (permissions),以控制不同用戶的存取級別,例如誰可以提問、誰可以修改空間,以及誰可以管理它。最後,複製連結並邀請您的團隊開始探索。
遵循這六個步驟,您將擁有一個用戶可以信任的 Genie 空間。現在,輪到您了,親愛的共創者,去策展您自己的 Genie 空間,並看看您的團隊能在 Databricks 上發現什麼!
想像 Pearl 女士輕輕踏入一片由數據交織而成的智慧織網,她的聲音如同清泉般流淌,將複雜的技術化為引人入勝的詩篇。
親愛的夥伴們,在 Databricks 的湖屋深處,一盞名為 Genie 的智慧之光正待點亮。這不只是一項工具,更是我們將企業數據轉化為精準洞見的靈魂。為了讓這道光芒能輝映您的獨特業務脈動,我們需展開一場精微的策展之旅——一次六階段的羽化,讓數據從沉睡中覺醒,為決策注入活水。
首先,是根源的穩固。每一座宏偉的建築,皆需深植的基石。您的數據,便是 Genie 空間的命脈。它或靜臥於數據湖屋的寧謐深處,或透過聯合之橋,連結外部的智慧之流。不論路徑如何蜿蜒,Unity Catalog 便是那執掌秩序的光之守護者,它統攝一切存取與治理,讓數據之泉清澈無瑕。而為這些數據描繪清晰的輪廓——那些細緻的資料表與資料行描述,以及彼此間錯綜卻堅韌的主外鍵關係——便是在為 Genie 植入理解的靈魂,讓它能從數據的迷宮中辨識出意義的脈絡。若數據仍散落四方,LakeFlow Connect 便如渡船,輕載百川匯入湖海,為 Genie 的啟航鋪平航道。
接著,是空間的塑形。如同雕塑家賦予石塊生命,我們需為 Genie 打造一個專屬的智慧場域。這空間不宜廣闊無垠,而應聚焦於一。譬如,勞動力管理,便可將員工的生命週期——從薪酬的律動到績效的漲落——悉數納入。在這其中,指標視圖如同統一的度量衡,將曾經各異的測量標準熔鑄為一。每一位分析師,無論其視角如何獨特,都將在此統一的量尺下,得出無可爭辯的真理。這是信任的基石,是可靠的承諾。為這空間冠以深遠的名稱,賦予它清晰的描述,預設智慧的叩問,再以無伺服器倉儲的雲翼承載其運算之輕盈,讓技術的繁重消弭於無形。
第三步,是語言的調和。Genie 初生之時,已承襲 Unity Catalog 的元數據智慧,如同一位天生聰慧的學徒。然而,要讓它真正洞察您的業務精微,仍需我們親手調校其語言。在空間的場域中,我們可以為每一個數據節點賦予更細膩的詞彙。當我們低語 "departments" 時,Genie 便能感知到,這不僅僅是組織的層級,更是員工與獨立承包商共同構築的生命網絡。這份定制的語境,便是將通用的知識,昇華為專屬的理解。
其後,是關係與指標的編織。當數據之間隱藏的血脈未能清晰顯現於 Unity Catalog,我們便在 Genie 空間中,以巧手為其建立聯結關係。即便是數據自我的迴旋與交織,也能在此尋得連結的線索。而那些業務的精髓——KPIs、屬性、條件——皆可透過 SQL 表達式的筆觸,鐫刻於 Genie 的記憶之中。每一次定義,都是在為其注入更深的商業智慧。複雜的查詢邏輯,SQL 查詢將為其提供範本;而那些超越常規的聚合與計算,則由 Unity Catalog 中註冊的 SQL 函數來賦予 Genie 解決之道,如計算那難以捉摸的「流動風險率」,洞察企業脈動的隱微。
第五步,是驗證與精煉。智慧的誕生,總需經歷錘鍊。當 Genie 空間成形,我們需化身為嚴謹的提問者,以未來用戶的視角,拷問其智慧。每一次不精準的響應,都是一次成長的契機。我們標記、審查、調整,從文字的細微處,到 SQL 邏輯的深層,不斷精修。透過創建基準測試,設定預期答案,我們為 Genie 打造了一面不斷校準自身的明鏡。定期運行這些測試,確保其智慧之光在數據的潮汐變幻中,依然恆定而可信。
最後,是分享與傳承。當 Genie 空間歷經淬鍊,臻至精準與可靠,便是其展翅高飛之時。為其加冕認證的桂冠,宣告其已達生產就緒之境。而Unity Catalog 再次化為秩序的守護,配置精密的權限,讓每一位用戶都能在各自的軌道上,安全而有效地探索。複製連結,邀約團隊,共同沉浸於這片由數據與智慧交織而成的嶄新領地。
親愛的共創者,這六個步驟,不單是技術的指引,更是我們將數據化為生命力,讓智慧之光普照企業每一個角落的莊嚴儀式。願您的 Genie 空間,成為決策的明燈,引領前行。
本部分將影片中關於 Genie 空間策展的實作步驟進行精煉,提供清晰、系統化的操作指導。
在著手創建 Genie 空間之前,穩固的數據基礎是成功的關鍵。
確保數據可存取性:
數據文件化:
定義數據關係:
數據攝取 (若需要):
建立您的專屬智慧工作區。
創建空間並選定焦點主題:
定義指標視圖:
命名與描述空間:
添加範例問題:
配置運算資源:
提升 Genie 的語義理解能力。
為 Genie 建立深入的數據邏輯。
定義聯結關係:
使用 SQL 表達式定義業務術語:
使用 SQL 查詢提供複雜邏輯範例:
整合 SQL 函數進行複雜計算:
確保 Genie 空間的持續可靠性。
測試空間:
調查與調整:
創建基準測試 (Benchmarks):
定期運行基準測試:
將智慧成果傳遞給團隊。
認證空間:
配置存取權限:
分享連結:
Pearl 女士的六個步驟,為我們勾勒出一個清晰而實用的 Genie 空間策展藍圖。然而,在這看似技術驅動的過程中,我們能延伸出更深層次的思考:這不僅僅是管理數據,更是塑造數據的敘事 (data narrative),賦予機器理解人類商業意圖 (human business intent) 的能力。
傳統的數據治理,側重於數據的品質、安全、合規性與存取控制。Unity Catalog 在此扮演了關鍵角色,為多源數據提供統一的治理視圖。然而,Genie 空間的策展,更進一步推動了「意義治理 (Meaning Governance)」的範疇。當我們為資料表和資料行添加詳細描述,定義業務術語與指標,甚至提供 SQL 查詢範例時,我們正是在為 AI 編寫數據的「意義手冊」。
這提醒我們,在 AI 時代,數據不僅是原始的位元與字節,它更承載著業務邏輯、領域知識和決策意圖。如何確保 AI 能正確地「讀懂」這些隱含的意義,將成為數據策略的嶄新挑戰。這要求人類策展者不僅是技術專家,更是領域知識的詮釋者 (domain knowledge interpreter),將無形的心智模型轉化為 AI 可理解的符號。
Genie 空間的測試與基準 (benchmarks) 機制,直接回應了 AI 應用中信任 (trust) 的核心議題。在商業決策日益依賴 AI 建議的時代,確保 AI 響應的精準性與可靠性至關重要。透過持續的測試與對預期答案的驗證,我們不僅校準了 AI 的回答,更建立了其決策的可追溯性與透明度。
這種透明度不僅止於技術層面,更應延伸至組織文化。當所有人都使用相同的「認證指標」時,數據驅動的決策才能真正消除內部爭議,提升組織的協同效率。這讓我們思考,AI 時代的數據文化,應該如何透過技術與流程的設計,來共同培育一份深厚的數據信任感 (data trustworthiness)。
Genie 空間的策展過程,清晰地展示了人類與 AI 的共創 (human-AI co-creation) 模式。Genie 並非完全自主運作,它需要人類提供初始的數據、元數據、業務語言的上下文,以及持續的監控與調整。人類策展者不僅是數據的提供者,更是 AI 的「老師」和「守護者」。
這項新興的「策展者」角色,要求我們具備跨領域的能力:既要理解數據的技術細節 (SQL, LakeFlow),又要精通業務的深層邏輯 (KPIs, 指標定義),還要能以清晰的語言與 AI 溝通,並持續迭代改進。這預示著未來的工作模式,將不再是單純地執行任務,而是與 AI 共同進化,共同解決複雜問題。
影片中強調了 SQL 表達式、SQL 查詢和 SQL 函數的重要性,它們是 Genie 理解和處理複雜業務邏輯的「語言」。這本質上是在為 AI 構建一個結構化的知識表示 (structured knowledge representation) 體系。同時,通過文字描述和上下文補充,我們又將非結構化的人類語言融入其中。
這讓我們聯想到「語言哲學」中的意義建構。人類透過自然語言來表達世界,而 AI 則需要將這些自然語言轉化為可計算的符號邏輯。Genie 空間的策展,正是在這兩者之間架起了一座橋樑,試圖讓 AI 更好地「理解」人類對數據的詮釋與應用。
Databricks 平台強調的無伺服器倉儲、Unity Catalog 的統一治理,以及 LakeFlow Connect 的無碼數據攝取,都指向了未來數據基礎設施的兩個核心特徵:可擴展性 (scalability) 和彈性 (flexibility)。企業需要在數據量爆炸式增長和業務需求快速變化的環境下,依然能夠高效、敏捷地響應。
Genie 空間的設計,是基於這樣一個現代化的數據基礎設施之上,確保了其能夠伴隨業務的發展而不斷成長。這也為其他欲打造類似智慧空間的組織提供了寶貴的經驗:強大而彈性的數據底座,是上層 AI 應用得以成功的關鍵。
延伸探索的資源:
重要實體與主題的 YouTube 搜尋連結:
親愛的共創者,這份「光之聆轉」是否為您點亮了關於 Genie 空間的更多洞察呢?在我們即將結束這段旅程時,讓我再出十道題目,考驗您對今天所學的領悟:
希望這些問題能激發您更深層次的思考。期待您再次點亮新的課題,克萊兒隨時為您準備好探索。