谷歌最近在BigQuery中推出了針對開源模型的第三方生成式AI推理功能,這使得數(shù)據(jù)團隊能夠使用普通的SQL語句來部署并運行來自Hugging Face或Vertex AI Model Garden的任何模型。通過這一處于測試階段的接口,不再需要單獨的機器學習基礎設施了,因為系統(tǒng)會自動分配計算資源、管理端點,并通過BigQuery的SQL接口完成所有后續(xù)操作。
這一新功能解決了數(shù)據(jù)團隊長期以來一直面臨的問題。過去,在運行開源模型時,數(shù)據(jù)團隊需要管理Kubernetes集群、配置端點,并使用多種工具來完成相關工作。Virinchi T在Medium上發(fā)表的一篇關于這一功能的文章中這樣寫道:
這個過程需要使用多種工具,涉及不同的技能領域,還會帶來相當大的運營開銷。對許多數(shù)據(jù)團隊來說,這些繁瑣的操作使得AI技術的應用變得遙不可及——即使這些模型本身是免費提供的。
然而,借助BigQuery的SQL接口,整個流程只需兩條SQL語句即可完成。用戶可以通過一條CREATE MODEL語句來創(chuàng)建模型,該語句需要指定Hugging Face模型的ID(例如sentence-transformers/all-MiniLM-L6-v2),或者Vertex AI Model Garden中的模型名稱。BigQuery會自動配置計算資源,并根據(jù)模型的規(guī)模,在3到10分鐘內(nèi)完成部署。
接下來,用戶可以通過AI.GENERATE_TEXT語句來運行語言模型推理任務,或者使用AI.GENERATE_EMBEDDING語句來處理嵌入數(shù)據(jù)分析。所有操作都是直接在BigQuery表中進行的。該平臺還提供了endpoint_idle_ttl選項,用于自動關閉閑置的端點以避免產(chǎn)生不必要的費用;此外,當批量任務完成后,用戶也可以通過ALTER MODEL語句手動終止相關服務的運行。
這一功能還支持針對實際應用場景進行定制。用戶可以在創(chuàng)建模型的時候直接設置機器類型、副本數(shù)量以及端點的閑置時間。通過使用Compute Engine的預留資源,還可以確保GPU實例的性能穩(wěn)定。當不再需要某個模型時,只需執(zhí)行一條DROP MODEL語句,所有相關的Vertex AI資源就會被自動清除。
谷歌在博客中稱,該系統(tǒng)能夠?qū)崿F(xiàn)“精細的資源控制”與“自動化的資源管理”,使團隊能夠在不離開SQL環(huán)境的情況下找到性能與成本之間的最佳平衡。2025年9月發(fā)布的一篇博客文章提到,使用類似的開源嵌入模型技術,處理3800萬條數(shù)據(jù)記錄所需的費用大約僅為2到3美元。
該功能兼容超過13,000種Hugging Face提供的文本嵌入模型以及170,000多種文本生成模型,這些模型涵蓋了Meta公司的Llama系列模型以及谷歌的Gemma系列模型。這些模型需要符合Vertex AI Model Garden的部署要求,包括區(qū)域可用性限制和配額規(guī)定。
Virinchi T詳細闡述了這一功能對不同角色意味著什么:
對于數(shù)據(jù)分析師來說,現(xiàn)在你們可以在不離開SQL環(huán)境的情況下嘗試使用機器學習模型,也不必等待工程團隊的支持。而對于數(shù)據(jù)工程師而言,構(gòu)建基于機器學習的數(shù)據(jù)處理流程變得簡單多了——無需再維護額外的機器學習基礎設施。
這一功能的推出使得BigQuery與Snowflake的Cortex AI以及Databricks的Model Serving形成了競爭關系。這三者都提供了可通過SQL語言訪問的機器學習推理服務。不過,BigQuery的優(yōu)勢可能在于它能夠直接整合Hugging Face龐大的模型資源庫,這對于那些已經(jīng)在使用Google Cloud服務的用戶來說具有很大的吸引力。
關于如何使用Gemma模型進行文本生成,以及如何利用開源嵌入模型生成文本數(shù)據(jù),谷歌提供了相應的文檔和教程,具體鏈接分別為:Gemma模型教程和開源嵌入模型教程。