2025年,Google在其年度盛會Google I/O中,正式推出了最新的人工智能(AI)突破——Gemma 3n模型,這款AI模型特別針對資源有限的裝置進行優化設計,能夠在智慧手機、筆電和平板電腦等日常設備上高效運行,大幅降低了使用先進AI技術的門檻。Gemma系列不僅包括了通用的3n版本,還有專注於醫療健康的MedGemma以及針對手語翻譯的SignGemma,這些專用模型展現了Google在多領域推動AI應用的決心與技術實力。 Gemma 3n的核心創新在於其「MatFormer」架構,以及採用的Per-Layer Embedding (PLE)參數快取技術。這讓模型可以根據不同請求,選擇性載入必要的參數,從而有效減少計算資源消耗及記憶體需求,提升回應速度。這種架構讓Gemma 3n即使在只有單一GPU或者TPU的裝置上,也能維持高效且流暢的運算表現。以27B參數版本為例,該模型在Chatbot Arena中取得了1338的Elo分數,且僅需一台NVIDIA H100 GPU就能達成過往需要32台GPU的運算強度,效能表現耀眼。 除了輕量化之外,Gemma 3n的多模態能力也是一大亮點。該模型支援文本、視覺及音頻的輸入處理,能同時辨識和分析圖像(最高達896×896像素)、聲音及文字資訊。這使得它在語音識別、語言翻譯、視覺問答(VQA)、光學字符識別(OCR)以及文件分析等多種場景均有出色的應用潛力。更厲害的是,Gemma 3n可處理高達32K的token輸入內容,換算成文字,可以理解約198頁的小說或輸入500張圖片,極大提升了對長文本與大量視覺信息的理解及處理能力。 語言支持方面,Google Gemma 3系列覆蓋超過140種語言,在多語言基準測試中優於同類模型如Llama 3。這種廣泛的語言支援,尤其對香港和台灣等多語言環境的使用者而言,意義重大。無論是繁體中文、英文,還是其他亞洲語系,都能獲得更貼近母語的AI交互體驗。 在實際應用面,這批模型開放權重與負責任的商業授權,吸引了眾多開發者將其整合進多種平台,包括Hugging Face、PyTorch、Google Vertex AI,以及NVIDIA的API Catalog等。這不僅讓開發者能自由調整和部署模型,更因為其低資源需求,使得AI應用能夠在手機或筆電上本地執行,無需透過高延遲或高成本的雲端運算,保障使用者隱私並提升數據安全。 Google的這項技術進展,推動了AI「民主化」的目標,讓偏遠地區、資源受限的用戶都能享用高水準的智能服務。以往需要昂貴硬體和高速網路的AI功能,現在可透過Gemma模型實現離線操作,大幅提升了AI應用的普及率與可行性。...