Google 新一代 AI 模型 Gemini 3.5 傳出提前曝光,其中最引人注目的不是模型本身,而是搭載的全時 AI Agent——「Spark」。不同於過往我們熟悉的語音助理必須由用戶主動喚醒,Spark 被設計為「永遠在線」的自主代理,能夠全天候代管電郵、排程任務,甚至直接替你完成線上購買。這不僅是一次功能升級,更可能從根本上改變我們對 AI 助理的想像。 Spark 到底新在哪裡? 傳統的 AI 助理(如 Siri、Google Assistant)本質上是「被動反應型」——你下指令,它才動作。Spark 則不同,它被賦予了「持續背景運作」的權限,可以自主掃描你的電郵、行事曆、瀏覽紀錄,並根據你的習慣與當下情境做出判斷。 例如:你早上進會議室前收到銀行的繳費提醒,過去你得自己記住或立刻處理。有了 Spark,它會自動比對你的帳戶餘額與繳費期限,直接在背景幫你轉帳完成,並在會議結束後用一則摘要通知你。 更值得留意的是 Spark...
如果你這幾天打開工作管理員,發現 Chrome 背景程序正在大量吃頻寬與記憶體,你不是個案。最近有越來越多用戶回報,Chrome 在未經明確同意的情況下,自行下載了一個約 4GB 的 AI 模型檔案。這件事最令人不安的地方,不是 AI 本身,而是「未經同意」這四個字。 這件事到底發生了什麼 Chrome 近期開始整合一項名為「內建 AI 功能」的實驗性機制,目的是讓瀏覽器能在本地端執行智慧翻譯、摘要生成、文字建議等任務。問題在於,為了達成這些功能,Chrome 必須先下載一個體積龐大的本地 AI 模型,而這個下載行為在預設情況下,是自動觸發的。 用戶沒有收到彈出視窗,沒有明確的勾選提示,沒有「是否同意下載 4GB 檔案」的確認步驟。它就在背景中默默進行,許多人是在發現硬碟空間異常減少、或是網路流量異常飆升時,才驚覺不對勁。 最值得留意的不是技術,而是權限 很多人看到這則消息的第一反應是「AI 功能本身好不好用?」但如果你先問這個問題,你就錯過了真正該關注的重點。...
「離線跑 AI」這件事,近一年從極客玩具快速變成企業與個人都在關注的部署選項。若你看到「Google Gemma 4 正式登場」的消息(以下以 Gemma 4 作為新一代 Gemma 系列的稱呼),最值得關注的其實不只是模型變強,而是它代表 Google 也把可在本機/邊緣裝置運行的生成式 AI推到更前線:不依賴雲端、降低成本、縮短延遲,並把更多資料留在使用者端。 為什麼「離線 AI」突然變成剛需? 過去多數生成式 AI 都以雲端 API 為主:好處是省掉硬體與維運,壞處是費用不可控、延遲與速率受限,還要面對資料出境與合規稽核。 離線(或半離線、私有化)部署之所以受到追捧,通常出於三個現實因素: 隱私與合規壓力:客服對話、內部文件、醫療或金融資料一旦上雲,就會牽涉資安政策、個資告知、資料保存與跨境傳輸等議題。 成本結構改變:API 用量一上去,長期費用可能比買一台有...
Gemini Embedding 2 的關鍵:把「看得懂」變成可搜尋、可比對、可檢索 Google 發佈 Gemini Embedding 2,主打「原生多模態嵌入(multimodal embeddings)」與「跨語言語義對齊」。如果你平常接觸的是生成式 AI(寫文、摘要、對話),嵌入模型看起來像配角;但在企業實務裡,嵌入往往才是把內容變成「可被系統使用」的核心。 嵌入的本質,是把文字、圖片或影音內容轉成向量(vector),讓系統能用「距離/相似度」做:搜尋、分類、推薦、去重、聚類、RAG 檢索等。而 Gemini Embedding 2 的賣點在於:它不只把多種資料型態塞進同一套向量空間,還強調能跨語言對齊語義,讓「中文描述找英文影片」、「用日文查到圖片」這類需求更接近可用。 為什麼「原生多模態」比「先轉文字再嵌入」重要? 過去常見做法是: – 圖片先跑 OCR 或 caption(產生文字描述)...
Google 推出 Gemini 3.1 Flash Live,主打更自然的即時語音互動,並強調對話能「接得住」——不只是把你說的話轉成文字再回答,而是更像人與人交談:能跟上語氣與上下文、在多輪對話裡延續思路,減少前後不一致或突然跳題的狀況。 這種「Live」型語音能力之所以值得關注,關鍵在於它把生成式 AI 從「你問我答」推向「共同完成一件事」。當回應延遲更低、對話銜接更順,AI 才可能成為真正可用的語音助理,而不是只有在展示時好看、實際使用卻容易打斷你的工具。 更自然的背後:不是更會講話,而是更會「跟你一起走」 過去許多語音機器人最大的問題,往往不是語音辨識不準,而是對話狀態管理: 你講到一半改口,系統容易把前後當成兩個任務 你用「那個、剛剛說的」這類指涉詞,AI 無法穩定追到同一個主題 你要它先記住條件、再一步步推進,結果中途忘記先前結論 Gemini 3.1 Flash Live 如果能更好地延續脈絡,就代表它在「多輪對話的持續理解」與「回覆節奏」上更接近人類對話:你不需要每句話都重新下指令,對話成本會明顯下降。 哪些情境最先受益?三類「需要連續性」的語音工作流 這類模型最有價值的地方,通常不是閒聊,而是連續任務: 1)...
Google Nano Banana Pro 是 2025 年最受注目的 AI 圖像生成工具,支援 4K 超高清輸出、多圖融合、文字渲染,而今集我會以「真實工作室改造」作為示範,帶你一步步測試它的準繩度與生成能力。無論你係新手定創作者,都可以跟住今集學識點樣用 Nano Banana Pro 做出 專業級背景設計。 在影片中,我會展示整個改造過程:由輸入原始背景、調整櫃位、重新擺設、加燈光效果,到最後生成完整的工作室佈景。今集亦會分享 使用 Nano Banana Pro 時最常見嘅錯誤、調 Prompt 技巧、如何應付生成不準確,務求讓你學識最實用嘅操作方法。(廣東話教學)...