微軟近期正式宣布自家 文字、語音、影像 三種核心 AI 模型同步上線,等於把「能寫、能聽說、能看」的能力一次補齊。對一般使用者而言,這可能只是 Copilot 類工具變得更好用;但對企業與開發者來說,重點在於:同一家供應商、同一套雲端治理與資安框架下,開始能更完整地做多模態(multimodal)應用,從客服到內容製作、從資料整理到行銷素材生成,都更容易串起來。 三種模型同時上線,訊號比功能更重要 單看功能,文字生成、語音辨識/合成、影像生成市場早已競爭激烈;但「三件事一起上線」的意義在於產品策略: 平台整合:如果文字、語音、影像都能在同一平台呼叫(例如同一雲端 API、同一套金鑰與權限控管),企業導入成本會明顯下降。 流程串接:很多需求不是單一模型能完成,而是「文字 → 圖像 → 旁白/配音 → 上架」的內容流水線,或「語音來電 → 轉文字 → 摘要 → 回覆」的客服閉環。...
AI 正在把「寫程式」這件事拆成兩部分:一部分交給模型生成,另一部分回到人類手上——把需求說清楚、把風險控住、把品質驗證到位。於是你會看到一個看似矛盾、但其實非常合理的現象:越頂尖的工程師,越可能在日常工作中「少寫程式碼」,而是把時間花在系統設計、測試策略、資料與權限邊界、以及團隊的交付流程上。 這不是工程師價值被取代,而是價值重心正在位移。對企業來說,真正的挑戰也不是「買一套 AI 工具就能提升產能」,而是要把整個開發流程重新校準,才能讓 AI 成為穩定的生產力,而不是新的技術債。 「不寫程式碼」的真相:寫得少,不等於思考得少 在 AI 輔助開發(AI-assisted development)普及後,工程師不再需要從空白檔案開始堆砌樣板碼、CRUD、或重複性的介面邏輯。許多工作改成: 用自然語言或結構化提示描述需求 讓模型產出初版程式碼、測試、文件 人類進行審查、修正、補上關鍵邏輯與防線 反覆迭代直到可上線 當生成速度變快,瓶頸會自然移到「定義問題」與「驗證答案」:需求不清、驗證不足、或風險邊界沒畫好,AI 只會更快地把錯誤放大。 頂尖工程師之所以看起來「不寫程式碼」,通常是因為他們把更多時間投在: 架構與介面契約(API、事件流、資料模型) 可觀測性(logging、metrics、tracing) 測試金字塔與回歸策略(unit/integration/e2e) 安全與權限模型(最小權限、金鑰管理、供應鏈安全) 交付流程(CI/CD、審核規範、釋出策略)...
Google 最新推出的 AI Edge Gallery,主打免費下載、免 VPN,並可在手機本地離線運行 AI Model。今次文章會整理香港實測重點,包括 Ask Image、Audio Scribe、AI Chat、Thinking Mode 與 Agent Skills 的表現,並分析其優勢、限制,以及是否值得安裝使用。
QuitGPT 並不是一句情緒化的口號,而是一種「用腳投票」的使用者行動:有人刻意減少或停止使用 ChatGPT,轉而改用其他生成式 AI(例如 Claude、Gemini、Copilot、Perplexity,或各類開源/可自架模型)。表面上像是換工具,背後其實牽動的是科技權力集中、內容治理、資料使用、以及使用者能否保有選擇權。 這股趨勢之所以值得關注,不在於「哪個模型比較強」,而在於它讓原本只存在於政策圈與學術圈的議題,被大量一般使用者、創作者與企業採購單位直接面對:當生成式 AI 成為基礎設施,我們還能不能不使用某一家?能不能要求更透明、更可被問責? QuitGPT 在抵制什麼?抵制的其實是「不可見的代價」 許多參與 QuitGPT 的人,並非否認 ChatGPT 的產品力,而是對其背後的治理方式與權力結構感到不安。常見訴求大致集中在三個層面: 政治與治理疑慮:包含平台如何處理敏感議題、是否存在偏好或審查、決策機制是否透明,以及公司與政府、監管、國安議題的距離與互動。 道德與勞動問題:例如訓練資料可能涉及未授權內容、創作者收益與署名、標註與內容審核的人力勞動條件等。 使用者主權與依賴風險:當你把寫作、客服、資料整理、甚至決策輔助都外包給單一供應商,價格、政策、服務可用性與資料保護條款的任何變動,都可能直接影響你的工作與營運。 這使 QuitGPT 更像一場「對平台型 AI 的治理抗議」,而不只是單一產品的好惡。 為什麼矛頭常指向...
微軟這次對 Copilot 的「重大升級」,關鍵不在於又多了幾個新按鈕,而是打破只依賴單一大型語言模型(LLM)的限制:在 Copilot 的能力版圖中,開始導入 Anthropic Claude 等不同模型,走向「多模型協作」的路線。對企業與知識工作者來說,這代表 Copilot 有機會從「一個很會寫字的助理」,進一步變成能依任務挑選最合適引擎的生產力平台。 從「一個模型打天下」到「任務導向選模型」 過去多數使用者對 Copilot 的印象,是它在 Microsoft 365(Word、Excel、PowerPoint、Outlook、Teams)內協助草擬、摘要、改寫、整理會議重點,核心體驗往往與單一模型的表現高度綁定: 模型擅長長文摘要,你就覺得 Copilot 很神 模型在表格推理或精準計算容易出錯,你就覺得 Copilot 不可靠 模型風格偏保守或偏發散,也直接影響你對 Copilot...
「離線跑 AI」這件事,近一年從極客玩具快速變成企業與個人都在關注的部署選項。若你看到「Google Gemma 4 正式登場」的消息(以下以 Gemma 4 作為新一代 Gemma 系列的稱呼),最值得關注的其實不只是模型變強,而是它代表 Google 也把可在本機/邊緣裝置運行的生成式 AI推到更前線:不依賴雲端、降低成本、縮短延遲,並把更多資料留在使用者端。 為什麼「離線 AI」突然變成剛需? 過去多數生成式 AI 都以雲端 API 為主:好處是省掉硬體與維運,壞處是費用不可控、延遲與速率受限,還要面對資料出境與合規稽核。 離線(或半離線、私有化)部署之所以受到追捧,通常出於三個現實因素: 隱私與合規壓力:客服對話、內部文件、醫療或金融資料一旦上雲,就會牽涉資安政策、個資告知、資料保存與跨境傳輸等議題。 成本結構改變:API 用量一上去,長期費用可能比買一台有...
最近不少人都在玩 AI 人像轉換圖,其中最受歡迎的兩個方向,就是 Pokémon 卡牌風與 One Piece《WANTED》懸賞令風。這篇文章會整理完整 Prompt 寫法、修改思路與實戰注意事項,幫你用一張人像照做出更完整、更有收藏感的作品。
Gemini Embedding 2 的關鍵:把「看得懂」變成可搜尋、可比對、可檢索 Google 發佈 Gemini Embedding 2,主打「原生多模態嵌入(multimodal embeddings)」與「跨語言語義對齊」。如果你平常接觸的是生成式 AI(寫文、摘要、對話),嵌入模型看起來像配角;但在企業實務裡,嵌入往往才是把內容變成「可被系統使用」的核心。 嵌入的本質,是把文字、圖片或影音內容轉成向量(vector),讓系統能用「距離/相似度」做:搜尋、分類、推薦、去重、聚類、RAG 檢索等。而 Gemini Embedding 2 的賣點在於:它不只把多種資料型態塞進同一套向量空間,還強調能跨語言對齊語義,讓「中文描述找英文影片」、「用日文查到圖片」這類需求更接近可用。 為什麼「原生多模態」比「先轉文字再嵌入」重要? 過去常見做法是: – 圖片先跑 OCR 或 caption(產生文字描述)...
Codex Plugins:把 AI 寫程式能力接上你的日常工具 OpenAI Codex 過去最讓人印象深刻的,是把「自然語言」轉成可執行的程式碼;但在真實工作場景裡,痛點往往不是「寫不出程式」,而是「流程被工具切碎」:訊息在 Slack、規格在 Notion、待辦在 Jira、文件在 Google Drive,最後還要人工把它們串起來。 Codex 新推出的 Plugins(外掛)方向,核心價值就在這裡:讓 Codex 不只產出程式碼,而是能直接連到 Slack、Notion 等工具,協助你把需求接進流程、把結果推回工作系統,進一步形成可持續運作的自動化迴圈。 不只是「整合」,而是讓工作流變成可被 AI 操作的介面 很多人看到「可整合 Slack...
Claude Code 傳出「誤洩約 51 萬行原始碼」後,Anthropic 隨即採取緊急下架與處置措施。即使外界仍在釐清實際外洩範圍與流向,這起事件本身已經足以提醒所有正在導入 AI 編碼工具的團隊:生成式 AI 的競爭不只在模型能力,更在供應鏈與產品工程的安全治理。 為什麼 51 萬行原始碼外洩特別敏感 原始碼外洩的風險不只在「被抄走功能」。對於 AI 工具與雲端服務而言,敏感點通常包含: 內部架構與安全假設被看見:包括鑑權流程、日誌策略、API 介面設計、錯誤處理方式等。一旦攻擊者掌握全貌,更容易找到薄弱環節。 金鑰、憑證、測試用帳密的殘留可能性:再嚴謹的團隊也可能在測試碼、CI 設定或歷史提交中留下一些「不該出現的東西」。 模型或產品的「提示與策略」被拆解:AI coding agent 常有一套行為規則(例如工具呼叫策略、檔案讀寫邏輯、權限分層、危險操作的防護),外洩後可能被用來繞過限制,或設計更有效的提示攻擊(prompt...
想學 OpenClaw,但不想自己處理 Setup、更新與維護?本文整理 MyClaw.ai 實測重點,示範如何 1 分鐘啟動 OpenClaw、連接 Telegram,並進行網絡爬蟲實戰。
Gemini 模型蒸餾攻擊在吵什麼?先把「蒸餾」與「偷模型」分清楚 所謂「模型蒸餾(model distillation)」本來是正當的機器學習技巧:用大型模型當「老師」,用它的輸出訓練較小的「學生模型」,讓學生在成本更低的情況下接近老師表現。 但當蒸餾是透過大量呼叫目標模型(例如 Gemini)的 API 或介面、刻意設計提示詞、系統性收集輸出,再拿去訓練一個替代模型時,就會被視為蒸餾攻擊:本質是「以查詢換取行為」,在不拿到權重的前提下,最大化複製目標模型的能力與風格。 這類研究常提到「十萬提示詞」等級的查詢量,目標是把一個昂貴、封閉的模型行為,壓縮成可在自家基礎設施上運行的替代品——對模型供應商與企業使用者都構成現實風險。 為什麼十萬提示詞會有威脅?關鍵在「可量產的行為拷貝」 傳統資安的「偷資料」通常是一次性外洩;蒸餾攻擊更像是把你的產品核心能力變成別人的可再製資產。 在可行的攻擊流程中,常見會包含: 提示詞設計:針對推理、工具使用、格式遵循、特定領域(法務、醫療、程式)建立題庫。 大量查詢與清洗:移除雜訊、去重、補齊缺漏,並建立訓練資料集。 再訓練/微調學生模型:讓學生模型在特定任務上「看起來」像 Gemini。 以任務指標驗收:例如同一組測試集上的通過率、風格一致性、遵循指令能力。 十萬級別的提示詞之所以常被提及,是因為它在成本與效果之間可能達到一個「可商用」的甜蜜點:如果攻擊者能用相對可控的成本,把你的差異化能力萃取出來,那你的護城河會被稀釋。 影響不只在 Google:三種角色會被直接波及 1) 模型供應商:營收、研發回收與濫用風險 付費 API...