QuitGPT 並不是一句情緒化的口號,而是一種「用腳投票」的使用者行動:有人刻意減少或停止使用 ChatGPT,轉而改用其他生成式 AI(例如 Claude、Gemini、Copilot、Perplexity,或各類開源/可自架模型)。表面上像是換工具,背後其實牽動的是科技權力集中、內容治理、資料使用、以及使用者能否保有選擇權。 這股趨勢之所以值得關注,不在於「哪個模型比較強」,而在於它讓原本只存在於政策圈與學術圈的議題,被大量一般使用者、創作者與企業採購單位直接面對:當生成式 AI 成為基礎設施,我們還能不能不使用某一家?能不能要求更透明、更可被問責? QuitGPT 在抵制什麼?抵制的其實是「不可見的代價」 許多參與 QuitGPT 的人,並非否認 ChatGPT 的產品力,而是對其背後的治理方式與權力結構感到不安。常見訴求大致集中在三個層面: 政治與治理疑慮:包含平台如何處理敏感議題、是否存在偏好或審查、決策機制是否透明,以及公司與政府、監管、國安議題的距離與互動。 道德與勞動問題:例如訓練資料可能涉及未授權內容、創作者收益與署名、標註與內容審核的人力勞動條件等。 使用者主權與依賴風險:當你把寫作、客服、資料整理、甚至決策輔助都外包給單一供應商,價格、政策、服務可用性與資料保護條款的任何變動,都可能直接影響你的工作與營運。 這使 QuitGPT 更像一場「對平台型 AI 的治理抗議」,而不只是單一產品的好惡。 為什麼矛頭常指向...
微軟這次對 Copilot 的「重大升級」,關鍵不在於又多了幾個新按鈕,而是打破只依賴單一大型語言模型(LLM)的限制:在 Copilot 的能力版圖中,開始導入 Anthropic Claude 等不同模型,走向「多模型協作」的路線。對企業與知識工作者來說,這代表 Copilot 有機會從「一個很會寫字的助理」,進一步變成能依任務挑選最合適引擎的生產力平台。 從「一個模型打天下」到「任務導向選模型」 過去多數使用者對 Copilot 的印象,是它在 Microsoft 365(Word、Excel、PowerPoint、Outlook、Teams)內協助草擬、摘要、改寫、整理會議重點,核心體驗往往與單一模型的表現高度綁定: 模型擅長長文摘要,你就覺得 Copilot 很神 模型在表格推理或精準計算容易出錯,你就覺得 Copilot 不可靠 模型風格偏保守或偏發散,也直接影響你對 Copilot...
「離線跑 AI」這件事,近一年從極客玩具快速變成企業與個人都在關注的部署選項。若你看到「Google Gemma 4 正式登場」的消息(以下以 Gemma 4 作為新一代 Gemma 系列的稱呼),最值得關注的其實不只是模型變強,而是它代表 Google 也把可在本機/邊緣裝置運行的生成式 AI推到更前線:不依賴雲端、降低成本、縮短延遲,並把更多資料留在使用者端。 為什麼「離線 AI」突然變成剛需? 過去多數生成式 AI 都以雲端 API 為主:好處是省掉硬體與維運,壞處是費用不可控、延遲與速率受限,還要面對資料出境與合規稽核。 離線(或半離線、私有化)部署之所以受到追捧,通常出於三個現實因素: 隱私與合規壓力:客服對話、內部文件、醫療或金融資料一旦上雲,就會牽涉資安政策、個資告知、資料保存與跨境傳輸等議題。 成本結構改變:API 用量一上去,長期費用可能比買一台有...
文心 5.0 正式版在「規格」之外,真正值得看的是什麼? 百度發布文心 5.0 正式版,最吸睛的兩個關鍵字是「2.4 萬億參數」與「原生全模態」,再加上官方宣稱其「工具呼叫能力」在測試中超越 GPT-5 早期版本。對一般讀者來說,這些名詞很像競賽榜單;對開發者與企業而言,真正關心的是:它能不能更穩、更便宜、更好整合到現有流程,並在合規與資料安全上更可控。 這篇文章不只整理亮點,也會把「哪些地方可能被過度解讀」講清楚,讓你判斷文心 5.0 到底適不適合導入。 2.4 萬億參數:更大不一定等於更好,但代表「資源與上限」 「參數量」常被拿來當成模型強弱的直覺指標,但它更像是天花板:代表模型可能有更高的表達能力與泛化空間。實務上,效能還取決於: 訓練資料品質與多樣性(以及是否含足夠高品質的推理樣本) 訓練方法(對齊、RL、蒸餾、長上下文等策略) 推論成本與延遲(實際可用的吞吐量) 產品化程度(工具呼叫穩定度、錯誤處理、權限控管) 因此,2.4 萬億參數比較合理的解讀是:百度願意投入更大的訓練與算力資源,模型上限更高;但你仍需要用自身情境做 POC(概念驗證),不要只看規格就下結論。 「原生全模態」帶來的改變:不是多加一個影像入口而已 多模態模型很多,但「原生全模態」通常指的是:模型在架構與訓練流程上,就把文字、圖片、語音/聲音等多種訊號放在同一套理解與生成框架下,而不是外掛式把影像轉文字再丟回文字模型。...
Google 推出 Gemini 3.1 Flash Live,主打更自然的即時語音互動,並強調對話能「接得住」——不只是把你說的話轉成文字再回答,而是更像人與人交談:能跟上語氣與上下文、在多輪對話裡延續思路,減少前後不一致或突然跳題的狀況。 這種「Live」型語音能力之所以值得關注,關鍵在於它把生成式 AI 從「你問我答」推向「共同完成一件事」。當回應延遲更低、對話銜接更順,AI 才可能成為真正可用的語音助理,而不是只有在展示時好看、實際使用卻容易打斷你的工具。 更自然的背後:不是更會講話,而是更會「跟你一起走」 過去許多語音機器人最大的問題,往往不是語音辨識不準,而是對話狀態管理: 你講到一半改口,系統容易把前後當成兩個任務 你用「那個、剛剛說的」這類指涉詞,AI 無法穩定追到同一個主題 你要它先記住條件、再一步步推進,結果中途忘記先前結論 Gemini 3.1 Flash Live 如果能更好地延續脈絡,就代表它在「多輪對話的持續理解」與「回覆節奏」上更接近人類對話:你不需要每句話都重新下指令,對話成本會明顯下降。 哪些情境最先受益?三類「需要連續性」的語音工作流 這類模型最有價值的地方,通常不是閒聊,而是連續任務: 1)...
OpenAI 宣布關閉 Sora(其文字生成影片能力的代表性產品/研究方向),對內容創作圈與 AI 影音工具鏈是一個明顯訊號:生成式影片不只拚技術突破,更同時受制於成本、版權、濫用風險與商業模式的現實拉扯。 以下以「你可能已經用過、正在評估導入、或只是關注趨勢」三種角度,拆解這件事的意義與接下來該做的準備。 Sora 曾被期待解決什麼問題? 生成式影片的痛點不在「能不能做出畫面」,而在「能不能穩定、可控、可交付」。Sora 之所以引起關注,核心是它承諾把文字指令轉成更長、更一致的影片,並在鏡頭語言、物件一致性、運鏡與情境連貫上往「可用於商業流程」推進。 對行銷與內容團隊來說,這類工具常見期待包括: 快速產出分鏡概念與提案影片:在前期就把想法視覺化,縮短溝通成本。 大量版本測試:同一個腳本快速生成多版本素材,做 A/B 測試或在不同平台投放。 降低外包與拍攝門檻:把一部分成本從拍攝、棚拍、場地轉移到後製與合規。 當這樣的「可交付」期待被按下暫停鍵,影響的不只是單一產品,而是整個工作流程的規劃方式。 為什麼會關閉?從產業常見因素推測 官方公告通常會給出方向性理由,但外界更關心的是:這是短期調整,還是策略轉向?在不假設細節的前提下,生成式影片產品被關閉常見原因大致落在四類: 運算成本與延遲壓力 影片生成比圖像更吃算力與時間,若要做到可商用的穩定性,成本可能難以用現有訂閱或授權模式回收。 安全與濫用風險門檻更高 影片更容易被用於仿冒、造假、誤導式剪輯。即使有浮水印、內容審核、身份驗證,仍可能難以滿足監管與平台規範的要求。 版權與資料來源爭議...
Gemini 在香港「全面開放」的意義,不只是多了一個 AI 聊天工具可用,而是 Google 把 Gemini 的核心體驗(多模態理解、與 Google 服務的整合、以及進階方案)更完整地帶到本地市場。對香港讀者而言,最直接的改變是:更容易以日常帳戶直接使用、以繁體中文完成工作流程,並在學習、辦公、內容創作與開發上,有更低門檻的 AI 助手可選。 以下用一篇懶人包,帶你由「怎樣開通」到「怎樣用得值」,同時把常見限制與風險講清楚。 香港用戶現在能用到哪些 Gemini 形式? 一般用戶在香港最常接觸的 Gemini 入口,大致分成三類: Gemini 網頁版:適合快速問答、寫作、摘要、翻譯、整理資料。 手機 App(Android /...
生成式 AI 不只是多了一個「更會寫作的工具」,而是把「如何學習、如何工作、如何被評估」整套規則都推進重算。對正處在升學、實習、第一份工作交界的 Z 世代而言,這波改變帶來明顯的兩面性:一邊是效率與門檻下降的機會,另一邊是能力被稀釋、被取代或被誤解的焦慮。 Z 世代為何特別「有感」? Z 世代多半在數位環境中長大,對工具更新的接受度高,也更習慣用搜尋、社群與短內容快速補洞。但生成式 AI 讓「取得答案」變得太容易,學校與公司開始更在意「你怎麼得出答案、能不能負責」,導致 Z 世代面臨一種新型壓力:即使你做得更快,別人也會懷疑你是不是「靠 AI」。 更關鍵的是,Z 世代經常同時扮演兩種身分: – 在校生:成績、作業、作品集被 AI 重新定義。 – 職場新鮮人:工作流程與技能要求在一年內可能就翻新。 這使他們比其他世代更常遇到「規則尚未定型」的轉換期。 教育端:從「禁止」走向「可驗證的使用」...
在生成式 AI 進入主流應用後,OpenAI 與 Anthropic 的競爭早已不只是「模型誰更強」。兩家公司的路線之爭,正延伸到三個更關鍵的戰場:AI 監管話語權、品牌與廣告攻防、以及雲端與企業採購鏈的權力重分配。理解這場角力,能幫你看清未來幾年 AI 產品會怎麼被管、怎麼被賣,以及誰最可能成為企業與政府的「預設供應商」。 兩種路線:產品擴張 vs. 安全治理 OpenAI 的強項在於把模型快速產品化並規模化:從 ChatGPT 的大眾化入口、到企業版與開發者 API 生態,主打「先把市場做大」。這條路線的優點是迭代速度快、資料回饋多、開發者黏著度高;風險則在於外溢影響也更快出現,例如錯誤資訊、提示注入(prompt injection)、資料外洩與版權爭議等,都會在大規模使用下被放大。 Anthropic 的敘事更偏向「安全與可控」:以憲法式 AI(Constitutional AI)等概念,強調模型行為可被規範、可稽核、可降低有害輸出。這種定位對企業法務、合規團隊與政府機關特別有吸引力,因為他們要的不是炫技,而是可預期、可證明、可承擔。 這裡的關鍵不是誰比較道德,而是:...
MiMo‑V2‑TTS 在做什麼:把「會說話」提升到「會表達」 語音合成(TTS)早已不稀奇,但多數產品仍停留在「字念得準、聲音夠順」;真正讓人感到自然的,往往是語氣、停頓、輕重音、情緒強度這些細節。小米推出的 AI 語音大模型 MiMo‑V2‑TTS,主打細粒度情感控制,目的就是讓語音不只像真人,更能在不同情境下「表達得像真人」。 對正在發展 AI Agent(能自主執行任務的助理/代理)的人來說,這個方向很關鍵:Agent 若只會冷冰冰地回覆,互動體驗很難跨過「工具」門檻;而一旦語音能帶出安撫、提醒、關懷或緊迫感,使用者更容易把它當成可溝通的「服務角色」。 情感控制為何重要:它影響的不只是好聽 細粒度情感控制不只是把聲音調成「開心、難過」這種粗分類,而是更接近人類語音的連續光譜,例如: 同一句話在不同任務下需要不同語氣意圖(提醒、道歉、鼓勵、警示) 情緒不只種類,還有強度與變化曲線(先平靜、後堅定) 更自然的韻律與停頓,能降低「機器感」與聽覺疲勞 當語音被用在客服、醫療提醒、車載助理或兒童教育時,語氣的好壞會直接影響信任感、理解度與完成率。換句話說,TTS 從「聲音輸出」走向「互動品質控制」。 對哪些人最有感:Agent、客服、內容與遊戲 1) AI Agent 與智慧助理 能依情境調整語氣的 TTS,會讓...
阿里巴巴近期推出企業級 AI Agent 平台「悟空」,並用「24 小時自動化的龍蝦軍團」作為核心敘事:把一群可分工、可協作、可輪班的 AI 代理人(Agent)變成企業可調度的「數位勞動力」。 這不只是又一個聊天機器人。若它真的能把「從需求→拆解任務→呼叫工具→寫入系統→回報結果」整段流程做成可治理的企業平台,代表企業導入生成式 AI 的重心,正在從「回答問題」轉向「完成任務」。 為什麼大家都在做 Agent?因為聊天已經不夠用 企業最常見的痛點不是「缺少內容」,而是「流程太碎、系統太多、人力被雜務吃掉」。傳統 RPA 擅長固定流程,但遇到例外狀況就容易卡關;而 LLM 擅長理解與生成,但若沒有工具與權限,就只能停留在建議層。 Agent 的定位正好在兩者之間: 能理解任務:把自然語言需求拆成步驟與條件。 能動手做事:串接 API、資料庫、工單、CRM、ERP 等工具。 能協作與交接:多個...
OpenAI 近期推出兩款全新小型模型 GPT-5.4 mini 與 GPT-5.4 nano,主打「速度提升 2 倍」且在多數任務上「表現直逼旗艦級」。這不是單純的規格更新,而是把生成式 AI 的重心,從「追求最強」拉回到「更快、更穩、更便宜、更好整合」的現實需求。 對多數產品與內容團隊來說,真正卡住的往往不是模型不夠聰明,而是 延遲、成本、併發量、可控性。mini 與 nano 的出現,代表 OpenAI 正在把「可大規模落地」視為優先目標。 小模型為什麼突然變得關鍵? 當 AI 從試用走向正式上線,你會很快遇到三個痛點: 延遲:客服、即時助理、推薦與搜尋輔助,使用者對「等一下」的容忍度極低。 成本:高頻率、長對話、多人同時使用的場景,最終會變成帳單問題。...