Multimodal AI Archives - Dr. Jackei 科技生活日誌

2025年Google AI搜尋大革命：Gemini多模態智慧助理如何顛覆SEO與資訊獲取模式

by Dr. Jackei Wong

December 4, 2025

科技新聞

2025年Google AI搜尋大革命：Gemini多模態智慧助理如何顛覆SEO與資訊獲取模式

2025年，Google持續推動其搜尋引擎的AI轉型，尤其是透過最新升級的Google AI Overview與結合AI模式的全新互動形式，改變了傳統資訊搜尋和內容消費的方式。Google AI Overview結合了大型語言模型Gemini，成功將搜尋結果從傳統的連結列表進化為一種「多模態」且具高度整合性的智慧摘要，結合文字、圖片、影音等資訊來源，以簡潔明瞭的摘要或條列清單形式直觀呈現，提供使用者更高效率、貼近需求的搜尋體驗。此舉不僅提升了搜尋準確度，也讓Google搜尋轉型成為全天候智慧助理，能準確理解使用者的語意與背景，實現更深度互動。 2025年2月起，Google在AI Overview中新增了詞彙連結功能，允許使用者直接點擊關鍵詞，快速跳轉至相關主題頁面或資源，降低了重複輸入關鍵字的麻煩，進一步提升使用便利性。該功能類似於Google過去的“People also search for”，在測試中顯示能提升使用者探索意願與滿意度，預計不斷擴展成為搜尋新標準。這種連結策略讓使用者能在AI名詞與摘要間靈活跳轉，加快知識深度掌握，且使網站流量有更多元化入口。在搜尋行為上，AI Overview帶來顯著變革。傳統SEO依賴字詞匹配和藍色連結呈現，而AI Overview則透過Google獨家的多任務統一模型（MUM）及先進大語言模型（像Gemini、PaLM2），從浩繁網頁內容中萃取核心訊息，生成易讀且具互動性的答案段落。根據分析，排名第一的有機搜尋CTR（點擊率）已由28%下跌至19%，顯示使用者更多直接閱讀AI摘要而非點擊網頁，因此企業品牌須重新布局，多平台曝光與第三方提及變得更為關鍵，內容策略由「關鍵字堆疊」轉向「語意對話」與「完整語境呈現」。 Google最新的AI模式也強調多輪互動對話功能，使用者可針對複雜問題進行追問，AI則透過分步解答與實時回饋，提供更貼近需求的分析與建議。此模式提升了搜尋的互動性與精準度，透過Gemini最新版本（如2.5及3 Pro）整合深度推理機制（Deep Think），實現更快、更準確且更具多模態（文字+影像+聲音）處理能力。Gemini 3 Pro被譽為目前世界上最先進的多模態理解模型，於各大AI測試中超越對手，在複雜推理及數學計算表現尤為突出，未來更將進一步整合Workspace企業應用，強化個人化研究與動態內容生成。對於專業內容創作者與SEO策略師而言，這一波AI搜尋革命帶來挑戰同時也創造多樣化機會。使用者不再單純靠關鍵字搜尋，而是傾向用自然語言提出具體問題，要求AI直接給出高度濃縮且整合多方訊息的答案。因此，品牌與網站需根據Google AI Overview的邏輯制定內容：重視專業性（Expertise）、經驗性（Experience）、權威性（Authority）和可信度（Trustworthiness）四大標準，避免死板SEO提升排名，而是透過深度主題研究、完整語義鏈結與多平台協同推廣來提升流量。實務角度上，目前許多使用者將Google搜尋、AI模式、AI摘要及像ChatGPT等生成式AI結合使用，形成有層次的查詢流程。初步資訊搜尋多用Google傳統搜尋或AI摘要快速掌握重點，複雜需求與深度分析則倚賴AI模式或ChatGPT的生成能力，最後決策階段再回到Google搜尋查證細節及購物頁面。此種多管齊下的工作流程，有效利用各系統優勢，達成資訊高效獲取與成果應用。總結而言，Google 2025年在AI搜尋領域持續加碼投資，資金預計投入超過850億美元於深度AI基礎建設，推動搜尋查詢量增長超過10%。Gemini與AI...

by Dr. Jackei Wong

August 1, 2025

科技新聞

Poe全新API重磅登場：百款多模態AI模型一鍵接入，香港台灣開發者必看！

Quora旗下的AI平台Poe於2025年7月正式推出其全新API，旨在為開發者提供簡便且多元的人工智能模型接入服務，令開發者能夠在應用程序中輕鬆整合超過100款覆蓋文本、圖像、語音及影片生成的先進AI模型。此次API的推出，不僅顯著提升了開發效率，也為AI生態系統注入了創新動力，特別是在科技和區塊鏈領域中，對尖端AI技術的整合需求因此而加深。 Poe API所採用的是點數制訂閱模式，開發者通過消耗點數即可調用相應的模型，而無需額外支付繁複的費用。這種計費架構使使用成本具備透明性，且方便預算控管。例如，使用GPT-4o產生一張1024×1024像素、1:1長寬比的低品質圖像，便需消耗328點數。Poe提供五種訂閱方案，涵蓋不同使用需求，最低為每月4.99美元的Basic方案，每日提供一萬點；最高級的Enterprise方案則每月249.99美元，含1,250萬點。開發者亦可靈活選擇按需購買額外點數，費率為每百萬token 30美元，支持不固定套餐的自由購買，靈活滿足各種開發計劃需求。這個API可應用於多樣化的人工智能工具，例如Cursor、Cline、Continue、Roo等，並且兼容OpenAI標準的聊天完成API，方便開發者整合多元功能於其產品當中。Poe不僅專注於API的開放，更致力於讓用戶體驗更友善，早前已推出多種模板，助力使用者輕鬆建立AI驅動的應用，如伺服器機器人、訊息提示機器人及圖像生成機器人。目前，使用Poe API的開發者需手動選擇並管理不同模型的使用，官方也表示將根據開發者反饋考慮增設更完善的預算管理功能，進一步提升資源調配效率與使用體驗。此舉顯示Poe高度重視社群回饋，並持續優化其產品配置以配合發展趨勢。 Poe API的誕生，標誌著人工智慧整合技術邁入一個新的階段。過去在多模態AI服務中，開發過程常被複雜的付費結構和管理機制所阻礙，而Poe以點數制與多樣訂閱方案解決了這一難題，為全球開發者開啟了更為靈活、經濟且多維度的AI服務接入之門。這不僅能加速創新產品的推出，也促進了跨領域技術的融合，例如將語音、影像、影音轉換等功能整合於同一平台中，提升終端應用的智慧互動性能。就香港和台灣市場而言，Poe API的釋出尤其值得關注。隨著兩地數位轉型及創新速度不斷加快，企業及開發團隊亟需便捷且具擴展性的AI解決方案，每月多達百萬點數的高階方案，能夠支持中大型專案的需求，而低門檻的基礎方案則相對適合小型研發或初創團隊實驗使用。此外，靈活的點數追加購買選項，讓開發者能夠根據實際工作量調整支出，避免資源浪費，是一大亮點。綜觀Poe API的功能和定價策略，其一站式、多模型、多模態的特點令開發者在打造AI應用時更具彈性與自由度，這對於追求創新且講求效率的香港及台灣開發生態至關重要。未來隨著更多預算管理及自動化工具加入，使用者將可體驗到更加智慧化的資源調度與成本控管，期待Poe在AI產業中持續發揮領先力量。 #人工智慧 #PoeAPI #多模態AI #開發者工具 #AI整合

OpenAI顛覆影音創作！多模態AI「Sora」與ChatGPT新功能引爆2025影片革命

by Dr. Jackei Wong

July 28, 2025

科技新聞

OpenAI顛覆影音創作！多模態AI「Sora」與ChatGPT新功能引爆2025影片革命

OpenAI於近期陸續推出多款嶄新的AI影片生成與多媒體互動技術，為創作者帶來革命性的便利與創作自由。這些最新技術不僅大幅降低了影片製作的門檻，同時也提升了影片內容的多樣性與智慧化，是內容創作領域的重要突破。首先，Invideo AI是一個以多智慧體系統為核心的影片製作工具，能讓任何具備創意想法的人快速產出高品質影片。該系統內部由多個OpenAI模型分工合作，其中OpenAI o3擔任統籌與規劃角色，負責推理目標內容的用途、調性以及適合發布的平台，並且依據這些判斷選擇最優模型進行特定製作環節的操作。這種分工協調，讓整個影片製作流程能夠更有效率且富有創意，吸引了數百萬用戶使用。另一方面，在2025年5月，OpenAI為旗下的ChatGPT產品新增了語音對談與影片理解分析功能，讓AI助理全面邁向多模態互動時代。新版ChatGPT不再僅是文字輸入輸出，而是具備「聽、說、看」三種人類感官功能。其中語音對話系統不單是將語音轉成文字再回應，而是提供「真實、自然、有情緒」的語音互動體驗。包括合理的停頓、情緒語調變化以及即時語速調整，讓使用者感受到彷彿與真人交流一般的陪伴功能，對於語言學習、陪伴聊天與視障輔助應用都有重大幫助。同時，影片分析功能允許用戶上傳影片後，AI能自動摘要內容、描述場景、標記重點，甚至回答與畫面中人事物相關的問題，顯著提升影片內容的理解與應用價值。更令人驚豔的是OpenAI於2024年12月正式推出的AI影片生成工具Sora，它採用了類似DALL-E的擴散模型技術，能根據用戶的文字描述直接生成高清短片，最高支援1080p畫質，最長可達20秒。Sora還支持多樣功能，例如靜態圖片轉換影片、現有影片的延伸補全、多段影片混合與風格轉換，以及生成無縫循環影片。這些功能不僅適合專業影片創作者，也讓普通用戶能輕鬆打造吸睛短片，激發更多創意潛能。目前Sora已向大多數國際地區及ChatGPT訂閱用戶開放，提供差異化的會員方案，讓用戶根據需求選擇每月影片生成次數與解析度。更進一步，在2025年6月，微軟推出了內建於Bing移動端應用的Bing Video Creator工具，採用OpenAI Sora技術支持，允許用戶透過文字描述免費生成5秒鐘的AI影片。該工具支援多種風格，如寫實、風景、卡通及電影風格，並優先支援480p竪屏格式，接著將推出16:9橫屏格式。此工具著重於「民主化AI影片生成」，讓所有使用者均能免費輕鬆創作影片內容。微軟亦強調，Bing Video Creator在生成影片時會使用C2PA元數據標準以提升生成內容的透明度，且配備內容過濾系統，防止產生暴力或侵權素材。OpenAI研究員蒂姆·布魯克斯指出，Sora展現了卓越的3D視覺一致性與物理世界理解，令生成影片更具真實感與準確度。這些技術的集成，顯示OpenAI在AI多媒體領域持續深耕，打造的工具不僅促進創意表達，也為香港及台灣地區的使用者提供了強大的影片製作利器。對企業來說，這代表可利用更低成本、更快速的方式生產市場推廣影片或教學內容；對個人創作者而言，則是提升社群貼文與影音內容吸引力的利器。隨著中文及多語言的支持日益完善，這些AI工具更適合本地市場的多樣需求。綜觀OpenAI的新一代影片與多模態AI產品，未來的內容創作將不再侷限於專業技術，而是每位用戶都能憑藉創意借助AI迅速轉化為具備專業水準的影音作品。這不僅推動了影片生產的民主化，也改變了用戶與AI互動的方式，帶來全新的創意體驗。 #AI影片生成 #多模態AI #OpenAI技術 #內容創作 #Sora

Google Gemma 3n震撼登場：超輕量多模態AI，手機本地秒回應，140語言全覆蓋，開啟AI民主化新時代！

by Dr. Jackei Wong

July 5, 2025

科技新聞

Google Gemma 3n震撼登場：超輕量多模態AI，手機本地秒回應，140語言全覆蓋，開啟AI民主化新時代！

2025年，Google在其年度盛會Google I/O中，正式推出了最新的人工智能（AI）突破——Gemma 3n模型，這款AI模型特別針對資源有限的裝置進行優化設計，能夠在智慧手機、筆電和平板電腦等日常設備上高效運行，大幅降低了使用先進AI技術的門檻。Gemma系列不僅包括了通用的3n版本，還有專注於醫療健康的MedGemma以及針對手語翻譯的SignGemma，這些專用模型展現了Google在多領域推動AI應用的決心與技術實力。 Gemma 3n的核心創新在於其「MatFormer」架構，以及採用的Per-Layer Embedding (PLE)參數快取技術。這讓模型可以根據不同請求，選擇性載入必要的參數，從而有效減少計算資源消耗及記憶體需求，提升回應速度。這種架構讓Gemma 3n即使在只有單一GPU或者TPU的裝置上，也能維持高效且流暢的運算表現。以27B參數版本為例，該模型在Chatbot Arena中取得了1338的Elo分數，且僅需一台NVIDIA H100 GPU就能達成過往需要32台GPU的運算強度，效能表現耀眼。除了輕量化之外，Gemma 3n的多模態能力也是一大亮點。該模型支援文本、視覺及音頻的輸入處理，能同時辨識和分析圖像（最高達896×896像素）、聲音及文字資訊。這使得它在語音識別、語言翻譯、視覺問答（VQA）、光學字符識別（OCR）以及文件分析等多種場景均有出色的應用潛力。更厲害的是，Gemma 3n可處理高達32K的token輸入內容，換算成文字，可以理解約198頁的小說或輸入500張圖片，極大提升了對長文本與大量視覺信息的理解及處理能力。語言支持方面，Google Gemma 3系列覆蓋超過140種語言，在多語言基準測試中優於同類模型如Llama 3。這種廣泛的語言支援，尤其對香港和台灣等多語言環境的使用者而言，意義重大。無論是繁體中文、英文，還是其他亞洲語系，都能獲得更貼近母語的AI交互體驗。在實際應用面，這批模型開放權重與負責任的商業授權，吸引了眾多開發者將其整合進多種平台，包括Hugging Face、PyTorch、Google Vertex AI，以及NVIDIA的API Catalog等。這不僅讓開發者能自由調整和部署模型，更因為其低資源需求，使得AI應用能夠在手機或筆電上本地執行，無需透過高延遲或高成本的雲端運算，保障使用者隱私並提升數據安全。 Google的這項技術進展，推動了AI「民主化」的目標，讓偏遠地區、資源受限的用戶都能享用高水準的智能服務。以往需要昂貴硬體和高速網路的AI功能，現在可透過Gemma模型實現離線操作，大幅提升了AI應用的普及率與可行性。...

2025年Google AI搜尋大革命：Gemini多模態智慧助理如何顛覆SEO與資訊獲取模式

Poe全新API重磅登場：百款多模態AI模型一鍵接入，香港台灣開發者必看！

OpenAI顛覆影音創作！多模態AI「Sora」與ChatGPT新功能引爆2025影片革命

Google Gemma 3n震撼登場：超輕量多模態AI，手機本地秒回應，140語言全覆蓋，開啟AI民主化新時代！

立即訂閱Dr. Jackei AI電子報

Dr. Jackei

專業服務

科技內容

聯絡及其他