OpenAI於近期陸續推出多款嶄新的AI影片生成與多媒體互動技術,為創作者帶來革命性的便利與創作自由。這些最新技術不僅大幅降低了影片製作的門檻,同時也提升了影片內容的多樣性與智慧化,是內容創作領域的重要突破。 首先,Invideo AI是一個以多智慧體系統為核心的影片製作工具,能讓任何具備創意想法的人快速產出高品質影片。該系統內部由多個OpenAI模型分工合作,其中OpenAI o3擔任統籌與規劃角色,負責推理目標內容的用途、調性以及適合發布的平台,並且依據這些判斷選擇最優模型進行特定製作環節的操作。這種分工協調,讓整個影片製作流程能夠更有效率且富有創意,吸引了數百萬用戶使用。 另一方面,在2025年5月,OpenAI為旗下的ChatGPT產品新增了語音對談與影片理解分析功能,讓AI助理全面邁向多模態互動時代。新版ChatGPT不再僅是文字輸入輸出,而是具備「聽、說、看」三種人類感官功能。其中語音對話系統不單是將語音轉成文字再回應,而是提供「真實、自然、有情緒」的語音互動體驗。包括合理的停頓、情緒語調變化以及即時語速調整,讓使用者感受到彷彿與真人交流一般的陪伴功能,對於語言學習、陪伴聊天與視障輔助應用都有重大幫助。同時,影片分析功能允許用戶上傳影片後,AI能自動摘要內容、描述場景、標記重點,甚至回答與畫面中人事物相關的問題,顯著提升影片內容的理解與應用價值。 更令人驚豔的是OpenAI於2024年12月正式推出的AI影片生成工具Sora,它採用了類似DALL-E的擴散模型技術,能根據用戶的文字描述直接生成高清短片,最高支援1080p畫質,最長可達20秒。Sora還支持多樣功能,例如靜態圖片轉換影片、現有影片的延伸補全、多段影片混合與風格轉換,以及生成無縫循環影片。這些功能不僅適合專業影片創作者,也讓普通用戶能輕鬆打造吸睛短片,激發更多創意潛能。目前Sora已向大多數國際地區及ChatGPT訂閱用戶開放,提供差異化的會員方案,讓用戶根據需求選擇每月影片生成次數與解析度。 更進一步,在2025年6月,微軟推出了內建於Bing移動端應用的Bing Video Creator工具,採用OpenAI Sora技術支持,允許用戶透過文字描述免費生成5秒鐘的AI影片。該工具支援多種風格,如寫實、風景、卡通及電影風格,並優先支援480p竪屏格式,接著將推出16:9橫屏格式。此工具著重於「民主化AI影片生成」,讓所有使用者均能免費輕鬆創作影片內容。微軟亦強調,Bing Video Creator在生成影片時會使用C2PA元數據標準以提升生成內容的透明度,且配備內容過濾系統,防止產生暴力或侵權素材。OpenAI研究員蒂姆·布魯克斯指出,Sora展現了卓越的3D視覺一致性與物理世界理解,令生成影片更具真實感與準確度。 這些技術的集成,顯示OpenAI在AI多媒體領域持續深耕,打造的工具不僅促進創意表達,也為香港及台灣地區的使用者提供了強大的影片製作利器。對企業來說,這代表可利用更低成本、更快速的方式生產市場推廣影片或教學內容;對個人創作者而言,則是提升社群貼文與影音內容吸引力的利器。隨著中文及多語言的支持日益完善,這些AI工具更適合本地市場的多樣需求。 綜觀OpenAI的新一代影片與多模態AI產品,未來的內容創作將不再侷限於專業技術,而是每位用戶都能憑藉創意借助AI迅速轉化為具備專業水準的影音作品。這不僅推動了影片生產的民主化,也改變了用戶與AI互動的方式,帶來全新的創意體驗。 #AI影片生成 #多模態AI #OpenAI技術 #內容創作 #Sora
2025年,Google在其年度盛會Google I/O中,正式推出了最新的人工智能(AI)突破——Gemma 3n模型,這款AI模型特別針對資源有限的裝置進行優化設計,能夠在智慧手機、筆電和平板電腦等日常設備上高效運行,大幅降低了使用先進AI技術的門檻。Gemma系列不僅包括了通用的3n版本,還有專注於醫療健康的MedGemma以及針對手語翻譯的SignGemma,這些專用模型展現了Google在多領域推動AI應用的決心與技術實力。 Gemma 3n的核心創新在於其「MatFormer」架構,以及採用的Per-Layer Embedding (PLE)參數快取技術。這讓模型可以根據不同請求,選擇性載入必要的參數,從而有效減少計算資源消耗及記憶體需求,提升回應速度。這種架構讓Gemma 3n即使在只有單一GPU或者TPU的裝置上,也能維持高效且流暢的運算表現。以27B參數版本為例,該模型在Chatbot Arena中取得了1338的Elo分數,且僅需一台NVIDIA H100 GPU就能達成過往需要32台GPU的運算強度,效能表現耀眼。 除了輕量化之外,Gemma 3n的多模態能力也是一大亮點。該模型支援文本、視覺及音頻的輸入處理,能同時辨識和分析圖像(最高達896×896像素)、聲音及文字資訊。這使得它在語音識別、語言翻譯、視覺問答(VQA)、光學字符識別(OCR)以及文件分析等多種場景均有出色的應用潛力。更厲害的是,Gemma 3n可處理高達32K的token輸入內容,換算成文字,可以理解約198頁的小說或輸入500張圖片,極大提升了對長文本與大量視覺信息的理解及處理能力。 語言支持方面,Google Gemma 3系列覆蓋超過140種語言,在多語言基準測試中優於同類模型如Llama 3。這種廣泛的語言支援,尤其對香港和台灣等多語言環境的使用者而言,意義重大。無論是繁體中文、英文,還是其他亞洲語系,都能獲得更貼近母語的AI交互體驗。 在實際應用面,這批模型開放權重與負責任的商業授權,吸引了眾多開發者將其整合進多種平台,包括Hugging Face、PyTorch、Google Vertex AI,以及NVIDIA的API Catalog等。這不僅讓開發者能自由調整和部署模型,更因為其低資源需求,使得AI應用能夠在手機或筆電上本地執行,無需透過高延遲或高成本的雲端運算,保障使用者隱私並提升數據安全。 Google的這項技術進展,推動了AI「民主化」的目標,讓偏遠地區、資源受限的用戶都能享用高水準的智能服務。以往需要昂貴硬體和高速網路的AI功能,現在可透過Gemma模型實現離線操作,大幅提升了AI應用的普及率與可行性。...