2025年4月,Google於Cloud Next 2025大會上正式發表了全新的Agent2Agent(A2A)協議,這是一項突破性的開放式互操作性標準,旨在解決當前企業在導入AI代理時面臨的「互聯互通」難題。A2A協議能讓不同框架、不同供應商的AI代理無縫溝通與協作,打破AI系統間的資訊孤島,極大提升企業自動化工作流程的效率及整體生產力。 這項標準剛推出即獲得超過50家業界領先企業的支持,其中包括Atlassian、Box、Salesforce、SAP、ServiceNow、MongoDB等知名企業。他們共同認為,目前最難突破的障礙之一就是讓來自不同技術平台的AI代理能夠「說同一種語言」,進而協同完成複雜任務。A2A協議正是為此而設計,它為AI代理建立了一個通用且安全的通信框架,使代理之間能夠交換訊息、協調行動,並輕鬆整合企業內部多元的業務系統。 A2A的設計核心特點為開放性與靈活性。它不依賴任何特定API或實現,能支持抽象化的請求與複雜的代理交互,從而滿足多種業務場景下的需求。此外,它強調安全性與治理,內建身份認證和授權機制,使企業能夠嚴格管控代理間的信息交流權限。代理的「Agent Card」會明確列出所需的安全資格認證,整合統一的政策管理工具可用於審計與風險監控,保障機密資料和算法的安全性,這對於高度重視資訊保護的企業環境至關重要。 從長遠來看,隨著越來越多企業採用A2A協議,將能實現跨平台的代理管理,企業可從統一視角監控和優化整個AI代理陣營的運作,推動業務的全面數位轉型。這種標準化、可監控的特質正是促使A2A廣泛落地企業的關鍵原因。 除了Agent2Agent協議的發布,Google同時推介了Google Agentspace這一功能強大的企業AI生態系統,這個平台匯聚了Google自主開發及第三方代理,整合企業內部資訊搜尋、對話式AI交互與工作自動化。 Agentspace最新功能包含: 與Chrome Enterprise深度整合,讓使用者能直接在瀏覽器搜尋框中存取所有企業資源,簡化操作流程。 Agent Gallery代理庫,員工可一覽所有可用的代理,包括Google官方、內部定制和合作夥伴所開發的,方便探索與應用。 Agent Designer無程式碼代理設計器,即便無編程經驗的員工,也能根據個人需求輕鬆建構或調整代理,以提升日常工作的自動化效率。 Idea Generation代理,採用競賽式機制,根據企業設定標準篩選與優化創意點子,協助團隊腦力激盪與問題解決。 Deep Research代理,可針對複雜主題展開深度調查,並以結構化且易讀的報告形式呈現,節省知識工作者時間。 Google更計畫於2025年第三季公開預覽版推出Agentspace搜尋功能,承諾以安全且權限感知的方式,讓企業知識工作者能統一且方便地存取各類資料。 此外,Google持續將研究成果實際應用於代理系統中,如其先前公開的原型Project Mariner,具備電腦操作及網路互動能力,能根據一次示範學習並規劃未來相似任務。這表明,Google不僅建立開放式協議,更積極推動具備強大自動化能力的代理生態系統,配合Gemini API釋出相關技術給開發者社群,並與Automation...
近期,OpenAI推出了最新的AI模型,進一步提升了語音轉文字(transcription)和聲音生成(voice generation)的能力。這些升級不僅提高了模型的準確性和自然度,也為開發者提供了更多的自定義選擇。讓我們一起探索這些新模型的優勢和潛在應用。 首先,OpenAI的新模型是為了實現其「代理」(agentic)願景而設計的,這意味著AI系統將能夠獨立地代表用戶完成各種任務。OpenAI的產品負責人Olivier Godemont表示,未來幾個月內,我們將會看到更多這樣的AI代理出現。這些代理將會在各種情境中提供有用的、可靠的服務。 OpenAI的最新文本轉語音模型——gpt-4o-mini-tts,能夠生成更自然、更細膩的語音。開發者可以輕鬆地指導這個模型以不同的風格發音,例如「像瘋狂科學家」或「像一位平靜的正念教師」。這使得語音生成更加多樣化和可控。 此外,OpenAI還推出了兩個新的語音轉文字模型:gpt-4o-transcribe和gpt-4o-mini-transcribe。這些模型取代了之前的Whisper系統,能夠更準確地捕捉不同口音和語調,尤其是在嘈雜的環境中。Whisper系統曾經存在一個問題,即它有時會「幻覺」出不存在的詞彙或整段文字,而新的模型則大大減少了這種情況,提高了整體的可靠性。 然而,這些模型在不同語言上的表現仍有所不同。根據OpenAI的內部測試,gpt-4o-transcribe在印度和德拉維語系語言(如泰米爾語、泰盧固語、馬拉雅拉姆語和卡納達語)上的字錯誤率約為30%,意味著每10個字中有3個可能與人工轉錄有所不同。儘管如此,這仍然是相比Whisper的一大進步。 OpenAI的這些新模型不會像Whisper那樣以開源方式公開。這是因為新的模型體積更大,需要更強大的計算資源,因此不適合在個人設備上運行。OpenAI希望在開源模型的選擇上更加謹慎,以確保模型的實用性和可靠性。 這些AI模型的升級對於各個行業都具有深遠的影響。從客戶支持到內容創作,AI代理可以通過自然語言與用戶進行互動,提供更人性化的服務。未來,隨著AI技術的不斷進步,我們可以期待看到更多創新的應用和服務。 最後,讓我們期待這些AI技術如何改變我們的生活和工作方式。隨著AI代理的出現,我們將會看到更多智能化的解決方案出現在各個領域。 #AI技術 #語音轉文字 #聲音生成 #OpenAI #AI代理