正在閱讀:

谷歌放出最強大模型狙擊OpenAI,重心轉向AI智能體

掃一掃下載界面新聞APP

谷歌放出最強大模型狙擊OpenAI,重心轉向AI智能體

Gemini 2.0想要做所有AI智能體的基座模型。

圖片來源:界面新聞

界面新聞記者 | 肖芳

界面新聞編輯 | 宋佳楠

繼發(fā)布最強量子芯片之后,谷歌又在AI上作出重要舉動。

北京時間1212凌晨,谷歌趕在OpenAI宣布ChatGPT正式登陸iPhone之前,發(fā)布了全新模型Gemini 2.0。

谷歌CEO桑達爾·皮查伊,這是谷歌迄今為止最強大模型。憑借原生圖像和原生音頻的輸出多模態(tài)方面的提升,Gemini 2.0能夠構建的AI智能體,谷歌離構建通用助手的愿景更進一步。

需要指出的是,Gemini 2.0主要開放給開發(fā)者以及受信任的測試人員。目前Gemini 2.0 Flash體驗版模型已經面向所有Gemini用戶開放。

Gemini 2.0 Flash是建立在1.5 Flash基礎之上的模型,此前1.5 Flash是谷歌最受開發(fā)者歡迎的版本。與1.5 Flash相比,Gemini 2.0 Flash在同樣快速的響應時間下性能進一步增強。谷歌方面稱,2.0 Flash在關鍵基準測試中甚至超越了1.5 Pro,其速度是1.5 Pro的兩倍。

同時2.0 Flash還具有新功能,除了能夠支持圖片、視頻和音頻等多模態(tài)輸入,還可以支持多模態(tài)輸出,比如可直接生成圖像與文本混合的內容,以及原生生成可控的多語言文本轉語音(TTS)音頻。它還可以原生調用Google Search、代碼執(zhí)行以及第三方用戶定義的函數等工具。

全球Gemini用戶現在可以在電腦端和移動端體驗基于2.0 Flash優(yōu)化后的聊天對話,并且該版本將很快在Gemini移動應用中推出?;谶@個新模型,用戶還可以體驗到Gemini助手。明年初,谷歌還會將Gemini 2.0擴展到更多產品中。

Gemini 2.0最大的變化在于重心轉向AI智能體,想要做所有AI智能體基座模型。基于此,Gemini 2.0開發(fā)出了一系列原型,這些原型能夠幫助用戶完成相應任務。

其中,Project Astra的升級版,用于探索未來通用AI助手能力的研究原型。自從在Google I/O大會上推出Project Astra以來 ,谷歌一直向那些在Android手機上使用它的受信任的測試人員收集反饋。此次推出升級版可以實現多種語言和混合語言之間對話,也可使用 Google Search、Google Lens和Google Map新工具能夠記住長達10分鐘的會話內容,可以近于人類對話的延遲來理解語言。

全新的Project Mariner從瀏覽器入手探索人與智能體交互的未來發(fā)展。Project Mariner 使用了Gemini 2.0構建的早期研究原型,能夠理解和推理瀏覽器頁面中的信息,包括像素和文本、代碼、圖像和表單等網頁元素,然后通過實驗性的Chrome擴展程序幫助用戶完成相應任務。此次升級,Project Mariner改進原來速度較慢問題。

簡而言之,用戶可以用這項功能讓瀏覽器自己去幫你完成特定任務,例如批量查找某些網站上郵箱地址,從而在一定程度上實現瀏覽器的“自動運行”。

Jules則面向開發(fā)者編碼智能體,它可以直接集成到GitHub工作流程中來協助開發(fā)者完成開發(fā)任務。

在谷歌的演示視頻中,演示人員輸入了一長串含有詳細編程問題的提示語,之后Jules會對這些要求進行分析,給出一個三步的編程解決方案,待點擊同意后,模型就會開啟自動編程,生成代碼。這無疑有助于開發(fā)者進一步提升工作效率。

去年年底,谷歌發(fā)布了Gemini 1.0模型主要能力整合和理解信息。而Gemini 2.0能讓信息變得更加有用。桑達爾·皮查伊表示,Gemini 2.0的進展得益于谷歌長達10年全棧式AI創(chuàng)新研究的投入,基于谷歌定制的硬件第六代TPU Trillium構建而成。

就在谷歌以最強大模型吸睛之時,OpenAI為期12天的產品發(fā)布活動仍在進行同一天,OpenAI展示ChatGPT與蘋果Apple Intelligence的整合,內容略顯平淡谷歌Gemini 2.0的突然發(fā)布,顯然搶了不少OpenAI風頭

Gemini 2.0加持,谷歌一口氣推出三款智能體產品,意味著微軟綁定OpenAI、亞馬遜與Anthropic競爭邁出重要一步。

智能體已經成為大模型領域競爭的核心方向。所謂智能體,是指能夠感知環(huán)境、進行決策并采取行動以實現特定目標的系統,被視作大語言模型(LLM)落地應用的關鍵載體。

近兩個月前,微軟曾連發(fā)10個AI智能體,面向銷售、運營等場景,隨后又宣布Copilot Studio平臺已支持用戶構建自主智能體,同時發(fā)布5款預構建的智能體。而剛剛結束2024 re:Invent亞馬遜一口氣發(fā)布6大模型,其中Amazon Nova Premier同樣是多模態(tài)大模型,專為復雜推理任務而生。

無論在消費還是企業(yè)場景中,AI智能體較多想象空間,商業(yè)化前景也較為明確。多位業(yè)內人士預計,2025將是AI智能體商用爆發(fā)之年。屆時,谷歌、OpenAI等科技巨頭圍繞智能體的競爭勢必將愈發(fā)激烈。

未經正式授權嚴禁轉載本文,侵權必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

谷歌放出最強大模型狙擊OpenAI,重心轉向AI智能體

Gemini 2.0想要做所有AI智能體的基座模型。

圖片來源:界面新聞

界面新聞記者 | 肖芳

界面新聞編輯 | 宋佳楠

繼發(fā)布最強量子芯片之后,谷歌又在AI上作出重要舉動。

北京時間1212凌晨,谷歌趕在OpenAI宣布ChatGPT正式登陸iPhone之前,發(fā)布了全新模型Gemini 2.0。

谷歌CEO桑達爾·皮查伊,這是谷歌迄今為止最強大模型。憑借原生圖像和原生音頻的輸出多模態(tài)方面的提升,Gemini 2.0能夠構建的AI智能體,谷歌離構建通用助手的愿景更進一步。

需要指出的是,Gemini 2.0主要開放給開發(fā)者以及受信任的測試人員。目前,Gemini 2.0 Flash體驗版模型已經面向所有Gemini用戶開放。

Gemini 2.0 Flash是建立在1.5 Flash基礎之上的模型,此前1.5 Flash是谷歌最受開發(fā)者歡迎的版本。與1.5 Flash相比,Gemini 2.0 Flash在同樣快速的響應時間下性能進一步增強。谷歌方面稱,2.0 Flash在關鍵基準測試中甚至超越了1.5 Pro,其速度是1.5 Pro的兩倍。

同時2.0 Flash還具有新功能,除了能夠支持圖片、視頻和音頻等多模態(tài)輸入,還可以支持多模態(tài)輸出,比如可直接生成圖像與文本混合的內容,以及原生生成可控的多語言文本轉語音(TTS)音頻。它還可以原生調用Google Search、代碼執(zhí)行以及第三方用戶定義的函數等工具。

全球Gemini用戶現在可以在電腦端和移動端體驗基于2.0 Flash優(yōu)化后的聊天對話,并且該版本將很快在Gemini移動應用中推出?;谶@個新模型,用戶還可以體驗到Gemini助手。明年初,谷歌還會將Gemini 2.0擴展到更多產品中。

Gemini 2.0最大的變化在于重心轉向AI智能體想要做所有AI智能體基座模型基于此,Gemini 2.0開發(fā)出了一系列原型,這些原型能夠幫助用戶完成相應任務。

其中,Project Astra的升級版,用于探索未來通用AI助手能力的研究原型。自從在Google I/O大會上推出Project Astra以來 ,谷歌一直向那些在Android手機上使用它的受信任的測試人員收集反饋。此次推出升級版可以實現多種語言和混合語言之間對話,也可使用 Google Search、Google Lens和Google Map新工具,能夠記住長達10分鐘的會話內容,可以近于人類對話的延遲來理解語言。

全新的Project Mariner從瀏覽器入手探索人與智能體交互的未來發(fā)展。Project Mariner 使用了Gemini 2.0構建的早期研究原型,能夠理解和推理瀏覽器頁面中的信息,包括像素和文本、代碼、圖像和表單等網頁元素,然后通過實驗性的Chrome擴展程序幫助用戶完成相應任務。此次升級,Project Mariner改進原來速度較慢問題。

簡而言之,用戶可以用這項功能讓瀏覽器自己去幫你完成特定任務,例如批量查找某些網站上郵箱地址,從而在一定程度上實現瀏覽器的“自動運行”。

Jules則面向開發(fā)者編碼智能體,它可以直接集成到GitHub工作流程中來協助開發(fā)者完成開發(fā)任務。

在谷歌的演示視頻中,演示人員輸入了一長串含有詳細編程問題的提示語,之后Jules會對這些要求進行分析,給出一個三步的編程解決方案,待點擊同意后,模型就會開啟自動編程,生成代碼。這無疑有助于開發(fā)者進一步提升工作效率。

去年年底,谷歌發(fā)布了Gemini 1.0模型主要能力整合和理解信息。而Gemini 2.0能讓信息變得更加有用。桑達爾·皮查伊表示,Gemini 2.0的進展得益于谷歌長達10年全棧式AI創(chuàng)新研究的投入,基于谷歌定制的硬件第六代TPU Trillium構建而成。

就在谷歌以最強大模型吸睛之時,OpenAI為期12天的產品發(fā)布活動仍在進行同一天,OpenAI展示ChatGPT與蘋果Apple Intelligence的整合內容略顯平淡谷歌Gemini 2.0的突然發(fā)布,顯然搶了不少OpenAI風頭。

Gemini 2.0加持,谷歌一口氣推出三款智能體產品,意味著微軟綁定OpenAI亞馬遜與Anthropic競爭邁出重要一步。

智能體已經成為大模型領域競爭的核心方向。所謂智能體,是指能夠感知環(huán)境、進行決策并采取行動以實現特定目標的系統,被視作大語言模型(LLM)落地應用的關鍵載體。

近兩個月前,微軟曾連發(fā)10個AI智能體,面向銷售、運營等場景,隨后又宣布Copilot Studio平臺已支持用戶構建自主智能體,同時發(fā)布5款預構建的智能體。而剛剛結束2024 re:Invent亞馬遜一口氣發(fā)布6大模型,其中Amazon Nova Premier同樣是多模態(tài)大模型,專為復雜推理任務而生。

無論在消費還是企業(yè)場景中,AI智能體較多想象空間,商業(yè)化前景也較為明確。多位業(yè)內人士預計,2025將是AI智能體商用爆發(fā)之年。屆時,谷歌、OpenAI等科技巨頭圍繞智能體的競爭勢必將愈發(fā)激烈。

未經正式授權嚴禁轉載本文,侵權必究。