界面財經(jīng)年會 | 商湯絕影CTO肖楓:讓每一輛車擁有「有趣的靈魂」?? ?

由上海報業(yè)集團作為指導單位、界面新聞主辦、梅賽德斯-奔馳作為戰(zhàn)略合作伙伴的第七屆【界面財經(jīng)年會】于12月18日在上海世博創(chuàng)意秀場成功舉辦。商湯絕影CTO肖楓發(fā)表主旨演講《讓每一輛車擁有「有趣的靈魂」》。

由上海報業(yè)集團作為指導單位、界面新聞主辦、梅賽德斯-奔馳作為戰(zhàn)略合作伙伴的第七屆【界面財經(jīng)年會】于12月18日在上海世博創(chuàng)意秀場成功舉辦。商湯絕影CTO肖楓發(fā)表主旨演講《讓每一輛車擁有「有趣的靈魂」》。

以下為主旨演講實錄:

大家好,我是來自商湯絕影的肖楓,今天非常有幸,我給大家分享一下我們最新的基于商湯流式多模態(tài)大模型的一個創(chuàng)新產(chǎn)品,它叫New Member,我們希望New Member能夠給每一輛車都帶來一個「有趣的靈魂」。

首先跟大家分享大模型進入車艙的整體趨勢。從去年開始大模型就開始逐漸進入智能車艙,帶來一個全新的智能化體驗。大家可以感受到首先進入的是一種工具的形態(tài),從案例角度來說,大家看見有了「車書」,有了「閑聊」,都是基于大模型,尤其是語言大模型。記得「車書」有個挺有意思的例子,在網(wǎng)上說,有人指著一個儀表屏幕上面的標識問:“我突然看見一個小男孩背著一個寶劍在跳舞,這是什么?”

其實這個就是一個沒有系安全帶的提醒,但很多新手司機都不太清楚,然后大模型可以告訴你,“這是你沒有系安全帶,我在提醒”。我只是舉個例子,來說明一個簡單的工具模式是什么樣的。

然后大模型不斷進化,賦予座艙的能力也越來越強,我們把它稱為是一種助理模式。助理模式的典型的一個案例是大家熟知的Agent,也叫智能體。有了智能體以后,工具就變成了助手,比以前更強大了,能夠完成的不只是簡單的單一性的任務了。它可以做一些復雜任務,比如說現(xiàn)在大家都希望有一個旅程的推薦,智能體可以用一種非常泛化的方式,幫忙尋找更合適你的路線餐館等等。

大家在一些車里面已經(jīng)感受到了這種能力,今天我給大家?guī)淼氖?,可以被認為是第三代的車艙大模型能力,這個能力最大的一個區(qū)別是,前面不管是工具還是助理智能體,首先車主或者乘客需要知道自己要什么,但在車里面現(xiàn)在場景越來越多,科技感越來越強,很多車主他可能很難描述要什么,也就無法下達準確的指令。

我們的New Member是一種主動性的、有互動能力的、人格化的體現(xiàn),它能主動察言觀色,看到的這個環(huán)境里面用戶需要什么,然后可以推薦一個服務,服務的內(nèi)容也是動態(tài),會根據(jù)每個人的習慣,根據(jù)車里面的綜合信息來提供服務,能夠及時和你主動交互,實現(xiàn)一個更好的家庭成員般的服務體驗。

一個有趣的靈魂是怎么形成的,我們提煉了幾個關(guān)鍵要素。

首先它要能夠察言觀色,始終一直在觀察你車里面人、車、物、環(huán)境的這種變化。這里面核心的技術(shù)是商湯絕影的原生流式多模態(tài)大模型,多模態(tài)感知和理解能力非常強。

第二個叫無時不在,我們專門為這個構(gòu)建了一個持續(xù)推理的框架,來支撐著New Member中流式多模態(tài)大模型的持續(xù)的運轉(zhuǎn)和推理。

在這個過程中我們會做到第三步,叫心有靈犀。如何做到心有靈犀?實際上就是把一些我們在人、車、物和環(huán)境里面的一些數(shù)據(jù),能夠通過模型的推理形成記憶,通過記憶,把服務真正推動了車主和乘客,實現(xiàn)兩者之間的一個新的聯(lián)系。

接下來,展開介紹前面三個能力背后絕影的技術(shù)。

首先給大家講的是商湯絕影的原生流式多模態(tài)大模型,這是端到端的模型,現(xiàn)在很多多模態(tài)模型其實有好幾段組成,相當于把圖片轉(zhuǎn)換成文字,把視頻轉(zhuǎn)換成圖片再轉(zhuǎn)換成文字,這些和原生流式多模態(tài)大模型相比,雖然都是多模態(tài),但我們的是原生的端到端,我們可以通過感知文字、圖片、視頻等信息,直接端到端的輸出音頻、文字、視頻等,所以整體效率非常高。

接下來是類人記憶框架。剛才談了很多,我們在無時無刻不斷觀察人、車、路、環(huán)境的一些數(shù)據(jù),這些觀察到的數(shù)據(jù)我們稱為叫臨時記憶。這些臨時的記憶通過數(shù)據(jù)管線,通過我們的大模型的推理,可以做加強反思等,形成各種人和人之間的關(guān)系,人和物之間的關(guān)聯(lián),還有人和車之間的一些關(guān)系,這些關(guān)系形成了長期記憶。

基于每天不同的場景,通過從臨時記憶和長期記憶中提取重要信息,對這些信息實時處理和分析,作出決策或者解決問題,這就是場景記憶。不同的記憶會塑造不同的New Member。

最后,為了實現(xiàn)人和車之間的心有靈犀,這要求服務是無時不在的,我們設計了Always-on持續(xù)推理框架,這個框架目前是端云一體的架構(gòu),80%的場景會在端上操作,但是考慮到云上的一些核心的擴展和推理,有一些強大的反思,我們稱為叫慢思考能力,所以還有20%場景就會放在云端,但在整個場景的融合用戶是沒有感知的。

說到數(shù)據(jù),大家都會比較敏感。一個是安全方面,擔心私人的記憶是不是會被其他人看到或者聽到。我們商湯絕影專門設計了一個隱私保護和數(shù)據(jù)安全的安全框架,來支撐整個New Member的持續(xù)可靠運行,能夠保證整個數(shù)據(jù)記憶只會在生成數(shù)據(jù)的相應環(huán)境下才會被觸達,才會給用戶提供專屬的功能體驗。

剛才說了不少技術(shù)方面的一些信息,下面通過一個場景來演繹一下我們的產(chǎn)品和技術(shù)是怎么支撐的。周五下午,老丁和兒子豆豆一起上車,他們不需要和導航說目的地,New Member會根據(jù)數(shù)據(jù)和記憶進行推理,就會主動問老丁是不是要帶豆豆去網(wǎng)球場打球,得到確認后,就會主動設置導航路線。

最后,我給大家介紹下,產(chǎn)品層面的一些場景和大模型,整個工作流是如何耦合的。前面我們提到的老丁帶孩子打網(wǎng)球的場景,用戶上車了以后,New Member會主動詢問,這是因為Always-on持續(xù)運行框架,它一直在記錄人、車服務環(huán)境的一些數(shù)據(jù),同時把這些數(shù)據(jù)轉(zhuǎn)化成為記憶,有了這些基礎(chǔ),會根據(jù)場景推理出你要去的目的地。此外,New Member根據(jù)不同的穿著會推薦不同的地方,會猜測你想要做什么事情,有時候也會給出一些建議。

為了和車企更好的合作,我們也打造了記憶的場景庫,專門做了一些人設,這些人設都會自動的構(gòu)建出來,通過大模型可以構(gòu)建出不同的人設,車企可以利用這些基礎(chǔ)的場景庫進行組合,或者進行針對性訓練,打造更合適車企風格、滿足用戶需求的角色。

謝謝大家,因為現(xiàn)在有好幾個車企已經(jīng)都已經(jīng)開始和我們絕影進行合作,有些進入了量產(chǎn)階段,相信大家很快能夠在車上看到并體驗到“有趣的靈魂”。

作為國內(nèi)領(lǐng)先的原創(chuàng)財經(jīng)媒體,上海報業(yè)集團丨界面新聞始終關(guān)注財經(jīng)領(lǐng)域最新動態(tài),關(guān)注行業(yè)最新資訊,為品牌與企業(yè)提供市場的全面洞察,助力中國經(jīng)濟持續(xù)發(fā)展。

特別鳴謝本次2024財經(jīng)年會的戰(zhàn)略合作伙伴梅賽德斯-奔馳。作為汽車發(fā)明者,梅賽德斯-奔馳擁有著138年榮耀歷程,為廣大中國消費者提供杰出的產(chǎn)品、服務及品牌體驗,實現(xiàn)對中國市場的長期承諾。

歷經(jīng)70年時光流轉(zhuǎn),傳承11代,梅賽德斯-奔馳S級轎車以“世界,盡在于心”之格局,在大型豪華車領(lǐng)域開創(chuàng)駕乘安全新境界、樹立數(shù)字豪華新標桿。以數(shù)字豪華的智能人機交互體驗、領(lǐng)先完備的駕駛輔助科技,開創(chuàng)了豪華出行的全新時代。

年會最終解釋權(quán)歸界面新聞所有

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

界面財經(jīng)年會 | 商湯絕影CTO肖楓:讓每一輛車擁有「有趣的靈魂」?? ?

由上海報業(yè)集團作為指導單位、界面新聞主辦、梅賽德斯-奔馳作為戰(zhàn)略合作伙伴的第七屆【界面財經(jīng)年會】于12月18日在上海世博創(chuàng)意秀場成功舉辦。商湯絕影CTO肖楓發(fā)表主旨演講《讓每一輛車擁有「有趣的靈魂」》。

由上海報業(yè)集團作為指導單位、界面新聞主辦、梅賽德斯-奔馳作為戰(zhàn)略合作伙伴的第七屆【界面財經(jīng)年會】于12月18日在上海世博創(chuàng)意秀場成功舉辦。商湯絕影CTO肖楓發(fā)表主旨演講《讓每一輛車擁有「有趣的靈魂」》。

以下為主旨演講實錄:

大家好,我是來自商湯絕影的肖楓,今天非常有幸,我給大家分享一下我們最新的基于商湯流式多模態(tài)大模型的一個創(chuàng)新產(chǎn)品,它叫New Member,我們希望New Member能夠給每一輛車都帶來一個「有趣的靈魂」。

首先跟大家分享大模型進入車艙的整體趨勢。從去年開始大模型就開始逐漸進入智能車艙,帶來一個全新的智能化體驗。大家可以感受到首先進入的是一種工具的形態(tài),從案例角度來說,大家看見有了「車書」,有了「閑聊」,都是基于大模型,尤其是語言大模型。記得「車書」有個挺有意思的例子,在網(wǎng)上說,有人指著一個儀表屏幕上面的標識問:“我突然看見一個小男孩背著一個寶劍在跳舞,這是什么?”

其實這個就是一個沒有系安全帶的提醒,但很多新手司機都不太清楚,然后大模型可以告訴你,“這是你沒有系安全帶,我在提醒”。我只是舉個例子,來說明一個簡單的工具模式是什么樣的。

然后大模型不斷進化,賦予座艙的能力也越來越強,我們把它稱為是一種助理模式。助理模式的典型的一個案例是大家熟知的Agent,也叫智能體。有了智能體以后,工具就變成了助手,比以前更強大了,能夠完成的不只是簡單的單一性的任務了。它可以做一些復雜任務,比如說現(xiàn)在大家都希望有一個旅程的推薦,智能體可以用一種非常泛化的方式,幫忙尋找更合適你的路線餐館等等。

大家在一些車里面已經(jīng)感受到了這種能力,今天我給大家?guī)淼氖?,可以被認為是第三代的車艙大模型能力,這個能力最大的一個區(qū)別是,前面不管是工具還是助理智能體,首先車主或者乘客需要知道自己要什么,但在車里面現(xiàn)在場景越來越多,科技感越來越強,很多車主他可能很難描述要什么,也就無法下達準確的指令。

我們的New Member是一種主動性的、有互動能力的、人格化的體現(xiàn),它能主動察言觀色,看到的這個環(huán)境里面用戶需要什么,然后可以推薦一個服務,服務的內(nèi)容也是動態(tài),會根據(jù)每個人的習慣,根據(jù)車里面的綜合信息來提供服務,能夠及時和你主動交互,實現(xiàn)一個更好的家庭成員般的服務體驗。

一個有趣的靈魂是怎么形成的,我們提煉了幾個關(guān)鍵要素。

首先它要能夠察言觀色,始終一直在觀察你車里面人、車、物、環(huán)境的這種變化。這里面核心的技術(shù)是商湯絕影的原生流式多模態(tài)大模型,多模態(tài)感知和理解能力非常強。

第二個叫無時不在,我們專門為這個構(gòu)建了一個持續(xù)推理的框架,來支撐著New Member中流式多模態(tài)大模型的持續(xù)的運轉(zhuǎn)和推理。

在這個過程中我們會做到第三步,叫心有靈犀。如何做到心有靈犀?實際上就是把一些我們在人、車、物和環(huán)境里面的一些數(shù)據(jù),能夠通過模型的推理形成記憶,通過記憶,把服務真正推動了車主和乘客,實現(xiàn)兩者之間的一個新的聯(lián)系。

接下來,展開介紹前面三個能力背后絕影的技術(shù)。

首先給大家講的是商湯絕影的原生流式多模態(tài)大模型,這是端到端的模型,現(xiàn)在很多多模態(tài)模型其實有好幾段組成,相當于把圖片轉(zhuǎn)換成文字,把視頻轉(zhuǎn)換成圖片再轉(zhuǎn)換成文字,這些和原生流式多模態(tài)大模型相比,雖然都是多模態(tài),但我們的是原生的端到端,我們可以通過感知文字、圖片、視頻等信息,直接端到端的輸出音頻、文字、視頻等,所以整體效率非常高。

接下來是類人記憶框架。剛才談了很多,我們在無時無刻不斷觀察人、車、路、環(huán)境的一些數(shù)據(jù),這些觀察到的數(shù)據(jù)我們稱為叫臨時記憶。這些臨時的記憶通過數(shù)據(jù)管線,通過我們的大模型的推理,可以做加強反思等,形成各種人和人之間的關(guān)系,人和物之間的關(guān)聯(lián),還有人和車之間的一些關(guān)系,這些關(guān)系形成了長期記憶。

基于每天不同的場景,通過從臨時記憶和長期記憶中提取重要信息,對這些信息實時處理和分析,作出決策或者解決問題,這就是場景記憶。不同的記憶會塑造不同的New Member。

最后,為了實現(xiàn)人和車之間的心有靈犀,這要求服務是無時不在的,我們設計了Always-on持續(xù)推理框架,這個框架目前是端云一體的架構(gòu),80%的場景會在端上操作,但是考慮到云上的一些核心的擴展和推理,有一些強大的反思,我們稱為叫慢思考能力,所以還有20%場景就會放在云端,但在整個場景的融合用戶是沒有感知的。

說到數(shù)據(jù),大家都會比較敏感。一個是安全方面,擔心私人的記憶是不是會被其他人看到或者聽到。我們商湯絕影專門設計了一個隱私保護和數(shù)據(jù)安全的安全框架,來支撐整個New Member的持續(xù)可靠運行,能夠保證整個數(shù)據(jù)記憶只會在生成數(shù)據(jù)的相應環(huán)境下才會被觸達,才會給用戶提供專屬的功能體驗。

剛才說了不少技術(shù)方面的一些信息,下面通過一個場景來演繹一下我們的產(chǎn)品和技術(shù)是怎么支撐的。周五下午,老丁和兒子豆豆一起上車,他們不需要和導航說目的地,New Member會根據(jù)數(shù)據(jù)和記憶進行推理,就會主動問老丁是不是要帶豆豆去網(wǎng)球場打球,得到確認后,就會主動設置導航路線。

最后,我給大家介紹下,產(chǎn)品層面的一些場景和大模型,整個工作流是如何耦合的。前面我們提到的老丁帶孩子打網(wǎng)球的場景,用戶上車了以后,New Member會主動詢問,這是因為Always-on持續(xù)運行框架,它一直在記錄人、車服務環(huán)境的一些數(shù)據(jù),同時把這些數(shù)據(jù)轉(zhuǎn)化成為記憶,有了這些基礎(chǔ),會根據(jù)場景推理出你要去的目的地。此外,New Member根據(jù)不同的穿著會推薦不同的地方,會猜測你想要做什么事情,有時候也會給出一些建議。

為了和車企更好的合作,我們也打造了記憶的場景庫,專門做了一些人設,這些人設都會自動的構(gòu)建出來,通過大模型可以構(gòu)建出不同的人設,車企可以利用這些基礎(chǔ)的場景庫進行組合,或者進行針對性訓練,打造更合適車企風格、滿足用戶需求的角色。

謝謝大家,因為現(xiàn)在有好幾個車企已經(jīng)都已經(jīng)開始和我們絕影進行合作,有些進入了量產(chǎn)階段,相信大家很快能夠在車上看到并體驗到“有趣的靈魂”。

作為國內(nèi)領(lǐng)先的原創(chuàng)財經(jīng)媒體,上海報業(yè)集團丨界面新聞始終關(guān)注財經(jīng)領(lǐng)域最新動態(tài),關(guān)注行業(yè)最新資訊,為品牌與企業(yè)提供市場的全面洞察,助力中國經(jīng)濟持續(xù)發(fā)展。

特別鳴謝本次2024財經(jīng)年會的戰(zhàn)略合作伙伴梅賽德斯-奔馳。作為汽車發(fā)明者,梅賽德斯-奔馳擁有著138年榮耀歷程,為廣大中國消費者提供杰出的產(chǎn)品、服務及品牌體驗,實現(xiàn)對中國市場的長期承諾。

歷經(jīng)70年時光流轉(zhuǎn),傳承11代,梅賽德斯-奔馳S級轎車以“世界,盡在于心”之格局,在大型豪華車領(lǐng)域開創(chuàng)駕乘安全新境界、樹立數(shù)字豪華新標桿。以數(shù)字豪華的智能人機交互體驗、領(lǐng)先完備的駕駛輔助科技,開創(chuàng)了豪華出行的全新時代。

年會最終解釋權(quán)歸界面新聞所有

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。