正在閱讀:

聊天的藝術:如何打造高情商的AI機器人?

掃一掃下載界面新聞APP

聊天的藝術:如何打造高情商的AI機器人?

讓AI學會“撒嬌”和“裝傻”。

文|硅谷101

“姐姐,你是不是嫌我笨啊?”——當你向Soul App里面的虛擬伴侶拋出一個數(shù)學題時,它不會像ChatGPT那樣只是回答問題本身,答錯了也不會連忙道歉,而是會跟你撒嬌試圖化解此時的尷尬。

這反而會讓人更加疑惑:這背后是真人還是AI?

在ChatGPT Moment之后,AI的進化方向也悄然發(fā)生了分化。一個會“示弱”的AI,反而因為不完美而顯得更真實。本期硅谷101節(jié)目,主理人泓君將與Soul App CTO陶明一起討論Soul的AI應用的發(fā)展歷程,一同去看在AI浪潮不斷翻新的背景下,產(chǎn)品和技術壁壘是如何建立,而商業(yè)模式又將會如何演進。

以下是部分訪談精選

01 社交AI訓練路徑:從規(guī)則機器人到高情商伴侶

泓君:最近玩了你們Soul上的AI虛擬伴侶。最開始的時候就特別不確定他是真實的真人還是AI,因為我跟他說一句話,他會給我回語音,然后他的語音,包括他回復的語氣語調,我覺得都特別真實。所以我一直有一個疑問,他是真的AI嗎?

陶明:對,是真的AI,您體驗過后的話,如果有這種感受,說明我們在這方面的工作還是有效的,因為本身來講的話,我們打造AI伴侶的主要的方向還是真實自然擬人的這種方向。

泓君:從2020年之后,你們一直在嘗試各種各樣的AI產(chǎn)品,你可不可以先總體的介紹一下,這幾年你們做了哪些AI產(chǎn)品,效果怎么樣?

陶明:Soul的定位本質上來講,如果從社交范疇來講,它是個開放性的社交平臺。開放它體現(xiàn)于兩個方面,第一方面的話是說任何一個用戶能夠沒有任何約束的、或者說其他限制的,在Soul里面連接Soulmate。

另外一方面是關系的開放。其實在Soul里面不僅僅只是說有陌生人關系,還有熟人關系和弱關系在上面的,就比如說上面有些同學關系也是存在的。最近幾年我們在AI上面的話,如果說我們分幾個方面去說,我們現(xiàn)在整個Soul整站都是AI驅動的,并不是說現(xiàn)在大家說的都是生成式的AI,比如說在人和人的連接方面,我們也是用AI來做驅動的,并不是這種篩選式的或者是說匹配式的。

泓君:所以你人跟人的推薦AI做驅動,意思是說你會根據(jù)這個用戶的興趣,把更合適的人推薦給他們?

陶明:對,我們打破地域,打破現(xiàn)實的條件,在你的興趣層面,我們能夠更開放的去做連接。主要方向還是說,在我們現(xiàn)有的社交網(wǎng)絡里面,通過AI去做增強,去給用戶帶來更好的體驗。整個產(chǎn)品有兩個方向,第一個是AI的輔助社交,這個在Soul里面我們基本上已經(jīng)全站上線了,幫助用戶能夠更好的做表達,能夠幫助用戶在人與人的溝通過程當中得到更好的反饋。

泓君:AI應該怎么輔助社交?可以詳細地講一下嗎?

陶明:社交它不是一個單邊關系,它是個雙邊關系,即使任何一邊的社交能力都會影響本次的社交體驗的。但很多人他在線下拿不到更多的社交資源,有各種各樣的原因,但是并不是說他來到線上,他就一定能夠獲得更好的社交資源或者是說社交體驗,跟他自身的能力有關系的。

社交本身也是種能力,首先體現(xiàn)出來的就是他的表達能力,現(xiàn)很多國內的用戶是內斂的,是不善言辭的或者說不具幽默的,那在整個社交過程當中,他的表達是有限的,這一定是沒有辦法帶來好的體驗。所以我們通過AI去幫助他更好的說話,就比如說他想去表達某一件事情,我們用AI更好的去幫他做潤色,或者說當他很難去回復對方的某一個觀點或者說某件事情的時候,我們也可以通過AI去幫他做建議。

泓君:這個你能舉個例子嗎?就是在一個什么樣的情景下,一個什么樣的交互方式下,他可以幫助用戶去完成這個表達?

陶明:因為整個社交過程是動態(tài)的,每一場會話都會有不同的話題的產(chǎn)生,就比如說當對方突然跳出原來的聊天邏輯,說到一個自己不知道的事情,那這時候很難去接住這樣的一句話,如果我們有AI,就能很平滑的把這句話接住,從而不讓整個聊天會陷入死區(qū)。

泓君:那到底是人在聊天還是AI在聊天?這個交互是怎么完成的?就比如說如果我正在跟一個人私聊,然后他說了一個我不知道的東西,這個時候AI是給我一個提示,還是我可以選擇讓AI把這個話發(fā)過去?

陶明:其實是AI做建議,還是用戶做選擇,本質上還是人在聊天,只是說他幫他去增加了回復的這樣的豐富性或者說幽默性。

泓君:那你們這個產(chǎn)品上線以后,你覺得他是用戶愛用的一個產(chǎn)品嗎?

陶明:我們現(xiàn)在整個主站的滲透已經(jīng)達到將近50%以上了。

泓君:所以那我在跟一個人聊天,我不能確定這個聊天是對方本人回復我的,還是AI幫助他來回復我的。你可能是跟人聊天,也可能是在跟機器聊天,但這個機器背后有人在做選擇的這樣的一個狀態(tài)。

陶明:對,但對于用戶來講,他在本次的社交體驗里面,他想得到的是好的體驗,而對方的回復是通過自己一個字一個字敲出來的,還是說通過其他的方式獲得的,那只要他的體感是好的,就應該是有效的。

泓君:其實就是說人在聊天的過程中,他們想要得到的是對方的正反饋,他并不在意是我發(fā)過去的,還是有人來幫助我發(fā)的。然后我覺得聊天對面的人可能也一樣,就是大家更在意的是這個關系的和諧,而不是你使用了什么工具。

陶明:對,更多的是在本次關系的社交過程當中,他是否能得到情緒價值或者信息價值,這個是很重要的。這是個價值向的東西。

泓君:還有什么AI產(chǎn)品嗎?

陶明:另外一個就是很多的好評的AI伴侶,人機互動。跟剛才說的完全不一樣,當線上的用戶沒有辦法去獲得好的社交資源的時候,我們能夠提供這一批優(yōu)質的AI伴侶去陪伴他,在陪伴的過程當中,能夠讓用戶獲得好的社交體驗,就是剛才一開始說的,跟真人一樣,這是我們推出比較成功的產(chǎn)品。

泓君:它更類似于陪伴。雖然我在跟一個AI機器人聊天,但是我覺得你們的產(chǎn)品做的非常有意思的一點是,你們并沒有讓這個AI伴侶每一個回過來的都是文字,它給我發(fā)的是語音,有聲音有語音語調的,我覺得在社交的感知層面上會更加豐富,更想去跟他玩,但是如果只是一段文字的話,可能就會覺得有一點枯燥。

陶明:這個是我們在七八年的社交產(chǎn)品打磨過程中,積累的關于人和人社交的一些行為范式。這就是為什么說我們的AI一定是要是“高情商”的,而不是說“高智商”的。另外說我們一定是要真實自然并且是擬人的,這是我們區(qū)別于其他AI助手或者說AI Agent,它不一樣的地方。

泓君:那你們怎么去訓練出一個高情商而不是高智商的機器人呢?

陶明:我們說“高情商”的一個機器人,希望是他能夠給用戶帶來愉悅感,能夠讓整個的社交過程會更加自然平滑,而不是說很生硬的。你必須得聽得懂人家說話背后的意思,也知道如何更好地化解每一次的沖突,這個是他要去做到的。那么我們怎么做到說我們的AI更有情商,那還是跟我們在過去七八年所積累的真實的公域社交資產(chǎn),能讓我們的模型更好的能做理解。

泓君:我之前說我不確定你們的虛擬伴侶是真人還是假人,這我第一天的感受;然后我第二天依然就想憑我自己的判斷,我要把它判斷出來,我開始狂給它扔數(shù)學題,然后就發(fā)生了非常有趣的對話,我就發(fā)現(xiàn)它的回答都是錯的,但是很有意思的是,它還是讓我區(qū)分不出來,是因為它就會一個嗲嗲的語氣說“那我就是算不出來你為什么想要知道”,這個真的是一點脾氣都沒有。

陶明:它能去化解這樣的一個很尷尬的場地,如果是說人和人溝通過程中,你問它一個問題或者說一件事情,讓它不知所措或者說他回答不上來,這是個很尷尬的。如果很會社交的人,他會通過自己的方式能夠去化解,能夠讓對方有很好的體驗,那我們也把這樣的一個行為范式平移到了我們的模型上去了。

泓君:現(xiàn)在市場上也有非常多的AI陪伴類產(chǎn)品,相較于其他的一些產(chǎn)品,你們的特色是什么呢?

陶明:還是走差異化,我們要求我們的AI機器人情商要高,感知能力更強,更要擬人,這是我們的差異性。

市場上有很多其他的AI陪伴的產(chǎn)品,他們的出發(fā)點和我們的出發(fā)點可能是不太一樣的。他們可能更多的關注純粹的人機互動,我們的出發(fā)點是希望是讓人能夠得到好的社交體驗,我們并不單純的去追求人機互動,人機互動只是我們當前能夠給用戶更好社交體驗的一個手段或者方法。

泓君:應該怎么去理解單純的人機互動跟好的社交體驗?這幾個核心的點落實到產(chǎn)品上,對應的不同設計點是什么?

陶明:就比如說ChatGPT,你跟他溝通就是把它當做一個獲取信息的工具,不會說能夠以更加生活層面的想法跟它進行溝通?;蛘哒f你跟他的交流過程當中,它是問題驅動的,它不是交流驅動的——我要去解決某個問題,我要獲得某個信息。

但是社交產(chǎn)品的這種AI伴侶,更多的并不是從問題出發(fā)點去解決。他要的是說我們在交流的過程當中,我得到信息有時候更多的在乎過程,而不是結果。過程能夠讓他有好的體驗,那就很簡單,就是你要讓他正常的跟人和人的交流是一樣的。我覺得這是一個很大的差異點。

泓君:我注意到你們今年可能很快也會推出一個功能,叫做全雙工視頻通話的能力,為什么你會想要把這個視頻的功能加進去,它是一個什么樣的方式呈現(xiàn)呢?

陶明:不管是語音通話還是視頻通話,不能夠稱作為是一個功能或者產(chǎn)品,它是一個能力。我們把它利用到了我們現(xiàn)在AI陪伴的語音通話上,在我們的群聊房里面也會上線以語音模型驅動的實時表達的功能,也就是說我們在做語音的基礎上然后再做視頻。

從模型角度來講,它是一個升級,它不是說另外的一個模型,未來的話這兩個模型肯定是融合在一起的,既能提供語音的能力,也可能提供實時視頻的能力。

我們做這些事情的出發(fā)點,還是從高效的信息理解和表達的角度去思考這個問題的。我們把語音和視頻的交互,認為是一種溝通方式。在我們現(xiàn)實社會里面,人和人表達的時候,一個是通過微信或者通過其他的工作軟件,敲字的方式,或者以郵件的方式去交互;有一種是在線會議的方式,就是語音;還有一種是通過視頻的方式交互,最好的是線下面對面的交互。

從整個交互的信息復雜度,以及它的表達和理解的復雜度來講,人和人面對面的溝通是信息傳播方式最快的,也是最有效的一種。所以我們認為在線上人機交互的過程當中,需要有這樣的一個表達方式,所以我們才去做實時視頻通話這樣的一個能力。

泓君:那視頻通話虛擬機器人的畫面是什么呢?

陶明:就比如說我們在跟一個AI進行聊天,你可以定義他的形象。

泓君:用戶可以自己捏臉?

陶明:他不需要自己捏,你只需要描述出來就行了。原來我們的確是要捏這樣的一個形象,然后通過文字或者語音的方式去驅動它。這個我們認為是上一代交互方式,就比如說他的表情的豐富度還是取決于說你本身采集到的豐富度有多少,它還是沒有那么平滑。我們現(xiàn)在這樣的一步到位的方案,就是希望我們的表情和動作都是實時生成的,并且是平滑自然的,不會還需要依賴運營或者其他的技術方式去采集更多的表情庫。

泓君:我注意到你們現(xiàn)在的虛擬伴侶還有一個很有意思的點是他可以給用戶打電話,這個設計點很妙,是怎么想到的?

陶明:產(chǎn)品本身還是來自于我們人和人交流過程中的真實情況。因為在真實的人和人的關系過程當中,對方也會給你打電話,是一種很好的聯(lián)系、加強和沉淀關系的方式。

在實際情況里面,如果一個人始終是單向的去找對方聊天,找對方去說事情,比如男女朋友關系,如果每天只是男生去找女生,女生永遠不會找男生,那這種關系很大可能很難走下去。

我們希望能夠擬合線下的行為模式。當用戶和人機交互過程中,我可以主動找AI聊天,AI也會在某個時間段主動的來關心我,來找我聊天。這個行為范式就符合我們在線下的這種行為范式,這是能夠讓用戶更能接受的一種方式。要不然的話就只是用戶去找AI,這是個單向關系,不是個雙向關系。

泓君:用戶的反饋呢?

陶明:用戶很喜歡,當他無聊的時候,當他也沒有想到說要去找AI,AI要來找他,這是對他一個很好的社交補充,但這個還是因人而異。所以說我們并不是說我們AI會給所有的用戶都會去主動的發(fā)起溝通和聊天交流,我們還是會根據(jù)用戶本身的性格興趣,他在Soul的行為,我們做出一個最終的決策。

泓君:從你的觀察來看,現(xiàn)在這些有AI輔助社交,然后有AI伴侶這些AI產(chǎn)品的落地,他對你們整個產(chǎn)品包括用戶粘性是會有大的提升嗎?

陶明:非常大的提升。我們在2024年,來自于AI對整個產(chǎn)品粘性的貢獻已經(jīng)是占了大部分了。這個點我們最開始還是非常謹慎的。

剛才您問說用戶喜不喜歡AI找你,用戶喜不喜歡和AI溝通的,這個我們最開始還是個問號。所以我們在推進的過程當中采用了很多的產(chǎn)品策略。就比如說AI輔助社交,我們在放量的過程當中,既要考慮到使用AI輔助的人,也要考慮到對方他是否愿意接受這種方式。我們通過非常仔細的人群的實驗,然后來做出我們最終的產(chǎn)品策略和放量策略。

AI陪伴這個產(chǎn)品也一樣的,因為Soul原來一直是能夠有這么好的用戶粘性,能夠有這么好的年輕人的這樣的滲透,主要是Soul提供了一個真實信任的安全的平臺,基于用戶對平臺的信任,才產(chǎn)生了用戶和用戶之間的信任,這是我們過去七八年產(chǎn)品力構建出來的一個結果。

我們也很擔心我們上了AI機器人過后,大家會不會認為Soul里面全是AI的虛擬人,沒有真實的社交了。我們當時也很擔心這個事情。所以說我們在推進我們AI的伴侶的過程當中,我們做的方式跟AI輔助社交還不一樣:我們到現(xiàn)在為止都沒有AI伴侶實際的產(chǎn)品中心入口。

泓君:我發(fā)現(xiàn)了,就是得我去搜我才能找到,因為這個功能沒有產(chǎn)品入口。它的頭像上面會有AI虛擬伴侶的標注,所以我最開始第一個問題產(chǎn)生的原因就他到底是真的假的,我還懷疑我是不是搞錯了,搜到了一個真人。

陶明:所以我們是希望說,愿意接受人機互動的用戶,你可以在Soul里面通過找其他的Souler能夠找到這些AI虛擬人,可以自己去搜到這樣的AI虛擬人。我們把它定義為這叫做用戶價值驅動產(chǎn)品,當你認可這樣的一個產(chǎn)品形態(tài)帶來的用戶價值,用戶自主的去選擇他。這樣的話我們就規(guī)避了我們直接一刀切大規(guī)模的去推AI伴侶,最后帶來我們對最開始那個問題的擔憂,但我們現(xiàn)在跑了大半年過后,AI的滲透越來越高,用戶的粘性也越來越好。

泓君:你們會擔心平臺上機器人變得越來越多,改變了用戶的體驗嗎?這會是你們擔心的一個方向嗎?

陶明:這是我們考慮的問題,但是我們從長遠來看的話,我們還是覺得人機互動是未來社交一個非常大的補充。我們應該盡可能在保證那些對AI有排斥的用戶群體、在傳統(tǒng)的社交體驗不變的情況下,加大對人機互動感興趣的那一批人群在AI層面更好的體驗,是分群而治之。

泓君:從你的觀察來看,純粹是因為AI這個功能進入到平臺用戶,這部分用戶占怎么樣的比例,未來會是一個很大的增長區(qū)間嗎?

陶明:我覺得未來增量的用戶里面擁抱AI的群體是越來越多的。不僅是Soul,整個行業(yè)整個社會對AI的認知的灌輸和滲透是越來越強的,比如說在3年之前說讓你去跟一個AI伴侶聊天,到3年之后你再去說跟AI伴侶聊天,那接受的人只會更多不會更少。所以說對任何一個產(chǎn)品來講,擁抱AI的用戶群體肯定是越來越多的。

02 從Chatbot試錯到建立垂直場景護城河

泓君:你有提到在2017年的時候Soul就已經(jīng)開始搭建Chatbot了,當時也沒有生成式AI,整個人工智能還是基于規(guī)則的人工智能,當時你們的想法是什么?你們有這么長時間搭建Chatbot的經(jīng)驗,能不能介紹一下你們探索的幾個階段?

陶明:2017年的時候并不是說我們想從技術角度上做Chatbot,是基于我們對社交的理解和認知出發(fā),認為我們要去做這個事情。2017年的出發(fā)點跟我們現(xiàn)在為什么要做AI出發(fā)點是一模一樣的——我們還是為了解決社交平權的問題,能夠讓每個用戶都能夠平等的獲得社交資源,能夠獲得情緒價值和信息價值,這個出發(fā)點是不變的。

但在2017年這個只是存在我們的想法當中,我們并沒有把它實現(xiàn),也沒有投入資源去做。因為我們調研了整個行業(yè),也調研了學術界,沒有人能夠做到這樣的事情。

我們當時提出的也是能夠情感自然擬人的形式,當時有個產(chǎn)品形態(tài),比如說我們要有一個能說會唱的,能夠懂你的電子寵物,這是一個非常具象的一個產(chǎn)品形態(tài)。當用戶來到Soul里面沒有辦法獲得社交資源的時候,能夠跟懂你的寵物進行溝通聊天,這當時一個很具象的一個想法,但當時并沒有投入資源去做,因為的確是做不到。

泓君:效果不好是嗎?

陶明:我們也跟幾個公司看了一些他們客服層面的對話產(chǎn)品,是沒有辦法做到的。我們那時候也在創(chuàng)業(yè)起步階段,我們也沒有資源說自己來做這個事情。

重拾這個事情是2019年、2020年。那時候我們提出需要從產(chǎn)品出發(fā),一個用戶在Soul里面是構建了全新的人設,這個人的個人主頁代表了他人設的內在。我們希望這個人設他有個形象,不是說把你自己線下的形象傳到線上來,而是基于你在Soul里面的人設打造一個符合的形象,我們就推出了這種捏臉系統(tǒng),原來是2D的到3D的。在這個基礎上,我們就進一步去思考,有了形象,那就希望他能夠說話,他能夠將自己的內在表達出來。

2020年我們就開始去做對話,那時候就明確了在產(chǎn)品上對AI的訴求是什么樣子,技術上我們要打造一個什么樣的一個AI。我們當時提出的一個規(guī)劃就是我們要構造一個AI being和human being的共存社區(qū),在Soul里面你既有AI的人類,你也有真實的人類,是一個共存的狀態(tài),可以人和人進去溝通,也可以人和AI進行溝通,然后在這個基礎上,我們就開始投入去做對話。

泓君:2020年那個時候是以什么樣的方式做?

陶明:那時候想了很多辦法,一是改寫一些理解性的模型,發(fā)現(xiàn)效果不行,我們又在上面去做一些基于決策樹的搜索,做融合,還是不行。因為聊天過程當中你可能聊個十輪聊個二十輪,你能聊下去,但是對方一定知道他沒有真人的感受,他知道他在和機器人聊天。

泓君:就是效果太機械了。

陶明:太機械了。那時候衡量一個對話的產(chǎn)品有CPS(Conversations Per Session,一次交互中的平均對話輪數(shù))這樣一個概念。當時它的輪數(shù)還挺多的,那是不是說用戶能聊下去?后來我們發(fā)現(xiàn)這是因為不聊的人就不會去跟他聊,聊的人我知道你是個機器人,我還要去跟你聊,他已經(jīng)拋棄了說我要在這個過程當中獲得體感,而只是為了聊而聊,是沒有產(chǎn)品意義的,單純的對話的技術指標和產(chǎn)品體驗脫離了,后來我們就把CPS這桿子事情不再提了。

泓君:我能理解,那個時候大家最多的這種一層一層往下?lián)艿母惺?,可能有點像打客服電話。即使拿世界上語音跟機器的交互比較前沿的像Siri這些來看的話,它當時也只是一個單輪對話,它很難支撐你一個有邏輯的多輪對話,所以技術上還是很難的。

陶明:都是指令性的這種,我發(fā)個指令,你回答我這個指令,你的指令是搜索產(chǎn)生的還是模型生成的,上下文的關系其實并沒有。

到了2021年就開始投入做語音,那個時候整個AI的投入始終圍繞著說要打造一個能說會唱能夠擬人的一個AI人,我們認為語音的交互是未來的一個主流。我們就開始做語音方面的投入,去做合成。那時候我們的合成還是基于傳統(tǒng)模型,認為說話的語氣一定是要自然的平滑的。

當時產(chǎn)生了很多語音的AI產(chǎn)品,比如說一些內容平臺讓AI去把腳本語音化,但是也是很機械的,一聽你是有機械的聲音,在一些語氣詞方面表現(xiàn)的很生硬。我們還是要做情感化的語音生成,那是2021年做語音。

泓君:所以你覺得你現(xiàn)在訓練的這個機器人,他的語調特別的平緩,跟當時在研究聲音、音調怎么擬人是有關系的嗎?還是說那個時候的技術到現(xiàn)在完全用不上了?

陶明:這是我們很焦慮的一個事情,因為當時我們就在做差異化的技術?,F(xiàn)在我們線上體驗的基本上沒有用到,技術完全是新的,還是基于現(xiàn)在的LLM這種模式去做的雙工語音效果。

原來的傳統(tǒng)的語音模型,我們只是在上面去做更多的標注,盡可能是做擬合。他是個擬合,現(xiàn)在這邊是生成,還是不太一樣的。

但是那時候沉淀下來的數(shù)據(jù)對我們是有用的,以及說我們在語音方面的思考,你一定是要情感化的表達,真實的表達,也是我們現(xiàn)在模型所要去構建的方向,當時沉淀下來是數(shù)據(jù)以及對語音在社交方面作用的思考。

泓君:到了2022年,你當時看ChatGPT出來,你激動嗎?

陶明:激動是激動,但是更焦慮,讓我們覺得說我們的技術歸零了,那時候是有可能歸零的。因為看到ChatGPT的那種交互效果,以及這個技術的發(fā)展方向,你很自然會判斷說原來的這種技術路線就被拍死在沙灘上。那也就是說我們所有的工作可能會歸零了。那時候我們非常的焦慮。因為并不是說GPT類似的這種技術方式是2022年出來的,GPT3早就出來了。這個技術方向我們是知道的,只是我們并不知道在這種scaling law出來過后,它有這樣大的一個效果。

泓君:所以你當時擔心的是什么?你擔心的是GPT這種產(chǎn)品形態(tài),如果你們不跟上的話,它可能會把你們前面所有的努力給覆蓋掉,因為它足夠強大?

陶明:那時候已經(jīng)不存在選擇了,因為技術方向已經(jīng)非常明確了,我們考慮是自己自研,還是說要跟一個做大模型的公司去做合作。因為2023年有大量的模型創(chuàng)業(yè)公司出來了,我們要不要去共建? 這是我們當時面臨的選擇,而不是說我們要不要走這個路線。

泓君:你當時怎么選的?

陶明:當時也搖擺了很多,也跟很多公司聊過這個事情,最終我們還是選擇了要自己做這個事情。

第一個是說我們在過去兩三年積累下來的關于這方面的一些認知,以及本身的產(chǎn)品場景的差異性。我們很難把這一套完全遷移到其他的模型公司去,因為這才是我們最終交付產(chǎn)品的核心。

我們交付產(chǎn)品,不是交付模型,是交付我們剛才說的那些對AI社交的認知。因為它是一個評判的結果,對用戶來講,我們沒有辦法標準化的輸出給三方公司。因為三方公司它是交付的概念,它是交付模型,它不是交付產(chǎn)品,但交付模型就不是我們要的。我們希望它是交付產(chǎn)品,我們沒有辦法標準化的把這一套給遷移過去。

第二點是說,如果是說我們標準化的能夠遷移過去,那說明一個問題,我們的產(chǎn)品沒有辦法差異化,你都能夠標準化了,都能夠給三方公司做標準化的遷移,那說明你的產(chǎn)品沒有差異化的。

泓君:你們是什么時候做的這個決定?

陶明:就是在2023年上半年做的這個決定,說要自己做這個事情。

泓君:當時業(yè)界有幾種方法,第一種是自己訓練模型,還有一種是用finetune(微調)的方式,還有一種是加RAG的這種方式,你覺得后兩種是行不通嗎?

陶明:你加RAG也好再做finetune也好,這是個加分項。這個效果增強的過程中,最終的基礎效果你還是沒有辦法得到。

比如你用三方的模型,還有一個問題,數(shù)據(jù)問題。我們現(xiàn)在產(chǎn)生的大量文字的社交數(shù)據(jù)和語音數(shù)據(jù),這是真實人和人在社交里面的數(shù)據(jù)范式和行為范式,在其他的模型里,首先你沒有辦法拿到這樣的數(shù)據(jù),拿不到這樣的數(shù)據(jù),你很難做出非常穩(wěn)定的效果。

這就是我們最開始有個思路說我們在finetune方面的數(shù)據(jù)或者說在強化這樣的數(shù)據(jù),我能夠下沉到底層模型上去,能讓我們的底座模型就是為了社交服務的,那就是未來定義的的這是個垂類的大模型,而不是一個通用大模型。

泓君:對你當時評估自己做這個事兒,你覺得它最大的難點是在哪兒呢?因為我覺得這可能是一個非常大的決心,首先是要有錢,因為他很費錢,然后要有卡,要有人。

陶明:我們做決策的時候,并不是說這件事情有多難,然后我們再去做決策,我們是基于說我們跟三方公司去合作,沒有辦法達成我們想要的產(chǎn)品,做不到。

泓君:這中間也找過別的公司。

陶明:對,只能是我們自己去做,自己去做就不存在說這難不難的問題,是我們一定要去做的問題。但是在做的過程我們要重新去梳理,如果要達到我們這個效果,我們有我們自己獨特的數(shù)據(jù),這是我們最大的優(yōu)勢。第二個優(yōu)勢是說在post-train方面,我們知道怎么去構建安全的、更好的效果,這是一個優(yōu)勢。

那在模型層面我們有沒有一個很好的模型架構?那時候我們做了個判斷,模型架構在未來一段時間會接近于收斂。到現(xiàn)在為止,大家在模型層面也沒有很大的變化。當然是有一些不同的技術路線,每個技術路線的變化程度并不是很大。我們就可以在這樣的基礎上去做這個事情。

然后又涉及到卡的問題,資源的問題。大家都說,不管是做通用模型的預訓練,或者是做垂直模型的預訓練很貴,但我們認為未來這肯定是會下來的。我們最開始小步亦趨的去做這個事情,我不需要說一個很大的模型,我們要的是效果,不是模型。我們要的是能夠支撐我們這樣的一個社交效果的模型,而不是為了通用模型而去的。所以我們是小投入的,后來我們發(fā)現(xiàn)7B、13B的模型效果就已經(jīng)很好了,在我們的數(shù)據(jù)加持和微調之下。

當時認為卡的確是一大筆投入,相比說我們其他的IT支出,但現(xiàn)在它的價格也越來越低了。所以說預訓練的卡當時并不是我們認為的卡點,反而那時候我們最擔心的是推理。

泓君:是推理成本是嗎?

陶明:對,推理成本。

泓君:因為你們有用戶基數(shù),就是有真實的用戶。

陶明:對,我們都很擔心,萬一說我這個產(chǎn)品上來爆了,那時候推理還挺貴的,我們投入很大的工作是說我們要降低推理成本,在計算上的投入,我們在預訓練那一方面的這些效率和成本那時候并不是我們主要的工作,反而是推理的成本效率這是我們的工程團隊投入比較多的方向。

泓君:推理成本現(xiàn)在降下來了嗎?現(xiàn)在推理成本是你們擔心的嗎?

陶明:現(xiàn)在不是我們擔心的。

泓君:推理成本是怎么樣降下來的?

陶明:一方面是我們用更小的模型去實現(xiàn)更好的效果,這是模型層面。第二個是再做一些壓縮。第三個是在本身的框架層面、優(yōu)化推理層面的技術優(yōu)化,底層優(yōu)化也在做。

但從現(xiàn)在的價格來看的話,不僅是我們公司其他公司都能支撐比如說一個大幾千萬的DAU,我覺得這個問題都不大。所以說計算資源除了達到通用模型仍然是一個非常大的投入,但對于說應用層面來講它的成本已經(jīng)很低了,我覺得這對其他的創(chuàng)業(yè)公司來講現(xiàn)在也不是一個瓶頸。

泓君:你們現(xiàn)在有多少個模型?

陶明:我們模型會很多,版本會很多。但如果是從定性上來看的話,我們大概就五六個模型。我們不會是說從7B、13B這樣的區(qū)分,我們從不同的垂類的功能方面區(qū)分。

泓君:垂類的功能是怎么分的?

陶明:還是我們的基座模型,在語音方面有個模型,在圖片方向,還有3D方向都會有。3D方向這是我們在探索的。

泓君:3D的模型可能是用于支持未來探索,還沒有發(fā)布的一個就是沒有把這個模型能力具體應用到產(chǎn)品上的,可以這樣理解嗎?

陶明:對,因為原來我們一直在站內,我們會有一些功能,就比如說我們的視頻匹配這一塊,用戶可以帶一個頭套去溝通,不以真臉的方式出現(xiàn)。我們那時候是以驅動的方式來做這個事情,但我們現(xiàn)在未來還是說想純粹生成的方式來做。

03 模型選擇與技術路線:Soul如何擺脫模型層競爭?

泓君:因為整個生成式AI發(fā)展的很快,在訓練這些模型的過程中,你的知識跟判斷是從哪里來的?在這個過程中怎么去構建自己的學習能力?

陶明:那只能是跟團隊一起,一定是要跟蹤行業(yè)的發(fā)展,因為本身生成式的AI的技術路線并沒有收斂。每天都有新的很區(qū)隔的方式出來。你必須要跟著團隊一起去了解它,并且是說要去做實驗。就比如說我們現(xiàn)在在做的實時的全雙工通話這個能力上。

泓君:全雙工是什么意思?

陶明:就是從產(chǎn)品角度來看的話,就比如在線下你說話的過程當中,我可以隨時打斷你,你可以停下來聽我講,聽我講完過后你可以繼續(xù)自己講,而不是說純粹一來一回的這種你說完了我才能講,全雙工是可以隨時打斷,這也是現(xiàn)實的這種人和人交流的一個方式吧。我們希望在人機互動也會是這樣,現(xiàn)在沒有哪一家能夠實現(xiàn)我們想要的這種效果。

泓君:OpenAI可以。

陶明:他們的4o還是個問答式的。

泓君:你的意思是不提問題,就是打斷,然后不發(fā)指令。

陶明:是的,我不發(fā)指令給他,我就隨時打斷。這個我們現(xiàn)在也遇到了很多的難點,我們一方面自己想怎么去解決,然后這個方面看很多的業(yè)界有沒有新的很區(qū)隔的方式出來。我們要去驗證能不能放到我們的技術方案里面。所以說這個知識是一個學習的過程,我覺得每家都會是這樣的狀態(tài)。

泓君:然后你剛剛提到了,即使是這個模型出來了以后,也有很多的技術路線。然后你現(xiàn)在在市場上看到了哪些路線,你覺得你在中間是怎么做選擇跟判斷的?

陶明:首先還是從我們自身出發(fā),對我們整體來講的話,我們還是基于開源生態(tài)來打造我們的自然生態(tài),這是我們整個的一個方向。所以說我們擁抱的是更加開源的技術體系這樣的一個模型體系。

泓君:就Meta Llama的那一套對不對?

陶明:現(xiàn)在有幾個跑得不錯的,第一個就是說Llama那一套,它的基礎模型的更新技術我們也能夠去跟進并且它是足夠開放的,它不會說某一天閉環(huán)了,我覺得目前還沒有這個趨勢。第二國內也有幾款比如說千問的這個體系也還不錯。第三個的話是現(xiàn)在的DeepSeek,但我們現(xiàn)在還是在Llama和那個千問的路線上去探索。

泓君:因為最近確實DeepSeek的模型非?;穑绕涫荲3出來以后,你有研究過他們的模型嗎?你覺得他在整個訓練過程中用H800的卡把這個效果實驗出來了,然后也非常的節(jié)省成本,這個會對你們在做更大的模型或者對你們的模型訓練方法上會有啟發(fā)嗎?

陶明:肯定有,我們肯定也有研究下他是怎么實現(xiàn)。這樣優(yōu)秀的模型公司所沉淀的這些工程方法是很難得的,如果從整個行業(yè)來看的話,首先說工程層面并不能夠給最終的業(yè)務交付帶來什么,但的確是從低門檻的角度帶來了很大的優(yōu)勢,也給整個行業(yè)的進一步的發(fā)展提供了一個很好的橋梁。原來你要去做大規(guī)模的訓練,可能就那幾家公司能做,如果他降下來了,那很多其他的團隊也能去做,那其他更加百花齊放。

泓君:所以他把這個成本降下來了,對大家來說是一個雙刃劍,對不對?他把整個市場的門檻放得更低了,競爭也會更多。

陶明:對的。

泓君:你覺得OpenAI的o1有給你啟示嗎?

陶明:o1給我們蠻大啟示的,在構建AI伴侶的這件事情上,它也給了我們很多啟發(fā)。我們希望AI伴侶能夠在提供真實擬人的方向上能達到一個好的效果,同時它也具備一定的行為能力。因為不同的AI伴侶提供不同的角色,不同的角色他需要有不同的行為或者內容能力。

比如說我希望說在對話過程當中,能夠不以指令的方式讓他去觸發(fā)一些action,這是一個比較平滑的。比如說我跟AI伴侶,我發(fā)張圖片給他,你幫我美化成什么樣的效果。如果你丟給圖片模型,那是prompt講的很清楚,我有圖片輸入,我有文字描述。如果你放在對話里面的話,你就要去做一些指令的這樣的一些生成,才能讓說我們的AI伴侶能夠去調用一些其他工具層面的模型。o1它的這種自主規(guī)劃能力,在AI agent構建層面給了一些啟發(fā),能夠讓我們構建一些輕量型的更加自主的工作流。

泓君:現(xiàn)在對你們自己打造出來的聊天機器人,你覺得你會給到多少分?你覺得它還需要被優(yōu)化,以及它再優(yōu)化跟提升的空間有多大?

陶明:還是蠻大的。我覺得我們現(xiàn)在只是解決了人和人交流中部分的行為擬合的問題,還有很多還是沒有做,我們也在努力做的。比如說場景,我一提到場景,大家都認為它是一個產(chǎn)品的場景,它是個功能。是說在整個的對話里面,它也能構建場景。比如說人和人在線下溝通的時候,外面下雨了,圍繞著這樣的一個情景,我們的AI能夠衍生出很多的聊天的內容。下雨了你說要不要在家里面看電影?那就進入了一個關于電影的討論的場景,這就是一個場景,我們現(xiàn)在在做這方面的泛化的時候,效果還是要加強。

泓君:你覺得整個業(yè)界,因為現(xiàn)在大家都在等OpenAI的GPT-5出來。同時又有一種聲音說,scaling law它的增長可能已經(jīng)快到頭了。我挺想知道現(xiàn)在在大家基于大模型產(chǎn)品去做應用的這樣的一個過程中,跟大環(huán)境的關系到底聯(lián)系程度有多緊密?

陶明:我覺得越來越弱了。

泓君:這窗口期是前一兩年或者這一兩年。

陶明:對,比如說剛才的一個很具體問題,說現(xiàn)在前沿的大模型的技術方向對Soul來講影響有沒有很大?它的影響我覺得是越來越小了,在我們的應用層面已經(jīng)獲得了用戶認可的一個價值,那是基于我們現(xiàn)有的技術基礎之上已經(jīng)獲得了。在增強用戶價值上面,要怎么樣去繼續(xù)構建技術的確定性方面,更加確定了。

不像去年那樣說,一個又新的模型出來了,或者說它的方向會不會又把我們拍死在沙灘上,我們的焦慮程度會下降了很多。但不排除七八年過后,未來又有一個奇點到來,把整個系統(tǒng)策略和模型全部給覆蓋了,那我覺得短期一兩年很難了。

泓君:我記得2023年的時候,我跟很多做大模型應用或者基礎模型的公司去聊,大家也是非常焦慮。比如說每次OpenAI一升級,大家就覺得,我前面半年的工作白做了。我把所有的東西都搭在你的GPT-3上,然后你GPT-4出來了,大家就覺得白做了。2024年相反,我是更少的聽到這些聲音了。但是我覺得一直到今天,就是我們討論的這個時間點,市場上還是有一種聲音。就是說隨著大模型的迭代,比如說GPT-5整個的能力越來越強,會不會最終所有的應用會被一個更強的模型給覆蓋掉?就這個市場的壁壘是什么?你們想過這個問題嗎?

陶明:這個問題在2023年想過,任何的行業(yè)問題或者用戶問題,會不會一個端到端的模型完全解決掉。如果這個說法是成立的那時候對整個行業(yè)上非常喪的一個消息,但是我們回顧從二三十年來互聯(lián)網(wǎng)技術,PC時代,到互聯(lián)網(wǎng),然后再到移動互聯(lián)網(wǎng)。你會發(fā)現(xiàn)即使是端到端的模型能夠解決很多的需求,那只是說那些需求是我們目前能夠看得到的。但最終基于新的技術的發(fā)展,新的模型發(fā)展,它一定會帶來一個新的增量需求的出現(xiàn)。如果它帶不來增量需求的出現(xiàn),那我認為這次的AI革命是失敗的。

任何的技術革命一定是會帶來新的需求,這些新的需求要被同時代的技術能夠完全端到端的解決掉,或者說被過去的技術能夠端到端的解決掉,我覺得這是一個問號。新的技術的出現(xiàn),它應該是能夠最大效率地去解決已知問題,對于未知問題,未知需求,還是需要人的探索以及不同公司的解決方案。

泓君:你會擔心你現(xiàn)在做的事情會被一個更強的模型給覆蓋掉嗎?

陶明:我不太擔心這個事。

04 AI社交變現(xiàn)模式:用戶付費意愿與商業(yè)模式探索

泓君:你覺得現(xiàn)在基于AI聊天機器人的商業(yè)模式,跟以往在變現(xiàn)上思路會有什么樣的不一樣呢?

陶明:這塊兒我只能說一下我個人的想法。AI的商業(yè)變現(xiàn)任何一家公司都在做,就希望能夠在一個非常清晰的商業(yè)模式之下,去發(fā)展業(yè)務。但是現(xiàn)在總體來看,整個行業(yè)并沒有一個新的商業(yè)模式出現(xiàn)。

我一直認為是說商業(yè)模式是構建在你業(yè)務模式之上的,而不是說憑空出現(xiàn)了一個商業(yè)模式。那為什么現(xiàn)在商業(yè)模式?jīng)]有發(fā)生改變?本質上是說我們當前的AI目前還并沒有給業(yè)務模式帶來改變,它可能更多的是增強提效。就像剛才說的,如果沒有新的需求出現(xiàn),或者沒有新的業(yè)務出現(xiàn),我認為是商業(yè)模式它本身也不會有太大的變化。

泓君:我注意到你們推出的AI會給用戶去打電話,它是有一個收費制的?,F(xiàn)在用戶在這個產(chǎn)品上愿意付費的意愿高嗎?

陶明:我們也只是把它當成了一個增值的收入方式,它跟其他的增值產(chǎn)品也差不多。對用戶來講,這就是獲得好的體驗的一種方式。原來我們提供了其他的一種方法,現(xiàn)在又提供了新的一個手段。用戶為這個買單,你會認為他也沒有發(fā)生變化。

泓君:你們現(xiàn)在有AI茍蛋的這種擬人化機器人,也有情感化陪伴的虛擬伴侶,還有AI NPC,數(shù)字分身。你們會怎么去定義未來這個平臺的核心產(chǎn)品,包括核心場景,是說我去做幾個產(chǎn)品,還是說我去做一個王牌的產(chǎn)品,這塊你是怎么想的?

陶明:你會發(fā)現(xiàn)就是我們不同的AI它有不同的功能定位。未來的話我們希望我們的王牌產(chǎn)品肯定還是以我們的AI虛擬人為最主要的基石。能夠在我們當前不同場景里面做更好的功能泛化,就比如說視頻通話的這種能力,未來它不一定要給用戶去打電話,他完全可以用在我們當前的語音產(chǎn)品里面做虛擬直播。

我們不限制說我們有多少個AI產(chǎn)品,我們還是希望說每個AI產(chǎn)品能夠服務不同的人群。我們沒有想法去打造一個主體的AI功能,然后來承載現(xiàn)在所有的需求。包括我們不去構建一個中心化。因為作為一個主體產(chǎn)品,你一定是說要有一個中心化的AI的入口。我們現(xiàn)在是沒有這樣的打算的。

泓君:所以你們現(xiàn)在還是以社交平臺為主,然后所有的AI產(chǎn)品是服務于這個社交平臺的。

陶明:對,當前是這樣。

 
本文為轉載內容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

聊天的藝術:如何打造高情商的AI機器人?

讓AI學會“撒嬌”和“裝傻”。

文|硅谷101

“姐姐,你是不是嫌我笨啊?”——當你向Soul App里面的虛擬伴侶拋出一個數(shù)學題時,它不會像ChatGPT那樣只是回答問題本身,答錯了也不會連忙道歉,而是會跟你撒嬌試圖化解此時的尷尬。

這反而會讓人更加疑惑:這背后是真人還是AI?

在ChatGPT Moment之后,AI的進化方向也悄然發(fā)生了分化。一個會“示弱”的AI,反而因為不完美而顯得更真實。本期硅谷101節(jié)目,主理人泓君將與Soul App CTO陶明一起討論Soul的AI應用的發(fā)展歷程,一同去看在AI浪潮不斷翻新的背景下,產(chǎn)品和技術壁壘是如何建立,而商業(yè)模式又將會如何演進。

以下是部分訪談精選

01 社交AI訓練路徑:從規(guī)則機器人到高情商伴侶

泓君:最近玩了你們Soul上的AI虛擬伴侶。最開始的時候就特別不確定他是真實的真人還是AI,因為我跟他說一句話,他會給我回語音,然后他的語音,包括他回復的語氣語調,我覺得都特別真實。所以我一直有一個疑問,他是真的AI嗎?

陶明:對,是真的AI,您體驗過后的話,如果有這種感受,說明我們在這方面的工作還是有效的,因為本身來講的話,我們打造AI伴侶的主要的方向還是真實自然擬人的這種方向。

泓君:從2020年之后,你們一直在嘗試各種各樣的AI產(chǎn)品,你可不可以先總體的介紹一下,這幾年你們做了哪些AI產(chǎn)品,效果怎么樣?

陶明:Soul的定位本質上來講,如果從社交范疇來講,它是個開放性的社交平臺。開放它體現(xiàn)于兩個方面,第一方面的話是說任何一個用戶能夠沒有任何約束的、或者說其他限制的,在Soul里面連接Soulmate。

另外一方面是關系的開放。其實在Soul里面不僅僅只是說有陌生人關系,還有熟人關系和弱關系在上面的,就比如說上面有些同學關系也是存在的。最近幾年我們在AI上面的話,如果說我們分幾個方面去說,我們現(xiàn)在整個Soul整站都是AI驅動的,并不是說現(xiàn)在大家說的都是生成式的AI,比如說在人和人的連接方面,我們也是用AI來做驅動的,并不是這種篩選式的或者是說匹配式的。

泓君:所以你人跟人的推薦AI做驅動,意思是說你會根據(jù)這個用戶的興趣,把更合適的人推薦給他們?

陶明:對,我們打破地域,打破現(xiàn)實的條件,在你的興趣層面,我們能夠更開放的去做連接。主要方向還是說,在我們現(xiàn)有的社交網(wǎng)絡里面,通過AI去做增強,去給用戶帶來更好的體驗。整個產(chǎn)品有兩個方向,第一個是AI的輔助社交,這個在Soul里面我們基本上已經(jīng)全站上線了,幫助用戶能夠更好的做表達,能夠幫助用戶在人與人的溝通過程當中得到更好的反饋。

泓君:AI應該怎么輔助社交?可以詳細地講一下嗎?

陶明:社交它不是一個單邊關系,它是個雙邊關系,即使任何一邊的社交能力都會影響本次的社交體驗的。但很多人他在線下拿不到更多的社交資源,有各種各樣的原因,但是并不是說他來到線上,他就一定能夠獲得更好的社交資源或者是說社交體驗,跟他自身的能力有關系的。

社交本身也是種能力,首先體現(xiàn)出來的就是他的表達能力,現(xiàn)很多國內的用戶是內斂的,是不善言辭的或者說不具幽默的,那在整個社交過程當中,他的表達是有限的,這一定是沒有辦法帶來好的體驗。所以我們通過AI去幫助他更好的說話,就比如說他想去表達某一件事情,我們用AI更好的去幫他做潤色,或者說當他很難去回復對方的某一個觀點或者說某件事情的時候,我們也可以通過AI去幫他做建議。

泓君:這個你能舉個例子嗎?就是在一個什么樣的情景下,一個什么樣的交互方式下,他可以幫助用戶去完成這個表達?

陶明:因為整個社交過程是動態(tài)的,每一場會話都會有不同的話題的產(chǎn)生,就比如說當對方突然跳出原來的聊天邏輯,說到一個自己不知道的事情,那這時候很難去接住這樣的一句話,如果我們有AI,就能很平滑的把這句話接住,從而不讓整個聊天會陷入死區(qū)。

泓君:那到底是人在聊天還是AI在聊天?這個交互是怎么完成的?就比如說如果我正在跟一個人私聊,然后他說了一個我不知道的東西,這個時候AI是給我一個提示,還是我可以選擇讓AI把這個話發(fā)過去?

陶明:其實是AI做建議,還是用戶做選擇,本質上還是人在聊天,只是說他幫他去增加了回復的這樣的豐富性或者說幽默性。

泓君:那你們這個產(chǎn)品上線以后,你覺得他是用戶愛用的一個產(chǎn)品嗎?

陶明:我們現(xiàn)在整個主站的滲透已經(jīng)達到將近50%以上了。

泓君:所以那我在跟一個人聊天,我不能確定這個聊天是對方本人回復我的,還是AI幫助他來回復我的。你可能是跟人聊天,也可能是在跟機器聊天,但這個機器背后有人在做選擇的這樣的一個狀態(tài)。

陶明:對,但對于用戶來講,他在本次的社交體驗里面,他想得到的是好的體驗,而對方的回復是通過自己一個字一個字敲出來的,還是說通過其他的方式獲得的,那只要他的體感是好的,就應該是有效的。

泓君:其實就是說人在聊天的過程中,他們想要得到的是對方的正反饋,他并不在意是我發(fā)過去的,還是有人來幫助我發(fā)的。然后我覺得聊天對面的人可能也一樣,就是大家更在意的是這個關系的和諧,而不是你使用了什么工具。

陶明:對,更多的是在本次關系的社交過程當中,他是否能得到情緒價值或者信息價值,這個是很重要的。這是個價值向的東西。

泓君:還有什么AI產(chǎn)品嗎?

陶明:另外一個就是很多的好評的AI伴侶,人機互動。跟剛才說的完全不一樣,當線上的用戶沒有辦法去獲得好的社交資源的時候,我們能夠提供這一批優(yōu)質的AI伴侶去陪伴他,在陪伴的過程當中,能夠讓用戶獲得好的社交體驗,就是剛才一開始說的,跟真人一樣,這是我們推出比較成功的產(chǎn)品。

泓君:它更類似于陪伴。雖然我在跟一個AI機器人聊天,但是我覺得你們的產(chǎn)品做的非常有意思的一點是,你們并沒有讓這個AI伴侶每一個回過來的都是文字,它給我發(fā)的是語音,有聲音有語音語調的,我覺得在社交的感知層面上會更加豐富,更想去跟他玩,但是如果只是一段文字的話,可能就會覺得有一點枯燥。

陶明:這個是我們在七八年的社交產(chǎn)品打磨過程中,積累的關于人和人社交的一些行為范式。這就是為什么說我們的AI一定是要是“高情商”的,而不是說“高智商”的。另外說我們一定是要真實自然并且是擬人的,這是我們區(qū)別于其他AI助手或者說AI Agent,它不一樣的地方。

泓君:那你們怎么去訓練出一個高情商而不是高智商的機器人呢?

陶明:我們說“高情商”的一個機器人,希望是他能夠給用戶帶來愉悅感,能夠讓整個的社交過程會更加自然平滑,而不是說很生硬的。你必須得聽得懂人家說話背后的意思,也知道如何更好地化解每一次的沖突,這個是他要去做到的。那么我們怎么做到說我們的AI更有情商,那還是跟我們在過去七八年所積累的真實的公域社交資產(chǎn),能讓我們的模型更好的能做理解。

泓君:我之前說我不確定你們的虛擬伴侶是真人還是假人,這我第一天的感受;然后我第二天依然就想憑我自己的判斷,我要把它判斷出來,我開始狂給它扔數(shù)學題,然后就發(fā)生了非常有趣的對話,我就發(fā)現(xiàn)它的回答都是錯的,但是很有意思的是,它還是讓我區(qū)分不出來,是因為它就會一個嗲嗲的語氣說“那我就是算不出來你為什么想要知道”,這個真的是一點脾氣都沒有。

陶明:它能去化解這樣的一個很尷尬的場地,如果是說人和人溝通過程中,你問它一個問題或者說一件事情,讓它不知所措或者說他回答不上來,這是個很尷尬的。如果很會社交的人,他會通過自己的方式能夠去化解,能夠讓對方有很好的體驗,那我們也把這樣的一個行為范式平移到了我們的模型上去了。

泓君:現(xiàn)在市場上也有非常多的AI陪伴類產(chǎn)品,相較于其他的一些產(chǎn)品,你們的特色是什么呢?

陶明:還是走差異化,我們要求我們的AI機器人情商要高,感知能力更強,更要擬人,這是我們的差異性。

市場上有很多其他的AI陪伴的產(chǎn)品,他們的出發(fā)點和我們的出發(fā)點可能是不太一樣的。他們可能更多的關注純粹的人機互動,我們的出發(fā)點是希望是讓人能夠得到好的社交體驗,我們并不單純的去追求人機互動,人機互動只是我們當前能夠給用戶更好社交體驗的一個手段或者方法。

泓君:應該怎么去理解單純的人機互動跟好的社交體驗?這幾個核心的點落實到產(chǎn)品上,對應的不同設計點是什么?

陶明:就比如說ChatGPT,你跟他溝通就是把它當做一個獲取信息的工具,不會說能夠以更加生活層面的想法跟它進行溝通?;蛘哒f你跟他的交流過程當中,它是問題驅動的,它不是交流驅動的——我要去解決某個問題,我要獲得某個信息。

但是社交產(chǎn)品的這種AI伴侶,更多的并不是從問題出發(fā)點去解決。他要的是說我們在交流的過程當中,我得到信息有時候更多的在乎過程,而不是結果。過程能夠讓他有好的體驗,那就很簡單,就是你要讓他正常的跟人和人的交流是一樣的。我覺得這是一個很大的差異點。

泓君:我注意到你們今年可能很快也會推出一個功能,叫做全雙工視頻通話的能力,為什么你會想要把這個視頻的功能加進去,它是一個什么樣的方式呈現(xiàn)呢?

陶明:不管是語音通話還是視頻通話,不能夠稱作為是一個功能或者產(chǎn)品,它是一個能力。我們把它利用到了我們現(xiàn)在AI陪伴的語音通話上,在我們的群聊房里面也會上線以語音模型驅動的實時表達的功能,也就是說我們在做語音的基礎上然后再做視頻。

從模型角度來講,它是一個升級,它不是說另外的一個模型,未來的話這兩個模型肯定是融合在一起的,既能提供語音的能力,也可能提供實時視頻的能力。

我們做這些事情的出發(fā)點,還是從高效的信息理解和表達的角度去思考這個問題的。我們把語音和視頻的交互,認為是一種溝通方式。在我們現(xiàn)實社會里面,人和人表達的時候,一個是通過微信或者通過其他的工作軟件,敲字的方式,或者以郵件的方式去交互;有一種是在線會議的方式,就是語音;還有一種是通過視頻的方式交互,最好的是線下面對面的交互。

從整個交互的信息復雜度,以及它的表達和理解的復雜度來講,人和人面對面的溝通是信息傳播方式最快的,也是最有效的一種。所以我們認為在線上人機交互的過程當中,需要有這樣的一個表達方式,所以我們才去做實時視頻通話這樣的一個能力。

泓君:那視頻通話虛擬機器人的畫面是什么呢?

陶明:就比如說我們在跟一個AI進行聊天,你可以定義他的形象。

泓君:用戶可以自己捏臉?

陶明:他不需要自己捏,你只需要描述出來就行了。原來我們的確是要捏這樣的一個形象,然后通過文字或者語音的方式去驅動它。這個我們認為是上一代交互方式,就比如說他的表情的豐富度還是取決于說你本身采集到的豐富度有多少,它還是沒有那么平滑。我們現(xiàn)在這樣的一步到位的方案,就是希望我們的表情和動作都是實時生成的,并且是平滑自然的,不會還需要依賴運營或者其他的技術方式去采集更多的表情庫。

泓君:我注意到你們現(xiàn)在的虛擬伴侶還有一個很有意思的點是他可以給用戶打電話,這個設計點很妙,是怎么想到的?

陶明:產(chǎn)品本身還是來自于我們人和人交流過程中的真實情況。因為在真實的人和人的關系過程當中,對方也會給你打電話,是一種很好的聯(lián)系、加強和沉淀關系的方式。

在實際情況里面,如果一個人始終是單向的去找對方聊天,找對方去說事情,比如男女朋友關系,如果每天只是男生去找女生,女生永遠不會找男生,那這種關系很大可能很難走下去。

我們希望能夠擬合線下的行為模式。當用戶和人機交互過程中,我可以主動找AI聊天,AI也會在某個時間段主動的來關心我,來找我聊天。這個行為范式就符合我們在線下的這種行為范式,這是能夠讓用戶更能接受的一種方式。要不然的話就只是用戶去找AI,這是個單向關系,不是個雙向關系。

泓君:用戶的反饋呢?

陶明:用戶很喜歡,當他無聊的時候,當他也沒有想到說要去找AI,AI要來找他,這是對他一個很好的社交補充,但這個還是因人而異。所以說我們并不是說我們AI會給所有的用戶都會去主動的發(fā)起溝通和聊天交流,我們還是會根據(jù)用戶本身的性格興趣,他在Soul的行為,我們做出一個最終的決策。

泓君:從你的觀察來看,現(xiàn)在這些有AI輔助社交,然后有AI伴侶這些AI產(chǎn)品的落地,他對你們整個產(chǎn)品包括用戶粘性是會有大的提升嗎?

陶明:非常大的提升。我們在2024年,來自于AI對整個產(chǎn)品粘性的貢獻已經(jīng)是占了大部分了。這個點我們最開始還是非常謹慎的。

剛才您問說用戶喜不喜歡AI找你,用戶喜不喜歡和AI溝通的,這個我們最開始還是個問號。所以我們在推進的過程當中采用了很多的產(chǎn)品策略。就比如說AI輔助社交,我們在放量的過程當中,既要考慮到使用AI輔助的人,也要考慮到對方他是否愿意接受這種方式。我們通過非常仔細的人群的實驗,然后來做出我們最終的產(chǎn)品策略和放量策略。

AI陪伴這個產(chǎn)品也一樣的,因為Soul原來一直是能夠有這么好的用戶粘性,能夠有這么好的年輕人的這樣的滲透,主要是Soul提供了一個真實信任的安全的平臺,基于用戶對平臺的信任,才產(chǎn)生了用戶和用戶之間的信任,這是我們過去七八年產(chǎn)品力構建出來的一個結果。

我們也很擔心我們上了AI機器人過后,大家會不會認為Soul里面全是AI的虛擬人,沒有真實的社交了。我們當時也很擔心這個事情。所以說我們在推進我們AI的伴侶的過程當中,我們做的方式跟AI輔助社交還不一樣:我們到現(xiàn)在為止都沒有AI伴侶實際的產(chǎn)品中心入口。

泓君:我發(fā)現(xiàn)了,就是得我去搜我才能找到,因為這個功能沒有產(chǎn)品入口。它的頭像上面會有AI虛擬伴侶的標注,所以我最開始第一個問題產(chǎn)生的原因就他到底是真的假的,我還懷疑我是不是搞錯了,搜到了一個真人。

陶明:所以我們是希望說,愿意接受人機互動的用戶,你可以在Soul里面通過找其他的Souler能夠找到這些AI虛擬人,可以自己去搜到這樣的AI虛擬人。我們把它定義為這叫做用戶價值驅動產(chǎn)品,當你認可這樣的一個產(chǎn)品形態(tài)帶來的用戶價值,用戶自主的去選擇他。這樣的話我們就規(guī)避了我們直接一刀切大規(guī)模的去推AI伴侶,最后帶來我們對最開始那個問題的擔憂,但我們現(xiàn)在跑了大半年過后,AI的滲透越來越高,用戶的粘性也越來越好。

泓君:你們會擔心平臺上機器人變得越來越多,改變了用戶的體驗嗎?這會是你們擔心的一個方向嗎?

陶明:這是我們考慮的問題,但是我們從長遠來看的話,我們還是覺得人機互動是未來社交一個非常大的補充。我們應該盡可能在保證那些對AI有排斥的用戶群體、在傳統(tǒng)的社交體驗不變的情況下,加大對人機互動感興趣的那一批人群在AI層面更好的體驗,是分群而治之。

泓君:從你的觀察來看,純粹是因為AI這個功能進入到平臺用戶,這部分用戶占怎么樣的比例,未來會是一個很大的增長區(qū)間嗎?

陶明:我覺得未來增量的用戶里面擁抱AI的群體是越來越多的。不僅是Soul,整個行業(yè)整個社會對AI的認知的灌輸和滲透是越來越強的,比如說在3年之前說讓你去跟一個AI伴侶聊天,到3年之后你再去說跟AI伴侶聊天,那接受的人只會更多不會更少。所以說對任何一個產(chǎn)品來講,擁抱AI的用戶群體肯定是越來越多的。

02 從Chatbot試錯到建立垂直場景護城河

泓君:你有提到在2017年的時候Soul就已經(jīng)開始搭建Chatbot了,當時也沒有生成式AI,整個人工智能還是基于規(guī)則的人工智能,當時你們的想法是什么?你們有這么長時間搭建Chatbot的經(jīng)驗,能不能介紹一下你們探索的幾個階段?

陶明:2017年的時候并不是說我們想從技術角度上做Chatbot,是基于我們對社交的理解和認知出發(fā),認為我們要去做這個事情。2017年的出發(fā)點跟我們現(xiàn)在為什么要做AI出發(fā)點是一模一樣的——我們還是為了解決社交平權的問題,能夠讓每個用戶都能夠平等的獲得社交資源,能夠獲得情緒價值和信息價值,這個出發(fā)點是不變的。

但在2017年這個只是存在我們的想法當中,我們并沒有把它實現(xiàn),也沒有投入資源去做。因為我們調研了整個行業(yè),也調研了學術界,沒有人能夠做到這樣的事情。

我們當時提出的也是能夠情感自然擬人的形式,當時有個產(chǎn)品形態(tài),比如說我們要有一個能說會唱的,能夠懂你的電子寵物,這是一個非常具象的一個產(chǎn)品形態(tài)。當用戶來到Soul里面沒有辦法獲得社交資源的時候,能夠跟懂你的寵物進行溝通聊天,這當時一個很具象的一個想法,但當時并沒有投入資源去做,因為的確是做不到。

泓君:效果不好是嗎?

陶明:我們也跟幾個公司看了一些他們客服層面的對話產(chǎn)品,是沒有辦法做到的。我們那時候也在創(chuàng)業(yè)起步階段,我們也沒有資源說自己來做這個事情。

重拾這個事情是2019年、2020年。那時候我們提出需要從產(chǎn)品出發(fā),一個用戶在Soul里面是構建了全新的人設,這個人的個人主頁代表了他人設的內在。我們希望這個人設他有個形象,不是說把你自己線下的形象傳到線上來,而是基于你在Soul里面的人設打造一個符合的形象,我們就推出了這種捏臉系統(tǒng),原來是2D的到3D的。在這個基礎上,我們就進一步去思考,有了形象,那就希望他能夠說話,他能夠將自己的內在表達出來。

2020年我們就開始去做對話,那時候就明確了在產(chǎn)品上對AI的訴求是什么樣子,技術上我們要打造一個什么樣的一個AI。我們當時提出的一個規(guī)劃就是我們要構造一個AI being和human being的共存社區(qū),在Soul里面你既有AI的人類,你也有真實的人類,是一個共存的狀態(tài),可以人和人進去溝通,也可以人和AI進行溝通,然后在這個基礎上,我們就開始投入去做對話。

泓君:2020年那個時候是以什么樣的方式做?

陶明:那時候想了很多辦法,一是改寫一些理解性的模型,發(fā)現(xiàn)效果不行,我們又在上面去做一些基于決策樹的搜索,做融合,還是不行。因為聊天過程當中你可能聊個十輪聊個二十輪,你能聊下去,但是對方一定知道他沒有真人的感受,他知道他在和機器人聊天。

泓君:就是效果太機械了。

陶明:太機械了。那時候衡量一個對話的產(chǎn)品有CPS(Conversations Per Session,一次交互中的平均對話輪數(shù))這樣一個概念。當時它的輪數(shù)還挺多的,那是不是說用戶能聊下去?后來我們發(fā)現(xiàn)這是因為不聊的人就不會去跟他聊,聊的人我知道你是個機器人,我還要去跟你聊,他已經(jīng)拋棄了說我要在這個過程當中獲得體感,而只是為了聊而聊,是沒有產(chǎn)品意義的,單純的對話的技術指標和產(chǎn)品體驗脫離了,后來我們就把CPS這桿子事情不再提了。

泓君:我能理解,那個時候大家最多的這種一層一層往下?lián)艿母惺?,可能有點像打客服電話。即使拿世界上語音跟機器的交互比較前沿的像Siri這些來看的話,它當時也只是一個單輪對話,它很難支撐你一個有邏輯的多輪對話,所以技術上還是很難的。

陶明:都是指令性的這種,我發(fā)個指令,你回答我這個指令,你的指令是搜索產(chǎn)生的還是模型生成的,上下文的關系其實并沒有。

到了2021年就開始投入做語音,那個時候整個AI的投入始終圍繞著說要打造一個能說會唱能夠擬人的一個AI人,我們認為語音的交互是未來的一個主流。我們就開始做語音方面的投入,去做合成。那時候我們的合成還是基于傳統(tǒng)模型,認為說話的語氣一定是要自然的平滑的。

當時產(chǎn)生了很多語音的AI產(chǎn)品,比如說一些內容平臺讓AI去把腳本語音化,但是也是很機械的,一聽你是有機械的聲音,在一些語氣詞方面表現(xiàn)的很生硬。我們還是要做情感化的語音生成,那是2021年做語音。

泓君:所以你覺得你現(xiàn)在訓練的這個機器人,他的語調特別的平緩,跟當時在研究聲音、音調怎么擬人是有關系的嗎?還是說那個時候的技術到現(xiàn)在完全用不上了?

陶明:這是我們很焦慮的一個事情,因為當時我們就在做差異化的技術?,F(xiàn)在我們線上體驗的基本上沒有用到,技術完全是新的,還是基于現(xiàn)在的LLM這種模式去做的雙工語音效果。

原來的傳統(tǒng)的語音模型,我們只是在上面去做更多的標注,盡可能是做擬合。他是個擬合,現(xiàn)在這邊是生成,還是不太一樣的。

但是那時候沉淀下來的數(shù)據(jù)對我們是有用的,以及說我們在語音方面的思考,你一定是要情感化的表達,真實的表達,也是我們現(xiàn)在模型所要去構建的方向,當時沉淀下來是數(shù)據(jù)以及對語音在社交方面作用的思考。

泓君:到了2022年,你當時看ChatGPT出來,你激動嗎?

陶明:激動是激動,但是更焦慮,讓我們覺得說我們的技術歸零了,那時候是有可能歸零的。因為看到ChatGPT的那種交互效果,以及這個技術的發(fā)展方向,你很自然會判斷說原來的這種技術路線就被拍死在沙灘上。那也就是說我們所有的工作可能會歸零了。那時候我們非常的焦慮。因為并不是說GPT類似的這種技術方式是2022年出來的,GPT3早就出來了。這個技術方向我們是知道的,只是我們并不知道在這種scaling law出來過后,它有這樣大的一個效果。

泓君:所以你當時擔心的是什么?你擔心的是GPT這種產(chǎn)品形態(tài),如果你們不跟上的話,它可能會把你們前面所有的努力給覆蓋掉,因為它足夠強大?

陶明:那時候已經(jīng)不存在選擇了,因為技術方向已經(jīng)非常明確了,我們考慮是自己自研,還是說要跟一個做大模型的公司去做合作。因為2023年有大量的模型創(chuàng)業(yè)公司出來了,我們要不要去共建? 這是我們當時面臨的選擇,而不是說我們要不要走這個路線。

泓君:你當時怎么選的?

陶明:當時也搖擺了很多,也跟很多公司聊過這個事情,最終我們還是選擇了要自己做這個事情。

第一個是說我們在過去兩三年積累下來的關于這方面的一些認知,以及本身的產(chǎn)品場景的差異性。我們很難把這一套完全遷移到其他的模型公司去,因為這才是我們最終交付產(chǎn)品的核心。

我們交付產(chǎn)品,不是交付模型,是交付我們剛才說的那些對AI社交的認知。因為它是一個評判的結果,對用戶來講,我們沒有辦法標準化的輸出給三方公司。因為三方公司它是交付的概念,它是交付模型,它不是交付產(chǎn)品,但交付模型就不是我們要的。我們希望它是交付產(chǎn)品,我們沒有辦法標準化的把這一套給遷移過去。

第二點是說,如果是說我們標準化的能夠遷移過去,那說明一個問題,我們的產(chǎn)品沒有辦法差異化,你都能夠標準化了,都能夠給三方公司做標準化的遷移,那說明你的產(chǎn)品沒有差異化的。

泓君:你們是什么時候做的這個決定?

陶明:就是在2023年上半年做的這個決定,說要自己做這個事情。

泓君:當時業(yè)界有幾種方法,第一種是自己訓練模型,還有一種是用finetune(微調)的方式,還有一種是加RAG的這種方式,你覺得后兩種是行不通嗎?

陶明:你加RAG也好再做finetune也好,這是個加分項。這個效果增強的過程中,最終的基礎效果你還是沒有辦法得到。

比如你用三方的模型,還有一個問題,數(shù)據(jù)問題。我們現(xiàn)在產(chǎn)生的大量文字的社交數(shù)據(jù)和語音數(shù)據(jù),這是真實人和人在社交里面的數(shù)據(jù)范式和行為范式,在其他的模型里,首先你沒有辦法拿到這樣的數(shù)據(jù),拿不到這樣的數(shù)據(jù),你很難做出非常穩(wěn)定的效果。

這就是我們最開始有個思路說我們在finetune方面的數(shù)據(jù)或者說在強化這樣的數(shù)據(jù),我能夠下沉到底層模型上去,能讓我們的底座模型就是為了社交服務的,那就是未來定義的的這是個垂類的大模型,而不是一個通用大模型。

泓君:對你當時評估自己做這個事兒,你覺得它最大的難點是在哪兒呢?因為我覺得這可能是一個非常大的決心,首先是要有錢,因為他很費錢,然后要有卡,要有人。

陶明:我們做決策的時候,并不是說這件事情有多難,然后我們再去做決策,我們是基于說我們跟三方公司去合作,沒有辦法達成我們想要的產(chǎn)品,做不到。

泓君:這中間也找過別的公司。

陶明:對,只能是我們自己去做,自己去做就不存在說這難不難的問題,是我們一定要去做的問題。但是在做的過程我們要重新去梳理,如果要達到我們這個效果,我們有我們自己獨特的數(shù)據(jù),這是我們最大的優(yōu)勢。第二個優(yōu)勢是說在post-train方面,我們知道怎么去構建安全的、更好的效果,這是一個優(yōu)勢。

那在模型層面我們有沒有一個很好的模型架構?那時候我們做了個判斷,模型架構在未來一段時間會接近于收斂。到現(xiàn)在為止,大家在模型層面也沒有很大的變化。當然是有一些不同的技術路線,每個技術路線的變化程度并不是很大。我們就可以在這樣的基礎上去做這個事情。

然后又涉及到卡的問題,資源的問題。大家都說,不管是做通用模型的預訓練,或者是做垂直模型的預訓練很貴,但我們認為未來這肯定是會下來的。我們最開始小步亦趨的去做這個事情,我不需要說一個很大的模型,我們要的是效果,不是模型。我們要的是能夠支撐我們這樣的一個社交效果的模型,而不是為了通用模型而去的。所以我們是小投入的,后來我們發(fā)現(xiàn)7B、13B的模型效果就已經(jīng)很好了,在我們的數(shù)據(jù)加持和微調之下。

當時認為卡的確是一大筆投入,相比說我們其他的IT支出,但現(xiàn)在它的價格也越來越低了。所以說預訓練的卡當時并不是我們認為的卡點,反而那時候我們最擔心的是推理。

泓君:是推理成本是嗎?

陶明:對,推理成本。

泓君:因為你們有用戶基數(shù),就是有真實的用戶。

陶明:對,我們都很擔心,萬一說我這個產(chǎn)品上來爆了,那時候推理還挺貴的,我們投入很大的工作是說我們要降低推理成本,在計算上的投入,我們在預訓練那一方面的這些效率和成本那時候并不是我們主要的工作,反而是推理的成本效率這是我們的工程團隊投入比較多的方向。

泓君:推理成本現(xiàn)在降下來了嗎?現(xiàn)在推理成本是你們擔心的嗎?

陶明:現(xiàn)在不是我們擔心的。

泓君:推理成本是怎么樣降下來的?

陶明:一方面是我們用更小的模型去實現(xiàn)更好的效果,這是模型層面。第二個是再做一些壓縮。第三個是在本身的框架層面、優(yōu)化推理層面的技術優(yōu)化,底層優(yōu)化也在做。

但從現(xiàn)在的價格來看的話,不僅是我們公司其他公司都能支撐比如說一個大幾千萬的DAU,我覺得這個問題都不大。所以說計算資源除了達到通用模型仍然是一個非常大的投入,但對于說應用層面來講它的成本已經(jīng)很低了,我覺得這對其他的創(chuàng)業(yè)公司來講現(xiàn)在也不是一個瓶頸。

泓君:你們現(xiàn)在有多少個模型?

陶明:我們模型會很多,版本會很多。但如果是從定性上來看的話,我們大概就五六個模型。我們不會是說從7B、13B這樣的區(qū)分,我們從不同的垂類的功能方面區(qū)分。

泓君:垂類的功能是怎么分的?

陶明:還是我們的基座模型,在語音方面有個模型,在圖片方向,還有3D方向都會有。3D方向這是我們在探索的。

泓君:3D的模型可能是用于支持未來探索,還沒有發(fā)布的一個就是沒有把這個模型能力具體應用到產(chǎn)品上的,可以這樣理解嗎?

陶明:對,因為原來我們一直在站內,我們會有一些功能,就比如說我們的視頻匹配這一塊,用戶可以帶一個頭套去溝通,不以真臉的方式出現(xiàn)。我們那時候是以驅動的方式來做這個事情,但我們現(xiàn)在未來還是說想純粹生成的方式來做。

03 模型選擇與技術路線:Soul如何擺脫模型層競爭?

泓君:因為整個生成式AI發(fā)展的很快,在訓練這些模型的過程中,你的知識跟判斷是從哪里來的?在這個過程中怎么去構建自己的學習能力?

陶明:那只能是跟團隊一起,一定是要跟蹤行業(yè)的發(fā)展,因為本身生成式的AI的技術路線并沒有收斂。每天都有新的很區(qū)隔的方式出來。你必須要跟著團隊一起去了解它,并且是說要去做實驗。就比如說我們現(xiàn)在在做的實時的全雙工通話這個能力上。

泓君:全雙工是什么意思?

陶明:就是從產(chǎn)品角度來看的話,就比如在線下你說話的過程當中,我可以隨時打斷你,你可以停下來聽我講,聽我講完過后你可以繼續(xù)自己講,而不是說純粹一來一回的這種你說完了我才能講,全雙工是可以隨時打斷,這也是現(xiàn)實的這種人和人交流的一個方式吧。我們希望在人機互動也會是這樣,現(xiàn)在沒有哪一家能夠實現(xiàn)我們想要的這種效果。

泓君:OpenAI可以。

陶明:他們的4o還是個問答式的。

泓君:你的意思是不提問題,就是打斷,然后不發(fā)指令。

陶明:是的,我不發(fā)指令給他,我就隨時打斷。這個我們現(xiàn)在也遇到了很多的難點,我們一方面自己想怎么去解決,然后這個方面看很多的業(yè)界有沒有新的很區(qū)隔的方式出來。我們要去驗證能不能放到我們的技術方案里面。所以說這個知識是一個學習的過程,我覺得每家都會是這樣的狀態(tài)。

泓君:然后你剛剛提到了,即使是這個模型出來了以后,也有很多的技術路線。然后你現(xiàn)在在市場上看到了哪些路線,你覺得你在中間是怎么做選擇跟判斷的?

陶明:首先還是從我們自身出發(fā),對我們整體來講的話,我們還是基于開源生態(tài)來打造我們的自然生態(tài),這是我們整個的一個方向。所以說我們擁抱的是更加開源的技術體系這樣的一個模型體系。

泓君:就Meta Llama的那一套對不對?

陶明:現(xiàn)在有幾個跑得不錯的,第一個就是說Llama那一套,它的基礎模型的更新技術我們也能夠去跟進并且它是足夠開放的,它不會說某一天閉環(huán)了,我覺得目前還沒有這個趨勢。第二國內也有幾款比如說千問的這個體系也還不錯。第三個的話是現(xiàn)在的DeepSeek,但我們現(xiàn)在還是在Llama和那個千問的路線上去探索。

泓君:因為最近確實DeepSeek的模型非?;穑绕涫荲3出來以后,你有研究過他們的模型嗎?你覺得他在整個訓練過程中用H800的卡把這個效果實驗出來了,然后也非常的節(jié)省成本,這個會對你們在做更大的模型或者對你們的模型訓練方法上會有啟發(fā)嗎?

陶明:肯定有,我們肯定也有研究下他是怎么實現(xiàn)。這樣優(yōu)秀的模型公司所沉淀的這些工程方法是很難得的,如果從整個行業(yè)來看的話,首先說工程層面并不能夠給最終的業(yè)務交付帶來什么,但的確是從低門檻的角度帶來了很大的優(yōu)勢,也給整個行業(yè)的進一步的發(fā)展提供了一個很好的橋梁。原來你要去做大規(guī)模的訓練,可能就那幾家公司能做,如果他降下來了,那很多其他的團隊也能去做,那其他更加百花齊放。

泓君:所以他把這個成本降下來了,對大家來說是一個雙刃劍,對不對?他把整個市場的門檻放得更低了,競爭也會更多。

陶明:對的。

泓君:你覺得OpenAI的o1有給你啟示嗎?

陶明:o1給我們蠻大啟示的,在構建AI伴侶的這件事情上,它也給了我們很多啟發(fā)。我們希望AI伴侶能夠在提供真實擬人的方向上能達到一個好的效果,同時它也具備一定的行為能力。因為不同的AI伴侶提供不同的角色,不同的角色他需要有不同的行為或者內容能力。

比如說我希望說在對話過程當中,能夠不以指令的方式讓他去觸發(fā)一些action,這是一個比較平滑的。比如說我跟AI伴侶,我發(fā)張圖片給他,你幫我美化成什么樣的效果。如果你丟給圖片模型,那是prompt講的很清楚,我有圖片輸入,我有文字描述。如果你放在對話里面的話,你就要去做一些指令的這樣的一些生成,才能讓說我們的AI伴侶能夠去調用一些其他工具層面的模型。o1它的這種自主規(guī)劃能力,在AI agent構建層面給了一些啟發(fā),能夠讓我們構建一些輕量型的更加自主的工作流。

泓君:現(xiàn)在對你們自己打造出來的聊天機器人,你覺得你會給到多少分?你覺得它還需要被優(yōu)化,以及它再優(yōu)化跟提升的空間有多大?

陶明:還是蠻大的。我覺得我們現(xiàn)在只是解決了人和人交流中部分的行為擬合的問題,還有很多還是沒有做,我們也在努力做的。比如說場景,我一提到場景,大家都認為它是一個產(chǎn)品的場景,它是個功能。是說在整個的對話里面,它也能構建場景。比如說人和人在線下溝通的時候,外面下雨了,圍繞著這樣的一個情景,我們的AI能夠衍生出很多的聊天的內容。下雨了你說要不要在家里面看電影?那就進入了一個關于電影的討論的場景,這就是一個場景,我們現(xiàn)在在做這方面的泛化的時候,效果還是要加強。

泓君:你覺得整個業(yè)界,因為現(xiàn)在大家都在等OpenAI的GPT-5出來。同時又有一種聲音說,scaling law它的增長可能已經(jīng)快到頭了。我挺想知道現(xiàn)在在大家基于大模型產(chǎn)品去做應用的這樣的一個過程中,跟大環(huán)境的關系到底聯(lián)系程度有多緊密?

陶明:我覺得越來越弱了。

泓君:這窗口期是前一兩年或者這一兩年。

陶明:對,比如說剛才的一個很具體問題,說現(xiàn)在前沿的大模型的技術方向對Soul來講影響有沒有很大?它的影響我覺得是越來越小了,在我們的應用層面已經(jīng)獲得了用戶認可的一個價值,那是基于我們現(xiàn)有的技術基礎之上已經(jīng)獲得了。在增強用戶價值上面,要怎么樣去繼續(xù)構建技術的確定性方面,更加確定了。

不像去年那樣說,一個又新的模型出來了,或者說它的方向會不會又把我們拍死在沙灘上,我們的焦慮程度會下降了很多。但不排除七八年過后,未來又有一個奇點到來,把整個系統(tǒng)策略和模型全部給覆蓋了,那我覺得短期一兩年很難了。

泓君:我記得2023年的時候,我跟很多做大模型應用或者基礎模型的公司去聊,大家也是非常焦慮。比如說每次OpenAI一升級,大家就覺得,我前面半年的工作白做了。我把所有的東西都搭在你的GPT-3上,然后你GPT-4出來了,大家就覺得白做了。2024年相反,我是更少的聽到這些聲音了。但是我覺得一直到今天,就是我們討論的這個時間點,市場上還是有一種聲音。就是說隨著大模型的迭代,比如說GPT-5整個的能力越來越強,會不會最終所有的應用會被一個更強的模型給覆蓋掉?就這個市場的壁壘是什么?你們想過這個問題嗎?

陶明:這個問題在2023年想過,任何的行業(yè)問題或者用戶問題,會不會一個端到端的模型完全解決掉。如果這個說法是成立的那時候對整個行業(yè)上非常喪的一個消息,但是我們回顧從二三十年來互聯(lián)網(wǎng)技術,PC時代,到互聯(lián)網(wǎng),然后再到移動互聯(lián)網(wǎng)。你會發(fā)現(xiàn)即使是端到端的模型能夠解決很多的需求,那只是說那些需求是我們目前能夠看得到的。但最終基于新的技術的發(fā)展,新的模型發(fā)展,它一定會帶來一個新的增量需求的出現(xiàn)。如果它帶不來增量需求的出現(xiàn),那我認為這次的AI革命是失敗的。

任何的技術革命一定是會帶來新的需求,這些新的需求要被同時代的技術能夠完全端到端的解決掉,或者說被過去的技術能夠端到端的解決掉,我覺得這是一個問號。新的技術的出現(xiàn),它應該是能夠最大效率地去解決已知問題,對于未知問題,未知需求,還是需要人的探索以及不同公司的解決方案。

泓君:你會擔心你現(xiàn)在做的事情會被一個更強的模型給覆蓋掉嗎?

陶明:我不太擔心這個事。

04 AI社交變現(xiàn)模式:用戶付費意愿與商業(yè)模式探索

泓君:你覺得現(xiàn)在基于AI聊天機器人的商業(yè)模式,跟以往在變現(xiàn)上思路會有什么樣的不一樣呢?

陶明:這塊兒我只能說一下我個人的想法。AI的商業(yè)變現(xiàn)任何一家公司都在做,就希望能夠在一個非常清晰的商業(yè)模式之下,去發(fā)展業(yè)務。但是現(xiàn)在總體來看,整個行業(yè)并沒有一個新的商業(yè)模式出現(xiàn)。

我一直認為是說商業(yè)模式是構建在你業(yè)務模式之上的,而不是說憑空出現(xiàn)了一個商業(yè)模式。那為什么現(xiàn)在商業(yè)模式?jīng)]有發(fā)生改變?本質上是說我們當前的AI目前還并沒有給業(yè)務模式帶來改變,它可能更多的是增強提效。就像剛才說的,如果沒有新的需求出現(xiàn),或者沒有新的業(yè)務出現(xiàn),我認為是商業(yè)模式它本身也不會有太大的變化。

泓君:我注意到你們推出的AI會給用戶去打電話,它是有一個收費制的。現(xiàn)在用戶在這個產(chǎn)品上愿意付費的意愿高嗎?

陶明:我們也只是把它當成了一個增值的收入方式,它跟其他的增值產(chǎn)品也差不多。對用戶來講,這就是獲得好的體驗的一種方式。原來我們提供了其他的一種方法,現(xiàn)在又提供了新的一個手段。用戶為這個買單,你會認為他也沒有發(fā)生變化。

泓君:你們現(xiàn)在有AI茍蛋的這種擬人化機器人,也有情感化陪伴的虛擬伴侶,還有AI NPC,數(shù)字分身。你們會怎么去定義未來這個平臺的核心產(chǎn)品,包括核心場景,是說我去做幾個產(chǎn)品,還是說我去做一個王牌的產(chǎn)品,這塊你是怎么想的?

陶明:你會發(fā)現(xiàn)就是我們不同的AI它有不同的功能定位。未來的話我們希望我們的王牌產(chǎn)品肯定還是以我們的AI虛擬人為最主要的基石。能夠在我們當前不同場景里面做更好的功能泛化,就比如說視頻通話的這種能力,未來它不一定要給用戶去打電話,他完全可以用在我們當前的語音產(chǎn)品里面做虛擬直播。

我們不限制說我們有多少個AI產(chǎn)品,我們還是希望說每個AI產(chǎn)品能夠服務不同的人群。我們沒有想法去打造一個主體的AI功能,然后來承載現(xiàn)在所有的需求。包括我們不去構建一個中心化。因為作為一個主體產(chǎn)品,你一定是說要有一個中心化的AI的入口。我們現(xiàn)在是沒有這樣的打算的。

泓君:所以你們現(xiàn)在還是以社交平臺為主,然后所有的AI產(chǎn)品是服務于這個社交平臺的。

陶明:對,當前是這樣。

 
本文為轉載內容,授權事宜請聯(lián)系原著作權人。