正在閱讀:

電廠 | 領(lǐng)先OpenAI落地,訊飛版“Her”迭代20億臺終端

掃一掃下載界面新聞APP

電廠 | 領(lǐng)先OpenAI落地,訊飛版“Her”迭代20億臺終端

8月19日,科大訊飛正式推出星火極速超擬人交互。

2024年5月,OpenAI的GPT-4o展示了堪比電影《Her》中的人機(jī)交互體驗(yàn),響應(yīng)速度快,能讀懂人的情緒,用笑聲回應(yīng)開心和用溫柔聲音安撫悲傷情緒。

但OpenAI的“Her”沒有來,訊飛星火版的“Her”在8月底就能面向全民開放使用了。

8月19日,科大訊飛宣布星火語音大模型更新,正式推出星火極速超擬人交互,并將其能力落地在訊飛星火App“小星暢聊”功能中。

這次更新后,星火極速超擬人交互響應(yīng)速度更快,對話更加自然流暢,隨時打斷、插話之后還能秒回。情緒價值也被拉滿,星火極速超擬人交互還能感知用戶的情緒變化,并共情回應(yīng)用戶的喜怒哀樂,在表達(dá)上更加自然、更具情感,還能扮演角色的語音和人設(shè)進(jìn)行對話。

對比之下,OpenAI主打情緒讀取、實(shí)時推理視覺、文本和音頻以及多語言處理的GPT-4o沒有向用戶開放。7月底,OpenAI才選擇性地向一小部分Alpha測試參與者開放部分語音功能。

電廠還獲悉,7月底的一周時間里,科大訊飛董事長劉慶峰和華為輪值董事長徐直軍密集互訪,雙方或探討基于超擬人交互技術(shù)落地應(yīng)用的潛力,瞄準(zhǔn)智能終端機(jī)器人化的巨大市場。

智能之外,情緒價值拉滿

電影《Her》講述的故事發(fā)生在2025年,男主人公西奧多·托姆布里是一名孤獨(dú)內(nèi)向的男子,他的工作是給那些不善于表達(dá)感情的人代寫感人肺腑的情書。和相愛多年的妻子凱瑟琳分手后,他一直沉浸在悲傷當(dāng)中。

偶然的機(jī)會,西奧多接觸到一款先進(jìn)的人工智能操作系統(tǒng)OS1,它能夠通過和人類對話,并不斷學(xué)習(xí)豐富自己的意識和感情。操作系統(tǒng)化身為一名叫做薩曼莎的“女性”,她變得風(fēng)趣幽默又善解人意,學(xué)習(xí)和進(jìn)化的速度也讓西奧多感到不可思議,兩人很快成了無所不談的朋友。

不需要到2025年,類似的情節(jié)在2024年8月就能成為現(xiàn)實(shí)了??拼笥嶏w星火大模型的極速超擬人交互在響應(yīng)和打斷速度、情緒感知情感共鳴、語音可控表達(dá)、人設(shè)扮演四個方面實(shí)現(xiàn)巨大突破,相關(guān)語音能力正在對標(biāo)GPT-4o。

在響應(yīng)速度上,星火極速超擬人交互支持極速響應(yīng)多輪交互,能夠在對話過程中生成高質(zhì)量的回答,并且響應(yīng)速度更快、與GPT-4o響應(yīng)時間相當(dāng),幾乎與人類正常聊天節(jié)奏一致,并且對話中允許用戶隨時打斷、插話,實(shí)現(xiàn)了人機(jī)對話的“無縫銜接”。

除了對話節(jié)奏更類人之外,超擬人交互還能夠在對話中感知用戶的情緒,把情緒價值拉滿。它可以在對話中感知到用戶的喜、怒、哀、樂、害怕、困惑等各類情緒,不僅能根據(jù)聲音的內(nèi)容來判斷,還能像朋友一樣用合適的情感回應(yīng)用戶。比如,用笑聲回應(yīng)開心,用溫柔聲音安慰悲傷情緒。同時,星火極速超擬人交互還能識別用戶咳嗽、貓和狗的叫聲等聲音事件,給出對應(yīng)的回復(fù)語。

以前語音交互中機(jī)器聲音無法調(diào)整,但有了星火極速超擬人交互,只要用戶語音發(fā)出指令,就可以控制超擬人在情感、風(fēng)格、方言、強(qiáng)度等表達(dá)方式上做出變化,比如,“用調(diào)侃的方式給我說個笑話”、“用東北話給外地朋友介紹下鍋包肉”、“說的更快一點(diǎn)”。

此外,星火極速超擬人交互還支持“角色扮演”,可以模仿不同的角色陪聊。比如,“模仿孫悟空的聲音來和小孩子對話”,超擬人就可以模仿孫悟空的聲音和人設(shè)和小朋友聊天。星火超擬人交互還可以模仿蠟筆小新、小豬佩奇等角色。

OpenAI的GPT-4o遲遲不來,“中國版GPT-4o”搶先一步落地??拼笥嶏w星火極速超擬人交互代表了國產(chǎn)大模型逐步從追趕、對標(biāo)到進(jìn)行自主創(chuàng)新的差異化路線。

超擬人交互的極速秘訣是統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)語音到語音端到端建模。傳統(tǒng)的處理方式是先把語音轉(zhuǎn)成文字,在通過大模型生成回復(fù)文本,然后再進(jìn)行語音合成輸出,需要分三步來工作。但端到端只有一個模型,大幅縮短了響應(yīng)時間,也提升了交互的擬人度和流暢度。

情感交互、語音可控等則得益于訊飛多維度的語音屬性解耦表征訓(xùn)練準(zhǔn)則,將內(nèi)容、音色、情感、語言、風(fēng)格都信息進(jìn)行解耦訓(xùn)練。星火極速超擬人交互也因此能夠更加靈活控制各類元素,還能根據(jù)需求便捷定制,讓系統(tǒng)快速落地應(yīng)用。

正因?yàn)槿绱?,星火極速超擬人交互可以在8月底率先面向全民開放使用??拼笥嶏w表示,基于全新端到端框架的基礎(chǔ),星火極速超擬人交互目前主要開放語音模態(tài),未來會拓展到更多模態(tài),并帶來更多更實(shí)用、豐富的功能。

但這一次語音模態(tài)的跨越式升級帶來的多輪交互、語義理解、指令跟隨、邏輯推理、情感共鳴,已經(jīng)足以重寫語音交互市場,幫助20億臺智能終端向機(jī)器人升級并驅(qū)動萬物互聯(lián)的第六次產(chǎn)業(yè)浪潮井噴。

每一臺智能終端都能變成機(jī)器人

在2023年科大訊飛全球1024開發(fā)者節(jié)上,華為科技有限公司副董事長、輪值董事長徐直軍曾表示,“華為公司在全球所有使用的智能終端的語音技術(shù),都是來自于科大訊飛,而且不僅僅是中文”。

第三方機(jī)構(gòu)QuestMobile的數(shù)據(jù)顯示,截至今年2月,華為的活躍終端設(shè)備數(shù)量已經(jīng)超過2.8億臺。而華為公布的數(shù)據(jù)則顯示,鴻蒙生態(tài)設(shè)備數(shù)量已經(jīng)突破了8億臺。這背后是龐大的移動物聯(lián)網(wǎng),工信部公布的統(tǒng)計數(shù)據(jù)顯示,去年5月底,我國的移動物聯(lián)網(wǎng)終端用戶超過20.5億,包括手機(jī)、家電、汽車以及初具規(guī)模的機(jī)器人。

語音是終端設(shè)備核心的交互方式之一,基于訊飛星火大模型在超擬人交互上取得的突破,終端設(shè)備可以實(shí)現(xiàn)“無感迭代”,從指令型終端晉升為可進(jìn)行多輪交互、可感知情緒、可定制化表達(dá)的擬人機(jī)器人。

試想一下,當(dāng)你的智能手機(jī)支持超擬人交互,它不僅能成為百科全書,還可以從手機(jī)升級為得力助手和陪伴者。

家中的電視機(jī)、平板電腦,能幫助孩子學(xué)習(xí),也能為老人提供更多守護(hù),既是家里的管家,也是家庭教師。

智能汽車中有超擬人交互,不僅可以提升內(nèi)容的豐富度,也可以通過增加語音交互的場景從而保障駕駛員的安全。

更為重要的是,星火大模型對多語種、多方言的支持,星火超擬人交互可以讓每一臺升級為機(jī)器人的終端設(shè)備,保證用戶具備全球通行的能力。

以智能汽車為例,2023年,中國汽車出口量超過日本,躍居全球第一,而出海十強(qiáng)企業(yè)中,有8家都在和科大訊飛合作??拼笥嶏w多語種技術(shù)已經(jīng)可以覆蓋全球60多個語種,訊飛智能車載語音系統(tǒng)覆蓋23個主要語種,搭載該系統(tǒng)的車型已銷往亞洲、歐洲、南美等地的60多個國家和地區(qū)。

從產(chǎn)業(yè)發(fā)展來看,智能語音技術(shù)正處于“黃金時代”。國際數(shù)據(jù)公司IDC的統(tǒng)計數(shù)據(jù)顯示,全球智能語音市場規(guī)模由2017年的110.3億美元增長至2022年的351.2億美元,增長幅度218.4%,年復(fù)合增長率為26.1%。

IDC還預(yù)計,到2030年,全球智能語音服務(wù)市場規(guī)模將達(dá)約731.6 億美元,復(fù)合增長率27%,保持穩(wěn)定增長的趨勢。

具體到我國,2022年我國智能語音市場達(dá)341億元,同比增長13.4%。2017年至2022年增長幅度為221.7%,復(fù)合增長率為26.33%,稍微領(lǐng)先于全球市場的增長。其中,科大訊飛在國內(nèi)市場的份額遠(yuǎn)遠(yuǎn)領(lǐng)先于百度、蘋果等公司。

今年1月,科大訊飛推出了星火大模型V3.5,5個月后就升級到了V4.0,整體能力超越了OpenAI的GPT-4 Turbo。僅僅兩個月后,星火大模型就支持了極速超擬人交互,為萬物互聯(lián)時代入口探索出更多的交互可能。

訊飛星火大模型不僅在底層能力方面走得更穩(wěn),更在應(yīng)用上開足了馬力,同步實(shí)現(xiàn)了對全球頂級大模型的趕超以及自身優(yōu)勢模型能力結(jié)合實(shí)際場景的落地,把新技術(shù)轉(zhuǎn)化為新應(yīng)用,為用戶創(chuàng)造了真正的價值。

 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

科大訊飛

4.6k
  • 科大訊飛董事長劉慶峰:AI應(yīng)用正進(jìn)入場景化深水區(qū)
  • 科大訊飛發(fā)布訊飛星火汽車端側(cè)大模型

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

電廠 | 領(lǐng)先OpenAI落地,訊飛版“Her”迭代20億臺終端

8月19日,科大訊飛正式推出星火極速超擬人交互。

2024年5月,OpenAI的GPT-4o展示了堪比電影《Her》中的人機(jī)交互體驗(yàn),響應(yīng)速度快,能讀懂人的情緒,用笑聲回應(yīng)開心和用溫柔聲音安撫悲傷情緒。

但OpenAI的“Her”沒有來,訊飛星火版的“Her”在8月底就能面向全民開放使用了。

8月19日,科大訊飛宣布星火語音大模型更新,正式推出星火極速超擬人交互,并將其能力落地在訊飛星火App“小星暢聊”功能中。

這次更新后,星火極速超擬人交互響應(yīng)速度更快,對話更加自然流暢,隨時打斷、插話之后還能秒回。情緒價值也被拉滿,星火極速超擬人交互還能感知用戶的情緒變化,并共情回應(yīng)用戶的喜怒哀樂,在表達(dá)上更加自然、更具情感,還能扮演角色的語音和人設(shè)進(jìn)行對話。

對比之下,OpenAI主打情緒讀取、實(shí)時推理視覺、文本和音頻以及多語言處理的GPT-4o沒有向用戶開放。7月底,OpenAI才選擇性地向一小部分Alpha測試參與者開放部分語音功能。

電廠還獲悉,7月底的一周時間里,科大訊飛董事長劉慶峰和華為輪值董事長徐直軍密集互訪,雙方或探討基于超擬人交互技術(shù)落地應(yīng)用的潛力,瞄準(zhǔn)智能終端機(jī)器人化的巨大市場。

智能之外,情緒價值拉滿

電影《Her》講述的故事發(fā)生在2025年,男主人公西奧多·托姆布里是一名孤獨(dú)內(nèi)向的男子,他的工作是給那些不善于表達(dá)感情的人代寫感人肺腑的情書。和相愛多年的妻子凱瑟琳分手后,他一直沉浸在悲傷當(dāng)中。

偶然的機(jī)會,西奧多接觸到一款先進(jìn)的人工智能操作系統(tǒng)OS1,它能夠通過和人類對話,并不斷學(xué)習(xí)豐富自己的意識和感情。操作系統(tǒng)化身為一名叫做薩曼莎的“女性”,她變得風(fēng)趣幽默又善解人意,學(xué)習(xí)和進(jìn)化的速度也讓西奧多感到不可思議,兩人很快成了無所不談的朋友。

不需要到2025年,類似的情節(jié)在2024年8月就能成為現(xiàn)實(shí)了??拼笥嶏w星火大模型的極速超擬人交互在響應(yīng)和打斷速度、情緒感知情感共鳴、語音可控表達(dá)、人設(shè)扮演四個方面實(shí)現(xiàn)巨大突破,相關(guān)語音能力正在對標(biāo)GPT-4o。

在響應(yīng)速度上,星火極速超擬人交互支持極速響應(yīng)多輪交互,能夠在對話過程中生成高質(zhì)量的回答,并且響應(yīng)速度更快、與GPT-4o響應(yīng)時間相當(dāng),幾乎與人類正常聊天節(jié)奏一致,并且對話中允許用戶隨時打斷、插話,實(shí)現(xiàn)了人機(jī)對話的“無縫銜接”。

除了對話節(jié)奏更類人之外,超擬人交互還能夠在對話中感知用戶的情緒,把情緒價值拉滿。它可以在對話中感知到用戶的喜、怒、哀、樂、害怕、困惑等各類情緒,不僅能根據(jù)聲音的內(nèi)容來判斷,還能像朋友一樣用合適的情感回應(yīng)用戶。比如,用笑聲回應(yīng)開心,用溫柔聲音安慰悲傷情緒。同時,星火極速超擬人交互還能識別用戶咳嗽、貓和狗的叫聲等聲音事件,給出對應(yīng)的回復(fù)語。

以前語音交互中機(jī)器聲音無法調(diào)整,但有了星火極速超擬人交互,只要用戶語音發(fā)出指令,就可以控制超擬人在情感、風(fēng)格、方言、強(qiáng)度等表達(dá)方式上做出變化,比如,“用調(diào)侃的方式給我說個笑話”、“用東北話給外地朋友介紹下鍋包肉”、“說的更快一點(diǎn)”。

此外,星火極速超擬人交互還支持“角色扮演”,可以模仿不同的角色陪聊。比如,“模仿孫悟空的聲音來和小孩子對話”,超擬人就可以模仿孫悟空的聲音和人設(shè)和小朋友聊天。星火超擬人交互還可以模仿蠟筆小新、小豬佩奇等角色。

OpenAI的GPT-4o遲遲不來,“中國版GPT-4o”搶先一步落地??拼笥嶏w星火極速超擬人交互代表了國產(chǎn)大模型逐步從追趕、對標(biāo)到進(jìn)行自主創(chuàng)新的差異化路線。

超擬人交互的極速秘訣是統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)語音到語音端到端建模。傳統(tǒng)的處理方式是先把語音轉(zhuǎn)成文字,在通過大模型生成回復(fù)文本,然后再進(jìn)行語音合成輸出,需要分三步來工作。但端到端只有一個模型,大幅縮短了響應(yīng)時間,也提升了交互的擬人度和流暢度。

情感交互、語音可控等則得益于訊飛多維度的語音屬性解耦表征訓(xùn)練準(zhǔn)則,將內(nèi)容、音色、情感、語言、風(fēng)格都信息進(jìn)行解耦訓(xùn)練。星火極速超擬人交互也因此能夠更加靈活控制各類元素,還能根據(jù)需求便捷定制,讓系統(tǒng)快速落地應(yīng)用。

正因?yàn)槿绱?,星火極速超擬人交互可以在8月底率先面向全民開放使用??拼笥嶏w表示,基于全新端到端框架的基礎(chǔ),星火極速超擬人交互目前主要開放語音模態(tài),未來會拓展到更多模態(tài),并帶來更多更實(shí)用、豐富的功能。

但這一次語音模態(tài)的跨越式升級帶來的多輪交互、語義理解、指令跟隨、邏輯推理、情感共鳴,已經(jīng)足以重寫語音交互市場,幫助20億臺智能終端向機(jī)器人升級并驅(qū)動萬物互聯(lián)的第六次產(chǎn)業(yè)浪潮井噴。

每一臺智能終端都能變成機(jī)器人

在2023年科大訊飛全球1024開發(fā)者節(jié)上,華為科技有限公司副董事長、輪值董事長徐直軍曾表示,“華為公司在全球所有使用的智能終端的語音技術(shù),都是來自于科大訊飛,而且不僅僅是中文”。

第三方機(jī)構(gòu)QuestMobile的數(shù)據(jù)顯示,截至今年2月,華為的活躍終端設(shè)備數(shù)量已經(jīng)超過2.8億臺。而華為公布的數(shù)據(jù)則顯示,鴻蒙生態(tài)設(shè)備數(shù)量已經(jīng)突破了8億臺。這背后是龐大的移動物聯(lián)網(wǎng),工信部公布的統(tǒng)計數(shù)據(jù)顯示,去年5月底,我國的移動物聯(lián)網(wǎng)終端用戶超過20.5億,包括手機(jī)、家電、汽車以及初具規(guī)模的機(jī)器人。

語音是終端設(shè)備核心的交互方式之一,基于訊飛星火大模型在超擬人交互上取得的突破,終端設(shè)備可以實(shí)現(xiàn)“無感迭代”,從指令型終端晉升為可進(jìn)行多輪交互、可感知情緒、可定制化表達(dá)的擬人機(jī)器人。

試想一下,當(dāng)你的智能手機(jī)支持超擬人交互,它不僅能成為百科全書,還可以從手機(jī)升級為得力助手和陪伴者。

家中的電視機(jī)、平板電腦,能幫助孩子學(xué)習(xí),也能為老人提供更多守護(hù),既是家里的管家,也是家庭教師。

智能汽車中有超擬人交互,不僅可以提升內(nèi)容的豐富度,也可以通過增加語音交互的場景從而保障駕駛員的安全。

更為重要的是,星火大模型對多語種、多方言的支持,星火超擬人交互可以讓每一臺升級為機(jī)器人的終端設(shè)備,保證用戶具備全球通行的能力。

以智能汽車為例,2023年,中國汽車出口量超過日本,躍居全球第一,而出海十強(qiáng)企業(yè)中,有8家都在和科大訊飛合作??拼笥嶏w多語種技術(shù)已經(jīng)可以覆蓋全球60多個語種,訊飛智能車載語音系統(tǒng)覆蓋23個主要語種,搭載該系統(tǒng)的車型已銷往亞洲、歐洲、南美等地的60多個國家和地區(qū)。

從產(chǎn)業(yè)發(fā)展來看,智能語音技術(shù)正處于“黃金時代”。國際數(shù)據(jù)公司IDC的統(tǒng)計數(shù)據(jù)顯示,全球智能語音市場規(guī)模由2017年的110.3億美元增長至2022年的351.2億美元,增長幅度218.4%,年復(fù)合增長率為26.1%。

IDC還預(yù)計,到2030年,全球智能語音服務(wù)市場規(guī)模將達(dá)約731.6 億美元,復(fù)合增長率27%,保持穩(wěn)定增長的趨勢。

具體到我國,2022年我國智能語音市場達(dá)341億元,同比增長13.4%。2017年至2022年增長幅度為221.7%,復(fù)合增長率為26.33%,稍微領(lǐng)先于全球市場的增長。其中,科大訊飛在國內(nèi)市場的份額遠(yuǎn)遠(yuǎn)領(lǐng)先于百度、蘋果等公司。

今年1月,科大訊飛推出了星火大模型V3.5,5個月后就升級到了V4.0,整體能力超越了OpenAI的GPT-4 Turbo。僅僅兩個月后,星火大模型就支持了極速超擬人交互,為萬物互聯(lián)時代入口探索出更多的交互可能。

訊飛星火大模型不僅在底層能力方面走得更穩(wěn),更在應(yīng)用上開足了馬力,同步實(shí)現(xiàn)了對全球頂級大模型的趕超以及自身優(yōu)勢模型能力結(jié)合實(shí)際場景的落地,把新技術(shù)轉(zhuǎn)化為新應(yīng)用,為用戶創(chuàng)造了真正的價值。

 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。