文|獵云網(wǎng) 孫媛
“這不降維battle訊飛嗎?”
昨日,在朋友圈一張通義聽悟的專屬口令福利海報(bào)下,一位媒體工作者留言道。
彼時(shí)在粵港灣大灣區(qū)的廣州,阿里云CTO周靖人對通義聽悟給出了如下描述:作為一款工作學(xué)習(xí)AI助手,聽悟瞄準(zhǔn)具有高知識(shí)附加值的音視頻內(nèi)容場景,比如開會(huì)、上課、訪談、培訓(xùn)、面試、直播、看視頻、聽播客等,能通過大模型等最新AI技術(shù)快速提煉和沉淀知識(shí)。
一言以蔽之,就是聽力好、悟性高,可以幫人隨時(shí)隨地高效完成對音視頻內(nèi)容的轉(zhuǎn)寫、檢索、摘要和整理,比如自動(dòng)做筆記、整理訪談、提取PPT等。而這正是訊飛腹地——訊飛聽見的主戰(zhàn)場。
有意思的是,此前5月,同樣也在粵港灣大灣區(qū),只不過在澳門,科大訊飛亮相了其大模型軟件產(chǎn)品“訊飛聽見會(huì)寫”,就是基于對音頻文件的內(nèi)容AI分析,自動(dòng)生成會(huì)議紀(jì)要、工作代辦、工作計(jì)劃,并支持基于原文內(nèi)容進(jìn)行AI對話和內(nèi)容追溯。
簡單來看,不僅功能類同,甚至展示的選址都相近。
會(huì)上,阿里云也毫不掩飾自己要挑戰(zhàn)智能語音轉(zhuǎn)寫頭部的野心,直接拿出了互聯(lián)網(wǎng)慣用的“補(bǔ)貼換用戶”的攻城略地式營銷策略。公測期間,大量發(fā)放20小時(shí)轉(zhuǎn)寫口令碼,甚至權(quán)益可累加達(dá)免費(fèi)時(shí)長100小時(shí)以上,以訊飛聽見App中文/英文機(jī)器快轉(zhuǎn)標(biāo)準(zhǔn)價(jià)格0.33元/分鐘來計(jì)算,聽悟100小時(shí)免費(fèi)時(shí)長可以說是給目標(biāo)用戶節(jié)省1980元的支出。
不管如何,先說一句,補(bǔ)貼“真香”。
對標(biāo)訊飛,聽悟有何不同
事實(shí)上,這不是獵云網(wǎng)第一次接觸到聽悟。在之前的云棲大會(huì)上,聽悟就有內(nèi)測版本,已經(jīng)有離線語音/視頻轉(zhuǎn)寫、實(shí)時(shí)轉(zhuǎn)寫、角色分離、分屏記錄等功能。但當(dāng)時(shí),阿里云的低調(diào)內(nèi)測算是點(diǎn)到為止,好奇者先行。
時(shí)至今日,接入大模型能力的“通義聽悟”,作為一個(gè)大模型版的聚焦音視頻內(nèi)容的工作學(xué)習(xí)AI助手,融合了研發(fā)團(tuán)隊(duì)在推理、對齊和對話問答等方面的研究成果,不僅能完成錄音轉(zhuǎn)寫,還能一鍵總結(jié)全文及不同發(fā)言人觀點(diǎn),顯然也跟之前版本有較大提升。
根據(jù)周靖人所說,聽悟有兩層含義,首先是“聽”,能夠聽清內(nèi)容,第二層含義是要“悟”,能夠要理解其中的意思,真正為日常的工作、學(xué)習(xí)提高效能。故而此次獵云網(wǎng)的簡單測評也主要圍繞這兩點(diǎn)展開。
首先,要想嘗試此次公測版本,目前微信小程序端不支持實(shí)時(shí)轉(zhuǎn)寫,主要還是通過通義聽悟官網(wǎng)進(jìn)行使用,同時(shí)可以關(guān)聯(lián)自己的阿里云盤,進(jìn)行音視頻內(nèi)容導(dǎo)入。語音轉(zhuǎn)換上,可以開啟實(shí)時(shí)記錄(實(shí)時(shí)語音轉(zhuǎn)文字)和上傳音視頻(音視頻轉(zhuǎn)文字)兩種方式來實(shí)現(xiàn)。
在進(jìn)行實(shí)時(shí)記錄并同步翻譯測試上,獵云網(wǎng)采用了B站上TED官方標(biāo)題為《ChatGPT如此強(qiáng)大,AI的崛起讓人類何去何從?》的視頻語音。在同步翻譯的過程中,可以發(fā)現(xiàn)比對中文字幕,聽悟的翻譯結(jié)果總體意思理解尚可,但是在語句在翻譯的順序上有所偏差,譬如“在關(guān)于未來工作真正有用的東西”,聽悟的結(jié)果為“有用的關(guān)于工作的未來”,同時(shí)可能存在部分缺漏的翻譯情況,譬如“他們可能會(huì)搶走我們所有的工作”,關(guān)于“搶走”這個(gè)動(dòng)詞沒有體現(xiàn)。
來源:獵云網(wǎng)
在音視頻轉(zhuǎn)文字測試上,獵云網(wǎng)采用了訊飛聽見錄音筆錄制的一段內(nèi)容,通過上傳阿里云盤,同步到聽悟進(jìn)行語音轉(zhuǎn)換,發(fā)現(xiàn)就微弱語音的信息捕捉上,聽悟優(yōu)于訊飛聽見,捕捉了一句訊飛聽見未轉(zhuǎn)換的內(nèi)容,而轉(zhuǎn)換的準(zhǔn)確度上,訊飛聽見更勝一籌,跟錄音內(nèi)容一致,但聽悟會(huì)出現(xiàn)個(gè)別詞的錯(cuò)誤轉(zhuǎn)換。
來源:獵云網(wǎng)
雖然在聽上,聽悟從此次測試比對上總體看略遜色于訊飛聽見,但悟的理解及分析能力著實(shí)讓人眼前一亮,就獵云網(wǎng)提供的錄音來看,聽悟在全文概要、章節(jié)速覽以及關(guān)鍵詞提取上除了個(gè)別字眼的錯(cuò)誤外,整體較為準(zhǔn)確,對于文字工作者來說其增效明顯。
來源:聽悟截圖
從某種程度上來說,通義聽悟定位為面向工作、學(xué)習(xí)的AI助手,是實(shí)至名歸。通義聽悟雖然現(xiàn)在才進(jìn)行公測,但早在阿里巴巴內(nèi)部開展使用,并經(jīng)歷了從聽到悟的升級(jí)過程。
據(jù)通義聽悟技術(shù)負(fù)責(zé)人鄢志杰透露,過去很多項(xiàng)目管理的同學(xué)上項(xiàng)目會(huì),例如投資部到外面訪談、盡職調(diào)查,以及人力資源招聘等內(nèi)部場景,聽悟更多還是做語音的記錄、簡單回顧跟整理。但從2019年開始,阿里云陸續(xù)在大模型方面進(jìn)行重點(diǎn)研發(fā)跟積累,在基于通義千問大模型對文字和知識(shí)體系的理解+阿里云在音視頻相關(guān)的模型能力,聽悟才得以實(shí)現(xiàn)AI能力的場景化。
瞄準(zhǔn)智能語音轉(zhuǎn)寫,實(shí)則以模型服務(wù)開局
正如上文所說,聽悟?qū)?biāo)的是訊飛聽見,但之所以阿里云先盯上音視頻轉(zhuǎn)寫領(lǐng)域,一方面是有著多年語音技術(shù)的積累,另一方面也是瞄準(zhǔn)了科大訊飛在國內(nèi)智能語音轉(zhuǎn)寫市場的核心領(lǐng)地。
自2017年11月訊飛在“用AI為世界賦能”的發(fā)布會(huì)上,“順手”展示了訊飛聽見的中英文實(shí)時(shí)字幕,便讓這項(xiàng)堪稱黑科技的產(chǎn)品,讓其在AI 1.0時(shí)代初期,迅速確立了AI龍頭的位置。六年間,訊飛營收從2017年的54.45億,一躍增長至2022年的188.20億,對應(yīng)28.15%的復(fù)合增速。
其中,訊飛主要提供AI解決方案平臺(tái)、智能硬件(錄音筆)和移動(dòng)互聯(lián)網(wǎng)增值產(chǎn)品(輸入法、訊飛聽見)的開放平臺(tái)及消費(fèi)者業(yè)務(wù),是僅次于教育領(lǐng)域的第二大營收來源。在2020年至2022年,該業(yè)務(wù)的營收占比從23.65%增長至2022年的24.66%。營收從30.8億增長至2022年的46.4億,對應(yīng)復(fù)合增速為22.74%。
從訊飛的數(shù)據(jù)來看,智能語音從企業(yè)營收以及用戶需求層面是一個(gè)值得切入的好市場,除以科大訊飛、搜狗為代表的專業(yè)智能語音企業(yè)外,以阿里云、騰訊云為代表的云服務(wù)廠商,以網(wǎng)易為代表的專業(yè)轉(zhuǎn)寫或翻譯廠商等也一直躍躍欲試,頗有三分天下的態(tài)勢。
這一次,阿里云切入訊飛腹地,也算在意料之中。
只不過就拿產(chǎn)品和價(jià)格來說,目前功能相差不大的情況下,訊飛聽見的用戶可能并不一定會(huì)對聽悟太感冒。聽悟“補(bǔ)貼”雖香,但不要忘了科大訊飛多年前其憑一招“智能錄音筆用戶享終身免費(fèi)翻錄服務(wù)”,一舉收割了編輯、分析師、律師、HR、學(xué)生等大量市場需求,行業(yè)地位暫時(shí)無人能及。
據(jù)公開資料顯示,科大訊飛的智能錄音筆市場份額在2022年增至44%,在雙十一期間內(nèi)占GMV市場份額的57%,市場份額一直保持第一。
從這個(gè)角度去看,聽悟現(xiàn)在高調(diào)殺入智能語音市場,為battle訊飛造勢及免費(fèi)福利派送,更像是阿里云號(hào)召大家來對聽悟進(jìn)行一次“嘗試”,背后是來感受通義千問大模型的能力。
通義聽悟背后依賴通義千問大模型,主要基于阿里云一系列技術(shù)投入以及相關(guān)的進(jìn)展,而云和整個(gè)智能化密不可分。
周靖人在4月份有提到過云智一體等方面內(nèi)容,阿里云從一開始設(shè)計(jì)包含云和智能,這是兩個(gè)重要相輔相成的環(huán)節(jié)。他表示,特別是從IaaS、MaaS、PaaS三層的架構(gòu)來看,所有范疇其實(shí)都是在講云整體的技術(shù),包括通義聽悟以及通義千問,都是云技術(shù)在這個(gè)時(shí)代怎么快速變革、快速應(yīng)對以及在新時(shí)代浪潮里如何不斷創(chuàng)新。
通義千問發(fā)布之后,阿里云就陸續(xù)在全國推進(jìn)快速部署AI模型的工作,而通義聽悟的推出更多像是一種官宣:阿里云不光在算法層面上,還把模型能力提升到產(chǎn)品里面,去服務(wù)到更多開發(fā)者或者各行各業(yè)。
也就是說,在這一波聲勢之下,阿里云以通義聽悟作為MaaS(模型即服務(wù))環(huán)節(jié)下的典型,想讓更多企業(yè)及開發(fā)者注意到,通過把模型訓(xùn)練和模型服務(wù)的成本不斷降低,開發(fā)者可以把模型有效使用起來,對模型進(jìn)行二次開發(fā),讓阿里云的AI能力可以集成到他們業(yè)務(wù)中去,進(jìn)行更多云上創(chuàng)新。
有專注大模型研究的投資人表示,語音轉(zhuǎn)文字能力各家其實(shí)差距不大,轉(zhuǎn)寫是一般能力,更重要的是能做到丟失重要內(nèi)容的情況下去結(jié)構(gòu)化改寫總結(jié)才是突破。
“就通義聽悟來說,更像是阿里云給通義千問大模型找落地場景,以及從數(shù)據(jù)源積累上看也更為合理?!?/p>
卷大模型之爭,AI技術(shù)應(yīng)用成焦點(diǎn)
頗有意思的是,這邊通義千問降維用通義聽悟?qū)?biāo)訊飛聽見,那邊科大訊飛也以星火大模型飆入國內(nèi)大語言模型賽道,其CEO劉慶峰還強(qiáng)調(diào)“現(xiàn)在訊飛星火的語言理解能力,不僅在國內(nèi)是遙遙領(lǐng)先的,跟ChatGPT也僅僅一步之遙”、“我們在今年十月份之前就會(huì)超過(ChatGPT)”。
豪言壯志之下,科大訊飛的一季度財(cái)報(bào)并不好看,營業(yè)收入28.88億元,同比減少17.64%;歸屬于上市公司股東的凈利潤-5789.53萬元,上年同期為盈利1.11億元,營收、凈利雙降。當(dāng)然這也部分“歸功”于公司2022年12月15日啟動(dòng)了“1+N認(rèn)知智能大模型專項(xiàng)攻關(guān)”,攻關(guān)項(xiàng)目的新增投入。今年一季度,科大訊飛的研發(fā)投入達(dá)到7.157億,同比增加了近6%。
從聽悟PK聽見,通義千問PK星火,不難發(fā)現(xiàn),從這場智能語音的技術(shù)應(yīng)用往上看,實(shí)質(zhì)是大模型的根本較量。
據(jù)不完全統(tǒng)計(jì),2月復(fù)旦大學(xué)發(fā)布MOSS;3月清華大學(xué)發(fā)布ChatGLM-6B、百度發(fā)布文心一言;4月阿里云發(fā)布通義千問、知乎發(fā)布知海圖AI;5月,科大訊飛發(fā)布星火、騰訊發(fā)布混元、360發(fā)布360GPT。再到5月31日,百度創(chuàng)始人李彥宏宣布啟動(dòng)“文心杯”創(chuàng)業(yè)大賽,設(shè)立規(guī)模10億元投資基金支持生成式AI領(lǐng)域初創(chuàng)企業(yè),一場從大模型層到應(yīng)用層的AI狂潮正在加速。
從百度智能云在本季度實(shí)現(xiàn)了盈利(non-GAAP)來看,百度率先吃到了大模型的紅利,而李彥宏也表示計(jì)劃逐步將文心一言融入百度的所有業(yè)務(wù),為產(chǎn)品及服務(wù)賦能,吸引更廣泛的用戶及客戶,圍繞文心一言在新的時(shí)代中建立新生態(tài)。
對比之下,5月18日阿里云2023財(cái)年?duì)I收增速為3.5%,意味著在生成式AI帶來了人工智能新模式的變革中,在云之上,阿里云亟需尋求新增量——大模型至關(guān)重要。
在通義聽悟發(fā)布前,阿里云就推出了一系列全新的產(chǎn)品和價(jià)格政策,包括AI 大模型通義千問的成果展示及行業(yè)探索、推出核心產(chǎn)品降價(jià)和免費(fèi)試用計(jì)劃、大幅提高合作伙伴傭金率等。但萬變不離其宗,主要目標(biāo)就是擴(kuò)大阿里云公共云的客戶數(shù)量和用云規(guī)模,并帶動(dòng)各類 AI 模型訓(xùn)練和服務(wù)所需的高性能算力的增長,來為阿里云的長遠(yuǎn)發(fā)展構(gòu)建更可持續(xù)的增長動(dòng)力。
正如周靖人所說,通義聽悟的發(fā)布并不是一個(gè)終點(diǎn),而是一個(gè)新起點(diǎn)。
這場基于大模型的產(chǎn)品和企業(yè)解決方案的較量,序幕已拉開。