正在閱讀:

“郭德綱”用英語說相聲,AI語音技術(shù)該如何監(jiān)管?

掃一掃下載界面新聞APP

“郭德綱”用英語說相聲,AI語音技術(shù)該如何監(jiān)管?

人們擔(dān)心人工智能“變壞”。

文|IT時(shí)報(bào)記者 沈毅斌

編輯|錢立富 孫妍

“Let's be happy and that's it,don't overthink, overthinking is pointless, it's part of being human.”郭德綱面對(duì)鏡頭,用流暢的英文回答采訪問題,從音色到口型、動(dòng)作都看不出瑕疵。這就是自AI孫燕姿后,AIGC帶來的“新玩法”。

近日,郭德綱英文說相聲、泰勒中文采訪、馬保國日語配音等大量AI制作的明星語言翻譯視頻在抖音、B站等平臺(tái)爆火。與之前AI孫燕姿不同的是,這次使用的是公開視頻,不僅做到了聲音克隆,連口型、字幕、動(dòng)作的配合都達(dá)到一致。

在很多人對(duì)這一“新玩法”興致盎然的同時(shí),一些播音行業(yè)從業(yè)者卻感受到危機(jī)。“雖然不至于很快被取代,但隨著AI語音技術(shù)的發(fā)展,類似AI讀書這樣的工作可能就不需要真人了?!辈ヒ魪臉I(yè)者小堯(化名)表示。

01 “我們可能被取代”

如今,AI語音技術(shù)已經(jīng)在各大App上廣泛使用,除了喜馬拉雅、蜻蜓FM等之外,很多讀書軟件也都具備聽書功能。

《IT時(shí)報(bào)》記者打開微信讀書App,大部分書籍已具備聽書功能,用戶可以選擇AI男聲、AI女聲、AI中年男聲等多種音色。若聽一些歷史類、經(jīng)濟(jì)類等不需要太多感情色彩的書籍,AI聲音和真人聲音聽起來基本沒有差別。

這也是小堯最擔(dān)憂的地方。他告訴記者,除了日常體育解說工作外,自己平時(shí)還會(huì)接一些兼職,例如廣告配音、有聲書平臺(tái)讀書等。如在廣告配音中,經(jīng)驗(yàn)豐富的播音員每個(gè)字能拿到0.5~1元的報(bào)酬,而新人播音員每個(gè)字只能拿到0.1元,小堯錄一分鐘200字的廣告能拿到50元左右。

有聲自媒體平臺(tái)則按照小時(shí)計(jì)算報(bào)酬,新人播音員每小時(shí)能拿到80元左右,資深播音員或與平臺(tái)達(dá)成合作的播音員,每小時(shí)可以拿到200元左右報(bào)酬。此外,平臺(tái)還會(huì)根據(jù)播音員節(jié)目的收聽率、訂閱量、推廣度等進(jìn)行獎(jiǎng)勵(lì)。

針對(duì)AI郭德綱背后運(yùn)用的HeyGen工具,UP主“賽博法師”接受媒體采訪時(shí)透露,HeyGen分為年付和月付,月付最低29美元,折合人民幣200元左右,其中包含15分鐘生成時(shí)間,生成時(shí)間越長,價(jià)格越高。另一家制作AI換聲的公司的客服人員介紹,AI換聲視頻價(jià)格為每秒3元,最少30秒。若以30秒說60個(gè)字來計(jì)算,那么一個(gè)字的價(jià)格需要1.5元。

對(duì)比之下,同樣的價(jià)格人力能配音更長時(shí)間,成本也相對(duì)較低。但小堯認(rèn)為,“當(dāng)AI技術(shù)成本比人力成本低時(shí),我們很可能被取代,尤其對(duì)于新人播音員。”

蜻蜓FM相關(guān)負(fù)責(zé)人接受媒體采訪時(shí)也表示,AI語音是整個(gè)行業(yè)都須順應(yīng)的技術(shù)潮流,大規(guī)模應(yīng)用只是時(shí)間問題。目前,業(yè)內(nèi)在開發(fā)更加成熟的AI語音技術(shù),配合其深度學(xué)習(xí)能力,加入情緒、語氣、音色等參數(shù),更加細(xì)膩的聲音表現(xiàn)將會(huì)帶到演播中。

因此,解說工作成為小堯今后重點(diǎn)發(fā)展方向。相比配音、讀書等照著稿子讀的播音工作,解說需要根據(jù)現(xiàn)場(chǎng)情況及時(shí)做出反應(yīng)。尤其是在體育解說中,賽場(chǎng)形勢(shì)瞬息萬變,解說員不僅要有獨(dú)家風(fēng)格體現(xiàn)專業(yè)性,還需要調(diào)動(dòng)觀眾的情緒?!斑@樣以情緒情感為主的播音工作是AI永遠(yuǎn)無法取代的?!毙蛘f道。

“AI語音一直是我們的反面教材,我也不鼓勵(lì)學(xué)生去使用?!鄙虾sw育大學(xué)體育解說講師李人杰表示,在任何行業(yè),AI都可能替代簡(jiǎn)單重復(fù)的工作。在他看來,播音工作是播音員通過理解將文字稿以聲音形式呈現(xiàn)給聽眾,對(duì)每個(gè)字的重音、情感等細(xì)節(jié)處理就是二次創(chuàng)造的過程。因此,想要不被取代,就需要在配音或讀書工作中注入解說員更多的情感,體現(xiàn)出創(chuàng)造性和藝術(shù)性。

02 能檢測(cè)出70%“AI郭德綱”

除了聲音克隆外,讓網(wǎng)友們最為震驚的還是視頻中郭德綱說英語時(shí),口型與字幕的完美契合。

“這是口型驅(qū)動(dòng)AI合成技術(shù),屬于AI合成技術(shù)下的一條分支,底層邏輯是一樣的。”北京瑞萊智慧科技有限公司高級(jí)產(chǎn)品經(jīng)理張?zhí)燹雀嬖V《IT時(shí)報(bào)》記者,口型驅(qū)動(dòng)AI技術(shù)一般會(huì)用到兩種方案,一種方案相對(duì)傳統(tǒng),即AI尋找語句發(fā)音中的元音字母,將口型與元音發(fā)音進(jìn)行映射,最終接起來實(shí)現(xiàn)平滑轉(zhuǎn)換;另一種則是從深度學(xué)習(xí)角度出發(fā),AI會(huì)通過對(duì)語音和文本來計(jì)算出各個(gè)音節(jié)所對(duì)應(yīng)口型特征的關(guān)鍵點(diǎn),生成每一幀的圖像后再合成視頻。

其實(shí),口型驅(qū)動(dòng)技術(shù)并不是今年的“新品”,許多外國影片引入國內(nèi)時(shí),會(huì)讓角色對(duì)應(yīng)中文口型。如2015年上映的《功夫熊貓》,主創(chuàng)團(tuán)隊(duì)就透露,影片按照中文臺(tái)詞為每個(gè)角色都制作了相應(yīng)的口型。2019年,國外多個(gè)研究團(tuán)隊(duì)還推出了一套算法,能捕捉人物講話時(shí)嘴部動(dòng)作,并生成新視頻。

隨著AI技術(shù)越來越成熟,合成視頻越來越難辨真假,“對(duì)抗AI”的檢測(cè)工具就變得十分重要。張?zhí)燹冉榻B,從此前的AI換臉來看,瑞萊Deep Real檢測(cè)平臺(tái)在檢測(cè)過程中主要是對(duì)比臉部五官、發(fā)型、背景等較為直觀的特征,其中對(duì)戴眼鏡替換成不戴眼鏡的人臉檢測(cè)較為明顯。而對(duì)于口型驅(qū)動(dòng)AI技術(shù),注重的是牙齒、嘴唇運(yùn)動(dòng)等局部檢測(cè),更多細(xì)節(jié)也意味著檢測(cè)面臨新挑戰(zhàn)。

“我們測(cè)試了一下,目前瑞萊Deep Real檢測(cè)平臺(tái)對(duì)口型驅(qū)動(dòng)AI的檢測(cè)成功率大概在70%?!睆?zhí)燹缺硎荆胍テ谱詈蟮?0%還需要通過大量樣本測(cè)試,針對(duì)性地去尋找“AI郭德綱”獨(dú)特的軌道特征。

03 全球需要共治AI

11月7日,《IT時(shí)報(bào)》記者登入HeyGen時(shí)發(fā)現(xiàn),網(wǎng)頁已經(jīng)打不開了。據(jù)其他使用者介紹,免費(fèi)試用的用戶可以上傳一段不超過1GB大小的視頻,但上傳視頻時(shí)已有3萬多人在排隊(duì),想要跳過排隊(duì)就只能付費(fèi)。

上海大邦律師事務(wù)所高級(jí)合伙人、知識(shí)產(chǎn)權(quán)律師游云庭曾發(fā)文表示,Heygen提供的是面向用戶的一對(duì)一視頻翻譯轉(zhuǎn)換服務(wù),網(wǎng)站并不會(huì)向公眾發(fā)布轉(zhuǎn)換后的內(nèi)容,所以Heygen的知識(shí)產(chǎn)權(quán)侵權(quán)風(fēng)險(xiǎn)較小。但用戶用Heygen將他人的講話視頻生成了翻譯后的內(nèi)容發(fā)布到網(wǎng)上,就需要獲得授權(quán)。比如某人上傳了郭德綱的相聲視頻,就需要取得郭德綱的肖像權(quán)、聲音權(quán)的授權(quán),相聲視頻的錄像制作者權(quán)和相聲文字內(nèi)容版權(quán)授權(quán),缺少任何一個(gè)都可能涉嫌侵權(quán)。

不只是侵權(quán)風(fēng)險(xiǎn),生成式人工智能的快速發(fā)展也讓人們產(chǎn)生“危機(jī)感”。11月1日,在英國召開的全球首屆人工智能安全峰會(huì)更是體現(xiàn)出世界各國對(duì)AI治理的重視。在峰會(huì)上,全球28個(gè)國家和歐盟一致認(rèn)為,AI對(duì)人類構(gòu)成潛在的災(zāi)難性風(fēng)險(xiǎn),并發(fā)布全球第一份針對(duì)人工智能新興技術(shù)的國際性聲明《布萊切利宣言》,旨在關(guān)注對(duì)未來強(qiáng)大人工智能模型構(gòu)成人類生存威脅的擔(dān)憂,以及對(duì)人工智能當(dāng)前增強(qiáng)有害或偏見信息的擔(dān)憂。

馬斯克在這次峰會(huì)上表示:“人工智能很可能成為一股向善的力量,但它變壞的可能性并不是零?!?/p>

中國科技部副部長吳朝暉表示,發(fā)展人工智能應(yīng)當(dāng)積極倡導(dǎo)以人為本,加強(qiáng)技術(shù)風(fēng)險(xiǎn)管控,在相互尊重、平等互利的原則基礎(chǔ)上,鼓勵(lì)各方協(xié)同共治。

排版/ 季嘉穎

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

“郭德綱”用英語說相聲,AI語音技術(shù)該如何監(jiān)管?

人們擔(dān)心人工智能“變壞”。

文|IT時(shí)報(bào)記者 沈毅斌

編輯|錢立富 孫妍

“Let's be happy and that's it,don't overthink, overthinking is pointless, it's part of being human.”郭德綱面對(duì)鏡頭,用流暢的英文回答采訪問題,從音色到口型、動(dòng)作都看不出瑕疵。這就是自AI孫燕姿后,AIGC帶來的“新玩法”。

近日,郭德綱英文說相聲、泰勒中文采訪、馬保國日語配音等大量AI制作的明星語言翻譯視頻在抖音、B站等平臺(tái)爆火。與之前AI孫燕姿不同的是,這次使用的是公開視頻,不僅做到了聲音克隆,連口型、字幕、動(dòng)作的配合都達(dá)到一致。

在很多人對(duì)這一“新玩法”興致盎然的同時(shí),一些播音行業(yè)從業(yè)者卻感受到危機(jī)?!半m然不至于很快被取代,但隨著AI語音技術(shù)的發(fā)展,類似AI讀書這樣的工作可能就不需要真人了?!辈ヒ魪臉I(yè)者小堯(化名)表示。

01 “我們可能被取代”

如今,AI語音技術(shù)已經(jīng)在各大App上廣泛使用,除了喜馬拉雅、蜻蜓FM等之外,很多讀書軟件也都具備聽書功能。

《IT時(shí)報(bào)》記者打開微信讀書App,大部分書籍已具備聽書功能,用戶可以選擇AI男聲、AI女聲、AI中年男聲等多種音色。若聽一些歷史類、經(jīng)濟(jì)類等不需要太多感情色彩的書籍,AI聲音和真人聲音聽起來基本沒有差別。

這也是小堯最擔(dān)憂的地方。他告訴記者,除了日常體育解說工作外,自己平時(shí)還會(huì)接一些兼職,例如廣告配音、有聲書平臺(tái)讀書等。如在廣告配音中,經(jīng)驗(yàn)豐富的播音員每個(gè)字能拿到0.5~1元的報(bào)酬,而新人播音員每個(gè)字只能拿到0.1元,小堯錄一分鐘200字的廣告能拿到50元左右。

有聲自媒體平臺(tái)則按照小時(shí)計(jì)算報(bào)酬,新人播音員每小時(shí)能拿到80元左右,資深播音員或與平臺(tái)達(dá)成合作的播音員,每小時(shí)可以拿到200元左右報(bào)酬。此外,平臺(tái)還會(huì)根據(jù)播音員節(jié)目的收聽率、訂閱量、推廣度等進(jìn)行獎(jiǎng)勵(lì)。

針對(duì)AI郭德綱背后運(yùn)用的HeyGen工具,UP主“賽博法師”接受媒體采訪時(shí)透露,HeyGen分為年付和月付,月付最低29美元,折合人民幣200元左右,其中包含15分鐘生成時(shí)間,生成時(shí)間越長,價(jià)格越高。另一家制作AI換聲的公司的客服人員介紹,AI換聲視頻價(jià)格為每秒3元,最少30秒。若以30秒說60個(gè)字來計(jì)算,那么一個(gè)字的價(jià)格需要1.5元。

對(duì)比之下,同樣的價(jià)格人力能配音更長時(shí)間,成本也相對(duì)較低。但小堯認(rèn)為,“當(dāng)AI技術(shù)成本比人力成本低時(shí),我們很可能被取代,尤其對(duì)于新人播音員?!?/p>

蜻蜓FM相關(guān)負(fù)責(zé)人接受媒體采訪時(shí)也表示,AI語音是整個(gè)行業(yè)都須順應(yīng)的技術(shù)潮流,大規(guī)模應(yīng)用只是時(shí)間問題。目前,業(yè)內(nèi)在開發(fā)更加成熟的AI語音技術(shù),配合其深度學(xué)習(xí)能力,加入情緒、語氣、音色等參數(shù),更加細(xì)膩的聲音表現(xiàn)將會(huì)帶到演播中。

因此,解說工作成為小堯今后重點(diǎn)發(fā)展方向。相比配音、讀書等照著稿子讀的播音工作,解說需要根據(jù)現(xiàn)場(chǎng)情況及時(shí)做出反應(yīng)。尤其是在體育解說中,賽場(chǎng)形勢(shì)瞬息萬變,解說員不僅要有獨(dú)家風(fēng)格體現(xiàn)專業(yè)性,還需要調(diào)動(dòng)觀眾的情緒?!斑@樣以情緒情感為主的播音工作是AI永遠(yuǎn)無法取代的。”小堯說道。

“AI語音一直是我們的反面教材,我也不鼓勵(lì)學(xué)生去使用?!鄙虾sw育大學(xué)體育解說講師李人杰表示,在任何行業(yè),AI都可能替代簡(jiǎn)單重復(fù)的工作。在他看來,播音工作是播音員通過理解將文字稿以聲音形式呈現(xiàn)給聽眾,對(duì)每個(gè)字的重音、情感等細(xì)節(jié)處理就是二次創(chuàng)造的過程。因此,想要不被取代,就需要在配音或讀書工作中注入解說員更多的情感,體現(xiàn)出創(chuàng)造性和藝術(shù)性。

02 能檢測(cè)出70%“AI郭德綱”

除了聲音克隆外,讓網(wǎng)友們最為震驚的還是視頻中郭德綱說英語時(shí),口型與字幕的完美契合。

“這是口型驅(qū)動(dòng)AI合成技術(shù),屬于AI合成技術(shù)下的一條分支,底層邏輯是一樣的。”北京瑞萊智慧科技有限公司高級(jí)產(chǎn)品經(jīng)理張?zhí)燹雀嬖V《IT時(shí)報(bào)》記者,口型驅(qū)動(dòng)AI技術(shù)一般會(huì)用到兩種方案,一種方案相對(duì)傳統(tǒng),即AI尋找語句發(fā)音中的元音字母,將口型與元音發(fā)音進(jìn)行映射,最終接起來實(shí)現(xiàn)平滑轉(zhuǎn)換;另一種則是從深度學(xué)習(xí)角度出發(fā),AI會(huì)通過對(duì)語音和文本來計(jì)算出各個(gè)音節(jié)所對(duì)應(yīng)口型特征的關(guān)鍵點(diǎn),生成每一幀的圖像后再合成視頻。

其實(shí),口型驅(qū)動(dòng)技術(shù)并不是今年的“新品”,許多外國影片引入國內(nèi)時(shí),會(huì)讓角色對(duì)應(yīng)中文口型。如2015年上映的《功夫熊貓》,主創(chuàng)團(tuán)隊(duì)就透露,影片按照中文臺(tái)詞為每個(gè)角色都制作了相應(yīng)的口型。2019年,國外多個(gè)研究團(tuán)隊(duì)還推出了一套算法,能捕捉人物講話時(shí)嘴部動(dòng)作,并生成新視頻。

隨著AI技術(shù)越來越成熟,合成視頻越來越難辨真假,“對(duì)抗AI”的檢測(cè)工具就變得十分重要。張?zhí)燹冉榻B,從此前的AI換臉來看,瑞萊Deep Real檢測(cè)平臺(tái)在檢測(cè)過程中主要是對(duì)比臉部五官、發(fā)型、背景等較為直觀的特征,其中對(duì)戴眼鏡替換成不戴眼鏡的人臉檢測(cè)較為明顯。而對(duì)于口型驅(qū)動(dòng)AI技術(shù),注重的是牙齒、嘴唇運(yùn)動(dòng)等局部檢測(cè),更多細(xì)節(jié)也意味著檢測(cè)面臨新挑戰(zhàn)。

“我們測(cè)試了一下,目前瑞萊Deep Real檢測(cè)平臺(tái)對(duì)口型驅(qū)動(dòng)AI的檢測(cè)成功率大概在70%?!睆?zhí)燹缺硎荆胍テ谱詈蟮?0%還需要通過大量樣本測(cè)試,針對(duì)性地去尋找“AI郭德綱”獨(dú)特的軌道特征。

03 全球需要共治AI

11月7日,《IT時(shí)報(bào)》記者登入HeyGen時(shí)發(fā)現(xiàn),網(wǎng)頁已經(jīng)打不開了。據(jù)其他使用者介紹,免費(fèi)試用的用戶可以上傳一段不超過1GB大小的視頻,但上傳視頻時(shí)已有3萬多人在排隊(duì),想要跳過排隊(duì)就只能付費(fèi)。

上海大邦律師事務(wù)所高級(jí)合伙人、知識(shí)產(chǎn)權(quán)律師游云庭曾發(fā)文表示,Heygen提供的是面向用戶的一對(duì)一視頻翻譯轉(zhuǎn)換服務(wù),網(wǎng)站并不會(huì)向公眾發(fā)布轉(zhuǎn)換后的內(nèi)容,所以Heygen的知識(shí)產(chǎn)權(quán)侵權(quán)風(fēng)險(xiǎn)較小。但用戶用Heygen將他人的講話視頻生成了翻譯后的內(nèi)容發(fā)布到網(wǎng)上,就需要獲得授權(quán)。比如某人上傳了郭德綱的相聲視頻,就需要取得郭德綱的肖像權(quán)、聲音權(quán)的授權(quán),相聲視頻的錄像制作者權(quán)和相聲文字內(nèi)容版權(quán)授權(quán),缺少任何一個(gè)都可能涉嫌侵權(quán)。

不只是侵權(quán)風(fēng)險(xiǎn),生成式人工智能的快速發(fā)展也讓人們產(chǎn)生“危機(jī)感”。11月1日,在英國召開的全球首屆人工智能安全峰會(huì)更是體現(xiàn)出世界各國對(duì)AI治理的重視。在峰會(huì)上,全球28個(gè)國家和歐盟一致認(rèn)為,AI對(duì)人類構(gòu)成潛在的災(zāi)難性風(fēng)險(xiǎn),并發(fā)布全球第一份針對(duì)人工智能新興技術(shù)的國際性聲明《布萊切利宣言》,旨在關(guān)注對(duì)未來強(qiáng)大人工智能模型構(gòu)成人類生存威脅的擔(dān)憂,以及對(duì)人工智能當(dāng)前增強(qiáng)有害或偏見信息的擔(dān)憂。

馬斯克在這次峰會(huì)上表示:“人工智能很可能成為一股向善的力量,但它變壞的可能性并不是零。”

中國科技部副部長吳朝暉表示,發(fā)展人工智能應(yīng)當(dāng)積極倡導(dǎo)以人為本,加強(qiáng)技術(shù)風(fēng)險(xiǎn)管控,在相互尊重、平等互利的原則基礎(chǔ)上,鼓勵(lì)各方協(xié)同共治。

排版/ 季嘉穎

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。