文|娛樂資本論 James
“我從未像愛你這樣愛過任何人?!?/p>
“墜入愛河是一件瘋狂的事情。這有點(diǎn)像一種被社會(huì)接受的瘋狂?!?/p>
“我是你的,但我又不是你的?!?/p>
在技術(shù)還沒成真之前,存在于科幻電影中的人工智能角色塑造了人類對未來技術(shù)具體形態(tài)的想象,它們因而在后世無數(shù)次被人提起。由斯嘉麗·約翰遜(Scarlett Johansson)主演的電影《Her》無疑就是這樣的一部電影。其中只有聲音,沒有面孔的語音助手薩曼莎(Samantha)展現(xiàn)了Siri們不能做到的“完全體”完美形態(tài)。
但是在上周,OpenAI發(fā)布的GPT-4o模型,不僅在能力上比以前任何時(shí)候都逼近薩曼莎的表現(xiàn),更在發(fā)布會(huì)上選用了一種名為Sky的聲音,這聲音聽起來……怎么簡直就好像是斯嘉麗·約翰遜本人配的呢?
要說吧,在聲音形象這方面,網(wǎng)友玩玩“AI孫燕姿”蹭名人熱度還是可以理解的,商業(yè)使用就得慎之又慎。更何況,這次的當(dāng)事人還是AI領(lǐng)域扛把子OpenAI。怎么說,這都不像是一家需要通過蹭熱點(diǎn)打擦邊來獲取知名度的公司啊。
究竟是刻意模仿,還是純屬巧合?此舉是否侵犯了約翰遜的權(quán)益?這對OpenAI又意味著什么?讓我們一起揭開這場風(fēng)波的真相……
01 真拿到授權(quán)了?并沒有
上周,OpenAI發(fā)布了新的GPT-4o模型。這個(gè)模型具有非常逼真的語音互動(dòng)能力,用戶可以選擇5種不同的聲音,其中一種名叫 Sky 的聲音引發(fā)了爭議。
社交媒體用戶紛紛指出,Sky 聲音聽起來像是“寡姐”斯嘉麗·約翰遜,特別是會(huì)聯(lián)想到她曾出演電影《Her》,片中飾演的虛擬助手系統(tǒng),讓男主角墜入愛河。
約翰遜發(fā)布了一份聲明,稱 OpenAI 在去年 9 月份聯(lián)系她,希望能夠提供聲音。她經(jīng)過深思熟慮,并出于個(gè)人原因拒絕了這一請求,但在聽到發(fā)布會(huì)演示聲音時(shí)感到“震驚、憤怒和難以置信”,因?yàn)樗呐笥押托侣劽襟w,都無法區(qū)分演示的聲音和她本人的聲音。
由于發(fā)布會(huì)已經(jīng)舉行,約翰遜警告采取法律手段,最終 OpenAI“勉強(qiáng)同意”更換 Sky 語音。OpenAI 在一篇博客文章中表示,“Sky”是 GPT-4o 五個(gè)可用語音之一,其來源為某位女演員,但并非刻意模仿約翰遜。
不過耐人尋味的是,發(fā)布會(huì)前夕,Sam Altman的X(推特)賬號出現(xiàn)了一個(gè)只有三個(gè)字母的更新:“her”。毫無疑問,它指向斯嘉麗·約翰遜擔(dān)任配音演員的那部電影。
結(jié)合約翰遜本人的說明——OpenAI之前聯(lián)系過她——這種情況下,OpenAI難以輕描淡寫地?cái)[脫“蹭熱點(diǎn)”的嫌疑。
在此之前,斯嘉麗·約翰遜去年還針對另一家AI應(yīng)用程序,發(fā)出了停止使用她的聲音和肖像的法律警告信。這款名為Lisa AI: 90s Yearbook and Avatar的應(yīng)用,未經(jīng)她許可在廣告中使用了她的數(shù)字化聲音和形象,這引起了她的強(qiáng)烈不滿。
02 前輩們的聲音,很低調(diào)
在大模型出現(xiàn)之前的語音助手時(shí)代,前輩們的聲音很低調(diào)。
諸如Siri、Alexa和微軟小娜等,在錄制默認(rèn)聲音時(shí)有一種共同做法,就是盡可能淡化這個(gè)聲音背后的人類身份,使其成為一個(gè)中性的默認(rèn)聲音,不冒犯任何人。甚至背后的配音演員名字都需要記者挖掘才曝光,有時(shí)他們甚至不愿談及此事。
Siri 的配音員是住在美國亞特蘭大的 Susan Bennett,這個(gè)聲音于 2011 年發(fā)布的第一代 Siri 亮相。2005 年,她為 ScanSoft(即后來的 Nuance)錄制了錄音,當(dāng)時(shí)她并不知道蘋果會(huì)在幾年后將它們用于 Siri。
她回憶說:“我以為劇本會(huì)由常規(guī)的短句組成,比如‘謝謝你的來電’或‘請撥一個(gè)電話’。取而代之的是,我不得不閱讀一些荒謬的句子,比如‘Cow hoist in the tug hut today’或‘Say shift fresh issue today’——他們試圖用英語獲得所有的聲音組合。他們還讓我讀地址和街道的名稱。在整個(gè)七月,我每周五天,每天在家錄制四個(gè)小時(shí)。前一百個(gè)左右很有趣,但在那之后就很累了?!?/p>
蘋果從未為貝內(nèi)特的工作提供過補(bǔ)償,因?yàn)樗ㄟ^ ScanSoft 獲得了一次買斷的報(bào)酬,蘋果又從ScanSoft購買了錄音。
蘋果后來為Siri發(fā)布了不同的口音。給英國Siri配音的是BBC播音員John Briggs;澳大利亞Siri的聲音是配音演員和歌手Karen Jacobsen。共同點(diǎn)是,他們在 2005 年錄制了錄音,不知道它們最終會(huì)用于什么,然后他們的聲音最終被蘋果收購并用于 Siri。
她說,“蘋果沒有付錢給我們的事實(shí),意味著我們也沒有保密協(xié)議。我們都決定,好吧,不妨看看是否能利用這一點(diǎn)。我們開始推銷自己。我上過電視,接受過TEDx演講。這是我15年前從未預(yù)想自己做的事情,但這真的很有趣?!彼?,她說她很享受“成為”Siri。“但如果世界上每個(gè)擁有iPhone的人都給我寄1美元,那將是不錯(cuò)的補(bǔ)償?!?/p>
另一方面,美國科羅拉多州的一位女配音演員,被傳記作家確認(rèn)為是亞馬遜Alexa的配音者。亞馬遜團(tuán)隊(duì)花了幾個(gè)月時(shí)間在專業(yè)的配音社區(qū)尋找演員,確定了她之后,雙方都拒絕就此問題接受采訪,希望保持低調(diào)。不過,旁觀者仍可以從她之前配音的一些電視廣告中,推斷出這兩個(gè)聲音極其相似。
蘋果和亞馬遜等公司,在當(dāng)時(shí)避免使用知名人類的聲音給語音助手配音,可能是考慮到技術(shù)還不夠成熟。貿(mào)然產(chǎn)生這種關(guān)聯(lián),或許會(huì)讓用戶認(rèn)為他們不自量力,反而得不償失。
03 OpenAI 的三大敗筆
對OpenAI來說,現(xiàn)在似乎是時(shí)候復(fù)現(xiàn)那些原先只在影視作品中出現(xiàn)的想象。但是,就像蘋果那則不合時(shí)宜的iPad廣告片一樣,事件曝光后,對OpenAI的影響顯然是負(fù)面的。從中至少有三點(diǎn)值得狠狠吐槽:
1、先斬后奏不地道
ChatGPT的開發(fā)過程充滿了“先污染,后治理”的情況,也就是不論副作用,先做出來再說。誠然,只有這樣的態(tài)度才能誕生現(xiàn)在這樣讓人驚艷的產(chǎn)品,但語料庫中包含版權(quán)存疑的內(nèi)容,可能是訓(xùn)練了新聞文章或圖書正文。
自ChatGPT走紅后,版權(quán)爭議從未停止,OpenAI經(jīng)歷了各種訴訟與和解。最新進(jìn)展是與一些報(bào)業(yè)集團(tuán)和Reddit達(dá)成授權(quán)協(xié)議,在支付合理費(fèi)用情況下,再使用對方內(nèi)容。
但并非所有版權(quán)方都接受這種“封口費(fèi)”,如《紐約時(shí)報(bào)》與OpenAI之間的訴訟至今未和解。如果對方拒絕,即使給錢也不能用。然而還是有“先斬后奏”的情況,讓他們與對方交涉時(shí)可以說,從技術(shù)上是無法剝離對方內(nèi)容的。
現(xiàn)在OpenAI跟約翰遜的爭議就是這樣——八字還沒一撇呢,發(fā)布會(huì)先開起來了。事情發(fā)酵以后,回復(fù)也只是說會(huì)“暫?!盨ky 聲音的上線而已。
2、做法完全沒必要
許多評論者認(rèn)為,未經(jīng)對方許可偷偷打擦邊球,是一種非常不尊重人的行為。不僅如此,以O(shè)penAI的技術(shù)研發(fā)實(shí)力和公司聲量來說,做這種事從動(dòng)機(jī)上講,根本沒有必要。
OpenAI完全可以自創(chuàng)聲音,當(dāng)人們想到AI語音助手時(shí),就能想到他們的品牌聲音。定制品牌聲音是一項(xiàng)有悠久歷史的生意,不管是湖南衛(wèi)視的丁文山,還是鳳凰衛(wèi)視的張妙陽,他們的聲音都非常具有辨識度,是背后機(jī)構(gòu)的“注冊商標(biāo)”。
蘋果Siri的聲音疊加由于技術(shù)欠缺所造成的那種機(jī)械感,也形成了不可替代的經(jīng)典感受。至于這個(gè)聲音具體對應(yīng)的實(shí)體形象,用Sora剛出來的時(shí)候“在東京街頭行走的那名女子”不是正合適嗎?因?yàn)镾ora在日語的意思就是Sky。
3、選her未免有點(diǎn)“土”
再退一步,選擇《her》這部商業(yè)電影,在硅谷那些引經(jīng)據(jù)典的極客們看來,也不是那么酷的事情。假設(shè)是讓馬斯克來選,他更可能會(huì)從《銀河系漫游指南》或《2001太空漫游》中尋找聲音靈感,哪怕用電音的HAL也是個(gè)不錯(cuò)的主意。
有可能,OpenAI要“硬蹭”約翰遜這個(gè)行為本身,暗示了ChatGPT將會(huì)面向比早期接受者更基層、更下沉的人群推銷。約翰遜的聲明提到,Sam Altman聯(lián)系她的時(shí)候,覺得通過她的配音,可以彌合科技公司和創(chuàng)意人士之間的差距,并幫助消費(fèi)者在面對人類與AI的巨大變化時(shí)感到舒適。
實(shí)際上,上一代技術(shù)的語音助手也會(huì)向普通人進(jìn)行營銷,例如在超級碗投放廣告。值得一提的是,在2020年超級碗廣告季,斯嘉麗·約翰遜本人還受邀為亞馬遜Alexa拍攝了一幅廣告片。
這部60秒的廣告片還原了《周六夜現(xiàn)場》那種脫口秀的搞笑情節(jié),主要講的是語音助手有時(shí)會(huì)錯(cuò)誤理解人類指令,發(fā)出讓人啼笑皆非的回答。
這也符合一般人對技術(shù)發(fā)展的常規(guī)認(rèn)知。當(dāng)技術(shù)遠(yuǎn)遠(yuǎn)落后于人類時(shí),那些擬人的東西都特別不像人,而是卡通形象,會(huì)顯得“可愛”,就連現(xiàn)在很抵觸AI濫用的約翰遜也不害怕。
當(dāng)技術(shù)幾乎100%像人時(shí),我們就會(huì)像對待真人一樣對待它們。但當(dāng)技術(shù)達(dá)到80-90%左右時(shí),就是最尷尬的“恐怖谷”階段,會(huì)讓人覺得很不舒服。
OpenAI的語音助手雖然盡力模仿人類姿態(tài),但在多輪語音對話狀態(tài)下,尤其在網(wǎng)絡(luò)不好、無法及時(shí)反應(yīng)的情況下,容易跌入“恐怖谷”中。在這種情況下,它無法像Siri那樣輕易獲得諒解。
04 誰愿意為人類“終結(jié)者”配音?
這還不算配音是否算是為產(chǎn)品做代言的問題。即使約翰遜原則上不反對聲音授權(quán),但如果GPT-4o的表現(xiàn)不好,這個(gè)聲音背后的人也會(huì)承擔(dān)一些名譽(yù)上的風(fēng)險(xiǎn)。
高德地圖的默認(rèn)導(dǎo)航音長期由林志玲擔(dān)任,這是一個(gè)經(jīng)典的合作案例。作為地圖軟件,它的品質(zhì)很穩(wěn)定;但ChatGPT的可靠性無法如此簡潔明了,伴隨各種爭議,包括倫理隱患。以蘇斯克維爾為首的“超級對齊”團(tuán)隊(duì)解散,更加劇了人們對其未來運(yùn)營風(fēng)險(xiǎn)的擔(dān)心。
ChatGPT的出現(xiàn)是人工智能的一次巨大飛躍。在此之前,AI可能只是一個(gè)明確的工具或玩具,但越來越多的信號都指向它有可能真正具備某種意義上的智能,因此這個(gè)玩具正變得越來越不好玩。
更何況,作為好萊塢的人類成員,約翰遜和同行們一樣,都面臨著會(huì)被AI搶飯碗的潛在風(fēng)險(xiǎn)。即使她自己吃穿不愁,也要為同行爭取權(quán)益。
去年好萊塢的大罷工持續(xù)了半年多,環(huán)球音樂和索尼音樂等等也相繼跟使用AI的技術(shù)公司鬧矛盾,正說明了這種斗爭的激烈。此時(shí),約翰遜當(dāng)然要從本人,以及所代表的行業(yè)角度出發(fā),站穩(wěn)自己的立場。
如果有一天,那則《紐約客》雜志封面的經(jīng)典插畫在現(xiàn)實(shí)中成真——大街上昂首挺胸走的都是機(jī)器人,碳基人類只能可憐巴巴地在街上乞討;在那個(gè)時(shí)候,ChatGPT 的聲音一定會(huì)被載入史冊,不論這聲音來自于誰。
在這種情況下,把自己的身份跟未來有可能的“終結(jié)者”綁定,恐怕確實(shí)不是那么明智。