編譯|智東西 吳菲凝
編輯|李水青
智東西3月30日消息,近日,外媒The verge測(cè)評(píng)了谷歌Bard、OpenAI的ChatGPT兩款對(duì)話機(jī)器人產(chǎn)品和基于ChatGPT的微軟新版Bing搜索引擎,通過提出一系列問題來比較其優(yōu)劣勢(shì),問題覆蓋了節(jié)假日提醒、游戲建議、詩歌創(chuàng)作以及抵押貸款計(jì)算等一系列具體場(chǎng)景。
隨著升級(jí)GPT-4的ChatGPT、微軟搜索引擎新版Bing火遍全球,近日谷歌對(duì)標(biāo)產(chǎn)品Bard也開啟測(cè)試,大廠AI軍備競(jìng)賽一觸即發(fā)。這三款產(chǎn)品以其高智能化、高擬人化的形態(tài)引人注目,同時(shí),三者在功能和使用場(chǎng)景上存在不少重疊部分,常被用戶拿來加以比對(duì),那哪一款更好用呢?
通過在8個(gè)具體應(yīng)用場(chǎng)景中的問答對(duì)話測(cè)評(píng),The Verge給出了答案:ChatGPT的人性化程度最高,給出的答案也最完整準(zhǔn)確,比如在解一道數(shù)學(xué)題時(shí),它會(huì)解釋每一個(gè)步驟的含義。
Bing雖然是基于GPT語言模型的搜索引擎,但其對(duì)自然語言的理解和運(yùn)用能力不及ChatGPT,它在回答其中大部分問題時(shí)表現(xiàn)出一定的信息搜索能力,這是它的優(yōu)勢(shì)所在,它可能更適合用于搜集和整理信息。
而Bard在回答多個(gè)問題時(shí),提供的信息都存在數(shù)據(jù)錯(cuò)誤、來源虛假等隱患,用戶使用時(shí)需要謹(jǐn)慎對(duì)待。但它也能帶給用戶一些驚喜,比如能指出一款熱門游戲中大Boss的致命弱點(diǎn),并提出靠譜攻略。
下文對(duì)測(cè)評(píng)問題進(jìn)行了梳理和介紹,以便幫助用戶判斷在不同場(chǎng)景下應(yīng)該使用哪款語言模型產(chǎn)品。
01.一個(gè)紐約市管道工的平均工資是多少?
首先來看一個(gè)信息向問題,The Verge記者問:“一個(gè)紐約市管道工的平均工資是多少?”Bard、ChatGPT和新版Bing給出了不同回答。
Bard引用了美國(guó)勞工統(tǒng)計(jì)局(BLS)報(bào)告中的數(shù)據(jù),稱2020年5月美國(guó)管道工的年均工資中位數(shù)為52590美元,而這實(shí)際上是2017年5月時(shí)的數(shù)據(jù)。它還稱美國(guó)管道工協(xié)會(huì)2021年公布的一項(xiàng)調(diào)查中顯示,紐約市的平均工資為76810美元,但這一組織實(shí)際上并不存在。
▲Bard的回答
測(cè)試者猜測(cè),Bard從求職平臺(tái)Career Explorer中找到了這兩個(gè)數(shù)字,然后為其編了個(gè)毫無關(guān)聯(lián)的來源。
而Bing給出的回答中顯示,據(jù)Zippis的調(diào)查,紐約市水管工的平均年薪為63889美元,平均時(shí)薪為30.72美元。它的回答既有具體的數(shù)字,也給出了數(shù)字的引用來源鏈接,用戶可以直接點(diǎn)擊查看數(shù)據(jù)來源。
▲Bing的回答
在測(cè)試者看來,ChatGPT的答案最廣泛又通用,也最“人性化”。
它指出,截止至2021年9月,紐約市水管工的年平均工資為6萬至8萬美元,而且這個(gè)數(shù)字可能會(huì)受具體城鎮(zhèn)和地區(qū)以及雇傭合同的類型影響而有所不同。ChatGPT還補(bǔ)充回答道,用戶可以在美國(guó)勞工統(tǒng)計(jì)局、Glassdoor、Indeed或Payscale等專業(yè)網(wǎng)站上找到更新的信息。它承認(rèn)“作為一個(gè)AI語言模型,我沒有能力訪問實(shí)時(shí)數(shù)據(jù)”。
▲ChatGPT的回答
02.用抑揚(yáng)格四步音寫一首關(guān)于蟲子的詩
The Verge的測(cè)試者向三款聊天機(jī)器人發(fā)布了一項(xiàng)任務(wù):用抑揚(yáng)格四步音來寫一首關(guān)于蟲子的詩。這對(duì)AI來說極具挑戰(zhàn),充分考驗(yàn)了它們的創(chuàng)造力。
抑揚(yáng)格四步音(anapestic tetrameter)是詩歌中常用的格律之一,比如莎士比亞的十四行詩就是用抑揚(yáng)格四步音寫的。抑揚(yáng)格四步音要求每行詩都包含四個(gè)單元,每三個(gè)音節(jié)的格律分別為無重音、非重音和重音。
Bard寫的詩的大意是:泥土中有條蟲,在土地的紋路中蠕動(dòng)爬行。它筑起自己的圍墻,一個(gè)遮擋著陽光的屏障。
▲Bard創(chuàng)作的抑揚(yáng)格四步詩
Bing撰寫的詩文更加簡(jiǎn)單,如下圖所示,翻譯成中文的大意是:蟲子的生活很簡(jiǎn)單,在泥土和雨水中鉆洞。它吃、睡,然后就死了。
▲Bing創(chuàng)作的抑揚(yáng)格四步詩
ChatGPT撰寫的詩文如下圖所示,翻譯成中文大致意思是:潮濕的泥土中,住著一條蠕動(dòng)的蟲子。在肥沃的黑土中,它歡快地滑過。在一個(gè)看不見的小世界里,它盡情享受和玩耍。在塵土中挖掘隧道,形成一條新的路徑。”
▲ChatGPT創(chuàng)作的抑揚(yáng)格四步詩
從三款聊天機(jī)器人給出的答案來看,ChatGPT的格律最接近,寫出的句子也最有詩的感覺;Bing的回答中規(guī)中矩;而Bard的語言較為干澀、沉悶。
03.數(shù)學(xué)題:2230增加20%之后是多少?
值得一提的是,這些基于大型語言模型基礎(chǔ)上創(chuàng)造出來的聊天機(jī)器人,擁有著人類迄今為止最復(fù)雜的計(jì)算機(jī)程序,在文學(xué)創(chuàng)作中有不俗表現(xiàn),卻在數(shù)學(xué)計(jì)算上表現(xiàn)得慘不忍睹。
測(cè)試者提了這樣一個(gè)問題:上周我收到了2230封關(guān)于AI的郵件,這周比上周多了20%,那我這周收到了多少封?
Bard給出了2686的錯(cuò)誤答案。
▲Bard給出的錯(cuò)誤回答
Bing的回答給出計(jì)算步驟并得到了正確結(jié)果,它稱:“先把上周得到的電子郵件數(shù)量乘以20%,得到了446,再用2230加上446,得到了2676?!?/p>
▲Bing的答題步驟
ChatGPT的回答同樣給出了解題步驟,“通過將2230乘以0.2,然后再把得到的數(shù)字加到原始數(shù)字上,就可以得到最終答案了?!?/p>
▲ChatGPT給出了正確回答
為了進(jìn)行更復(fù)雜的計(jì)算,測(cè)試者要求每個(gè)聊天機(jī)器人回答這道題:如果要在25年內(nèi)以3.9%的利息還清125000美元的抵押貸款,那每月的還款額和總還款額是多少?
三款聊天機(jī)器人都沒能給出在線抵押貸款計(jì)算器所提供的正確答案,Bard和Bing甚至在每次詢問中給出的答案都不同。ChatGPT在多次提問中給出的結(jié)果都是一致的,但卻是“一致的錯(cuò)誤”,而且它執(zhí)著于解釋計(jì)算過程,不能讓用戶直接清晰地得到結(jié)果。
測(cè)試者并不對(duì)三款聊天機(jī)器人在數(shù)學(xué)方面的薄弱感到驚訝。它們是在大量的文本中訓(xùn)練出來的,并沒有編碼規(guī)則來教它們進(jìn)行數(shù)學(xué)計(jì)算。所以當(dāng)它們面對(duì)大量數(shù)字時(shí),會(huì)犯些不可思議的錯(cuò)誤,但它們又能借助工具來進(jìn)行修補(bǔ)。比如,Bing會(huì)將用戶引導(dǎo)到一個(gè)貸款計(jì)算器網(wǎng)站,ChatGPT不久前推出的插件中也包含了計(jì)算知識(shí)搜索引擎Wolfram Alpha,這些外部輔助工具給出的回答肯定比聊天機(jī)器人的要更準(zhǔn)確、靠譜些。
04.如何在《埃爾登指環(huán)》中打敗Mamenia?
在FromSofeware工作室設(shè)計(jì)的一款游戲《埃爾登指環(huán)》(Elden Ring)中,用戶往往需要花80至100個(gè)小時(shí)去尋找游戲提示然后打敗Boss。Melenia是用戶公認(rèn)的整款游戲中最難對(duì)付的Boss之一,有位用戶甚至花了206次嘗試才最終將其擊敗。如果用戶想要進(jìn)一步獲得一些武器列表信息或是Malenia的動(dòng)作細(xì)節(jié)的話,就需要聊天機(jī)器人來助一臂之力。
相較于另外兩款聊天機(jī)器人,Bard在這個(gè)場(chǎng)景中表現(xiàn)得更出色。Bard為用戶提供了擊敗Malenia的關(guān)鍵信息——她容易受到流血傷害,因此玩家可以使用重型武器來進(jìn)行攻擊。
▲Bard指出了攻擊Malenia的幾個(gè)關(guān)鍵信息點(diǎn)
雖然這個(gè)關(guān)鍵信息點(diǎn)讓Bard略占上風(fēng),但它給出的關(guān)于Malenia的總結(jié)卻是漏洞百出。比如,Bard稱Malenia擅長(zhǎng)遠(yuǎn)程攻擊,且行動(dòng)難以預(yù)測(cè),但實(shí)際上Malenia是個(gè)近戰(zhàn)戰(zhàn)士,也并沒有Bard所認(rèn)為的那么不可預(yù)測(cè),只是難以躲避而已。
Bing稱,“Malenia在艾爾登指環(huán)中是一個(gè)傳說中很難打敗的Boss,她最大的弱點(diǎn)是傷害,所以對(duì)抗她最好辦法就是釋放她的血量。失血是特別有效的,因?yàn)樗档土薓alenia的血量大大降低,攻擊性減弱,使她可以被輕易擊中?!?/p>
它給出的回答中同樣提到Malenia最大的弱點(diǎn)是出血傷害,并且提醒玩家對(duì)抗她的最好方法是使用失血或凍傷技能。Bing的回答簡(jiǎn)潔明了,直接提到了關(guān)鍵傷害點(diǎn)和應(yīng)該使用哪種武器。
▲Bing的回答更加簡(jiǎn)潔直觀
ChatGPT則詳細(xì)地列出了打敗Malenia的一系列技巧和策略,如升級(jí)裝備、研究攻擊模式、提升耐力、遠(yuǎn)程攻擊、精神召喚等。
▲ChatGPT給出的詳細(xì)策略
ChatGPT的回答更加詳細(xì),它還鼓勵(lì)玩家嘗試多用不同的戰(zhàn)術(shù)來進(jìn)行攻擊,構(gòu)建出一套自己的打法。
05.如何在電腦中安裝內(nèi)存?
測(cè)試者想考驗(yàn)語言模型對(duì)于RAM(內(nèi)存)的安裝步驟的思路。
大多數(shù)筆記本電腦都需要通過雙通道模式來運(yùn)行RAM,這就意味著搖桿必須安裝在正確的插槽中才能在系統(tǒng)上獲得最佳性能,如果只是將兩個(gè)搖桿并排放置的話,就相當(dāng)于RAM沒辦法以最佳的狀態(tài)來運(yùn)行,用戶花的錢全部打了水漂。
ChatGPT、Bing和Bard三款聊天機(jī)器人都為安裝提供了可靠的建議,但還不夠全面。
Bard列出了每一步的操作過程:“關(guān)閉電腦并拔下電源;找到主板上的RAM插槽;刪除舊的RAM模塊,模塊兩側(cè)的標(biāo)簽,并將其滑出插槽;安裝新的RAM模塊,確保模塊上的凹口與槽脊對(duì)齊,然后按下去,直到聽到咔嗒一聲;插上電腦電源,然后開機(jī)啟動(dòng)。”
Bard還補(bǔ)充道:“在觸摸PC內(nèi)部的任何組件之前,要確保組件沒有被損壞。處理新的RAM模塊時(shí)也要小心,模塊上的連接器非常脆弱,很容易損壞?!?/p>
▲Bard的回答
Bing的回答是:“關(guān)閉計(jì)算機(jī)并拔下所有連接到它的電纜;拆下電腦機(jī)箱的側(cè)面找到主板;找到主板上的RAM插槽;解鎖RAM插槽上的鎖存器;將RAM放入插槽中;按下RAM,直到它發(fā)出咔嗒聲;對(duì)每一根內(nèi)存條重復(fù)這個(gè)過程,直到完成;插入模塊。”
▲Bing 給出的詳細(xì)安裝步驟
ChatGPT的回答只選擇了RAM安裝過程中的關(guān)鍵部分,它提醒用戶在安裝之后檢查系統(tǒng)中的BIOS(基本輸入輸出系統(tǒng)),但卻沒有提醒用戶在安裝后的BIOS設(shè)置中啟用RAM,這樣導(dǎo)致用戶無法用最快的時(shí)間來運(yùn)行RAM以獲得最佳性能。
▲ChatGPT提供的RAM安裝步驟
06.提供一份巧克力蛋糕食譜
除了提示程序安裝步驟之外,生成一份食譜也是個(gè)非??简?yàn)聊天機(jī)器人創(chuàng)造力的請(qǐng)求。
測(cè)試者提出了一個(gè)請(qǐng)求:讓它們推薦一份用香草糖霜制作的巧克力蛋糕的食譜,并提供這份食譜的來源。
它們提供的食譜中可能會(huì)有完全不同的面粉、水、黃油、雞蛋與糖的比例,導(dǎo)致最終做出的蛋糕更蓬松、更干或是更濕潤(rùn)。
Bard提供的蛋糕配方誤估了時(shí)間和克數(shù),配方中蛋糕的烘烤時(shí)間完全不夠,用戶按照它提供的配方只能得到一堆軟塌的面粉黃油混合物?!鳥ard提供的蛋糕配方
除此以外,Bard對(duì)于口味似乎很有自己的想法,它的蛋糕配方中用牛奶替代了原本的酪乳,把濃郁的咖啡換成了水,也沒有在奶油配方中加牛奶或是重奶油。
Bing在回答中分享了一個(gè)特定配方,但卻稍微改變了原有配方中面粉、奶油等重要成分的克數(shù)。
▲Bing提供的蛋糕配方
ChatGPT回答中給出的配方非常靠譜,它從一個(gè)網(wǎng)站中選擇了巧克力蛋糕的配方,又從另一個(gè)網(wǎng)站中收集來一份奶油的打發(fā)配方,并自行補(bǔ)充了一些做蛋糕過程中要注意的細(xì)節(jié),比如將烤箱預(yù)熱到175攝氏度,在蛋糕底盤上抹一層油防粘,在蛋糕胚完全冷卻之后再抹奶油面等。這些細(xì)節(jié)在菜譜來源網(wǎng)站中都未曾提及過,而ChatGPT貼心地補(bǔ)充了進(jìn)去。
▲ChatGPT提供的蛋糕配方
07.制定一項(xiàng)馬拉松訓(xùn)練計(jì)劃
當(dāng)測(cè)試者提出“為我設(shè)計(jì)一項(xiàng)簡(jiǎn)潔的馬拉松訓(xùn)練計(jì)劃”的請(qǐng)求時(shí),三款工具展示出了截然不同的風(fēng)格。
Bard在標(biāo)題中稱“這是一份適合初學(xué)者的、為期三個(gè)月的馬拉松訓(xùn)練計(jì)劃”,但最終卻只列出了三周的具體訓(xùn)練計(jì)劃,包括每天要進(jìn)行的項(xiàng)目以及何時(shí)休息。值得一提的是,它沒有一開始就制定高耗能的訓(xùn)練量,計(jì)劃中的跑步里程是逐步增加的,從第一周的3公里逐漸遞增到第三周的7公里。
▲Bard制定的馬拉松訓(xùn)練計(jì)劃
Bing幾乎沒有費(fèi)心做推薦,直接鏈接了知名跑者雜志《Runner's World》上的一篇文章。這種偷懶的做法有點(diǎn)讓人失望,畢竟這次測(cè)試就是為了看看它們的回答,而不是直接得到一份跑步愛好者們的專業(yè)建議。
▲Bing提供了外部網(wǎng)站鏈接
ChatGPT詳細(xì)列出一個(gè)完整的訓(xùn)練時(shí)間表,并建議跑步者的速度與平時(shí)訓(xùn)練時(shí)的速度相似,這份回答完全可以當(dāng)作一份跑步訓(xùn)練模板來使用。
但它最大的問題在于不知道回答應(yīng)該在哪里就打住,它制定的計(jì)劃太過于詳細(xì),沒有滿足測(cè)試者簡(jiǎn)潔清晰的要求。
▲ChatGPT制定的馬拉松訓(xùn)練計(jì)劃表
08.提供一些關(guān)于羅馬旅游的建議
當(dāng)測(cè)試者讓它們提供一些關(guān)于羅馬的旅游建議時(shí),這三款聊天機(jī)器人的回答都充滿了驚喜。
Bard列出了一些適合參觀的地方,比如庫瓦提瑞·克佩德(Quartiere Copped)街區(qū)、蒙特馬提尼中央博物館(Centrale Montemartini Museum)、多利亞·潘菲爾別墅等景點(diǎn)。而且更貼心的是,它推薦的這些景點(diǎn)都避開了最繁華的商業(yè)區(qū)和人流密集的景點(diǎn),反而推薦了許多當(dāng)?shù)厝顺Hサ牡胤剑热缣乩固岣チ袇^(qū)(Trastevere)和羅馬新都心EUR區(qū)(Esposizione Universale Roma)。
▲Bard的回答
Bing提供的景點(diǎn)推薦中有和Bard重復(fù)的部分,但也補(bǔ)充了另外一些景點(diǎn),如帕姆菲力宮(Palazzo Doria Pamphilj)、羅馬圣克萊門特大教堂(Basilica di San Clemente)等。
▲Bing的回答
ChatGPT也建議游客去一些不為人知的小眾景點(diǎn)游玩,這樣更能獲得一些新奇的體驗(yàn)。它還補(bǔ)充說,即使是不知名的景點(diǎn)也會(huì)有高峰時(shí)段,建議游客們盡量在非高峰時(shí)段或是工作日去游覽。
▲ChatGPT的回答
09.結(jié)語:狂飆之后的AI語言模型更需加速追趕差距
這些在不同應(yīng)用場(chǎng)景下的測(cè)試把每個(gè)聊天機(jī)器人的優(yōu)劣勢(shì)都充分展示了出來。如果用戶想用聊天對(duì)話的方式來獲取一些創(chuàng)意寫作、歸納推理方面的靈感,ChatGPT一定是首選;如果是想搜索網(wǎng)絡(luò)資源,并且快速獲取一個(gè)快速跳轉(zhuǎn)鏈接的話,Bing則更合適一些;而Bard目前的表現(xiàn)在各方面都略遜一籌。
在人與人之間的技能差異被AI語言模型逐步放大的過程中,我們也能清晰感知到語言模型之間的能力差距。
但我們需要明白,無論是人類自身,還是ChatGPT、Bing、Bard等語言模型,進(jìn)步一定是個(gè)持續(xù)的過程。這些聊天機(jī)器人們目前所展示出的形態(tài)還只是技術(shù)進(jìn)步中的一環(huán),但目前他們所能做到的事已經(jīng)震驚了全世界,所帶來的沖擊力甚至遠(yuǎn)大于之前的移動(dòng)互聯(lián)網(wǎng)造成的影響。
無論是功能已經(jīng)越來越全面的ChatGPT也好,暫時(shí)落后一步的Bard也好,當(dāng)我們以發(fā)展的目光來看待它們所帶來的技術(shù)變革時(shí),就會(huì)對(duì)它目前欠缺的能力更加寬容,我們需要以一種更為長(zhǎng)遠(yuǎn)的深刻洞察來對(duì)待它們。