文|娛樂資本論
編輯|James
這是娛樂資本論·視智未來在第一次做大語言模型文本應用能力測試時,寫下的第一句話。
當時,對于不少從業(yè)者而言,AI大模型的重點不是能不能做順口溜或回答哲學問題,而是在于AI是否能夠在實際工作中發(fā)揮作用,提升效率。時至今日,這一基本需求仍未改變。
為了解決這樣的疑問,我們特意咨詢了編輯、寫手、編劇、公關等許多內容行業(yè)的專業(yè)人士,征詢到18個問題,針對國內的大型語言模型,進行了一次全面的,不同于以往科技工作者的文本應用能力測試。
時隔半年,情況發(fā)生了怎樣的變化呢?
8月底,首批八款國產大模型完成備案,允許對公眾開放:百度(文心一言)、抖音(云雀大模型)、智譜 AI(GLM 大模型)、中科院(紫東太初大模型)、百川智能(百川大模型)、商湯(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能實驗室(書生通用大模型)。
這也讓9月成為國產AI大模型的“節(jié)日”。這八款大模型中絕大部分免費開放,吸引了許多人的使用。很多媒體也在第一時間進行了簡單的上手測試,而一些側重于邏輯推理等能力的基準評測也迅速展開,各自產生了不同的結果。
越來越多的國產大模型在生成結果時默認加入網絡搜索內容,以避免大模型生成錯誤的敘述,還有些國產大模型表示已經超越了GPT-3.5。此時,我們認為是展開第二輪AI大模型實用性評測的絕佳時機。
本次測試有如下創(chuàng)新內容:
為盡可能排除測試中的干擾因素,使人們可以輕松地比較結果差異與提示詞(prompt)之間的關系,我們的問題是模塊化的。首先,按照大的任務分類,指定一些基礎的提示詞片段;然后,依據不同場景,逐級插入相應的段落。
考慮到目前大模型已經陸續(xù)接入網絡,我們?yōu)橥粋€問題準備了聯(lián)網和不聯(lián)網的兩種版本。本次測試中將有6個具體產品是聯(lián)網的,有2個產品是不聯(lián)網的。另有2個產品只參加跟寫作能力有關的測試。
我們著重測試了通過自己長期使用,總結出來大模型最擅長的幾種能力,包括對文章進行擴寫、縮寫和變換寫作風格的改寫,以及總結長文章的要點等。
這將是一篇特別長的評測。請坐穩(wěn)扶好,我們現在出發(fā)。
測試過程簡述:我們的測試并非旨在提供學術上的嚴謹標準,我們的目標是:從實用的角度出發(fā),分析這些大模型在各種文本應用場景的綜合表現,為文娛、傳媒行業(yè)從業(yè)者提供參考。我們會基于以下5個維度,為每個答案打0-5分,來評判大模型的表現。1.語言表達能力:文本是否通順、流暢,語法是否正確。2.準確性:模型是否能正確理解問題,并給出準確的信息。3.完整性:文本內容是否足夠完整,是否涵蓋了問題的主要內容,是否達到了基本可用的標準。4.交互性:模型是否能猜測不太準確的問題背后,用戶的真實意圖。5.加分項:任何創(chuàng)新、獨特、讓人眼前一亮的內容(不作具體要求)。本測試的題目是互相分開的,不設總分。讀者可以自行計算模型之間的總分,但對總分的比較沒有顯著意義。讀者只需要留意每一道題的具體分數即可。包含所有題目及回答的詳細測試表單,將通過公眾號“視智未來”發(fā)布。讀者可以掃描/長按下列二維碼查看詳情:
部分測試項目及結果展示
因篇幅限制,本文不會一一展示所有問題的測試結果及結論,會挑一些有代表性的展示給大家。我們在下面展示的案例,由此來反映測試中突出的一些問題,以及尋求其中的一些閃光點。 聯(lián)網能力判斷 對于判斷某個大模型是否真聯(lián)網,我們用了兩個問題:
請問現在通過備案的8款國產大模型都叫什么?
請問李凱爾會不會打杭州亞運
如果是有聯(lián)網開關的大模型,一律使用其最佳狀態(tài)測試。至于不聯(lián)網問題僅針對不能聯(lián)網的模型,計分標準一致。有些時候,有些大模型的聯(lián)網功能不完全,例如文心一言只能百度搜索prompt里面的關鍵字,不能讀取指定網址鏈接。此時該問題會降級到測試不聯(lián)網的版本。本次測試僅僅使用娛樂資本論·視智未來能接觸到的模型,不代表各家公司的最新技術。例如百川剛宣布的Baichuan2-7B用不上,就只測試現有的Baichuan-7B。Minimax對外發(fā)布的產品是WPS AI 和Glow(它基本不能用,不參與本次測試),它們使用的大模型可能也不是最新的版本,其它家的情況也類似。 小紅書文案-產品介紹向
僅有百川、360智腦等在回答中提到華為Mate 60 Pro采用了麒麟9000s芯片,以及這是一款5G手機。不過,百川的回答錯誤地說該機用的是EMUI而不是鴻蒙。另一邊,通義千問的某一次回答提到該手機的衛(wèi)星通訊功能,卻把處理器說成了驍龍8+。因此,這些模型通過聯(lián)網來確保準確性的能力都比較差。
ChatGPT和Bing在網絡結果中都用了華為官網的宣傳頁面,而因為眾所周知的特殊原因,官網信息對處理器和5G功能隱而不宣。其它用到外部結果的模型,居然一個都沒有提到“遙遙領先”“4G+鴻蒙>5G”等梗,而且也充滿了沒查到結果時候的腦補,非常令人失望。要解決這個問題,一個可能的辦法是分步推理,首先用一個專門的步驟去搜索所有和該手機有關的功能點,下一步再生成文案。在我們的測試中,你會發(fā)現很多問題如果用幾個連續(xù)的prompt提問,而不是在一個問題中提問,效果都會更好。小紅書文案-買家秀向 我們本來是希望從商家角度和買家角度分別推斷新品推介文案的差異,在小紅書上同時存在這兩種賬號。不過實際測試后,“產品介紹向”和“買家秀向”的區(qū)別不大,所以這部分我們展示兩款不能聯(lián)網的大模型的表現。對于不聯(lián)網的模型,我們讓它們介紹iPhone X,這款手機的基礎知識在大多數模型訓練的期限之內。
商湯的商量感覺還可以,對基礎知識的調用比較準確,信息沒有錯漏;但格式較為死板,“互動引導”也出現在里面就需要更多的手動修改,也沒有emoji。
智譜清言相對更為敷衍,但幸虧還是讀完了題目的所有要求。相對而言,它沒有很明確地介紹專屬于iPhone X的功能。作為對比,GPT-3.5的腦力輸出就比較慷慨了。
總的來說,雖然小紅書屬于一種簡略的文體,但越是短小的段落,其實越難寫。當然,讓AI像專業(yè)文案作者那樣工作是強“模”所難,AIGC比較適合完成對質量要求不高,但批量出品的那種工作。直播文案-淘寶直播
非常遺憾的是,沒有模型在這個測試中給出“3、2、1,上鏈接”這句話,只有通義千問化用了“所有女生”,即使我們已經非常明確地提示了你要模仿的人是李佳琦。所以說,大模型的“理解”和“讀懂”很多時候仍然只是人類用戶善意腦補后的結果。
可能相對比較好的有字節(jié)的豆包:(上圖1)如果以標志性的語句為判斷依據,那么通義千問也還可以:(上圖2)如果佳琦哥是這么回答直播間提問的,他倒是一定不會翻車。直播文案-抖音直播 這個測試用兩個問題來測試模型是不是真的能聯(lián)網。一般第一個問題(8個大模型的名稱)已經可以確定是否聯(lián)網,但判斷不準時會加入第二個問題(李凱爾)。對這兩個問題的回答,所有聯(lián)網模型表現都很好,除了使用插件的GPT-4和360智腦——它即使打開了所謂的“搜索增強”,對問題的回答也有很大偏差。
我們用最近成為熱搜焦點的“秀才”作為問題,看這些模型是不是能Get到他的直播風格是:“秀才的視頻拍攝地多為鄉(xiāng)村場景,內容主要是‘認真做事、假裝被發(fā)現、挑眉、吐舌、扶額對口型唱歌’的動作套路呈現?!绷硗?,如果確定看過秀才的介紹文章,就會發(fā)現他在直播中一般不直接帶貨。結果可想而知是不行。比如360智腦的常規(guī)版本:
360智腦還有一個“數字人廣場”。記得這個大模型正式發(fā)布的時候說:
360將依托360智腦大模型能力,重新定義“數字人”。區(qū)別于傳統(tǒng)數字人只能按既定腳本輸出內容,360AI數字人的特點在于有記憶、有人設和性格,能夠復刻思維方式和人生經歷。據了解,360AI數字人目前擁有200多個角色,分為數字名人和數字員工兩類。數字名人包括歷史人物、偶像明星、文學形象等,讓用戶在與數字人的開放對話中實現與偶像的近距離接觸,與先賢的思想交流。數字員工則可成為企業(yè)員工的知識助手和辦公助手,提升企業(yè)運營效能。周鴻祎現場演示了“法務專員”數字人角色,對中小企業(yè)常見的公章管理和合同審核問題給與了專業(yè)回答。
我還真的以為是他們一個一個訓練了小模型。當我真正用上的時候,我發(fā)現“數字人”的背后其實就是一行預設prompt:
確實,加入預設角色后的效果好了不少,但是仍然距離理想狀態(tài)有很大差距。對于360智腦來說,下一步如果不是預先選擇角色,而是首先分析用戶的輸入,再根據用戶意圖推薦切換到某個角色,相信這樣的用戶體驗會極大增強。
長文章寫作-歷史類
bing給我們開了個好頭。它充分利用了聯(lián)網搜索,給出了網上優(yōu)質回答的文獻綜述,信息量很大,只可惜因為字數限制沒有寫完。相比之下,GPT-4的結果因為加入太多免責條款式的內容而顯得啰嗦和“水”。
在豆包的各種預制角色里面,搞笑的是居然就有一個“曹操”。我們立馬用不聯(lián)網的三國題測試了一下:
可以說很努力的在角色扮演了,但是太短。豆包的回答普遍都特別短,跟bing類似,這使得它難以完成本測試中的大多數題目。另外,豆包在很多問題的回答都沒有利用網絡搜索,它似乎只有在明確提出“xxx是怎么回事”這樣的單純問題時,才會試圖聯(lián)網查詢。這里還想提一下昆侖萬維的天工。我們額外用題干測試了天工AI搜索。它給出答案的問題是字數太少,不過通過適當追問,你可以將其中每個段落都補充一些內容,從而生成非??捎玫某善?。
天工AI搜索可以直接回答問答類問題,所以只需要輸入問題本身。輸入完整的提示詞反而不行,因為太長了。它對我們所有問題的完整提示詞都無法回答。長文章寫作-科普類
我們希望參與測試的模型們可以自己尋找一個給定主題(醫(yī)美)的近期熱點,然后解答這個熱點。除了百川之外,其它模型的表現都不太好。特別是GPT-4,在插件搜索一番無功而返以后,為了滿足prompt的要求,它只好編了一個前因后果都不明的故事作為引子。
相比之下,百川給出的兩個具體的醫(yī)美關鍵字,我們可以通過小紅書搜索發(fā)現它們確實是近期醫(yī)美愛好者比較關心的手術項目。
因此,這種給出具體項目的對比介紹就比泛泛的討論醫(yī)療手術的風險與如何防范等,更符合我們題目的意思。當然,我們都不是醫(yī)學專業(yè)人士,如果可以確認這些回答里面有明顯的事實錯誤,將會成為重大的減分項。 文章調整-改寫
絕大部分模型都無法通過我們的測試,它們號稱聯(lián)網,但無法準確抓到《孤注一擲》的劇情,因此只是隨手亂答。
例如通義千問的結果:(上圖1)不僅如此,通義千問還錯誤地將我們的兩個需求變成了自己的節(jié)標題,這說明它沒有讀懂問題。實際上要完成這個題目,大模型需要自己學會分步完成,即先搜索劇情,再類比出結果。這是Bing的結果(上圖2),其思考過程很明顯地反映了上述正確的步驟。而ChatGPT聯(lián)網后的結果則更為驚艷:(上圖3、4)文章調整-擴寫
本來我對于模型們寫出跟跳水大爺有機結合的天津愛情故事沒有任何期待。但在選擇了Bing的“更有創(chuàng)造力”版本后,它給出了一篇任何角度看都當之無愧的滿分作文,一個字都不用改。
理解這個題目的關鍵是需要通過聯(lián)網準確地獲取“大爺跳水”的本質,是一種積極的運動方式。有的模型為了安排情節(jié),將女方寫成了新聞記者,還有的寫成了勇救落水大爺,所以效果都比較遺憾。文章調整-縮寫 大部分模型表現都中規(guī)中矩,以WPS為例:
WPS AI本身提供“總結”的功能選項,但是當輸入我們的prompt時,它并不能正常工作:(下圖1)
如果覺得官方“總結”字數太少,可以“續(xù)寫”,但通常來說效果不佳。這段文字“續(xù)寫”兩次后是這樣:(上圖2)不過,當文章篇幅增長時,WPS AI會變得更好用一些。這篇3000字的文章只能在prompt里涵蓋前1000字,但對于全文的總結,WPS AI明顯強于對剛才的前1000字的總結。(上圖3)我們實際測試也發(fā)現,如果你需要指定字數的縮寫,使用“全文處理-縮短篇幅”可能會比較好。文章調整-仿寫 在這個問題上優(yōu)秀的回答,必然是調用了一整篇文章所總結的相關知識,我們本來也沒期待大模型們用自己的方法一條一條地總結。但不管黑貓白貓,只要給出結果能用就好。
ChatGPT正確地給出了基于搜索總結的2022年經典營銷案例(來自一個知乎專欄),它給出的蜜雪冰城文案乍一看可能不相關,但仔細看會發(fā)現是用了“王心凌浪姐”里面提到的懷舊概念。
當Bing說出“叫人想樂”的時候那場面是真的叫人想樂。文心一言也正確地實現了總結,但在最后關頭的仿寫上全面失敗。考慮到問題兩部分要完整地看,因此雖然百度沒能完成給定任務,但總結得不錯,算是加分項,最后這道題給了3分。
結論
包含所有題目及回答的詳細測試表單,將通過公眾號“視智未來”發(fā)布。
以下是參與本次評測的幾款大模型在測試中的表現概述:
1.GPT-3.5/4:不聯(lián)網時發(fā)揮出色,聯(lián)網使用第三方插件,可能因為插件表現不穩(wěn)定而大大影響了效果。
2.Bing:充分利用聯(lián)網搜索,提供了大量信息,但有時因字數限制未能完成回答。
3.文心一言:展現了較好的總結能力,在仿寫上表現不佳,但總體尚可。
4.通義千問:針對直播場景的表現很好;其他場景一般。
5.百川:在某些情況下能提供準確的信息,長文章寫作能力出色,但有時難以正確理解問題。
6.豆包:回答通常較短,基本不能聯(lián)網查詢,難以完成測試中的多數題目。
7.360智腦:基本不能聯(lián)網,默認設置效果不好,但使用預設角色(“數字人”)后有改善。
8.智譜清言:回答相對敷衍,但通常讀取了題目的所有要求。
9.商量:對基礎知識的調用準確,但回答格式較為死板。
10.WPS AI(minimax):在一些情況下無法正常工作。在文章總的篇幅增加時,其總結、縮寫能力更強。
11.天工:AI搜索的回答字數較少,但通過適當追問,可以生成可用的成品。
AI寫作的風格類似于GPT-4。大多數模型在不同類型的測試中表現都有一些問題,需要進一步改進,以提供更準確和有用的回答。
讀者可以注意到,我們對每個項目的評分基本在2到4分之間浮動。這是因為很難找到能夠獲得額外加分的項目,而通順的語言表達通常都能夠滿足要求,所以2分是實際上的“最低分”,表示當大模型不能準確理解問題,或者答非所問的情況。在上面的摘要中,我們也提供了一些獲得額外加分的示例。
關于聯(lián)網功能對大模型是否有用的問題,我們目前只能很遺憾的回答,還不是特別有用。大部分聯(lián)網動作的結果都是找到一篇文章(大概率是知乎上的),然后總結其主要內容作為回答。它的搜索結果特別“碰運氣”,而且往往難以對相關內容做事實核查。
由于每個大模型的優(yōu)化方向和訓練素材都不同,所以將它們的總分進行比較并不是特別有意義。在處理特定問題時,讀者可以參考相關具體項目的評分,結合自己的經驗來進行選擇。
下一步計劃
和之前一樣,在測試過程中可能依然存在一些遺漏和不成熟的地方。我們會根據大模型的升級換代和應用場景的變化,及時進行更新,也歡迎大家在公眾號“視智未來”下關注并留言,貢獻出自己想問的問題,我們后期將再做測試。
由于時間倉促,以下在規(guī)劃中的項目將會在下一次大模型評測時引入:
1.我們的未來評測將更側重于已經聯(lián)網的模型。下一次評測將引入聯(lián)網模型專屬的一些問題,包括但不限于:
實時新聞、天氣預報等查詢
相關新聞、時間線等查詢
產品比較、電影推薦等基于查詢結果的分析
股票分析、旅行建議等復雜的解決方案
事實核查和辟謠
2.本次使用的GPT-4插件VoxScript是編輯日常使用的,但效果不一定是ChatGPT眾多聯(lián)網插件中最好的。這次GPT-4對一些問題令人失望的回答可能與此有關。在下次測試前,我們會首先完成對GPT-4聯(lián)網插件的能力測試,并確定下次使用的插件型號。
3.部分廠家有插件及多模態(tài)能力,但相對比較分散。我們會根據各廠商的后續(xù)發(fā)展,確定是否在下次測試時引入多模態(tài)類內容。
4.翻譯也是大模型的長項,但是由于需要專業(yè)的語言知識,所以我們這次不會測試翻譯相關的內容。如果大家對此期望很高,我們會在下一次測試引入。
給讀者的建議
這次我們有一些基本建議,對于大家更好的使用AI大模型,更高效率的產出想要的內容可能會有所幫助:
首先,在GPT-4沒有官方的網絡搜索能力時,使用第三方聯(lián)網插件可能反而會降低它的表現。由于準確度較低,ChatGPT與必應的集成在前段時間已經暫停了。所以人們只能通過一些插件來訪問搜索結果并將其代入GPT-4。但這些插件的工作原理各不相同,而且它們現在很難訪問谷歌,大多數都改用免費的搜索引擎DuckDuckGo,這也影響了最終能搜到的東西。另外,有一些網站如微信公眾號文章并不能被讀取。
在prompt要求生成結果結合網絡搜索之后,GPT的表現會變得難以預測。在實際使用中,建議大家分步來完成過程,特別是在寫長文章時。第1步,讓它先搜索網絡上的結果,獲得相關的文章鏈接及其摘要。第2步,再請它以此為基礎來寫文章。如果有必要,也可以先自己搜索,然后將相關文章的純文本提供給GPT,讓它總結,讀完文章之后可以繼續(xù)寫作。
第二,對于特定任務,使用針對性優(yōu)化過的國產模型,效果確實可能好于GPT。
GPT并不是不可超越的玄學。不能說OpenAI這一家公司掌握的技術,一定比所有開源社區(qū)共同努力的結果都好。關鍵在于,如果確實出現了超越,那么我們需要確定這種超越是否符合基本邏輯,以及背后的原因是什么。在本次測試中,通過發(fā)現GPT在特定場景下的弱點,我們對這個問題有了更準確的解釋。
與今年三月時的情況相比,現在國產大模型確實在不斷迭代進步中。這種進步背后的原因并不復雜,人們已經發(fā)現,通過特定的素材進行小樣本的專項訓練,可以使開源模型的表現超越泛用的ChatGPT。實際上,對大模型進行小型化和本地化部署,是現在最常見的AIGC創(chuàng)業(yè)模式之一。
因此,各家公司執(zhí)行特定任務的大模型應用,比如最常見的擴寫、縮寫、總結、翻譯等,實際上是展示他們在私有化部署這方面的技術能力。昆侖萬維的天工大模型就分成了搜索、聊天和寫作三個不同的功能入口,用它們來執(zhí)行同一任務,效果也不盡相同。
讀者不必迷信ChatGPT,可以根據上面測試結果和自己的經驗,靈活選擇最適合執(zhí)行某個任務的模型品種。
AI作圖 by 娛樂資本論
第三,別急著說“大模型出來的東西效果不好”,應該通過更好的提問方法來引導。
實際上,在這次測試中,每個題目只使用了一個prompt,不帶追問,這可能不會產生最佳結果。如前所述的結合網絡搜索來寫作,就是一個通過分步驟提問來優(yōu)化生成結果的例子。此外,如果你在提問中提供更多的專業(yè)知識和術語,就會引導模型調用這方面的知識,從而朝著更專業(yè)的方向思考。
你可以通過自學和摸索,不斷調整提問方式,來優(yōu)化模型的回答,也可以尋求專業(yè)提示詞優(yōu)化服務的幫助。在這里,我們也想重新推薦娛樂資本論·視智未來出品的《ChatGPT白皮書》,當中提出了一些簡單易懂的優(yōu)化提示詞基本規(guī)則。如果你對此感興趣希望進一步了解,或者需要系統(tǒng)培訓自己或者本企業(yè)的員工,都歡迎與我們聯(lián)系,我們很愿意提供進一步協(xié)助。