文|聽筒Tech 小聽
編輯 | 饒言
盡管AI已經(jīng)火爆全球,但依然有不少人對它的使用存在置疑。
曉姐是一名文字工作者,自大模型推出伊始,她便嘗試借助AI工具寫作,但自始至終,她都無法相信AI。
“大模型剛推出的時候,大家都知道它‘資料更新不及時’,后來,隨著應(yīng)用不斷升級,我也習(xí)慣了用大模型,但仍會對它生成的內(nèi)容持遲疑態(tài)度。尤其大模型給出的數(shù)據(jù)和時間,幾乎很少標(biāo)注信息來源和出處,這點我必須要做一番考證?!?/p>
在曉姐看來,大模型的行文方式和生成作品,“更像結(jié)論和觀點?!焙唵蝸碚f,大模型給出的是邏輯和結(jié)論,但寫文章和做研究,只有遠遠是不夠的,“我們講究每一句發(fā)言是有跡可循,只有被敲打和反復(fù)考證過的傳播,才有價值?!?/p>
實際上,曉姐遇到的情況,并不是偶發(fā)。近期,越來越多的博主在社交平臺發(fā)出警示,告誡網(wǎng)友“警惕AI幻覺”,不少博主指出,AI的強邏輯,讓網(wǎng)友產(chǎn)生幻覺,認(rèn)為“AI完全正確”,但實際上,不少跡象表明,AI經(jīng)常出現(xiàn)“一本正經(jīng)胡說”的現(xiàn)象。
Vectara平臺最新發(fā)布的數(shù)據(jù)還顯示,目前市場上AI大模型,均有幻覺率,即便是OpenAI-o3,也有0.8%的幻覺率;目前市場大熱的DeepSeek-V3,幻覺率達到3.9%。而在更早之前,這一幻覺率甚至高達30%。

圖:市場主流大模型幻覺率(截止2025年1月31日)
公開的報道顯示,此前,Vectara公司聯(lián)合創(chuàng)始人阿姆爾·阿瓦達拉亦表示,在訓(xùn)練過程中,AI模型會壓縮數(shù)萬億個單詞間的關(guān)系,隨后通過龐大的網(wǎng)絡(luò)模型重新展開這些信息。盡管這些模型能夠重構(gòu)出接近98%的訓(xùn)練內(nèi)容,但剩下2%內(nèi)容卻會“誤入歧途”,生成不準(zhǔn)確或虛假信息。
這就意味著,至少在目前,AI依然無法完全信任。不少業(yè)內(nèi)人士亦對《聽筒Tech(ID:tingtongtech)》表示,在專業(yè)的領(lǐng)域,建議警惕使用AI,“我們可以借助AI來輔助我們的工作,而不是依賴AI?!?/p>
-01-“AI很強大,但我不怎么用”
曉姐是在朋友安利下開始使用AI。十年文字工作者的曉姐,日常資料梳理的工作量非常大。前兩年,大模型剛興起的時候,曉姐就在朋友的建議下成為最早使用大模型的那一批人?!翱焖夙憫?yīng),內(nèi)容強大,邏輯也足夠清晰?!边@是曉姐對大模型的直觀感受。
一度,她熱衷使用大模型,每逢寫作都要問“?!?。但很快,曉姐發(fā)現(xiàn),大模型不能滿足她的寫作需求,甚至讓其創(chuàng)作也不夠“絲滑”。實際上,大模型剛推出的時候,有的資料確實更新不及時,會誤導(dǎo)曉姐的文字創(chuàng)作。再者,曉姐發(fā)現(xiàn),大模型給出的內(nèi)容通常是結(jié)論和觀點,雖然邏輯性很強,但一旦出現(xiàn)細(xì)節(jié)和事實錯誤,就會給曉姐的工作帶來致命的打擊。
“比如,使用大模型的人會發(fā)現(xiàn),模型生成內(nèi)容的數(shù)據(jù)和時間,幾乎不標(biāo)注信息來源和出處,在寫作過程中,我還發(fā)現(xiàn)了有名言出處錯誤的事實,所以,我現(xiàn)在對AI持遲疑態(tài)度?!备咝H温毜牧指缫惨欢葻o法完全擁抱AI?!叭缃馎I已經(jīng)非常強悍了,但我還是在堅持手工敲字,這與正確錯誤無關(guān),完全是個人愛好?!?/p>
林哥在批閱學(xué)生的作業(yè)和論文的時候發(fā)現(xiàn),“有些學(xué)生的內(nèi)容一看就是AI生成,引用也‘張冠李戴’,甚至出現(xiàn)憑空捏造的‘AI幻覺’,我改了一部分就堅持不下去,AI增加了我的工作量?!薄斑@并不是一個好的引導(dǎo)和風(fēng)向。當(dāng)你越來越認(rèn)為本就應(yīng)該如此的時候,那么你就失去了對文字和內(nèi)容的審美鑒別,也失去了對事實的判斷和認(rèn)識能力?!绷指绫硎?。
95后家裝設(shè)計師小屈告訴《聽筒Tech》,盡管自己是網(wǎng)絡(luò)擁護者,但也很少使用AI繪圖。
其實,在大模型剛出來的時候,小屈是興奮的,“畫圖是非常累的,客戶的需求也非常多,現(xiàn)在的家裝行業(yè),通常有了初步的設(shè)計圖紙,客戶才會繳納意向金。我每天的工作不是跟客戶溝通設(shè)計需求,就是在畫圖。且畫的圖都不一定會被客戶采用,所以工作量非常大?!?/p>
AI繪圖出現(xiàn)后,小屈抱著試試的心理去AI作圖。不過,在嘗試了幾次后,小屈放棄了作圖。目前,他只是用AI編輯一些文案。
“主要問題在于不夠精準(zhǔn),每個空間不能統(tǒng)一設(shè)計手法?!痹谛∏磥?,AI繪圖只能作為輔助,或者作為早期工作意向確認(rèn)工具。
同樣的問題,也發(fā)生在視頻生成領(lǐng)域。
在AI軟件席卷行業(yè)的最早期,影視就被認(rèn)為是被沖擊的巨大行業(yè)。后來,隨著細(xì)分領(lǐng)域模型的不斷推出和升級,影視行業(yè)從業(yè)者郭哥十分焦慮。他曾和《聽筒Tech》交流,要主動學(xué)習(xí)AI技術(shù),避免在行業(yè)的內(nèi)卷中被淘汰。
但郭哥發(fā)現(xiàn),以全網(wǎng)都在吹的某平臺為例,生成的視頻有幾個明顯的缺點,比如圖人和物體之間存在交互失靈、物理引擎失效、對象突然冒出等使視頻產(chǎn)生“鬼畜感”。
-02-“小心AI一本正經(jīng)胡說”
在曉姐和小屈看來,目前不敢將專業(yè)的工作交給AI來做,“或許有一天我會信任它,但不是現(xiàn)在?!?/p>
關(guān)于“我為什么不用AI”,在社交平臺,網(wǎng)友也眾說紛紜。有人表示,“我完全不覺得AI生成的短片有趣,因為創(chuàng)作這個東西的不知道痛楚為何物”、“有沒有人感覺越用AI越蠢,這學(xué)期用AI輔寫,被導(dǎo)師吐槽了幾遍文章寫作水平不行”、“越來越不會內(nèi)容輸出了”......
尤其是,“AI幻覺”一詞最近被提及得越來越多。
一位博主表示,“小心AI一本正經(jīng)的‘胡說’?!睂嶋H上,AI“強邏輯”幻覺的背后,存在“一本正經(jīng)胡說”的隱患,且不是自己的專業(yè)和領(lǐng)域根本判斷不了。
該博主表示,尤其是AI在回應(yīng)一些嚴(yán)肅知識性問題時,會存在憑空編造事實、杜撰不存在文獻的可怕現(xiàn)狀。
科普作家河森堡表示,自己讓某大模型介紹一下“青銅利簋”,它就開始一本正經(jīng)地胡扯,說這件青銅器是商王帝乙為祭祀自己父親所鑄,還詳述了其內(nèi)壁的銘文。
不過,河森堡曾經(jīng)在博物館看見過“利簋”這件文物,此物是西周貴族為了紀(jì)念武王推翻商朝而鑄,銘文和祭祀也與商王毫無關(guān)系。
實際上,河森堡還繼續(xù)追問AI,這些資料都是從哪看來的,AI列出了一大堆文獻,但他發(fā)現(xiàn),文獻和作者介紹不少是“捏造”的。
另一位博主也呼吁大家“警惕AI幻覺”、“希望大家使用AI時,甄別它的謊言”。
該博主表示,“體驗了DeepSeek,一開始看到它如此強大的推理能力,特別是它在自我思考的時候展現(xiàn)出來的完整思維鏈,確實非常驚艷?!?/p>
但當(dāng)自己在問怎樣看待“創(chuàng)新是一種涌現(xiàn)”這個話題時發(fā)現(xiàn),盡管大模型給出了一系列層次和角度的分析,但博主卻總感覺“有一絲絲的不對”。
該博主認(rèn)認(rèn)真真地對內(nèi)容做了核對,發(fā)現(xiàn)這些看似正確的回答卻有很多問題。比如,AI在“編造數(shù)據(jù)謊言”。實際上,針對DeepSeek表示的“70%的創(chuàng)新出現(xiàn)在跨學(xué)科領(lǐng)域”,該博主查了很多文獻都沒有找到這個信息源頭和實驗數(shù)據(jù)。
該博主指出,“如果這種捏造廣泛流傳,不知有多可怕?!?/p>
甚至,如果AI能虛構(gòu)文本、照片乃至視頻的一切內(nèi)容,并且令其彼此之間相互印證和支撐,其制造幻覺的強度與編撰故事不可同日而語。
“除非你親自見到并本人求證,或者到現(xiàn)場實地考察,否則你會被AI創(chuàng)造出的假象玩得死死的?!币晃粯I(yè)內(nèi)人士這樣擔(dān)憂。
然而,在現(xiàn)實社會中,有意愿和有能力親自驗證事實的人并不多。也就是說,稍一個不留神,你可能就會被AI污染。
-03-別焦慮,現(xiàn)在AI還無法取代你我
實際上,AI幻覺已經(jīng)給人們的工作和現(xiàn)實生活帶來了巨大影響。
世界經(jīng)濟論壇發(fā)布的《2025年全球風(fēng)險報告》顯示,錯誤和虛假信息是2025年全球面臨的五大風(fēng)險之一。2023年,美國律師史蒂文·施瓦茨也曾因“輕信”ChatGPT,在法庭文件中引用了并不存在的法律案例。而在醫(yī)學(xué)領(lǐng)域,AI幻覺提供的錯誤診斷和治療建議,可能會危及患者生命。
從底層技術(shù)來看,AI幻覺的產(chǎn)生,是必然的。
AI企業(yè)落地師石云升便告訴《聽筒Tech》,“據(jù)我所知,目前AI底層架構(gòu)師無法解決幻覺問題。因為它每一個字符都根據(jù)概率計算,這就導(dǎo)致它輸出的內(nèi)容會有幻覺,這是無解的?!?/p>
不過,石云升指出,在真實場景中,用戶可以通過反復(fù)溝通來幫助AI更精準(zhǔn)的回答問題。畢竟,AI給出的答案是否采納,最終還是由人來決定。
“降低AI幻覺的問題可以通過’預(yù)訓(xùn)練、微調(diào)和推理‘三個層級來解決?!笔粕赋?,例如,在公司負(fù)責(zé)AI客服時,用戶主要通過“提示詞+知識庫”來防止AI輸出幻覺,“如果公司有懂得微調(diào)的技術(shù)人員,并且擁有優(yōu)質(zhì)的企業(yè)數(shù)據(jù),微調(diào)的效果會更加理想?!?/p>
不過,石云升坦言,微調(diào)通常是針對企業(yè)專屬的大模型進行的,“一般我們會在通用大模型回復(fù)效果特別不好的情況才會考慮微調(diào)?!?/p>
比如,在法律領(lǐng)域,通用大模型訓(xùn)練預(yù)料數(shù)量太少,質(zhì)量太差,企業(yè)內(nèi)部有很多更優(yōu)質(zhì)的法律數(shù)據(jù),這種情況就可以考慮微調(diào)一個專屬公司的法律大模型,微調(diào)后出現(xiàn)幻覺的概率就小很多。
石云升指出,還有一種手法是使用“RAG增強檢索”,“在提問的時候,先從知識庫里查詢資料,然后給到大模型,如果用戶的問題在知識庫里有資料,那基本也不會出現(xiàn)AI幻覺?!?/p>
當(dāng)然,石云升也表示,對于普通用戶來說,AI的幻覺率,目前沒有特別有效的解決辦法,“普通用戶很難接觸到預(yù)訓(xùn)練和微調(diào)技術(shù),因此只能在AI推理階段提供更詳細(xì)的信息。這也是為什么在AI剛剛興起時,行業(yè)內(nèi)很多人開始教授如何編寫‘提示詞’并建立自己的知識庫?!?/p>
也即是說,至少在現(xiàn)階段,AI還無法真正取代你我。
此前,張雪峰“回應(yīng)DeepSeek會讓自己失業(yè)”這一話題時曾這樣解釋,“第一,我們這個行當(dāng)不止是打破信息差,還是在提供情緒價值;第二,大模型只會有一些公開信息,但是你要知道有些信息網(wǎng)上是不公開的?!?/p>
那些“網(wǎng)上非公開的”、“對情感的理解”,以及“深度思考引發(fā)的創(chuàng)新”,或許是現(xiàn)階段“你我”存在的價值和意義所在。
“警惕AI幻覺,這是一種呼吁,也是一種社會職責(zé)?!憋@然,這不是“曉姐”一個人所希冀的事。
(文中曉姐、林哥、小屈、郭哥均為化名。)