正在閱讀:

被番茄小說(shuō)當(dāng)做AI訓(xùn)練“花肥” 網(wǎng)文作者聯(lián)合說(shuō)不

掃一掃下載界面新聞APP

被番茄小說(shuō)當(dāng)做AI訓(xùn)練“花肥” 網(wǎng)文作者聯(lián)合說(shuō)不

背后是大模型的中文語(yǔ)料焦慮。

文 | 唐辰同學(xué)

網(wǎng)文作者拒成番茄小說(shuō)AI訓(xùn)練“花肥” 。

近段時(shí)間,不少網(wǎng)文作者在社交媒體發(fā)文控訴,番茄小說(shuō)在簽約協(xié)議中,增加了“AI訓(xùn)練補(bǔ)充協(xié)議”,要求作者同意把作品“授權(quán)”給平臺(tái)的AI,用于內(nèi)容開(kāi)發(fā)。

背刺平臺(tái)作者

根據(jù)此次補(bǔ)充協(xié)議內(nèi)容,作者完成簽署后,其作者全部/部分內(nèi)容及相關(guān)信息,都將用于平臺(tái)AI人工智能模型訓(xùn)練,或者其他新技術(shù)研發(fā)應(yīng)用場(chǎng)景。如若簽訂,作者后續(xù)“將優(yōu)先參與平臺(tái)AI新功能內(nèi)測(cè)”。

也就是說(shuō),番茄小說(shuō)的作者,被迫同意補(bǔ)充協(xié)議后,其小說(shuō)作品便被平臺(tái)拿去“投喂”給大模型訓(xùn)練。但他們并不能拿到更多收益,最多是獲得一個(gè)十分雞肋的新功能內(nèi)測(cè)資格。

實(shí)際上,早在2023年,就有作者在番茄小說(shuō)的簽約協(xié)議中,發(fā)現(xiàn)涉及AI訓(xùn)練的條款。當(dāng)時(shí)并沒(méi)有被作者和業(yè)界廣泛關(guān)注。這次拿“作者小說(shuō)訓(xùn)練AI”事件之所以發(fā)酵,主要還是番茄小說(shuō)的吃相過(guò)于難看,更多作者選擇停更、斷更和在社交平臺(tái)發(fā)聲抗議,來(lái)和平臺(tái)博弈、維權(quán),要求解除AI協(xié)議。

網(wǎng)文作者在社交平臺(tái)發(fā)帖截圖

一方面,番茄小說(shuō)合同中關(guān)于作品“投喂”AI的條款,隱蔽且“霸道”。不少作者是通過(guò)網(wǎng)絡(luò)帖子才注意到合同中的“霸王條款”。從作者發(fā)帖的內(nèi)容可以看到,番茄小說(shuō)的補(bǔ)充協(xié)議里,并沒(méi)有明說(shuō)平臺(tái)不會(huì)把作品拿去訓(xùn)練AI,但也沒(méi)有放棄尋求作者的同意,甚至在引導(dǎo)作者,讓渡自己的權(quán)益。

網(wǎng)文作者在社交平臺(tái)發(fā)帖截圖

另外一方面,面對(duì)“投喂”AI引發(fā)的爭(zhēng)議,番茄小說(shuō)在相關(guān)論壇及其今日頭條官方賬號(hào)進(jìn)行回應(yīng),稱“官方?jīng)]有發(fā)布過(guò)任何純AI寫(xiě)作的作品,也不會(huì)違背作者個(gè)人意愿使用AI寫(xiě)作能力。如作者對(duì)協(xié)議有異議,可以盡快協(xié)助解除相關(guān)AI條款約定?!?/p>

但平臺(tái)作者們認(rèn)為,番茄小說(shuō)回應(yīng)所選擇的論壇和今日頭條賬號(hào),并不被所有人知曉。這個(gè)姿態(tài),只是對(duì)外界的一個(gè)交代,不是直接觸達(dá)作者的信息渠道。因?yàn)榉研≌f(shuō)平日給作者發(fā)信息的正規(guī)渠道都是站內(nèi)信。

“這就是希望我們盡可能少關(guān)注到這件事的新聞或者帖子,盡量減少去主動(dòng)解約作者人數(shù)?!庇凶髡咛岬?。此外,還有多位作者表示此回應(yīng)避重就輕、玩文字游戲:“沒(méi)發(fā)布過(guò)‘純AI’寫(xiě)作的作品,意味著可能發(fā)布過(guò)大部分內(nèi)容由AI生成的作品,比如真人搭框架,AI填內(nèi)容。”

隨著抵制和反對(duì)聲音的持續(xù)放大,番茄小說(shuō)不得不上線合同條款解除功能,支持解除“AI訓(xùn)練補(bǔ)充協(xié)議”。

即便如此,解約也并沒(méi)有那么輕松。有作者發(fā)現(xiàn),解約的操作入口很深。還有作者提到,他的解約申請(qǐng)16日已經(jīng)提交,但至今還在待處理狀態(tài)。還有上百位博主發(fā)帖表示,與番茄小說(shuō)解約后被限流,且沒(méi)有收到違反有關(guān)規(guī)則的通知。不少作者更擔(dān)心被平臺(tái)方起訴,泄露合同內(nèi)容。一旦敗訴,賠償金也會(huì)是一筆不小的費(fèi)用。

在人工智能技術(shù)發(fā)展,AI創(chuàng)作大趨勢(shì)下,番茄小說(shuō)推出AI輔助工具無(wú)可厚非,一定程度上也能提高網(wǎng)文作者的寫(xiě)作效率。但番茄小說(shuō)把AI補(bǔ)充訓(xùn)練協(xié)議明確寫(xiě)在作者合同中,沒(méi)有考慮作者的心情,強(qiáng)行把作者的勞動(dòng)成果“投喂”給AI,不僅涉嫌侵犯內(nèi)容版權(quán),更是對(duì)他們的一種背刺。

因?yàn)閷?duì)于很多網(wǎng)文作者來(lái)說(shuō),這是他們的謀生之路。如今在不知情的情況下,隨時(shí)可能被AI作者替代,何嘗不是第二個(gè)面對(duì)無(wú)人駕駛的網(wǎng)約車司機(jī)?畢竟,原創(chuàng)作者堅(jiān)持日更千字甚至萬(wàn)字就極為難得,而AI作者分分鐘就能“創(chuàng)作”出一本小說(shuō)。

經(jīng)濟(jì)觀察網(wǎng)還提到,明確把AI條款寫(xiě)進(jìn)合同的,只有番茄小說(shuō)一個(gè)平臺(tái)。閱文集團(tuán)、掌閱、七貓小說(shuō)、中文在線等網(wǎng)文平臺(tái)的作者和工作人員,他們均稱沒(méi)有見(jiàn)過(guò)類似AI條款。換句話說(shuō),直接宣布將語(yǔ)料“投喂”給大模型的平臺(tái), 目前僅有番茄小說(shuō)一家。

拿了你的東西,還不明確告知目的是什么。這也就能理解,番茄小說(shuō)為何在這輪風(fēng)波中,被作者推到對(duì)立面,奮起落錘反抗。有作者便表示準(zhǔn)備和小伙伴離開(kāi),“越了解AI寫(xiě)作,越覺(jué)得番茄小說(shuō)不把作者當(dāng)人?!?/p>

番茄小說(shuō)的底氣

雖然放在全球范圍看,AI創(chuàng)作引發(fā)的爭(zhēng)論和抗議早已有之。比如,2023年7月,出于對(duì)AI發(fā)展的忌憚,有著近16萬(wàn)成員的好萊塢三大工會(huì)之一的美國(guó)演員工會(huì)(SAG-AFTRA)也出現(xiàn)過(guò)罷工現(xiàn)象,罷工人員曾在十?dāng)?shù)家制片公司外舉行抗議活動(dòng)。

再比如,2023年底,《紐約時(shí)報(bào)》就將微軟和OpenAI告上法庭,稱被告未經(jīng)許可使用數(shù)百萬(wàn)篇版權(quán)文章訓(xùn)練AI模型,開(kāi)發(fā)有競(jìng)爭(zhēng)屬性的產(chǎn)品,賺取了豐厚的利潤(rùn),但嚴(yán)重威脅到了新聞從業(yè)者的生計(jì),造成數(shù)十億美元的損失。在此之后,陸續(xù)有媒體加入到反抗的隊(duì)列。截至今年6月,至少已有12家新聞媒體機(jī)構(gòu)對(duì)OpenAI和微軟提起了侵權(quán)訴訟。

與之對(duì)比,番茄小說(shuō)AI協(xié)議事件,可以定義為是國(guó)內(nèi)首例內(nèi)容創(chuàng)作者聯(lián)合反對(duì)AI寫(xiě)作的案例,值得網(wǎng)文行業(yè)以及AI從業(yè)者的反思。晉江文學(xué)城總裁劉旭東就表示,他并不鼓勵(lì)A(yù)I創(chuàng)作。人類作者參與這種行為是飲鴆止渴。遲早有一天,平臺(tái)會(huì)用自己訓(xùn)練的AI虛擬作者代替人類作者?!叭绻@一天注定要到來(lái),我希望來(lái)得晚一些”。

在他看來(lái),網(wǎng)文平臺(tái)看重AI,大部分是為了降本增效。特別是在免費(fèi)網(wǎng)文平臺(tái),有一些靠發(fā)錢(qián)吸引來(lái)的、對(duì)作品質(zhì)量要求不高的讀者,他們需要“量大管飽”、品質(zhì)不必太高的內(nèi)容,而AI寫(xiě)作的內(nèi)容恰好能滿足這種需求。所以鼓勵(lì)A(yù)I創(chuàng)作就成了一些平臺(tái)的導(dǎo)向。

如其所說(shuō),網(wǎng)文平臺(tái)布局AI已久。在番茄小說(shuō)的AI條款發(fā)酵之前,包括字節(jié)跳動(dòng)系、騰訊系、知乎在內(nèi)的多家公司,都在投入以中文寫(xiě)作為核心能力的大模型。

比如去年7月,閱文發(fā)布了國(guó)內(nèi)網(wǎng)絡(luò)文學(xué)行業(yè)首個(gè)大模型“閱文妙筆”,并基于這一大模型推出應(yīng)用產(chǎn)品“作家助手妙筆版”;知乎在2022年,作為領(lǐng)投方,參與了AI創(chuàng)業(yè)公司面壁智能的天使輪融資。此后,2023年11月,和面壁智能共同發(fā)布了“知海圖AI”中文大模型;“七貓”平臺(tái)宣布基于跟百度的“文心一言”合作,為作者提供了“AI助理”等相關(guān)輔助寫(xiě)作功能,可以提供歷史文化信息、為角色命名、生成場(chǎng)景描寫(xiě)等。

同時(shí),撇除劉旭東觀點(diǎn)里的“競(jìng)品思維”,有一點(diǎn)是客觀的。番茄小說(shuō)成立不過(guò)5年,便超越閱文(起點(diǎn))、晉江等老牌網(wǎng)文平臺(tái),一躍成為用戶最多的免費(fèi)小說(shuō)平臺(tái),靠的就是“免費(fèi)、量大、管飽”的策略。

這放在字節(jié)跳動(dòng)“App工廠”體系內(nèi),其增長(zhǎng)策略和今日頭條、抖音如出一轍:用戶看書(shū)不花錢(qián),還能通過(guò)不斷地刷時(shí)長(zhǎng),獲得積分、金幣甚至返現(xiàn)獎(jiǎng)勵(lì),番茄小說(shuō)憑借用戶規(guī)模獲得廣告收益。這個(gè)模式也被業(yè)界評(píng)價(jià)為,“用戶沒(méi)有花錢(qián)買(mǎi)商品,因?yàn)橛脩艟褪潜毁u掉的商品”。

調(diào)研機(jī)構(gòu)QuestMobile數(shù)據(jù)顯示,番茄小說(shuō)位列2023年12月國(guó)內(nèi)數(shù)字閱讀行業(yè)MAU(月活躍用戶數(shù))規(guī)模首位,MAU為1.92億,同比增長(zhǎng)35.8%。另?yè)?jù)晚點(diǎn)LatePost曾披露,2023年,番茄小說(shuō)的收入已經(jīng)超過(guò) 100 億?!皰读髁恳粤钭髡摺?,這或許是番茄小說(shuō)的底氣。

大模型的中文語(yǔ)料焦慮

目前來(lái)看,AI替代的問(wèn)題是一個(gè)全球性也是時(shí)代性的爭(zhēng)論話題。由番茄小說(shuō)AI訓(xùn)練協(xié)議推高的,關(guān)于平臺(tái)用作者內(nèi)容投喂AI是否侵權(quán)以及如何界定、AI是否會(huì)革了網(wǎng)文作者的“命”、AI對(duì)內(nèi)容創(chuàng)作影響有多大等問(wèn)題的探討,短期內(nèi)難以有一個(gè)共識(shí)的答案。但可以確定的是,當(dāng)下沒(méi)有誰(shuí),包括內(nèi)容創(chuàng)作者群體,愿意被動(dòng)的成為AI訓(xùn)練的“花肥”,自然會(huì)站出來(lái)說(shuō)“不”。

番茄小說(shuō)“頂風(fēng)作案”還引發(fā)一個(gè)關(guān)鍵問(wèn)題:字節(jié)大模型的語(yǔ)料不夠“吃”了,正面臨著語(yǔ)料短缺的焦慮。今年5月,字節(jié)跳動(dòng)發(fā)布豆包大模型,官方宣稱,豆包大模型正成為國(guó)內(nèi)使用量最大、應(yīng)用場(chǎng)景最豐富的大模型之一,目前日均處理1200億Tokens文本,生成3000萬(wàn)張圖片。番茄小說(shuō)是其接入的50余個(gè)業(yè)務(wù)之一。

番茄小說(shuō)基于豆包大模型的AI功能箱擴(kuò)充——番茄小說(shuō)上線了AI擴(kuò)寫(xiě)、AI改寫(xiě)、自定義描寫(xiě)、AI續(xù)寫(xiě)、AI起名、卡文錦囊、AI助手七大功能——自然需要更多的文字作品來(lái)喂養(yǎng),也需要更多數(shù)據(jù)來(lái)支撐AI寫(xiě)作,平臺(tái)作者便成為所需“花肥”。

事實(shí)上,在番茄小說(shuō)AI訓(xùn)練補(bǔ)充協(xié)議上線之前,豆包的語(yǔ)料庫(kù)中,已經(jīng)疑似被投喂了全網(wǎng)的免費(fèi)、付費(fèi)文學(xué)作品。藍(lán)鯨新聞報(bào)道,有番茄小說(shuō)作者提到,在豆包搜索個(gè)人在起點(diǎn)上架的小說(shuō)內(nèi)容時(shí),也能搜索到有關(guān)內(nèi)容。該作者懷疑在番茄小說(shuō)的實(shí)名注冊(cè)信息被泄露,各大平臺(tái)以自己不同網(wǎng)名來(lái)寫(xiě)作的內(nèi)容都已經(jīng)被抓取。

網(wǎng)友質(zhì)疑平臺(tái)出現(xiàn)AI作者洗稿抄襲。圖源:界面新聞

還有作者爆料,WPS疑似將自己的審簽內(nèi)容喂給了豆包,稱“我才發(fā)表到35章,豆包章綱直接給我擴(kuò)到90章。我的細(xì)綱里中后期劇情還沒(méi)發(fā)表出去,豆包都出章綱了,那些劇情還和我大綱的劇情一模一樣,只有順序有點(diǎn)亂?!?/p>

對(duì)此,豆包也發(fā)布聲明稱,傳言完全不實(shí)。豆包上部分書(shū)目信息,來(lái)源于公開(kāi)信息,豆包也會(huì)給出相關(guān)網(wǎng)站信息;豆包與WPS在AI訓(xùn)練層面并未開(kāi)展任何形式的合作,也沒(méi)有使用任何用戶未公開(kāi)的私人數(shù)據(jù)進(jìn)行訓(xùn)練。

抖音也進(jìn)一步明確,作者問(wèn)詢相關(guān)書(shū)目信息,豆包是基于公開(kāi)搜索結(jié)果呈現(xiàn)作品及概述,不存在盜用信息行為。番茄小說(shuō)對(duì)于已經(jīng)簽署補(bǔ)充協(xié)議、或簽約條款中包含AI條款的作者,已開(kāi)放相關(guān)通道,將協(xié)助作者盡快解除相關(guān)AI條款約定。

但這并沒(méi)有打消作者和業(yè)界的疑慮。信奉實(shí)用主義的字節(jié),此前就有過(guò)類似的“騷操作”。今年5月,豆包被爆出將AI自問(wèn)自答的內(nèi)容生成靜態(tài)網(wǎng)頁(yè),利用搜索引擎提高排名曝光,從而吸引流量。比如,當(dāng)有人問(wèn)AI搜索軟件Perplexity一個(gè)無(wú)厘頭的問(wèn)題:“林黛玉的性格和魯智深的性格有什么相似之處”時(shí),答案其中一個(gè)信息源,竟然是豆包和用戶的聊天記錄。

網(wǎng)絡(luò)截圖

要知道,數(shù)據(jù)是支撐大模型發(fā)展的核心要素之一,語(yǔ)料即是大模型訓(xùn)練所需要的數(shù)據(jù),是巧婦下廚的“米”。同時(shí),語(yǔ)料的質(zhì)量會(huì)顯著影響大模型的性能。數(shù)據(jù)質(zhì)量低,輸出的結(jié)果必然會(huì)是“垃圾內(nèi)容多”。

唐辰注意到,阿里研究院在最近發(fā)布的《大模型訓(xùn)練數(shù)據(jù)白皮書(shū)》中提出,互聯(lián)網(wǎng)上中文語(yǔ)料和英文語(yǔ)料占比存在顯著差異:在全球網(wǎng)站中,英文占比高達(dá)59.8%,而中文僅占 1.3%。

商湯科技大裝置事業(yè)群高級(jí)總監(jiān)張行程表示,中文高質(zhì)量語(yǔ)料相對(duì)缺乏是國(guó)內(nèi)外大模型面臨的共同問(wèn)題。中文語(yǔ)料庫(kù)不僅規(guī)模較小,且其電子化和網(wǎng)絡(luò)化程度明顯不足。此外,受版權(quán)、隱私等限制,許多優(yōu)質(zhì)中文語(yǔ)料庫(kù)也無(wú)法公開(kāi)獲取。

去年,閱文在推出“閱文妙筆”時(shí),就被問(wèn)詢其素材來(lái)源,但相關(guān)負(fù)責(zé)人不予置評(píng)。從這點(diǎn)上看,字節(jié)跳動(dòng)正面臨中文語(yǔ)料短缺的問(wèn)題,也是國(guó)內(nèi)所有大模型廠商的共同困境。

而這,也是主張“大力出奇跡”的字節(jié)跳動(dòng),為實(shí)現(xiàn)大模型訓(xùn)練的可靠性甚至領(lǐng)跑行業(yè),才跑偏了,不顧一切的將網(wǎng)文作者、作品作為“花肥”,投喂給AI的根本原因。

參考資料:

中國(guó)企業(yè)家雜志,《3個(gè)月上架222本書(shū),番茄小說(shuō)疑似“進(jìn)化”出AI作者》

科技日?qǐng)?bào),《大模型發(fā)展提速 中文語(yǔ)料夠“吃”嗎》

我是唐辰同學(xué),關(guān)注互聯(lián)網(wǎng)科技及商業(yè)故事。原創(chuàng)內(nèi)容,未經(jīng)許可,謝絕轉(zhuǎn)載。

 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

被番茄小說(shuō)當(dāng)做AI訓(xùn)練“花肥” 網(wǎng)文作者聯(lián)合說(shuō)不

背后是大模型的中文語(yǔ)料焦慮。

文 | 唐辰同學(xué)

網(wǎng)文作者拒成番茄小說(shuō)AI訓(xùn)練“花肥” 。

近段時(shí)間,不少網(wǎng)文作者在社交媒體發(fā)文控訴,番茄小說(shuō)在簽約協(xié)議中,增加了“AI訓(xùn)練補(bǔ)充協(xié)議”,要求作者同意把作品“授權(quán)”給平臺(tái)的AI,用于內(nèi)容開(kāi)發(fā)。

背刺平臺(tái)作者

根據(jù)此次補(bǔ)充協(xié)議內(nèi)容,作者完成簽署后,其作者全部/部分內(nèi)容及相關(guān)信息,都將用于平臺(tái)AI人工智能模型訓(xùn)練,或者其他新技術(shù)研發(fā)應(yīng)用場(chǎng)景。如若簽訂,作者后續(xù)“將優(yōu)先參與平臺(tái)AI新功能內(nèi)測(cè)”。

也就是說(shuō),番茄小說(shuō)的作者,被迫同意補(bǔ)充協(xié)議后,其小說(shuō)作品便被平臺(tái)拿去“投喂”給大模型訓(xùn)練。但他們并不能拿到更多收益,最多是獲得一個(gè)十分雞肋的新功能內(nèi)測(cè)資格。

實(shí)際上,早在2023年,就有作者在番茄小說(shuō)的簽約協(xié)議中,發(fā)現(xiàn)涉及AI訓(xùn)練的條款。當(dāng)時(shí)并沒(méi)有被作者和業(yè)界廣泛關(guān)注。這次拿“作者小說(shuō)訓(xùn)練AI”事件之所以發(fā)酵,主要還是番茄小說(shuō)的吃相過(guò)于難看,更多作者選擇停更、斷更和在社交平臺(tái)發(fā)聲抗議,來(lái)和平臺(tái)博弈、維權(quán),要求解除AI協(xié)議。

網(wǎng)文作者在社交平臺(tái)發(fā)帖截圖

一方面,番茄小說(shuō)合同中關(guān)于作品“投喂”AI的條款,隱蔽且“霸道”。不少作者是通過(guò)網(wǎng)絡(luò)帖子才注意到合同中的“霸王條款”。從作者發(fā)帖的內(nèi)容可以看到,番茄小說(shuō)的補(bǔ)充協(xié)議里,并沒(méi)有明說(shuō)平臺(tái)不會(huì)把作品拿去訓(xùn)練AI,但也沒(méi)有放棄尋求作者的同意,甚至在引導(dǎo)作者,讓渡自己的權(quán)益。

網(wǎng)文作者在社交平臺(tái)發(fā)帖截圖

另外一方面,面對(duì)“投喂”AI引發(fā)的爭(zhēng)議,番茄小說(shuō)在相關(guān)論壇及其今日頭條官方賬號(hào)進(jìn)行回應(yīng),稱“官方?jīng)]有發(fā)布過(guò)任何純AI寫(xiě)作的作品,也不會(huì)違背作者個(gè)人意愿使用AI寫(xiě)作能力。如作者對(duì)協(xié)議有異議,可以盡快協(xié)助解除相關(guān)AI條款約定。”

但平臺(tái)作者們認(rèn)為,番茄小說(shuō)回應(yīng)所選擇的論壇和今日頭條賬號(hào),并不被所有人知曉。這個(gè)姿態(tài),只是對(duì)外界的一個(gè)交代,不是直接觸達(dá)作者的信息渠道。因?yàn)榉研≌f(shuō)平日給作者發(fā)信息的正規(guī)渠道都是站內(nèi)信。

“這就是希望我們盡可能少關(guān)注到這件事的新聞或者帖子,盡量減少去主動(dòng)解約作者人數(shù)。”有作者提到。此外,還有多位作者表示此回應(yīng)避重就輕、玩文字游戲:“沒(méi)發(fā)布過(guò)‘純AI’寫(xiě)作的作品,意味著可能發(fā)布過(guò)大部分內(nèi)容由AI生成的作品,比如真人搭框架,AI填內(nèi)容?!?/p>

隨著抵制和反對(duì)聲音的持續(xù)放大,番茄小說(shuō)不得不上線合同條款解除功能,支持解除“AI訓(xùn)練補(bǔ)充協(xié)議”。

即便如此,解約也并沒(méi)有那么輕松。有作者發(fā)現(xiàn),解約的操作入口很深。還有作者提到,他的解約申請(qǐng)16日已經(jīng)提交,但至今還在待處理狀態(tài)。還有上百位博主發(fā)帖表示,與番茄小說(shuō)解約后被限流,且沒(méi)有收到違反有關(guān)規(guī)則的通知。不少作者更擔(dān)心被平臺(tái)方起訴,泄露合同內(nèi)容。一旦敗訴,賠償金也會(huì)是一筆不小的費(fèi)用。

在人工智能技術(shù)發(fā)展,AI創(chuàng)作大趨勢(shì)下,番茄小說(shuō)推出AI輔助工具無(wú)可厚非,一定程度上也能提高網(wǎng)文作者的寫(xiě)作效率。但番茄小說(shuō)把AI補(bǔ)充訓(xùn)練協(xié)議明確寫(xiě)在作者合同中,沒(méi)有考慮作者的心情,強(qiáng)行把作者的勞動(dòng)成果“投喂”給AI,不僅涉嫌侵犯內(nèi)容版權(quán),更是對(duì)他們的一種背刺。

因?yàn)閷?duì)于很多網(wǎng)文作者來(lái)說(shuō),這是他們的謀生之路。如今在不知情的情況下,隨時(shí)可能被AI作者替代,何嘗不是第二個(gè)面對(duì)無(wú)人駕駛的網(wǎng)約車司機(jī)?畢竟,原創(chuàng)作者堅(jiān)持日更千字甚至萬(wàn)字就極為難得,而AI作者分分鐘就能“創(chuàng)作”出一本小說(shuō)。

經(jīng)濟(jì)觀察網(wǎng)還提到,明確把AI條款寫(xiě)進(jìn)合同的,只有番茄小說(shuō)一個(gè)平臺(tái)。閱文集團(tuán)、掌閱、七貓小說(shuō)、中文在線等網(wǎng)文平臺(tái)的作者和工作人員,他們均稱沒(méi)有見(jiàn)過(guò)類似AI條款。換句話說(shuō),直接宣布將語(yǔ)料“投喂”給大模型的平臺(tái), 目前僅有番茄小說(shuō)一家。

拿了你的東西,還不明確告知目的是什么。這也就能理解,番茄小說(shuō)為何在這輪風(fēng)波中,被作者推到對(duì)立面,奮起落錘反抗。有作者便表示準(zhǔn)備和小伙伴離開(kāi),“越了解AI寫(xiě)作,越覺(jué)得番茄小說(shuō)不把作者當(dāng)人?!?/p>

番茄小說(shuō)的底氣

雖然放在全球范圍看,AI創(chuàng)作引發(fā)的爭(zhēng)論和抗議早已有之。比如,2023年7月,出于對(duì)AI發(fā)展的忌憚,有著近16萬(wàn)成員的好萊塢三大工會(huì)之一的美國(guó)演員工會(huì)(SAG-AFTRA)也出現(xiàn)過(guò)罷工現(xiàn)象,罷工人員曾在十?dāng)?shù)家制片公司外舉行抗議活動(dòng)。

再比如,2023年底,《紐約時(shí)報(bào)》就將微軟和OpenAI告上法庭,稱被告未經(jīng)許可使用數(shù)百萬(wàn)篇版權(quán)文章訓(xùn)練AI模型,開(kāi)發(fā)有競(jìng)爭(zhēng)屬性的產(chǎn)品,賺取了豐厚的利潤(rùn),但嚴(yán)重威脅到了新聞從業(yè)者的生計(jì),造成數(shù)十億美元的損失。在此之后,陸續(xù)有媒體加入到反抗的隊(duì)列。截至今年6月,至少已有12家新聞媒體機(jī)構(gòu)對(duì)OpenAI和微軟提起了侵權(quán)訴訟。

與之對(duì)比,番茄小說(shuō)AI協(xié)議事件,可以定義為是國(guó)內(nèi)首例內(nèi)容創(chuàng)作者聯(lián)合反對(duì)AI寫(xiě)作的案例,值得網(wǎng)文行業(yè)以及AI從業(yè)者的反思。晉江文學(xué)城總裁劉旭東就表示,他并不鼓勵(lì)A(yù)I創(chuàng)作。人類作者參與這種行為是飲鴆止渴。遲早有一天,平臺(tái)會(huì)用自己訓(xùn)練的AI虛擬作者代替人類作者?!叭绻@一天注定要到來(lái),我希望來(lái)得晚一些”。

在他看來(lái),網(wǎng)文平臺(tái)看重AI,大部分是為了降本增效。特別是在免費(fèi)網(wǎng)文平臺(tái),有一些靠發(fā)錢(qián)吸引來(lái)的、對(duì)作品質(zhì)量要求不高的讀者,他們需要“量大管飽”、品質(zhì)不必太高的內(nèi)容,而AI寫(xiě)作的內(nèi)容恰好能滿足這種需求。所以鼓勵(lì)A(yù)I創(chuàng)作就成了一些平臺(tái)的導(dǎo)向。

如其所說(shuō),網(wǎng)文平臺(tái)布局AI已久。在番茄小說(shuō)的AI條款發(fā)酵之前,包括字節(jié)跳動(dòng)系、騰訊系、知乎在內(nèi)的多家公司,都在投入以中文寫(xiě)作為核心能力的大模型。

比如去年7月,閱文發(fā)布了國(guó)內(nèi)網(wǎng)絡(luò)文學(xué)行業(yè)首個(gè)大模型“閱文妙筆”,并基于這一大模型推出應(yīng)用產(chǎn)品“作家助手妙筆版”;知乎在2022年,作為領(lǐng)投方,參與了AI創(chuàng)業(yè)公司面壁智能的天使輪融資。此后,2023年11月,和面壁智能共同發(fā)布了“知海圖AI”中文大模型;“七貓”平臺(tái)宣布基于跟百度的“文心一言”合作,為作者提供了“AI助理”等相關(guān)輔助寫(xiě)作功能,可以提供歷史文化信息、為角色命名、生成場(chǎng)景描寫(xiě)等。

同時(shí),撇除劉旭東觀點(diǎn)里的“競(jìng)品思維”,有一點(diǎn)是客觀的。番茄小說(shuō)成立不過(guò)5年,便超越閱文(起點(diǎn))、晉江等老牌網(wǎng)文平臺(tái),一躍成為用戶最多的免費(fèi)小說(shuō)平臺(tái),靠的就是“免費(fèi)、量大、管飽”的策略。

這放在字節(jié)跳動(dòng)“App工廠”體系內(nèi),其增長(zhǎng)策略和今日頭條、抖音如出一轍:用戶看書(shū)不花錢(qián),還能通過(guò)不斷地刷時(shí)長(zhǎng),獲得積分、金幣甚至返現(xiàn)獎(jiǎng)勵(lì),番茄小說(shuō)憑借用戶規(guī)模獲得廣告收益。這個(gè)模式也被業(yè)界評(píng)價(jià)為,“用戶沒(méi)有花錢(qián)買(mǎi)商品,因?yàn)橛脩艟褪潜毁u掉的商品”。

調(diào)研機(jī)構(gòu)QuestMobile數(shù)據(jù)顯示,番茄小說(shuō)位列2023年12月國(guó)內(nèi)數(shù)字閱讀行業(yè)MAU(月活躍用戶數(shù))規(guī)模首位,MAU為1.92億,同比增長(zhǎng)35.8%。另?yè)?jù)晚點(diǎn)LatePost曾披露,2023年,番茄小說(shuō)的收入已經(jīng)超過(guò) 100 億?!皰读髁恳粤钭髡摺保@或許是番茄小說(shuō)的底氣。

大模型的中文語(yǔ)料焦慮

目前來(lái)看,AI替代的問(wèn)題是一個(gè)全球性也是時(shí)代性的爭(zhēng)論話題。由番茄小說(shuō)AI訓(xùn)練協(xié)議推高的,關(guān)于平臺(tái)用作者內(nèi)容投喂AI是否侵權(quán)以及如何界定、AI是否會(huì)革了網(wǎng)文作者的“命”、AI對(duì)內(nèi)容創(chuàng)作影響有多大等問(wèn)題的探討,短期內(nèi)難以有一個(gè)共識(shí)的答案。但可以確定的是,當(dāng)下沒(méi)有誰(shuí),包括內(nèi)容創(chuàng)作者群體,愿意被動(dòng)的成為AI訓(xùn)練的“花肥”,自然會(huì)站出來(lái)說(shuō)“不”。

番茄小說(shuō)“頂風(fēng)作案”還引發(fā)一個(gè)關(guān)鍵問(wèn)題:字節(jié)大模型的語(yǔ)料不夠“吃”了,正面臨著語(yǔ)料短缺的焦慮。今年5月,字節(jié)跳動(dòng)發(fā)布豆包大模型,官方宣稱,豆包大模型正成為國(guó)內(nèi)使用量最大、應(yīng)用場(chǎng)景最豐富的大模型之一,目前日均處理1200億Tokens文本,生成3000萬(wàn)張圖片。番茄小說(shuō)是其接入的50余個(gè)業(yè)務(wù)之一。

番茄小說(shuō)基于豆包大模型的AI功能箱擴(kuò)充——番茄小說(shuō)上線了AI擴(kuò)寫(xiě)、AI改寫(xiě)、自定義描寫(xiě)、AI續(xù)寫(xiě)、AI起名、卡文錦囊、AI助手七大功能——自然需要更多的文字作品來(lái)喂養(yǎng),也需要更多數(shù)據(jù)來(lái)支撐AI寫(xiě)作,平臺(tái)作者便成為所需“花肥”。

事實(shí)上,在番茄小說(shuō)AI訓(xùn)練補(bǔ)充協(xié)議上線之前,豆包的語(yǔ)料庫(kù)中,已經(jīng)疑似被投喂了全網(wǎng)的免費(fèi)、付費(fèi)文學(xué)作品。藍(lán)鯨新聞報(bào)道,有番茄小說(shuō)作者提到,在豆包搜索個(gè)人在起點(diǎn)上架的小說(shuō)內(nèi)容時(shí),也能搜索到有關(guān)內(nèi)容。該作者懷疑在番茄小說(shuō)的實(shí)名注冊(cè)信息被泄露,各大平臺(tái)以自己不同網(wǎng)名來(lái)寫(xiě)作的內(nèi)容都已經(jīng)被抓取。

網(wǎng)友質(zhì)疑平臺(tái)出現(xiàn)AI作者洗稿抄襲。圖源:界面新聞

還有作者爆料,WPS疑似將自己的審簽內(nèi)容喂給了豆包,稱“我才發(fā)表到35章,豆包章綱直接給我擴(kuò)到90章。我的細(xì)綱里中后期劇情還沒(méi)發(fā)表出去,豆包都出章綱了,那些劇情還和我大綱的劇情一模一樣,只有順序有點(diǎn)亂。”

對(duì)此,豆包也發(fā)布聲明稱,傳言完全不實(shí)。豆包上部分書(shū)目信息,來(lái)源于公開(kāi)信息,豆包也會(huì)給出相關(guān)網(wǎng)站信息;豆包與WPS在AI訓(xùn)練層面并未開(kāi)展任何形式的合作,也沒(méi)有使用任何用戶未公開(kāi)的私人數(shù)據(jù)進(jìn)行訓(xùn)練。

抖音也進(jìn)一步明確,作者問(wèn)詢相關(guān)書(shū)目信息,豆包是基于公開(kāi)搜索結(jié)果呈現(xiàn)作品及概述,不存在盜用信息行為。番茄小說(shuō)對(duì)于已經(jīng)簽署補(bǔ)充協(xié)議、或簽約條款中包含AI條款的作者,已開(kāi)放相關(guān)通道,將協(xié)助作者盡快解除相關(guān)AI條款約定。

但這并沒(méi)有打消作者和業(yè)界的疑慮。信奉實(shí)用主義的字節(jié),此前就有過(guò)類似的“騷操作”。今年5月,豆包被爆出將AI自問(wèn)自答的內(nèi)容生成靜態(tài)網(wǎng)頁(yè),利用搜索引擎提高排名曝光,從而吸引流量。比如,當(dāng)有人問(wèn)AI搜索軟件Perplexity一個(gè)無(wú)厘頭的問(wèn)題:“林黛玉的性格和魯智深的性格有什么相似之處”時(shí),答案其中一個(gè)信息源,竟然是豆包和用戶的聊天記錄。

網(wǎng)絡(luò)截圖

要知道,數(shù)據(jù)是支撐大模型發(fā)展的核心要素之一,語(yǔ)料即是大模型訓(xùn)練所需要的數(shù)據(jù),是巧婦下廚的“米”。同時(shí),語(yǔ)料的質(zhì)量會(huì)顯著影響大模型的性能。數(shù)據(jù)質(zhì)量低,輸出的結(jié)果必然會(huì)是“垃圾內(nèi)容多”。

唐辰注意到,阿里研究院在最近發(fā)布的《大模型訓(xùn)練數(shù)據(jù)白皮書(shū)》中提出,互聯(lián)網(wǎng)上中文語(yǔ)料和英文語(yǔ)料占比存在顯著差異:在全球網(wǎng)站中,英文占比高達(dá)59.8%,而中文僅占 1.3%。

商湯科技大裝置事業(yè)群高級(jí)總監(jiān)張行程表示,中文高質(zhì)量語(yǔ)料相對(duì)缺乏是國(guó)內(nèi)外大模型面臨的共同問(wèn)題。中文語(yǔ)料庫(kù)不僅規(guī)模較小,且其電子化和網(wǎng)絡(luò)化程度明顯不足。此外,受版權(quán)、隱私等限制,許多優(yōu)質(zhì)中文語(yǔ)料庫(kù)也無(wú)法公開(kāi)獲取。

去年,閱文在推出“閱文妙筆”時(shí),就被問(wèn)詢其素材來(lái)源,但相關(guān)負(fù)責(zé)人不予置評(píng)。從這點(diǎn)上看,字節(jié)跳動(dòng)正面臨中文語(yǔ)料短缺的問(wèn)題,也是國(guó)內(nèi)所有大模型廠商的共同困境。

而這,也是主張“大力出奇跡”的字節(jié)跳動(dòng),為實(shí)現(xiàn)大模型訓(xùn)練的可靠性甚至領(lǐng)跑行業(yè),才跑偏了,不顧一切的將網(wǎng)文作者、作品作為“花肥”,投喂給AI的根本原因。

參考資料:

中國(guó)企業(yè)家雜志,《3個(gè)月上架222本書(shū),番茄小說(shuō)疑似“進(jìn)化”出AI作者》

科技日?qǐng)?bào),《大模型發(fā)展提速 中文語(yǔ)料夠“吃”嗎》

我是唐辰同學(xué),關(guān)注互聯(lián)網(wǎng)科技及商業(yè)故事。原創(chuàng)內(nèi)容,未經(jīng)許可,謝絕轉(zhuǎn)載。

 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。