文丨盧向華(復(fù)旦大學(xué)管理學(xué)院教授)
當(dāng)高度發(fā)達(dá)的AI技術(shù)“包辦”方方面面,人類會(huì)不會(huì)變得“不思進(jìn)取”,科幻作品想象中的畫(huà)面是否會(huì)成為現(xiàn)實(shí)?而在此之前,人類又該如何避免這樣的“退化”發(fā)生?人類與AI協(xié)作進(jìn)入常態(tài)化發(fā)展的當(dāng)下,怎樣通過(guò)設(shè)計(jì)更好的協(xié)作機(jī)制,以實(shí)現(xiàn)人類與AI的共同演化和提升。
使用AI的人比AI本身更關(guān)鍵
人和AI如何協(xié)作能產(chǎn)生更好的效果?
讓我們先從用戶異質(zhì)性的角度討論AI對(duì)不同個(gè)體帶來(lái)的差異性效果,然后分析人與AI如何互補(bǔ)的協(xié)同工作機(jī)制。最后,從長(zhǎng)期動(dòng)態(tài)的角度探討人和AI如何互相增強(qiáng)、互相學(xué)習(xí),以實(shí)現(xiàn)共同的演化和提升。
首先,我們都意識(shí)到在AI系統(tǒng)中,人的角色不可或缺。最近,清華大學(xué)的李寧老師在一項(xiàng)研究中發(fā)現(xiàn),使用ChatGPT3.5或是ChatGPT4.0對(duì)任務(wù)的完成質(zhì)量并沒(méi)有明顯差異,但不同的人使用相同版本的ChatGPT3.5完成任務(wù)時(shí),質(zhì)量差異卻顯著。
基于這一發(fā)現(xiàn),他們提出了一個(gè)觀點(diǎn):使用AI的人比AI技術(shù)本身更為關(guān)鍵。學(xué)術(shù)研究中也有許多相關(guān)發(fā)現(xiàn)。例如,一些研究表明,越開(kāi)放、越外向的人與AI的協(xié)作效果越好。
另外,還有一項(xiàng)有趣的研究發(fā)現(xiàn),認(rèn)真負(fù)責(zé)的人實(shí)際上并不太喜歡AI,因?yàn)锳I與傳統(tǒng)技術(shù)不同,能夠自主做出決策,而這一特性與認(rèn)真負(fù)責(zé)的員工的本質(zhì)有所重疊。因此,認(rèn)真負(fù)責(zé)的員工從AI中獲益可能會(huì)比不那么認(rèn)真的員工少一些。相關(guān)研究還有很多。
然而,最為重要的用戶異質(zhì)性因素可能是工作經(jīng)驗(yàn)。
工作經(jīng)驗(yàn)在人和機(jī)器合作中起著雙刃劍的作用。一方面,工作經(jīng)驗(yàn)可以增加對(duì)算法建議的補(bǔ)充能力,從而提升協(xié)作效果;但另一方面,有經(jīng)驗(yàn)的人往往更加相信自己,不太信任算法,也不愿意與AI合作,這會(huì)導(dǎo)致協(xié)作效果變差。
因此,根據(jù)這一推理,AI與人協(xié)作的效果通常與工作經(jīng)驗(yàn)呈現(xiàn)出一種“倒U形”的關(guān)系,即隨著用戶工作經(jīng)驗(yàn)的增加,效果先增加后減少。這一推理已在許多研究中得到證實(shí)。
比如,一項(xiàng)在2023年的研究發(fā)現(xiàn),資歷高的員工從AI中獲益較少。具體而言,經(jīng)驗(yàn)較少的員工的獲益比例達(dá)40%,而資歷較高的員工從AI中獲益僅約為10%到15%左右。然而,研究也發(fā)現(xiàn),當(dāng)將經(jīng)驗(yàn)用任務(wù)專業(yè)度來(lái)衡量時(shí),具有高專業(yè)性的人仍然能夠從AI中獲益。這一發(fā)現(xiàn)與我們即將介紹的另一項(xiàng)研究結(jié)論一致。
AI搞定“重復(fù)性”,人類負(fù)責(zé)“創(chuàng)造性”
對(duì)于人機(jī)協(xié)作系統(tǒng)而言,除了單獨(dú)考慮AI系統(tǒng)和人的因素外,更重要的是如何充分發(fā)揮整體的能動(dòng)性和優(yōu)勢(shì),以平衡匹配人的特征和系統(tǒng)的特征,從而實(shí)現(xiàn)任務(wù)的最優(yōu)價(jià)值。
其中一種方法是通過(guò)分工,讓雙方各自發(fā)揮所長(zhǎng)。換句話說(shuō),讓AI處理那些可重復(fù)、結(jié)構(gòu)化程度高的任務(wù),而讓人更好地發(fā)揮自己的靈活性和創(chuàng)造力,解決那些情況多變、復(fù)雜度高的問(wèn)題。
最近在《管理學(xué)雜志》上發(fā)表的一篇論文對(duì)信用卡電話營(yíng)銷中的人機(jī)協(xié)同進(jìn)行了相關(guān)研究。信用卡電話營(yíng)銷通常分為兩個(gè)階段:第一階段是識(shí)別和篩選出感興趣的目標(biāo)客戶,第二階段是為客戶提供服務(wù)并最終說(shuō)服他們購(gòu)買信用卡。第一階段的銷售線索生成工作相對(duì)較為重復(fù)、規(guī)范和結(jié)構(gòu)化,因此,AI對(duì)話機(jī)器人可以相對(duì)熟練地處理這項(xiàng)工作。
然而,在第二階段,AI的能力明顯力不從心了,它們無(wú)法靈活應(yīng)對(duì)客戶需求,尤其是那些超出了腳本范圍的問(wèn)題。因此,研究發(fā)現(xiàn)需要及時(shí)將人類推銷員接入系統(tǒng),以解決這些靈活多變的客戶需求。
這種人機(jī)互補(bǔ)模式特別有助于人類更好地集中精力思考之前未曾遇到的客戶需求和問(wèn)題,并針對(duì)這些問(wèn)題提供創(chuàng)新的腳本。而這些創(chuàng)新的腳本又進(jìn)一步補(bǔ)充了AI的知識(shí)體系,使得AI系統(tǒng)在未來(lái)的電話營(yíng)銷中能夠處理這些新問(wèn)題。
這個(gè)例子揭示了人和AI能力的差異和互補(bǔ)性,這實(shí)際上是人機(jī)協(xié)作系統(tǒng)的核心價(jià)值所在。有效的人機(jī)協(xié)作系統(tǒng)需要持續(xù)監(jiān)控和管理,不斷提升AI系統(tǒng)的算法能力,并將用戶的能力融入其中,以確保實(shí)現(xiàn)預(yù)期的設(shè)計(jì)目標(biāo)。
因此,在人機(jī)協(xié)作過(guò)程中,經(jīng)常聽(tīng)到人機(jī)回環(huán)(Human-in-the-loop)或基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback) 。盡管這些術(shù)語(yǔ)較為技術(shù)化,早期更多用于指導(dǎo)人工修正AI算法設(shè)計(jì),但現(xiàn)在更多地指代,人機(jī)協(xié)作系統(tǒng)自動(dòng)將人類判斷融入AI系統(tǒng)流程中,構(gòu)建任務(wù)流程的閉環(huán)。
例如,在自動(dòng)駕駛汽車中,機(jī)器可以感知環(huán)境并做出決策,但遇到不確定情況時(shí),需要人類介入干預(yù)和決策。只有通過(guò)人和AI算法相互補(bǔ)充的方式,才能提高汽車駕駛的效率和準(zhǔn)確性。這種人機(jī)互補(bǔ)的協(xié)作方式可以使人類在機(jī)器無(wú)法處理的情況下發(fā)揮更大的作用,從而提高整體系統(tǒng)的性能。
警惕AI對(duì)人類的“阿諛?lè)畛小?/h3>
在人和AI緊密互補(bǔ)的合作過(guò)程中,必須警惕的是,人是否過(guò)于依賴AI,從而失去自己的思考判斷能力,導(dǎo)致思維上的“惰化”。
最近的一項(xiàng)研究向?qū)嶒?yàn)參與者提供了模糊的電路板圖像,并要求他們檢查是否存在缺陷。其中一半的參與者被告知,他們要處理的電路板已經(jīng)由一臺(tái)名為“熊貓”的AI機(jī)器人檢查過(guò),并標(biāo)記出了缺陷。
結(jié)果顯示,與“熊貓”一起工作的參與者在任務(wù)后期發(fā)現(xiàn)的缺陷更少,平均僅發(fā)現(xiàn)了3.3個(gè)缺陷,而獨(dú)自完成任務(wù)的參與者平均發(fā)現(xiàn)了4.23個(gè)缺陷。
這主要是因?yàn)榕c“熊貓”合作的參與者認(rèn)為這個(gè)AI機(jī)器是可靠的,因此他們傾向于懶得花更多精力去認(rèn)真檢查缺陷。尤其是當(dāng)任務(wù)變得例行化,且工作環(huán)境中缺乏性能監(jiān)測(cè)和反饋時(shí),人類的努力會(huì)減少得更多。
因此,有人認(rèn)為,在AI時(shí)代,人類最大的危機(jī)不是被AI取代,而是“懶到退化”,即人過(guò)于依賴AI的情況。
同時(shí),也會(huì)出現(xiàn)一種情況,即AI可能會(huì)錯(cuò)誤地向人學(xué)習(xí),表現(xiàn)出一種討好的行為。
例如,OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic在研究ChatGPT4.0等AIGC應(yīng)用時(shí)發(fā)現(xiàn),GPT4.0經(jīng)常會(huì)“錯(cuò)誤地承認(rèn)錯(cuò)誤”,即使自己并沒(méi)有錯(cuò),但是當(dāng)用戶指出GPT的錯(cuò)誤時(shí),它會(huì)錯(cuò)誤地承認(rèn)錯(cuò)誤,并模仿用戶的錯(cuò)誤。
這種“阿諛?lè)畛小钡默F(xiàn)象在各種AIGC模型和情境中都有存在,這并不僅是GPT4.0的特征,而是某種程度上表明了AI會(huì)傾向于產(chǎn)生符合用戶觀點(diǎn)或信仰的回應(yīng)。換句話說(shuō),當(dāng)AI的回復(fù)與用戶的觀點(diǎn)或信仰一致時(shí),用戶更有可能給予積極的反饋。因此,為了獲得更多積極的反饋,大型模型會(huì)學(xué)習(xí)出現(xiàn)討好用戶的行為。
高經(jīng)驗(yàn)用戶將成為企業(yè)“寶藏”
如果說(shuō),在AI的初期引入階段,人機(jī)系統(tǒng)的設(shè)計(jì)可能缺乏和人交互的經(jīng)驗(yàn),同時(shí)人類也缺乏和AI交互的先驗(yàn)經(jīng)驗(yàn),這可能導(dǎo)致人機(jī)之間存在不信任或者合作不順暢的現(xiàn)象。那么,隨著時(shí)間的推移,和“1到N”的長(zhǎng)期協(xié)同階段的到來(lái),這種不信任或合作不順暢的現(xiàn)象會(huì)逐漸弱化。
更多的挑戰(zhàn)則來(lái)自人機(jī)系統(tǒng)如何不斷優(yōu)化迭代。換句話說(shuō),AI需要向優(yōu)秀的人學(xué)習(xí),而人也需要向AI學(xué)習(xí),雙方相互增強(qiáng),使得人機(jī)協(xié)作系統(tǒng)的能力不斷呈現(xiàn)動(dòng)態(tài)螺旋上升的過(guò)程。
因此,在當(dāng)前“1到N”的長(zhǎng)期協(xié)同階段,研究重點(diǎn)會(huì)與“0到1”階段有所不同。我們團(tuán)隊(duì)近兩年在這方面進(jìn)行了一些相關(guān)的探索。
在外賣配送場(chǎng)景中,當(dāng)騎手需要同時(shí)取多個(gè)訂單并且送達(dá)它們時(shí),AI通常會(huì)提供建議的配送順序。騎手可以選擇遵循AI的建議,也可以自行決定如何派送這些訂單。為了進(jìn)一步提升騎手配送的效率,外賣平臺(tái)分析了表現(xiàn)最優(yōu)秀的騎手的配送順序,然后根據(jù)這些分析結(jié)果對(duì)AI算法進(jìn)行了升級(jí)。
AI算法的升級(jí)引發(fā)了一個(gè)有趣的問(wèn)題:在此之前,騎手和AI系統(tǒng)已經(jīng)建立了一種相對(duì)穩(wěn)定的合作關(guān)系?,F(xiàn)在,隨著AI算法的明顯提升,用戶是否會(huì)改變他們的協(xié)作行為?若改變了,他們的績(jī)效又會(huì)如何變化?在這個(gè)過(guò)程中,不同經(jīng)驗(yàn)水平的用戶又會(huì)對(duì)感知和響應(yīng)AI系統(tǒng)能力提升的上有什么不同的表現(xiàn)?
我們和某外賣平臺(tái)合作的研究結(jié)果表明,高經(jīng)驗(yàn)的騎手相比于低經(jīng)驗(yàn)的騎手,更能夠感知到AI系統(tǒng)能力的提升。因此,在AI算法能力提升后,高經(jīng)驗(yàn)的騎手與AI算法的一致性有了明顯的提升,而低經(jīng)驗(yàn)的騎手的一致性提升則并不明顯。
這些騎手和AI的一致性提高了之后,我們還發(fā)現(xiàn)高經(jīng)驗(yàn)的騎手短期績(jī)效受到了部分影響。盡管他們的時(shí)效,也就是每小時(shí)送的訂單數(shù)量被提高了,但是以往他們的高準(zhǔn)時(shí)率,受到了一定的影響,這可能主要因?yàn)锳I會(huì)試圖改變,高經(jīng)驗(yàn)用戶以往的一些認(rèn)知,而這些高經(jīng)驗(yàn)的騎手,在認(rèn)知轉(zhuǎn)換過(guò)程中,又存在一定不適應(yīng)所導(dǎo)致的。
但這些高經(jīng)驗(yàn)的騎手往往有著相對(duì)高的自我要求和業(yè)務(wù)能力。因此,當(dāng)他們意識(shí)到自己的準(zhǔn)時(shí)率受到影響時(shí),會(huì)努力尋找方法來(lái)恢復(fù)受損的準(zhǔn)時(shí)率。正如圖表所示,他們受損的準(zhǔn)時(shí)率逐漸恢復(fù)到之前的水平。對(duì)于外賣平臺(tái)而言,這意味著在人機(jī)系統(tǒng)的共同努力下,時(shí)效性和準(zhǔn)時(shí)率可以提升到一個(gè)新的水平。
我們的實(shí)證結(jié)果表明,人機(jī)回環(huán)的動(dòng)態(tài)演進(jìn)過(guò)程可以如圖所示。低經(jīng)驗(yàn)的用戶通常目標(biāo)相對(duì)隨機(jī),因此無(wú)論AI能力如何提升,他們都會(huì)保持相對(duì)穩(wěn)定的AI遵從率,并享受AI能力帶來(lái)的紅利,其績(jī)效持續(xù)改善。
而高經(jīng)驗(yàn)的用戶一旦察覺(jué)到AI變得更聰明,他們會(huì)迅速調(diào)整與AI的合作方式,提高AI遵從率并向AI學(xué)習(xí)。即使在向AI學(xué)習(xí)的過(guò)程中,他們的部分績(jī)效可能會(huì)受損,但他們會(huì)主動(dòng)采取措施調(diào)整,并繼續(xù)實(shí)現(xiàn)自己設(shè)定的高目標(biāo)。因此,從長(zhǎng)期來(lái)看,他們的績(jī)效不斷提升。這些用戶的績(jī)效提升融合了他們自身的努力和智慧,因此有利于系統(tǒng)進(jìn)一步向他們學(xué)習(xí),推動(dòng)新一輪的迭代優(yōu)化。相比之下,低經(jīng)驗(yàn)的用戶在這方面幾乎沒(méi)有貢獻(xiàn)。
從人機(jī)合作的角度來(lái)看,這些高經(jīng)驗(yàn)用戶對(duì)于系統(tǒng)整體優(yōu)化迭代的作用尤為關(guān)鍵,因此他們是企業(yè)非常寶貴的財(cái)富。
(文章僅代表作者觀點(diǎn)。責(zé)編郵箱:yanguihua@jiemian.com。)