文|venturebeat
編譯|DeFi 之道 Kyle
人工智能 (AI) 迅速改變了我們的生活和工作方式。與此同時,AI 數(shù)據(jù)偏見帶來的挑戰(zhàn)已經(jīng)走到了最前面。當我們走向 Web3 的未來時,我們自然會看到同時使用 Web3 和 AI 的創(chuàng)新產(chǎn)品、解決方案和服務。而且,雖然一些評論員認為去中心化技術可以解決數(shù)據(jù)偏見問題,但事實并非完成如此。
圖片來源:由 Maze AI 生成
Web3 市場規(guī)模仍然相對較小且難以量化,因為 Web3 生態(tài)系統(tǒng)仍處于發(fā)展的早期階段,Web3 的確切定義仍在不斷發(fā)展。雖然 2021 年的 Web3 市場規(guī)模估計接近 20 億美元,但各種分析師和研究公司報告稱,預計復合年增長率 (CAGR) 約為 45%,再加上 Web3 解決方案和消費者采用率的快速增長,到 2030 年,Web3 市場的價值將達到 800 億美元左右。
雖然 Web3 正在快速增長,但該行業(yè)的現(xiàn)狀與其他科技行業(yè)因素相結(jié)合是 AI 數(shù)據(jù)偏見走上錯誤道路的原因。
數(shù)據(jù)偏見、質(zhì)量和數(shù)量之間的聯(lián)系
AI 系統(tǒng)依靠大量高質(zhì)量數(shù)據(jù)來訓練它們的算法。OpenAI 的 GPT-3(包括 ChatGPT 模型)在大量高質(zhì)量數(shù)據(jù)上進行了訓練。OpenAI并未透露用于訓練的確切數(shù)據(jù)量,但估計在千億字量級或更多。
數(shù)據(jù)經(jīng)過過濾和預處理,以確保其質(zhì)量高且與語言生成任務相關。OpenAI 使用先進的機器學習 (ML) 技術(例如 Transformer)在這個大型數(shù)據(jù)集上訓練模型,使其能夠?qū)W習單詞和短語之間的模式和關系,并生成高質(zhì)量的文本。
AI 訓練數(shù)據(jù)的質(zhì)量對 ML 模型的性能有重大影響,數(shù)據(jù)集的大小也是決定模型泛化到新數(shù)據(jù)和任務能力的關鍵因素。但是,質(zhì)量和數(shù)量都會對數(shù)據(jù)偏見產(chǎn)生重大影響,這也是事實。
數(shù)據(jù)偏見的獨特風險
AI 中的數(shù)據(jù)偏見是一個重要問題,因為它可能在就業(yè)、信貸、住房和刑事司法等領域?qū)е虏还?、歧視和有害的結(jié)果。
2018 年,亞馬遜被迫廢棄了一款顯示出對女性有偏見的 AI 招聘工具。該工具接受了對過去 10 年期間提交給亞馬遜的簡歷的培訓,其中主要包括男性候選人,導致 AI 減少了包含“女性”和“女人”等詞的簡歷。
2019 年,研究人員發(fā)現(xiàn),一種用于預測患者預后的商用 AI 算法對黑人患者存在偏見。該算法主要針對白人患者數(shù)據(jù)進行訓練,導致其對黑人患者的假陽性率更高。
Web3 解決方案的去中心化性質(zhì)與 AI 相結(jié)合,帶來獨特的偏見風險。這種環(huán)境中數(shù)據(jù)的質(zhì)量和可用性可能是一個挑戰(zhàn),這使得準確訓練 AI 算法變得困難,這不僅是因為缺乏使用中的 Web3 解決方案,還因為缺乏有能力使用它們的人群。
我們可以從 23andMe 等公司收集的基因組數(shù)據(jù)中得出相似之處,這些數(shù)據(jù)對貧困和邊緣化社區(qū)存在偏見。23andMe 等 DNA 檢測服務的成本、可用性和目標營銷限制了來自低收入社區(qū)或生活在該服務未運營地區(qū)的個人獲得這些服務的機會,這些地區(qū)往往是較貧窮、欠發(fā)達國家。
因此,這些公司收集的數(shù)據(jù)可能無法準確反映更廣泛人群的基因組多樣性,從而導致基因研究以及醫(yī)療保健和醫(yī)學發(fā)展的潛在偏差。
這讓我們想到了 Web3 增加 AI 數(shù)據(jù)偏見的另一個原因。
行業(yè)偏見和對道德的關注
Web3 創(chuàng)業(yè)行業(yè)缺乏多樣性是一個主要問題。截至 2022 年,女性占據(jù)了 26.7% 的技術職位。其中,56% 是有色人種女性??萍夹袠I(yè)的高管職位中女性比例更低。
在 Web3 中,這種不平衡加劇了。根據(jù)各種分析師的說法,只有不到 5% 的 Web3 初創(chuàng)公司擁有女性創(chuàng)始人。這種多樣性的缺乏意味著 AI 數(shù)據(jù)偏見很可能被男性和白人創(chuàng)始人無意識地忽視為一個問題。
為了克服這些挑戰(zhàn),Web3 行業(yè)必須在其數(shù)據(jù)源和團隊中優(yōu)先考慮多樣性和包容性。此外,該行業(yè)需要改變?yōu)槭裁炊鄻有浴⑵降群桶菔潜匾墓适隆?/p>
從財務和可擴展性的角度來看,從不同角度設計的產(chǎn)品和服務更有可能為數(shù)十億客戶服務,而不是數(shù)百萬客戶,這使得那些擁有多元化團隊的初創(chuàng)公司更有可能獲得高回報和全球規(guī)模的能力。Web3 行業(yè)還必須關注數(shù)據(jù)質(zhì)量和準確性,確保用于訓練 AI 算法的數(shù)據(jù)沒有偏見。
Web3 能否解決 AI 數(shù)據(jù)偏差問題?
應對這些挑戰(zhàn)的一種解決方案是開發(fā)去中心化的數(shù)據(jù)市場,允許個人和組織之間安全、透明地交換數(shù)據(jù)。這有助于降低數(shù)據(jù)偏差的風險,因為它允許在訓練 AI 算法時使用更廣泛的數(shù)據(jù)。此外,可以利用區(qū)塊鏈技術保證數(shù)據(jù)的透明性和準確性,使算法不產(chǎn)生偏見。
但是,最終,在主流受眾使用 Web3 解決方案之前,我們將面臨多年尋找廣泛數(shù)據(jù)源的重大挑戰(zhàn)。
雖然 Web3 和區(qū)塊鏈繼續(xù)出現(xiàn)在主流新聞中,但此類產(chǎn)品和服務最有可能吸引初創(chuàng)企業(yè)和技術社區(qū)的人們——我們知道這些社區(qū)缺乏多樣性,但在全球市場中所占的份額相對較小。
很難估計在 Web3 初創(chuàng)公司工作的世界人口的百分比。近年來,該行業(yè)在美國創(chuàng)造了大約 300 萬個工作崗位。如果將這一數(shù)字與美國總?cè)丝谙啾取⑶也豢紤]失去的工作崗位——這個科技行業(yè)遠不能代表適齡工作的公民。
在 Web3 解決方案變得更加主流并將其吸引力和使用范圍擴大到那些對技術具有內(nèi)在興趣并變得負擔得起并且足以被更廣泛的人群使用之前,獲得足夠數(shù)量的高質(zhì)量數(shù)據(jù)來訓練 AI 系統(tǒng)仍然是一個重大障礙。業(yè)界現(xiàn)在必須采取措施解決這個問題。