精品人妻在线亚洲欧美综合,欧美最猛黑人xxxx黑人猛交

文|阿爾法工場

最近，正在進(jìn)行AI大戰(zhàn)的各個大廠，被谷歌泄漏的一份內(nèi)部文件，翻開了窘迫的一面。

這份泄露的內(nèi)部文件聲稱：“我們沒有‘護(hù)城河’，OpenAI 也沒有。當(dāng)我們還在爭吵時，第三個方已經(jīng)悄悄地?fù)屃宋覀兊娘埻搿_源。”

這份文件認(rèn)為，現(xiàn)在的一些開源模型，一直在照搬谷歌、微軟這些大廠的勞動成果，并且雙方差距正在以驚人的速度縮小。開源模型更快、可定制性更強(qiáng)、更私密，而且功能性也不落下風(fēng)。

比如，這些開源模型可以用 100 美元外加 13B 參數(shù)，加上幾個禮拜的時間就能出爐，而谷歌這樣的大廠，要想訓(xùn)練大模型，則需要面對千萬美元的成本和 540B 參數(shù)，以及長達(dá)數(shù)月的訓(xùn)練周期。

那么，事實(shí)是否真的像這份文件所說的那樣，谷歌和OpenAI在AI方面的種種積累，最終真的會敗給一群隱藏在民間的“草頭俠”？

所謂“大廠壟斷大模型”的時代，真的要終結(jié)了嗎？

要回答這個問題，我們就得先了解下目前開源模型的生態(tài)，看看這些如雨后春筍般涌現(xiàn)的開源模型，究竟是如何一步步蠶食谷歌這些“正規(guī)軍”的江山的。

01 異軍突起的開源模型

其實(shí)，最早的開源模型，其誕生完全是一場“偶然”。

今年2月，Meta發(fā)布了自家的大型語言模型LLaMA，參數(shù)量從70億到650億不等，并僅用130億的參數(shù)，就在大多數(shù)基準(zhǔn)測試下超越了GPT-3。

但萬萬沒想到的是，剛發(fā)布沒幾天，LLaMA的模型文件就被泄露了。

至此之后，開源模型的浪潮就如決堤一般，變得一發(fā)不可收拾。

如八仙過海一般的ChatGPT開源替代品——「羊駝家族」，隨即粉墨登場。

與ChatGPT這類大模型相比，此類開源模型最顯著的特點(diǎn)，就是訓(xùn)練成本與時間都極其低廉。

以LlaMA的衍生模型Alpaca為例，其訓(xùn)練成本僅用了52k數(shù)據(jù)和600美元。

然而，如果開源光靠低成本，還不足以讓谷歌這類大廠感到威脅，重要的是，在極低的訓(xùn)練成本下，這些開源模型還能屢次達(dá)到和GPT-3.5匹敵的性能。

這下谷歌和OpenAI就坐不住了。

斯坦福研究者對GPT-3.5（text-davinci-003）和Alpaca 7B進(jìn)行了比較，發(fā)現(xiàn)這兩個模型的性能非常相似。Alpaca在與GPT-3.5的比較中，獲勝次數(shù)為90對89。

重點(diǎn)來了：這些開源模型，究竟是怎么做到這點(diǎn)的？

斯坦福團(tuán)隊(duì)的答案是兩點(diǎn)：1、一個強(qiáng)大的預(yù)訓(xùn)練語言模型；2、一個高質(zhì)量的指令遵循數(shù)據(jù)。

在這里，我們將強(qiáng)大的預(yù)訓(xùn)練語言模型（如LlaMA或GPT-3），比喻為一位有著豐富知識和經(jīng)驗(yàn)的老師。

對于自然語言處理領(lǐng)域的任務(wù)，強(qiáng)大的預(yù)訓(xùn)練語言模型，可以利用大規(guī)模的文本數(shù)據(jù)進(jìn)行訓(xùn)練，學(xué)習(xí)到自然語言的模式和規(guī)律，并且可以幫助指令遵循等任務(wù)的模型更好地理解和生成文本，提高模型的表達(dá)和理解能力。

這就相當(dāng)于學(xué)生使用老師的知識和經(jīng)驗(yàn)，來提高語言能力，指令遵循等任務(wù)的模型可以使用預(yù)訓(xùn)練語言模型的知識和經(jīng)驗(yàn)來提高自己的表現(xiàn)。

除了借助這位“老師”的知識外，開源模型的另一“利刃”，就是指令微調(diào)。

指令微調(diào)，或指令調(diào)優(yōu)，是指現(xiàn)有的大語言模型生成指令遵循數(shù)據(jù)后，對數(shù)據(jù)進(jìn)行優(yōu)化的過程。

具體來說，指令微調(diào)是指在生成的指令數(shù)據(jù)中，對一些不合適或錯誤的指令進(jìn)行修正，使其更符合實(shí)際應(yīng)用場景。

而指令調(diào)優(yōu)是指在生成的指令數(shù)據(jù)中，對一些重要、復(fù)雜或容易出錯的指令進(jìn)行加重或重復(fù)，以提高指令遵循模型對這些指令的理解和表現(xiàn)能力。

憑借著這樣的“微調(diào)”，人們可以生成更準(zhǔn)確、更有針對性的指令遵循數(shù)據(jù)，從而提高開源模型在特定任務(wù)上的表現(xiàn)能力。

如此一來，即使只用很少的數(shù)據(jù)，開源社區(qū)也能訓(xùn)練出性能匹敵ChatGPT的新模型。

然而，又一個問題是：面對自己辛苦打下的江山，被開源社區(qū)用“四兩撥千斤”的方式步步蠶食，谷歌和OpenAI為何一直沒有予以反制呢？

哪怕是如法炮制，以毒攻毒，推出同樣快速迭代的小模型，也不失為一種破局之策啊。

02 騎虎難下

實(shí)際上，谷歌這樣的頭部企業(yè)，不是沒有意識到開源的優(yōu)勢。

在那份泄漏的文件中，谷歌就提到：幾乎任何人都能按照自己的想法實(shí)現(xiàn)模型微調(diào)，到時候一天之內(nèi)的訓(xùn)練周期將成為常態(tài)。以這樣的速度，微調(diào)的累積效應(yīng)將很快幫助小模型克服體量上的劣勢。

可問題是，身為AI領(lǐng)域巨頭的谷歌和OpenAI，既不能，也不愿完全放棄訓(xùn)練成本高昂的大參數(shù)模型。

從某種程度上說，這是其保證自身優(yōu)勢地位的必要手段。

作為AI領(lǐng)域的巨頭，谷歌和OpenAI需要不斷提升自己的技術(shù)實(shí)力和創(chuàng)新能力。而傳統(tǒng)的大參數(shù)訓(xùn)練模型，則是提供這一探索和創(chuàng)新的必經(jīng)之路。

因?yàn)榇竽Ｐ偷牡讓蛹夹g(shù)若想取得突破，AI領(lǐng)域的研究者和科學(xué)家，就需要更深入地理解模型和算法的基本原理，探索AI技術(shù)的局限性和發(fā)展方向，這需要進(jìn)行大量的理論研究、實(shí)驗(yàn)驗(yàn)證和數(shù)據(jù)探索，而不僅僅是微調(diào)和優(yōu)化。

例如，在訓(xùn)練大參數(shù)模型時，AI領(lǐng)域的科學(xué)家，可以探索模型的泛化能力和魯棒性，在不同的數(shù)據(jù)集和場景下評估模型的性能和效果。谷歌的BERT模型，也正是在此過程中得到了不斷強(qiáng)化。

同時，大參數(shù)模型的訓(xùn)練，還可以幫助科學(xué)家探索模型的可解釋性和可視化，

例如，對今天的GPT來說至關(guān)重要的Transformer模型，雖然在性能上表現(xiàn)出色，但其內(nèi)部結(jié)構(gòu)和工作原理卻相對復(fù)雜，不利于理解和解釋。

通過大參數(shù)模型的訓(xùn)練，人們可以可視化Transformer模型的內(nèi)部結(jié)構(gòu)和特征，從而更好地理解模型是如何對輸入進(jìn)行編碼和處理的，并進(jìn)一步提高模型的性能和應(yīng)用效果。

因此，開源和微調(diào)的方式，雖然可以促進(jìn)AI技術(shù)的快速發(fā)展和優(yōu)化，但不足以替代對AI基礎(chǔ)問題的深入研究和探索。

但話說到這，一個十分尖銳的矛盾又?jǐn)[了出來：一方面，谷歌和OpenAI不能放棄對大參數(shù)模型的研究，并堅(jiān)持對其技術(shù)進(jìn)行保密。但另一方面，免費(fèi)、高質(zhì)量的開源替代品，又讓谷歌等大廠的“燒錢”策略難以為繼。

因大模型耗費(fèi)的巨大算力資源和數(shù)據(jù)，僅是在 2022 年，OpenAI 總計(jì)花費(fèi)就達(dá)到了 5.4 億美元，與之形成鮮明對比的，則是其產(chǎn)生的收入只有 2800 萬美元。

與此同時，開源社區(qū)的具有的靈活性上的優(yōu)勢，也讓谷歌等大廠感到難以匹敵。

在那份泄漏的文件中，谷歌就認(rèn)為：開源陣營真正的優(yōu)勢在于“個人行為”。

相較于谷歌這些大廠，開源社區(qū)的參與者可以自由地探索和研究技術(shù)，不受任何限制和壓力，從而有更多機(jī)會發(fā)現(xiàn)新的技術(shù)方向和應(yīng)用場景。

而谷歌研究和開發(fā)新技術(shù)時，則必須考慮產(chǎn)品的商業(yè)可行性和市場競爭力。這就對人才的研究方向產(chǎn)生了一定的限制和約束。

此外，由于保密協(xié)議的存在，谷歌的人才也難以像開源社區(qū)那樣，與外界充分地交流和分享技術(shù)研究的成果。

如果說，低價(jià)、靈活的開源模型，終將成為一種不可阻擋的趨勢，那么當(dāng)谷歌等大廠面對這浩瀚的戰(zhàn)場時，又該怎樣在新時代生存下去呢？

03 另辟蹊徑

倘若谷歌這樣的頭部企業(yè)，最終在開源陣營的攻勢下，選擇了“打不過就加入”的策略，那如何在開源的情況下，找到一條可行的商業(yè)路徑，就成了一件頭等大事。

畢竟，在目前的市場認(rèn)知下，開源幾乎就等于“人人皆可免費(fèi)使用。”

之前，Stable Diffusion背后的明星公司——Stability AI，就因?yàn)樵陂_源后，沒有找到明確的盈利途徑，目前正面臨嚴(yán)重的財(cái)政危機(jī)，以至于到了快倒閉的地步。

不過，關(guān)于如何在開源的情況下實(shí)現(xiàn)盈利，業(yè)界也不是完全沒有先例可循。

例如，之前谷歌對Android系統(tǒng)的開源，就是一個經(jīng)典的案例。

當(dāng)年，由谷歌主導(dǎo)開發(fā)和推廣的Android系統(tǒng)開源后，谷歌仍然通過各種途徑，從Android操作系統(tǒng)的設(shè)備制造商那里獲取了收益。

具體來說，這些途徑可分為以下幾種：

1、收取授權(quán)費(fèi)用：當(dāng)設(shè)備制造商希望在其設(shè)備上預(yù)裝Google Play商店等谷歌應(yīng)用和服務(wù)時，他們需要遵守谷歌的授權(quán)協(xié)議，并支付相應(yīng)的授權(quán)費(fèi)用。

2、推出定制設(shè)備：谷歌通過與設(shè)備制造商合作，推出一些定制的Android設(shè)備，如Google Pixel智能手機(jī)和Google Nexus平板電腦等，并從中獲得收入。這些定制設(shè)備通常具有更高的價(jià)值和更好的性能，而且會預(yù)裝谷歌的應(yīng)用和服務(wù)。

3、銷售應(yīng)用：當(dāng)設(shè)備使用者在Google Play商店中購買應(yīng)用、游戲或媒體內(nèi)容時，谷歌會從中提取一定的傭金。

雖然這些途徑的收益，也許并不像谷歌的主業(yè)——搜索和廣告那樣讓其賺得盆滿缽滿，但谷歌仍然從中獲得了各種“隱性收益”。

因?yàn)锳ndroid 的存在，避免了某一家企業(yè)壟斷移動平臺的入口，只要互聯(lián)網(wǎng)是開放的，谷歌就能通過吸引更多人使用Android上的應(yīng)用，來收集用戶的行為數(shù)據(jù)，對這些數(shù)據(jù)進(jìn)行加工，從而使得廣告投放可以更加精準(zhǔn)。

由此可見，開源模式并非與商業(yè)化的盈利模式完全沖突，這對于谷歌和開源社區(qū)的參與者而言，都是一種好事。

因?yàn)橹挥型ㄟ^商業(yè)化途徑，源源不斷地為自身“造血”，谷歌和OpenAI等大廠，才能繼續(xù)承擔(dān)起訓(xùn)練大參數(shù)模型所需的巨額成本。

而只有大參數(shù)模型的持續(xù)研發(fā)，各大開源社區(qū)，才能繼續(xù)以高性能、高質(zhì)量的預(yù)訓(xùn)練語言模型為基礎(chǔ)，微調(diào)出種類更多，應(yīng)用場景更為豐富的開源模型。

基于這樣的關(guān)系，開源模型與封閉的大模型之間，其實(shí)不僅僅只是對立與競爭，同時也是一種互助共生的生態(tài)。

文|阿爾法工場

最近，正在進(jìn)行AI大戰(zhàn)的各個大廠，被谷歌泄漏的一份內(nèi)部文件，翻開了窘迫的一面。

這份泄露的內(nèi)部文件聲稱：“我們沒有‘護(hù)城河’，OpenAI 也沒有。當(dāng)我們還在爭吵時，第三個方已經(jīng)悄悄地?fù)屃宋覀兊娘埻搿_源?！?/p>

那么，事實(shí)是否真的像這份文件所說的那樣，谷歌和OpenAI在AI方面的種種積累，最終真的會敗給一群隱藏在民間的“草頭俠”？

所謂“大廠壟斷大模型”的時代，真的要終結(jié)了嗎？