正在閱讀:

從AI寫真到AI擴圖,圖像應用更易出圈?

掃一掃下載界面新聞APP

從AI寫真到AI擴圖,圖像應用更易出圈?

未來AI的發(fā)展方向是什么?

文|鋅刻度 黎炫岐

編輯|李覲麟

不久前人們還忙著在妙鴨相機排隊生成寫真,轉(zhuǎn)眼間又開始到美圖秀秀使用AI擴圖了。

早在7月,美圖秀秀官方微博就曾發(fā)文,稱“AI 擴圖”功能現(xiàn)已上線,美圖秀秀 App 和 Wink App 均可以立刻體驗 AI 擴圖功能。而最近,妙鴨逐漸淡出互聯(lián)網(wǎng),AI擴圖卻接替了討論熱度。

而近日,快手自研文生圖大模型“可圖”(Kolors) 也開啟內(nèi)測。

事實上,從ChatGPT火爆全網(wǎng)后,國內(nèi)的AI相關應用也相繼出現(xiàn)在大眾視野,但從此前的妙鴨,再到如今的美圖秀秀,在C端出圈的多以圖片生成類應用為主。

美圖秀秀“截胡”妙鴨,快手在后?

“AI擴圖也太牛了,直接拯救旅游廢片”

“我真的要報警了,AI擴圖出來的效果又搞笑又離譜”

“AI擴圖擴得不錯,下次不擴了”

……

最近在各大社交媒體平臺,不難見到類似的美圖秀秀AI擴圖分享。

據(jù)官方介紹,該功能基于 AI 算法智能識別,可根據(jù)圖像的上下文和紋理,預測、生成缺失的部分,能夠為原始圖片帶來更大畫幅、更廣視角。

目前在美圖秀秀 App 首頁可找到入口,每人每天有 5 次免費體驗機會,可對圖像進行 150%、200%、250%、300% 四種不同比例的擴圖,系統(tǒng)預設比例為 125%。

鋅刻度留意到,在微博、小紅書等社交媒體平臺,已有不少網(wǎng)友發(fā)布自己的AI擴圖圖片。小紅書上#AI擴圖#話題已有高達 2128.4 萬的瀏覽量,而抖音上同樣的話題則有超兩百萬次播放量。其中在小紅書上,最熱的一篇相關筆記“被AI擴圖嚇暈,AI你的審美別太好”點贊量達3.3萬。

不過,AI擴圖出圈也呈現(xiàn)出兩極評論,大部分需求為“調(diào)整構圖,完善背景”的圖片之所以出圈是因為效果不錯,但也有不少令人直呼“離譜”的圖片催化了AI擴圖出圈,其中包括擴圖時被補充了奇怪的衣服、增加了奇怪的肢體、出現(xiàn)了陌生的臉龐、懸浮在水中的頭顱等等。

部分出圈的AI擴圖照片

事實上,AI擴圖并不算新鮮事物。早在今年五月底,Adobe Photoshop 測試版上線了一個名為 “Generative Fill”的 AI 圖像合成工具;今年七月份,Midjourney 則更新了“平移擴圖”功能,可以將圖片自由前后平移,相較于之前推出的 “Zoom Out”功能里只能固定的“擴圖 1.5 倍”或“擴圖 2 倍”,顯得更加人性化。

但對于國內(nèi)的大部分人而言,對AI擴圖的應用還是從美圖秀秀開始的。目前對AI擴圖的討論也主要聚焦于美圖秀秀。

值得一提的是,上一次引發(fā)對AI圖片應用討論熱潮的,還是可以生成個人寫真的妙鴨相機和生成芭比寫真的“45AI”。然而,幾個月過去,在社交媒體上,這兩款小程序的討論度已然下跌,取而代之的是或離譜、或嚇人或“真香”的AI擴圖。

如果說目前美圖秀秀憑借AI擴圖順利“截胡”妙鴨,那不得不提醒一句,還有快手在后。

9月,快手在短視頻評論開始內(nèi)測“快手AI玩評”,而據(jù)官方介紹,快手“AI玩評”依托于快手自研文生圖大模型“可圖”(Kolors)強大的圖像生成能力,用戶可以通過輸入各種創(chuàng)意文字,一鍵生成海量風格圖片,可以更輕松、便捷地在評論區(qū)進行趣味互動。

不過,目前在各大社交媒體平臺關于“可圖”的討論還較少。

為何圖片生成類應用更易出圈?

回溯近幾年來,國內(nèi) AIGC真正意義上破圈的現(xiàn)象級產(chǎn)品似乎大多都誕生在圖片這條賽道。

“AI對話類的也玩過,但總覺得對話很傻,也并不如想象中有趣。但是像妙鴨、AI擴圖我都用過,確實會經(jīng)常收到意料之外的圖片啊,不管是離譜的還是效果不錯的,在社交平臺發(fā)出來的討論度都還不錯?!?0歲的桃子常年刷社交平臺,對一切新鮮事物都很好奇,但相較于ChatGPT這一類的對話式AI,她更樂于嘗試圖片類應用。

“圖像相關的應用軟件確實更容易被用戶接受和使用,因為在應用層面,人們對圖像ai功能的要求偏工具化,用戶對ai的預期是很明確的?!?祁隋是國內(nèi)一科技企業(yè)的算法工程師,他告訴鋅刻度,圖片類應用更容易出圈還有技術方面的原因,“從全球來看,近10年的AI浪潮是從2012年的一場名為ImageNet的圖像識別比賽中萌芽,所以AI模型結(jié)構也更適合在圖像上應用,效果和效率都比文字更好,而在文字上的應用一直到2018年 Transformer結(jié)構被發(fā)明出來后,才算勉強勢均力敵,應用領域離C端也相對較遠,直到最近找到了生成式AI這個突破口,被大眾所熟知?!?/p>

而在中國,文字內(nèi)容生成比圖像內(nèi)容生成的難度也更大,“因為文本訓練需要大量高質(zhì)量的數(shù)據(jù),中文數(shù)據(jù)從質(zhì)和量上肯定都比英文數(shù)據(jù)更有挑戰(zhàn)性。尤其是對話式AI是開放式的,任務也更為多元,對于數(shù)據(jù)質(zhì)量和數(shù)量的需求更是躍升了一個量級。” 祁隋稱。

不過,在祁隋看來,未來AI的發(fā)展方向是圖像+文本的多模態(tài)大模型?!?6氪”此前也曾提到,想要更接近通用人工智能,提高 AI 對圖像、語音、視頻等多模態(tài)內(nèi)容的理解不可或缺。相較于注重文本交互的單模態(tài)語言模型,多模態(tài)模型能將 AI 領域拓展至識別、檢測等更廣泛的領域。

那么,下一個引發(fā)現(xiàn)象級關注的AI應用又會是什么呢?

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

從AI寫真到AI擴圖,圖像應用更易出圈?

未來AI的發(fā)展方向是什么?

文|鋅刻度 黎炫岐

編輯|李覲麟

不久前人們還忙著在妙鴨相機排隊生成寫真,轉(zhuǎn)眼間又開始到美圖秀秀使用AI擴圖了。

早在7月,美圖秀秀官方微博就曾發(fā)文,稱“AI 擴圖”功能現(xiàn)已上線,美圖秀秀 App 和 Wink App 均可以立刻體驗 AI 擴圖功能。而最近,妙鴨逐漸淡出互聯(lián)網(wǎng),AI擴圖卻接替了討論熱度。

而近日,快手自研文生圖大模型“可圖”(Kolors) 也開啟內(nèi)測。

事實上,從ChatGPT火爆全網(wǎng)后,國內(nèi)的AI相關應用也相繼出現(xiàn)在大眾視野,但從此前的妙鴨,再到如今的美圖秀秀,在C端出圈的多以圖片生成類應用為主。

美圖秀秀“截胡”妙鴨,快手在后?

“AI擴圖也太牛了,直接拯救旅游廢片”

“我真的要報警了,AI擴圖出來的效果又搞笑又離譜”

“AI擴圖擴得不錯,下次不擴了”

……

最近在各大社交媒體平臺,不難見到類似的美圖秀秀AI擴圖分享。

據(jù)官方介紹,該功能基于 AI 算法智能識別,可根據(jù)圖像的上下文和紋理,預測、生成缺失的部分,能夠為原始圖片帶來更大畫幅、更廣視角。

目前在美圖秀秀 App 首頁可找到入口,每人每天有 5 次免費體驗機會,可對圖像進行 150%、200%、250%、300% 四種不同比例的擴圖,系統(tǒng)預設比例為 125%。

鋅刻度留意到,在微博、小紅書等社交媒體平臺,已有不少網(wǎng)友發(fā)布自己的AI擴圖圖片。小紅書上#AI擴圖#話題已有高達 2128.4 萬的瀏覽量,而抖音上同樣的話題則有超兩百萬次播放量。其中在小紅書上,最熱的一篇相關筆記“被AI擴圖嚇暈,AI你的審美別太好”點贊量達3.3萬。

不過,AI擴圖出圈也呈現(xiàn)出兩極評論,大部分需求為“調(diào)整構圖,完善背景”的圖片之所以出圈是因為效果不錯,但也有不少令人直呼“離譜”的圖片催化了AI擴圖出圈,其中包括擴圖時被補充了奇怪的衣服、增加了奇怪的肢體、出現(xiàn)了陌生的臉龐、懸浮在水中的頭顱等等。

部分出圈的AI擴圖照片

事實上,AI擴圖并不算新鮮事物。早在今年五月底,Adobe Photoshop 測試版上線了一個名為 “Generative Fill”的 AI 圖像合成工具;今年七月份,Midjourney 則更新了“平移擴圖”功能,可以將圖片自由前后平移,相較于之前推出的 “Zoom Out”功能里只能固定的“擴圖 1.5 倍”或“擴圖 2 倍”,顯得更加人性化。

但對于國內(nèi)的大部分人而言,對AI擴圖的應用還是從美圖秀秀開始的。目前對AI擴圖的討論也主要聚焦于美圖秀秀。

值得一提的是,上一次引發(fā)對AI圖片應用討論熱潮的,還是可以生成個人寫真的妙鴨相機和生成芭比寫真的“45AI”。然而,幾個月過去,在社交媒體上,這兩款小程序的討論度已然下跌,取而代之的是或離譜、或嚇人或“真香”的AI擴圖。

如果說目前美圖秀秀憑借AI擴圖順利“截胡”妙鴨,那不得不提醒一句,還有快手在后。

9月,快手在短視頻評論開始內(nèi)測“快手AI玩評”,而據(jù)官方介紹,快手“AI玩評”依托于快手自研文生圖大模型“可圖”(Kolors)強大的圖像生成能力,用戶可以通過輸入各種創(chuàng)意文字,一鍵生成海量風格圖片,可以更輕松、便捷地在評論區(qū)進行趣味互動。

不過,目前在各大社交媒體平臺關于“可圖”的討論還較少。

為何圖片生成類應用更易出圈?

回溯近幾年來,國內(nèi) AIGC真正意義上破圈的現(xiàn)象級產(chǎn)品似乎大多都誕生在圖片這條賽道。

“AI對話類的也玩過,但總覺得對話很傻,也并不如想象中有趣。但是像妙鴨、AI擴圖我都用過,確實會經(jīng)常收到意料之外的圖片啊,不管是離譜的還是效果不錯的,在社交平臺發(fā)出來的討論度都還不錯?!?0歲的桃子常年刷社交平臺,對一切新鮮事物都很好奇,但相較于ChatGPT這一類的對話式AI,她更樂于嘗試圖片類應用。

“圖像相關的應用軟件確實更容易被用戶接受和使用,因為在應用層面,人們對圖像ai功能的要求偏工具化,用戶對ai的預期是很明確的?!?祁隋是國內(nèi)一科技企業(yè)的算法工程師,他告訴鋅刻度,圖片類應用更容易出圈還有技術方面的原因,“從全球來看,近10年的AI浪潮是從2012年的一場名為ImageNet的圖像識別比賽中萌芽,所以AI模型結(jié)構也更適合在圖像上應用,效果和效率都比文字更好,而在文字上的應用一直到2018年 Transformer結(jié)構被發(fā)明出來后,才算勉強勢均力敵,應用領域離C端也相對較遠,直到最近找到了生成式AI這個突破口,被大眾所熟知?!?/p>

而在中國,文字內(nèi)容生成比圖像內(nèi)容生成的難度也更大,“因為文本訓練需要大量高質(zhì)量的數(shù)據(jù),中文數(shù)據(jù)從質(zhì)和量上肯定都比英文數(shù)據(jù)更有挑戰(zhàn)性。尤其是對話式AI是開放式的,任務也更為多元,對于數(shù)據(jù)質(zhì)量和數(shù)量的需求更是躍升了一個量級?!?祁隋稱。

不過,在祁隋看來,未來AI的發(fā)展方向是圖像+文本的多模態(tài)大模型。“36氪”此前也曾提到,想要更接近通用人工智能,提高 AI 對圖像、語音、視頻等多模態(tài)內(nèi)容的理解不可或缺。相較于注重文本交互的單模態(tài)語言模型,多模態(tài)模型能將 AI 領域拓展至識別、檢測等更廣泛的領域。

那么,下一個引發(fā)現(xiàn)象級關注的AI應用又會是什么呢?

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。