1分鐘做一張AI模特圖
如上提到的AI工具,名叫小K電商圖。
現(xiàn)在能提供4種電商圖生成功能:
給人臺圖補充真人模特
給真人模特換臉
給假發(fā)圖補充真人模特
給商品圖生成新背景
各種效果只需3步即可搞定,界面非常通俗易懂,操作流程大約在1分鐘左右。
比如選一張迪麗熱巴的照片,想更換人臉和表情,并且把背景替換成T臺,同時調(diào)整圖片尺寸。
需要先上傳圖像,系統(tǒng)會自動對圖像進行分割,選中想要保留的區(qū)域。
(如果服裝被頭發(fā)遮住可以同時保留頭發(fā)))
然后再設(shè)定想改變的元素,包括模特人臉風格、面部表情、背景等。
同時可以勾選一些特殊處理,補充服裝。
在這里,我們設(shè)定將原圖人像換成一位歐美模特、露齒笑、背景為T臺,并擴大了原圖尺寸。
可以看到生成結(jié)果中,很好保留了服裝和發(fā)型,但是其他元素都進行了相應(yīng)調(diào)整。
而且對于發(fā)絲、光影都重新做了處理。背景也是AI重新完全生成的,區(qū)別于傳統(tǒng)PS摳圖。
一次生成會給出4張圖,方便挑選。
生成圖片背景的細節(jié)也可以處理得很好,比如雪景背景下,人物鞋子上都會被加上雪花。
在小K電商圖里,提供的AI模特類型比較多,不同地區(qū)、不同年齡都有覆蓋。
如果對現(xiàn)有模特不滿意,還可自由定制專屬模特,定制化模式有兩種:
用戶沒有模特,再提供幾個非公用有一定稀缺度的AI的模特;
用戶本就有模特,根據(jù)模特本身的樣貌定制。
除了AI模特、真人,二次元人物也可定制。
可替換的AI背景也很豐富。
據(jù)介紹,自定義背景功能、物品圖生成也即將推出。
所以,小K電商圖是如何實現(xiàn)這些效果的呢?
結(jié)合自研姿態(tài)算法
小K電商圖的底層技術(shù)可以簡單劃分為兩部分:生成+控制。
生成能力來自開源的Stable Diffusion。
控制方面則引入了小K自研的一系列算法,其中以姿態(tài)算法最為突出。
要知道,AI畫畫很長一段時間都無法畫好人手,在可控性上表現(xiàn)也比較差,這是因為擴散模型自身的特性使然。
后續(xù)隨著ControlNet出現(xiàn),通過給預(yù)訓(xùn)練擴散模型增加一個額外的輸入,可以控制Stable Diffusion生成的細節(jié)。
這里可以是各種類型的輸入,包括草圖、邊緣圖像、語義分割圖像、人體關(guān)鍵點特征、霍夫變換檢測直線、深度圖、人體骨骼等。
由此,Stable Diffusion加上人體姿態(tài)估計算法(Openpose)可以很好控制人物動作生成。
小K電商圖的技術(shù)邏輯也是如此,不過他們采用了性能更加穩(wěn)定的自研算法。
基于這套算法,小K的另一款視頻動捕產(chǎn)品——小K直播姬已經(jīng)實現(xiàn)了通過普通RGB攝像頭、無需任何
傳感器,即可實現(xiàn)3D動捕。
并且在手指細節(jié)的處理上表現(xiàn)很好。
因此,對于沒有四肢的人臺圖,小K電商圖可以做到直接識別。自動補充頭部、畫手能力提升也得益于該算法。
在解決了姿勢可控后,還需要解決面部可控。在這方面小K電商圖引入了LoRA。
LoRA本來是微軟研究團隊早在2021年提出的一項大語言模型微調(diào)的技術(shù),可以大大提高微調(diào)訓(xùn)練速度。
去年底,韓國科學(xué)技術(shù)院KAIST一位研究員@cloneofsimo與HuggingFace合作,將此方法擴展到Stable Diffusion上。
不僅實現(xiàn)了單塊11GB顯存的RTX2080Ti實現(xiàn)模型完整微調(diào),同時原始模型權(quán)重凍結(jié),新訓(xùn)練出來的權(quán)重可以保存為3MB大小的單個文件發(fā)布。
這項技術(shù)被AI繪畫愛好者用來讓模型固定生成一個物體,最流行的就是固定一個人物形象。
在CivitAI社區(qū)里,每個微調(diào)好的權(quán)重就叫做一個Lora,就相當于一個人物模版,所有人都可以方便下載使用。
最后在背景方面,為了滿足電商場景下的需求,小K也做了更強的控制。
比如一些情況下,用戶其實只想替換模特人臉,其他都不做改變。
那么在這種情況下,AI還是會重新繪制一張新圖,不過會保留95%的相似度。
如果用戶想替換背景,算法則會在光影等細節(jié)上做更多補充,力求圖像自然、逼真。
所以,是誰帶來了小K電商圖?
從游戲到AI再到AIGC
小K電商圖的打造者名叫云舶科技,主打AIGC虛擬內(nèi)容創(chuàng)作生產(chǎn)。
團隊成立于2017年,由出身游戲行業(yè)的梅嵩和陳敏聯(lián)合創(chuàng)立。
其中,梅嵩是原藍港互動SVP,《王者之劍》系列手游制作人,有超過10年游戲制作經(jīng)驗;陳敏是原藍港互動CTO,核心團隊有著近20年的研發(fā)經(jīng)驗。
憑借對游戲動畫市場的了解,他們從創(chuàng)業(yè)初期就選擇專注于AI視頻動捕技術(shù)。
經(jīng)過4年研發(fā),基于云舶自研算法的3D虛擬直播產(chǎn)品小K直播姬在2021年推出,免費提供給廣大VTuber使用。
如今,小K直播姬服務(wù)主播用戶超40萬,并且是B站、酷狗音樂等平臺的官方虛擬直播工具。
成立6年以來,云舶科技都和AI、虛擬內(nèi)容、游戲動畫等領(lǐng)域保持高度關(guān)聯(lián)。
去年AI畫畫大火后,云舶也快速跟進。結(jié)合自身特長和市場調(diào)研,最后確定同時推進兩條路線:其一是AI游戲圖領(lǐng)域,另一個就是AI電商圖。
兩條路線的底層邏輯相同:降本增效。
創(chuàng)始人兼CEO梅嵩介紹,電商行業(yè)的傳統(tǒng)出圖方式是線下實景拍攝,需要向模特、攝影、場地等付費,平均價格約為一張圖100元。但如果用AI生成,這個數(shù)字能降到1塊錢。
為什么先推進AI電商圖這條線?
梅嵩給出了兩個判斷:
一方面,從市場角度來看,電商行業(yè)每年可能會有幾億個新貨品,每個貨品都要有自己的產(chǎn)品圖。這意味著電商市場每年會需要幾百億張產(chǎn)品圖,市場需求巨大;
另一方面,從技術(shù)角度來看,電商行業(yè)對AI制圖的需求更強調(diào)可控,對創(chuàng)造性要求不高,這使得技術(shù)開發(fā)更加可控。
所以,小K電商圖更早面世。
梅嵩也坦言,最開始開發(fā)時,模型生成的效果并不理想,研發(fā)團隊一直在反復(fù)做調(diào)試。在今年年初時,他們也在思考,是不是引入姿態(tài)算法能讓效果更可控?
結(jié)果剛好ControlNet出來了,幫我們驗證了想法,也省去了一些試錯環(huán)節(jié)。
目前小K電商圖已正式發(fā)布,并已有幾十家電商行業(yè)用戶進行內(nèi)測,1.2版本也即將上線。
梅嵩透露,之所以會選擇這時發(fā)布產(chǎn)品,一方面是想要搶占市場先機,目前業(yè)內(nèi)類似產(chǎn)品還相對少見;另一方面也是團隊對自身的迭代速度有信心。
之前我們發(fā)布小K直播姬就是遵循這樣的邏輯,后面實現(xiàn)了幾乎周更產(chǎn)品迭代,整個產(chǎn)品的功能也越來越豐富。
如今,研發(fā)團隊也在加速推進2.0版本,新一代產(chǎn)品希望能實現(xiàn)對AI模特姿勢靈活調(diào)整,并將平鋪服裝直接轉(zhuǎn)換成上身效果。
與此同時,云舶科技也在籌措最新一輪融資。
作為一家初創(chuàng)公司,云舶的融資步調(diào)其實有點特別——首輪天使輪融資是在公司成立三年后才完成的。
原因在于云舶選擇在成立后,首要搞定基礎(chǔ)研發(fā)。
梅嵩非常坦誠地表示,創(chuàng)始團隊出身游戲行業(yè),最開始對AI的了解并不多,所以他們用更多耐心、時間和精力來死磕研發(fā),終于在2020年拿出了滿意的demo。
跑通底層技術(shù)后,從2020到2021,云舶的腳步明顯加快,先后完成A輪、A+輪融資,金額都為數(shù)百萬美元。2021年年底,讓云舶開始展露頭角的小K直播姬也順利上線。
在這事上,梅嵩自己也調(diào)侃:
哪有創(chuàng)業(yè)公司做一個產(chǎn)品要做4年的?
給我們投天使輪的BV百度風投當時還說:別的不談,你們的堅持還是非常值得鼓勵的。
如今隨著AIGC浪潮到來,AI在輔助創(chuàng)作、提高工作效率等方面都進一步打開空間,應(yīng)用層的爆發(fā)已初見端倪。
量子位智庫預(yù)測,到2030年我國AIGC市場規(guī)模將達到萬億級別。
2025年預(yù)計會成為產(chǎn)業(yè)第一次規(guī)模爆發(fā)點,年復(fù)合增長率有質(zhì)變性提升。在這之后2年,產(chǎn)業(yè)將迎來應(yīng)用爆發(fā)期,大量應(yīng)用層玩家涌入。
所以回到當下來看,不僅是大模型公司值得關(guān)注,既懂技術(shù)又懂應(yīng)用內(nèi)容的行業(yè)玩家,也會成為AIGC應(yīng)用指數(shù)級爆發(fā)的主力軍,迎來屬于自己的新一輪增長期。