哭死啊,全球狂煉大模型,一互聯(lián)網(wǎng)的數(shù)據(jù)不夠用,根本不夠用。
訓(xùn)練模型搞得跟《饑餓游戲》似的,全球AI研究者,都在苦惱怎么才能喂飽這群數(shù)據(jù)大胃王。
尤其在多模態(tài)任務(wù)中,這一問題尤為突出。
一籌莫展之際,來自人大系的初創(chuàng)團隊,用自家的新模型,率先在國內(nèi)把“模型生成數(shù)據(jù)自己喂自己”變成了現(xiàn)實。
而且還是理解側(cè)和生成側(cè)雙管齊下,兩側(cè)都能生成高質(zhì)量、多模態(tài)的新數(shù)據(jù),對模型本身進行數(shù)據(jù)反哺。
模型是啥?
中關(guān)村論壇上剛剛露面的多模態(tài)大模型Awaker 1.0。
團隊是誰?
智子引擎。由人大高瓴人工智能學(xué)院博士生高一釗創(chuàng)立,高瓴人工智能學(xué)院盧志武教授擔(dān)任顧問。公司成立時還是2021年,就早早打入多模態(tài)這條“無人區(qū)”賽道。
MOE架構(gòu),解決多模態(tài)多任務(wù)訓(xùn)練沖突問題
這不是智子引擎第一次發(fā)布模型。
去年3月8日,潛心研發(fā)兩年的團隊對外發(fā)布了自研的第一個多模態(tài)模型,百億級別參數(shù)的ChatImg序列模型,并基于此推出世界首個公開評測多模態(tài)對話應(yīng)用ChatImg(元乘象)。
后來,ChatImg不斷迭代,新模型Awaker的研發(fā)也在并行推進。后者還繼承了前代模型的基礎(chǔ)能力。
相較于前代的ChatImg序列模型,Awaker 1.0采用了MoE模型架構(gòu)。
要說原因嘛,是想要解決解決多模態(tài)多任務(wù)訓(xùn)練存在嚴(yán)重沖突的問題。
采用MoE模型架構(gòu),可以更好地學(xué)習(xí)多模態(tài)通用能力以及各個任務(wù)所需的獨特能力,從而讓整個Awaker 1.0的能力在多個任務(wù)上有進一步提升。
數(shù)據(jù)勝千言:
鑒于主流多模態(tài)評測榜單存在評測數(shù)據(jù)泄露問題,智子團隊從嚴(yán)構(gòu)建了自有評測集,大部分測試圖片來自個人手機相冊。
表格顯示,團隊讓Awaker 1.0和國內(nèi)外最先進的3個多模態(tài)大模型進行了評測。
多提一嘴,由于GPT-4V和Intern-VL并不直接支持檢測任務(wù),它們的檢測結(jié)果是通過要求模型使用語言描述物體方位得到的。
可以看到,在視覺問答和業(yè)務(wù)應(yīng)用任務(wù)上,Awaker 1.0的基座模型超過了GPT-4V、Qwen-VL-Max和Intern-VL。
在描述、推理和檢測任務(wù)上,Awaker 1.0的基座模型達到了次好效果。
最后來看平均分,Awaker 1.0處于幾者中的最高值。
因此,上述結(jié)果也印證了多任務(wù)多模態(tài)模型采用MoE架構(gòu)的有效性。
數(shù)據(jù)集評測結(jié)果有了,真實效果還需進一步上手體驗。
這里主要問了它和對比大模型一些關(guān)于中文OCR(圖片文字識別)和計數(shù)問題、詳細(xì)描述任務(wù)等問題。
這個主要考計數(shù):
Awaker 1.0能正確地給出答案,而其它三個模型均回答錯誤。
這個主要考中文OCR:
正確回答的選手是Qwen-VL-Max和Awaker 1.0。
