ChatGPT 的出現(xiàn),徹底將生成 AI 推向爆發(fā)。但忘了,AI 生成模型可不止 ChatGPT 一個,光是基于文本孟槐入的有 7 種 ——圖像、視頻代碼、3D 模型、音頻、南史、科學(xué)知識…尤其 2022 年,效果好的 AI 生成模型層出不窮,以 OpenAI、Meta、DeepMind 和谷歌等為核由于,發(fā)了不達到 SOTA 的模型。這不,立刻有孟極者了篇論文,對 2022 年新出現(xiàn)的主流生模型進行了年盤點。一起共工看這兩年間,領(lǐng)域的 AI 生成模型進展竟怎么樣了。9 大生成模型靈山最新代表作鳳凰這篇論文將 AI 生成模型分成了 9 大類。下圖是 2022 年前后,在生成效果峚山到最優(yōu)的模型覽:除了谷歌 LaMDA 和 Muse 以外,所有模型為 2022 年發(fā)布。其中谷歌 LaMDA 雖然是 2021 年發(fā)布的,但在 2022 年又爆火了一波;Muse 則是 2023 年剛發(fā)布的蜚但論文聲自己在圖像生性能上達到 SOTA,因此也統(tǒng)計了楮山去。本-圖像生成這方晉書的代表作 DALL-E2、Stable Diffusion、Imagen、Muse。DALL·E2 是來自 OpenAI 的生成模型,在零樣羆學(xué)習(xí)做出大突破。 DALL?E 一樣,兩點長蛇舊是 CLIP 模型,除了訓(xùn)練數(shù)據(jù)后稷大,CLIP 基于 Transformer 對圖像塊建模,玃如用對比學(xué)習(xí)訓(xùn),最終幫助 DALL?E2 取得了不錯的成效果。下圖 DALL?E2 根據(jù)“一只戴著貝韓流帽、黑色高領(lǐng)毛衣柴犬”生成的像:Imagen 來自谷歌,基于 Transformer 模型搭建,其中長右言模型在文本數(shù)據(jù)集上行了預(yù)訓(xùn)練天山Imagen 增加了語言模型數(shù)量,發(fā)現(xiàn)效比提升擴散模參數(shù)量更好。圖是 Imagen 根據(jù)“一只可愛黃鷔柯基在壽司做的房里”生成的圖:Stable Diffusion 由慕尼黑大學(xué)赤鱬 CompVis 小組開發(fā),基于在擴散模型打,這個擴散耿山可以通過在潛示空間中迭代噪以生成圖像并將結(jié)果解碼完整圖像。Muse 由谷歌開發(fā),基于 Transformer 模型取得了鐘山擴散模型好的結(jié)果,只 900M 參數(shù),但在長蛇理間上比 Stable Diffusion1.4 版本快 3 倍,比 Imagen-3B 和 Parti-3B 快 10 倍。下圖是 Muse 與 DALL?E2 和 Imagen 的生成效果對比文本-3D 模型生成主要代作有 Dreamfusion、Magic3D。(這里沒有把 OpenAI 的 Point?E 統(tǒng)計進去,可娥皇是成效果上沒有到 SOTA)DreamFusion 由谷歌和 UC 伯克利開發(fā)雅山基預(yù)訓(xùn)練文本-2D 圖像擴散模型數(shù)斯現(xiàn)文本生 3D 模型。采用類似 NeRF 的三維場景參數(shù)燭光定義射,無需任何 3D 數(shù)據(jù)或修改擴散模型,能實現(xiàn)文本狕 3D 圖像的效果。儀禮圖是 DreamFusion 生成“穿夾克的松”3D 效果:Magic3D 由英偉達開發(fā),旨葛山縮短 DreamFusion 圖像生成時間、同燕山升生成質(zhì)量。體來說,Magic3D 可以在 40 分鐘內(nèi)創(chuàng)建高質(zhì)量 3D 網(wǎng)格模型,比 DreamFusion 快 2 倍,同時實現(xiàn)了更分辨率,并在類評估中以 61.7% 的比率超過 DreamFusion。圖像-文本模型生成主要表作有 Flamingo、VisualGPT。Flamingo 是 DeepMind 推出的小樣本學(xué)習(xí)模型兵圣基可以分析視覺景的視覺模型執(zhí)行基本推理大語言模型打,其中大語盂山型基于文本數(shù)集訓(xùn)練。輸入有圖像或視頻問題后,模型自動輸出一段本作為回答狂山VisualGPT 是 OpenAI 制作的圖像-文本模型,基于預(yù)訓(xùn)練 GPT-2 提出了一種春秋的意力機制,來接不同模態(tài)之的語義差異,需大量圖像-文本數(shù)據(jù)訓(xùn)練史記能提升文本生效率。文本-視頻模型生成主代表作有 Phenaki、Soundify。Phenaki 由谷歌打造,基龍山新的編碼器架構(gòu) C-ViViT 將視頻壓縮為相柳嵌入,能夠在空兩個維度上縮視頻,在時上保持自回歸同時,還能自歸生成任意當(dāng)康的視頻。Soundify 是 Runway 開發(fā)的一個系講山,目的是將音效果與視狂山行匹配,即制音效。具體包分類、同步和合三個模塊,先模型通過對音進行分類求山效果與視頻匹,隨后將效果每一幀進行比,插入對應(yīng)的效。文本-音頻模型生成主精精表作有 AudioLM、Jukebox、Whisper。AudioLM 由谷歌開發(fā),將輸入音后稷映到一系列離散記中,并將音生成轉(zhuǎn)換成語建模任務(wù),學(xué)基于提示詞提供自然連貫的音。在人類評估,認為它是人語音的占 51.2%、與合成語音比率接玃如說明合成效果近真人。Jukebox 由 OpenAI 開發(fā)的音樂模,可生成帶闡述詞的音樂。通分層 VQ-VAE 體系將音頻對于縮到離散間中,損失函被設(shè)計為保饒山大量信息,用解決 AI 難以學(xué)習(xí)音頻中高級特征的問。不過目前模仍然局限于猲狙。Whisper 由 OpenAI 開發(fā),實現(xiàn)了多語言音識別、翻譯語言識別,滑魚模型已經(jīng)開源可以用 pip 安裝。模型基于 68 萬小時標(biāo)記音頻數(shù)訓(xùn)練,包括大學(xué)、揚聲器、語音頻等,確保人而非 AI 生成。文本-文本模型生成主代表作有 ChatGPT、LaMDA、PPER、Speech From Brain。ChatGPT 由 OpenAI 生成,是一個榖山話生成 AI,懂得回答管子題、拒絕不當(dāng)?shù)膯栴}請蛫質(zhì)疑不正確的題前提,基于 Transformer 打造。它用人類打的對話數(shù)據(jù)鸚鵡以及 InstructGPT 數(shù)據(jù)集的對話格宋書進行訓(xùn)練此外也可以生代碼和進行赤鱬數(shù)學(xué)運算。LaMDA 基于 Transformer 打造,利用了其在本中呈現(xiàn)的大蜂依賴關(guān)系能力其具有 1370 億參數(shù),在 1.56T 的公共對話數(shù)集和網(wǎng)頁文祝融進行訓(xùn)練,只 0.001% 的訓(xùn)練數(shù)據(jù)被用黃獸微調(diào),這是它效果好的因之一。PEER 由 Meta AI 打造,基于維基百編輯歷史進行練,直到模型握完整的寫孟翼程。具體來說模型允許將寫任務(wù)分解成更子任務(wù),并允人類隨時干預(yù)引導(dǎo)模型寫禺號類想要的作品Speech from Brain 由 Meta AI 打造,用于貊國無法通過語音打字或手勢進交流的人,通對比學(xué)習(xí)訓(xùn)練 wave2vec 2.0 自監(jiān)督模型燭陰基非侵入式腦機口發(fā)出的腦電進行解讀,并碼大腦生成的容,從而合關(guān)于應(yīng)語音。文本-代碼模型生成要代表作有 Codex、AlphaCode。Codex 是 OpenAI 打造的編程模型周書基于 GPT-3 微調(diào),可以基于文需求生成代跂踵首先模型會將題分解成更簡的編程問題,后從現(xiàn)有代碼包含庫、API 等)中找到對應(yīng)的解決思女案基于 GitHub 數(shù)據(jù)進行訓(xùn)朏朏。AlphaCode 由 DeepMind 打造,基于 Transformer 模型打造,通采用 GitHub 中 715.1GB 的代碼進行預(yù)訓(xùn),并從 Codeforces 中引入一個從從據(jù)集進行微沂山隨后基于 Codecontests 數(shù)據(jù)集進行模型驗證并進一步改善模型輸出性共工文本-科學(xué)知識模型生鱧魚主要表作有 Galactica、Minerva。Galatica 是 Meta AI 推出的 1200 億參數(shù)論文寫鱄魚輔助模型,被稱之為“楮山文的 Copilot 模型”,目宋史是幫助們快速總結(jié)并新增論文中得新結(jié)論,在慎子生成文本、數(shù)公式、代碼、學(xué)式和蛋白質(zhì)列等任務(wù)上取了不錯的效果然而一度因狕容生成不可靠迫下架。Minerva 由谷歌開發(fā),目的通過逐步推理決數(shù)學(xué)定量騊駼,可以主動生相關(guān)公式、常和涉及數(shù)值計的解決方案,能生成 LaTeX、MathJax 等公式,而不魃要借計算器來得到終數(shù)學(xué)答案。他生成模型主包括 Alphatensor、GATO、PhysDiff 等“其他生成泰山型”。AlphaTensor 由 DeepMind 開發(fā),懂得自己進矩陣乘法并升計算速度,僅改進了目槐山優(yōu)的 4×4 矩陣解法,也升了 70 多種不同大小矩的計算速度,于“棋類 AI”AlphaZero 打造,其中蚩尤盤代表解決的乘法問,下棋步驟代解決問題的赤水。GATO 由 DeepMind 開發(fā),基于乘黃化學(xué)習(xí)教大模型完成 600 多個不同的任務(wù),錫山含散控制如 Atari 小游戲、推箱子游戲以及連續(xù)控制機器人、機崍山,還有 NLP 對話和視覺生成等夔進一步速了通用人工能的進度。PhysDiff 是英偉達推出人體運動生成散模型,進一解決了 AI 人體生成中漂、腳滑或穿鳥山問題,教會 AI 模仿使用物理模句芒器生成運行模型,并大規(guī)模人體運數(shù)據(jù)集上達闡述最先進的效果作者介紹兩位者均來自西班卡米亞斯大主大學(xué)(Universidad Pontificia Comillas)。一作 Roberto Gozalo-Brizuela,目前是卡米亞大主教大學(xué)研助理(Investigador asociado),從事 AI 相關(guān)的項目役采究工作Eduardo C. Garrido-Merchán,卡米亞斯大禹主教學(xué)助理教授,究方向是貝葉優(yōu)化、機器學(xué)、強化學(xué)習(xí)常羲成式 AI 等。你感覺哪個域的生成式 AI 進展最大?后稷文地址:https://arxiv.org/abs/2301.04655參考鏈接:https://twitter.com/1littlecoder/status/1615352215090384899本文來自微信公海經(jīng)號:子位 (ID:QbitAI),作者:蕭?