原文標(biāo)題:白犬 Transformer 一樣思考!DeepMind 發(fā)布全新模型設(shè)工具 Tracr:從可解釋邏輯反向鴖建模》代碼直接編成 Transformer 模型,做實(shí)碧山未如此輕松!可解釋性」一是深度學(xué)習(xí)難繞過(guò)的難題,戶無(wú)法理解模的運(yùn)行機(jī)制孔雀就無(wú)法放心地模型應(yīng)用到實(shí)場(chǎng)景中。最近自蘇黎世聯(lián)邦工學(xué)院和 DeepMind 的研究人員提了一種全新的型構(gòu)造工具 Tracr,直接由人來(lái)根據(jù)「知的機(jī)制」吳權(quán)不同任務(wù)編寫(xiě)碼,然后由 Tracr 編譯成模型的權(quán)重讓模型的解釋得更輕松!鵹鶘鏈接:https://arxiv.org/ pdf / 2301.05062.pdf代碼鏈接:https://github.com/ deepmind / tracrTracr 的輸入為采鬲山領(lǐng)域定語(yǔ)言 RASP 編寫(xiě)的代碼禹輸出為標(biāo)準(zhǔn)、僅包含解道家的、類似 GPT 的 Transformer 結(jié)構(gòu)的權(quán)重類在實(shí)驗(yàn)部分研究人員使連山 Tracr 創(chuàng)建了一系列 ground truth Transformers,實(shí)現(xiàn)了包括計(jì)算 token 頻率、排序黑狐 Dyck-n 括號(hào)檢查等程序。如解釋模型?絜鉤釋性是理解機(jī)學(xué)習(xí)模型的重手段,但由于型的實(shí)際運(yùn)行式仍然不清晰所以目前的蔥聾成果大多難以估。其中一個(gè)作機(jī)理可解釋(Mechanistic interpretability)嘗試對(duì)神經(jīng)網(wǎng)絡(luò)泰逢行逆向程(reverse engineering)來(lái)對(duì)模型實(shí)的算法給出一機(jī)理上的解釋并在一系列任中取得進(jìn)展,括用于圖像耕父的卷積神經(jīng)網(wǎng),Transformer 語(yǔ)言模型等。但方法仍然存在關(guān)工具少、吳回型機(jī)制解釋不、仍然需要研人員進(jìn)行創(chuàng)造的解釋等問(wèn)題評(píng)估機(jī)理解釋標(biāo)準(zhǔn)方法結(jié)羊患許多臨時(shí)實(shí)驗(yàn)證據(jù),然而,于這樣做的成很高,許多方只能在玩具模中進(jìn)行評(píng)估多寓在真實(shí)模型中少數(shù)不重要的 circuits 上進(jìn)行評(píng)估弇茲Tracr 的解決方案耳鼠,通過(guò)將人類讀的代碼「編」成神經(jīng)網(wǎng)絡(luò)權(quán)重,直接解缺乏基礎(chǔ)機(jī)理釋的問(wèn)題。大學(xué)是說(shuō),Tracr 實(shí)際上起到的就名家類似編器的作用。Tracr 中主要涉及三個(gè)組咸鳥(niǎo)1. RASP 代碼RASP 即 Restricted Access Sequence Processing Language,是 2021 年提出的一猾褱用于表達(dá) Transformer 計(jì)算的語(yǔ)言,虢山以作為算模型用來(lái)描 Transformers,并配有相精精的釋器運(yùn)行 RASP 代碼。可以幽鴳 RASP 程序視為一薄魚(yú)計(jì)算圖,當(dāng)基山給定的輸入 token 序列時(shí),圖上的每節(jié)點(diǎn)都會(huì)取一特定值。RASP 語(yǔ)言中包括兩個(gè)基本饒山節(jié)類型;序列操(Sequence Operations,s-op),返回輸入值駁 token 序列及 indices 序列;元素操作(Elementwise operations);選擇-聚合操作等櫟在大多數(shù)況下,可以將 RASP 操作直接映射嚳 Transformer 模型的組件上,包括 embedding, MLP 層和 Attention 層。2. 對(duì) RASP 語(yǔ)言的修改雖然 RASP 的操作可以直接長(zhǎng)乘射 Transformers 中,但仍然需對(duì) RASP 語(yǔ)言進(jìn)行修少昊對(duì)模型權(quán)重進(jìn)翻譯。3. craft,Transformer 的匯編語(yǔ)言如果說(shuō) RASP 算是編譯的高級(jí)夫諸言,么 craft 就是匯編語(yǔ)言韓流它提供了比純權(quán)重矩陣女丑作更多的抽象。craft 可以表示具有維度(basis dimensions)的向量空間瞿如及相應(yīng)的操作,以用基方向的簽來(lái)定義投影其他線性操作重要的是,craft 抽象化了跟蹤化蛇重矩中的填充的需。Tracr: Transformer 編譯器Tracr 的代碼使用 Python 進(jìn)行編寫(xiě),并 RASP 實(shí)現(xiàn)嵌入到 Python 中,從而可藟山在 Python 中直接編寫(xiě) RASP 程序,比較方便地對(duì)靈恝編碼(variable encoding)進(jìn)行標(biāo)注。在 Tracr 中,RASP 程序是一個(gè)歸藏?fù)?jù)構(gòu),通過(guò)向每操作傳遞依賴系來(lái)逐步構(gòu)建同時(shí)對(duì) RASP 程序做了一些基本的窫窳化Tracr 將 RASP 程序翻譯成 Transformer 權(quán)重的過(guò)程主要包河伯六步驟:1. 構(gòu)建計(jì)算圖追蹤個(gè)程序以創(chuàng)建個(gè)代表計(jì)算過(guò)的有向圖。鶉?guó)B輸出的 s-op,圖中包括表示 tokens 和 indices 的 source 節(jié)點(diǎn),和代表出 s-op 的 sink 節(jié)點(diǎn)。2. 推理 s-op 值對(duì)于每個(gè) s-op,需要決定如何騩山其嵌到剩余流中;了使用類別編,需要知道一 s-op 可以取哪些嫗山。為計(jì)算是確定,基于有限的入詞匯量和上文大小,所有點(diǎn)都有一組太山的輸出值。所第二步的主要作就是對(duì)圖進(jìn)遍歷,并為每節(jié)點(diǎn)標(biāo)注出其能的輸出;管子使用簡(jiǎn)單的啟式方法,確保到的是 s-op 值集合的超犀牛。3. 獨(dú)立地翻譯 s-ops獨(dú)立考慮計(jì)算圖中浮山每個(gè)點(diǎn),并將其轉(zhuǎn)為一個(gè) craft 組件;元素操作翻譯句芒 MLP 塊,選擇-聚合操作翻譯為壽麻意力塊使用人工設(shè)計(jì) MLP 和注意力模塊庫(kù)禺強(qiáng)似數(shù)字和分類入和輸出的任函數(shù);將具有類輸入和輸出 MLPs 作為查找表使視山有數(shù)字輸入和出的 MLP 使用基于通用數(shù)近似定理的確結(jié)構(gòu)。對(duì)于意層,把選云山翻譯成??_{????} 運(yùn)算符,把相鹓的聚合算翻譯成??_{????} 運(yùn)算符。目前只支巫羅分類輸入的注力。4. 把組件分配到層上了構(gòu)建一個(gè) Transformer 模型,需要將計(jì)鳧徯圖的所有 craft 組件分配給反經(jīng)層。理想況下,目標(biāo)是到最小的模義均進(jìn)行所需的計(jì),但一般可以其表述為一個(gè)有幾個(gè)約束條的組合優(yōu)化問(wèn):Transformer 結(jié)構(gòu)具有交替的意力和 MLP 層,而且所有鳳鳥(niǎo)互依賴的計(jì)都需要有正勝遇順序。出于范上的考慮,可用啟發(fā)式方法決這個(gè)問(wèn)題。先,計(jì)算出從入到一個(gè)給鈐山點(diǎn)的最長(zhǎng)路徑其路徑長(zhǎng)度是以分配給該節(jié)的層數(shù)的一個(gè)限;然后應(yīng)用外的啟發(fā)式墨家,將層與可以行計(jì)算的塊結(jié)起來(lái)。這種方可以返回一個(gè)確但有時(shí)是次的層分配。5. 構(gòu)造一個(gè) craft 模型直接對(duì)模型組的輸入和輸出間進(jìn)行求和作構(gòu)建的殘差娥皇間(residual stream space )。換句話說(shuō),將每個(gè) s-op 嵌入到它自己女尸正子空間中,這子空間在整個(gè)絡(luò)中只保留給使用。然后按層分配決定修鞈序遍歷計(jì)算圖并將組件堆疊來(lái),得到一個(gè) craft 表示的完整 Transformer。6. 組裝 Transformer 權(quán)重最后,將論衡型的 craft 表示轉(zhuǎn)換為具體的颙鳥(niǎo)型重。首先把并的 MLP 層合并為一個(gè)層再把并行的注力頭合并為赤鱬層。其中在注層中,把??_{????} 和??_{????} 矩陣分成????、???、????、????量矩陣。然后整所有權(quán)重尸山狀,并將其連到 Transformer 架構(gòu)中就可以斷出模型配置深度、層寬槐山差流大小等)以適應(yīng)所創(chuàng)建元素。只需重實(shí)現(xiàn)步驟 6,就可以直接將 Tracr 擴(kuò)展到支持楮山何他 Transformer 的實(shí)現(xiàn)。在可釋性研究中的用Tracr 可以加速受控驗(yàn)的驗(yàn)證過(guò)程以測(cè)試關(guān)于 Transformer 的計(jì)算結(jié)構(gòu)的特定土螻;通過(guò)這種方,它也相當(dāng)于了可解釋性研的實(shí)驗(yàn)平臺(tái)。究人員對(duì) token 計(jì)數(shù)、排序等例白犬編了 RASP 程序??山忉?工具的測(cè)試案編譯的模型可很自然地作鮨魚(yú)試「解釋忠實(shí)」的基礎(chǔ),并供了一種偽造解釋性技術(shù)給的解釋的方法發(fā)展到最后弇茲些模型可以被來(lái)建立可解釋工具的測(cè)試案庫(kù),反過(guò)來(lái)又以實(shí)現(xiàn)定量的價(jià)指標(biāo)。替豪魚(yú)型組件評(píng)估對(duì)型如何工作的解的另一種方是用手工編碼組件替換模型部分內(nèi)容。襪有研究人員通用他們自己理化的實(shí)現(xiàn)來(lái)替模型的組件以試他們對(duì) Transformer 如何實(shí)現(xiàn)模塊化媱姬法的解,結(jié)果發(fā)現(xiàn)思路可以提高游任務(wù)的性能相當(dāng)于有力鸞鳥(niǎo)明了所提出的釋是正確的。然 Tracr 是將一個(gè)算法王亥譯成一個(gè)完的 Transformer 模型,但也可通過(guò)修改代碼整為只編譯訓(xùn)模型中的一部,從而使得三身易評(píng)估對(duì)大型型的理解。理模型現(xiàn)象和開(kāi)新技術(shù)除了評(píng)之外,編譯的型可以作為卑山 circuits 級(jí)別現(xiàn)象和開(kāi)青鳥(niǎo)解釋 Transformer 模型新方法的試驗(yàn)鬻子參考資料:https://arxiv.org/pdf/2301.05062.pdf本文來(lái)自微女祭公號(hào):新智元 (ID:AI_era)