Transformer六周年:當(dāng)年連NeurIPS Oral都沒(méi)拿到,8位作者已創(chuàng)辦數(shù)家AI獨(dú)角獸_即時(shí)

2023-06-13 15:46:51來(lái)源:引領(lǐng)外匯網(wǎng)

Transformer六周年:當(dāng)年連NeurIPSOral都沒(méi)拿到,8位作者已創(chuàng)辦數(shù)家AI

有的人加入 OpenAI,有的人成立創(chuàng)業(yè)公司,也有的堅(jiān)守谷歌 AI。當(dāng)年正是他們共同開(kāi)啟了今天的 AI 大發(fā)展時(shí)代。


(相關(guān)資料圖)

編者按:本文來(lái)自微信公眾號(hào) 機(jī)器之心(ID:almosthuman2014),創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載

從 ChatGPT 到 AI 畫(huà)圖技術(shù),人工智能領(lǐng)域最近的這波突破或許都要感謝一下 Transformer。

今天是著名的 transformer 論文提交六周年的日子。

論文鏈接:https://arxiv.org/abs/1706.03762

六年前,一篇名字有點(diǎn)浮夸的論文被上傳到了預(yù)印版論文平臺(tái) arXiv 上,「xx is All You Need」這句話被 AI 領(lǐng)域的開(kāi)發(fā)者們不斷復(fù)述,甚至已經(jīng)成了論文標(biāo)題的潮流,而 Transformer 也不再是變形金剛的意思,它現(xiàn)在代表著 AI 領(lǐng)域最先進(jìn)的技術(shù)。

六年后,回看當(dāng)年的這篇論文,我們可以發(fā)現(xiàn)很多有趣或鮮為人知的地方,正如英偉達(dá) AI 科學(xué)家 Jim Fan 所總結(jié)的那樣。

「注意力機(jī)制」并不是 Transformer 作者所提出的

Transformer 模型拋棄了傳統(tǒng)的 CNN 和 RNN 單元,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全是由注意力機(jī)制組成。

雖然 Transformer 論文的名字是《Attention is All You Need》,我們也因它而不斷推崇注意力機(jī)制,但請(qǐng)注意一個(gè)有趣的事實(shí):并不是 Transformer 的研究者發(fā)明了注意力,而是他們把這種機(jī)制推向了極致。

注意力機(jī)制(Attention Mechanism)是由深度學(xué)習(xí)先驅(qū) Yoshua Bengio 帶領(lǐng)的團(tuán)隊(duì)于 2014 年提出的:

《Neural Machine Translation by Jointly Learning to Align and Translate》,標(biāo)題比較樸實(shí)。

在這篇 ICLR 2015 論文中,Bengio 等人提出了一種 RNN +「上下文向量」(即注意力)的組合。雖然它是 NLP 領(lǐng)域最偉大的里程碑之一,但相比 transformer,其知名度要低得多,Bengio 團(tuán)隊(duì)的論文至今已被引用 2.9 萬(wàn)次,Transformer 有 7.7 萬(wàn)次。

AI 的注意力機(jī)制,自然是仿照人類的視覺(jué)注意力而來(lái)。人類大腦里有一種天生能力:當(dāng)我們看一幅圖時(shí),先是快速掃過(guò)圖片,然后鎖定需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域。

如果不放過(guò)任何局部信息,必然會(huì)作很多無(wú)用功,不利于生存。同樣地,在深度學(xué)習(xí)網(wǎng)絡(luò)中引入類似的機(jī)制可以簡(jiǎn)化模型,加速計(jì)算。從本質(zhì)上說(shuō),Attention 就是從大量信息中有篩選出少量重要信息,并聚焦到這些重要信息上,忽略大多不重要的信息。

近年來(lái),注意力機(jī)制被廣泛應(yīng)用在深度學(xué)習(xí)的各個(gè)領(lǐng)域,如在計(jì)算機(jī)視覺(jué)方向用于捕捉圖像上的感受野,或者 NLP 中用于定位關(guān)鍵 token 或者特征。大量實(shí)驗(yàn)證明,添加了注意力機(jī)制的模型在圖像分類、分割、追蹤、增強(qiáng)以及自然語(yǔ)言識(shí)別、理解、問(wèn)答、翻譯中任務(wù)中均取得了明顯的性能提升。

引入了注意力機(jī)制的 Transformer 模型可以看做一種通用序列計(jì)算機(jī)(general-purpose sequence computer),注意力機(jī)制允許模型在處理輸入序列時(shí)根據(jù)序列中不同位置的相關(guān)性分配不同的注意力權(quán)重,這使得 Transformer 能夠捕捉到長(zhǎng)距離的依賴關(guān)系和上下文信息,從而提高序列處理的效果。

但在當(dāng)年,不論是 Transformer 還是最初的 attention 論文都沒(méi)有談到通用序列計(jì)算機(jī)。相反,作者們認(rèn)為它是解決一個(gè)狹窄而具體的問(wèn)題 —— 機(jī)器翻譯的機(jī)制。所以未來(lái)的我們追溯起 AGI 的起源時(shí),說(shuō)不定可以追溯到「不起眼」的谷歌翻譯。

雖然被 NeurIPS 2017 接收,但連個(gè) Oral 都沒(méi)拿到

Transformer 這篇論文雖然現(xiàn)在影響力很大,但在當(dāng)年的全球頂級(jí) AI 會(huì)議 NeurIPS 2017 上,連個(gè) Oral 都沒(méi)拿到,更不用說(shuō)拿到獎(jiǎng)項(xiàng)了。當(dāng)年大會(huì)共收到 3240 篇論文投稿,其中 678 篇被選為大會(huì)論文,Transformer 論文就是被接收的論文之一,在這些論文中,40 篇為 Oral 論文,112 篇為 Spotlight 論文,3 篇最佳論文,一篇 Test of time award 獎(jiǎng)項(xiàng),Transformer 無(wú)緣獎(jiǎng)項(xiàng)。

雖然無(wú)緣 NeurIPS 2017 論文獎(jiǎng)項(xiàng),但 Transformer 的影響力大家也是有目共睹的。

Jim Fan 評(píng)價(jià)說(shuō):在一項(xiàng)有影響力的研究變得有影響力之前,人們很難意識(shí)到它的重要性,這不是評(píng)委的錯(cuò)。不過(guò),也有論文足夠幸運(yùn),能夠第一時(shí)間被發(fā)現(xiàn),比如何愷明等人提出的 ResNet,當(dāng)年獲得了 CVPR 2016 最佳論文,這一研究當(dāng)之無(wú)愧,得到了 AI 頂會(huì)的正確認(rèn)可。但在 2017 年那個(gè)當(dāng)下,非常聰明的研究者也未必能夠預(yù)測(cè)現(xiàn)在 LLM 帶來(lái)的變革,就像 20 世紀(jì) 80 年代一樣,很少有人能預(yù)見(jiàn)到 2012 年以來(lái)深度學(xué)習(xí)帶來(lái)的海嘯。

八位作者,人生各自精彩

當(dāng)時(shí)這篇論文的作者共有 8 位,他們分別來(lái)自谷歌和多倫多大學(xué),五年過(guò)去了,大部分論文作者都已離開(kāi)了原機(jī)構(gòu)。

2022 年 4 月 26 日,一家名為「Adept」的公司官宣成立,共同創(chuàng)始人有 9 位,其中就包括 Transformer 論文作者中的兩位 Ashish Vaswani 和 Niki Parmar。

Ashish Vaswani在南加州大學(xué)拿到博士學(xué)位,師從華人學(xué)者蔣偉(David Chiang)和黃亮(Liang Huang),主要研究現(xiàn)代深度學(xué)習(xí)在語(yǔ)言建模中的早期應(yīng)用。2016 年,他加入了谷歌大腦并領(lǐng)導(dǎo)了 Transformer 的研究,2021 年離開(kāi)谷歌。

Niki Parmar 碩士畢業(yè)于南加州大學(xué),2016 年加入谷歌。工作期間,她為谷歌搜索和廣告研發(fā)了一些成功的問(wèn)答和文本相似度模型。她領(lǐng)導(dǎo)了擴(kuò)展 Transformer 模型的早期工作,將其擴(kuò)展到了圖像生成、計(jì)算機(jī)視覺(jué)等領(lǐng)域。2021 年,她也離開(kāi)谷歌。

在離開(kāi)之后,兩人參與創(chuàng)立了 Adept,并分別擔(dān)任首席科學(xué)家(Ashish Vaswani)和首席技術(shù)官(Niki Parmar)。Adept 的愿景是創(chuàng)建一個(gè)被稱為「人工智能隊(duì)友」的 AI,該 AI 經(jīng)過(guò)訓(xùn)練,可以使用各種不同的軟件工具和 API。

2023 年 3 月,Adept 宣布完成 3.5 億美元的 B 輪融資,公司估值超過(guò) 10 億美元,晉升獨(dú)角獸。不過(guò),在 Adept 公開(kāi)融資的時(shí)候,Niki Parmar 和 Ashish Vaswani 已經(jīng)離開(kāi)了 Adept,并創(chuàng)立了自己的 AI 新公司。不過(guò),這家新公司目前還處于保密階段,我們無(wú)法獲取該公司的詳細(xì)信息。

另一位論文作者 Noam Shazeer 是谷歌最重要的早期員工之一。他在 2000 年底加入谷歌,直到 2021 年最終離職,之后成為了一家初創(chuàng)企業(yè)的 CEO,名字叫做「Character.AI」。

Character.AI 創(chuàng)始人除了 Noam Shazeer,還有一位是 Daniel De Freitas,他們都來(lái)自谷歌的 LaMDA 團(tuán)隊(duì)。此前,他們?cè)诠雀铇?gòu)建了支持對(duì)話程序的語(yǔ)言模型 LaMDA。

今年三月,Character.AI 宣布完成 1.5 億美元融資,估值達(dá)到 10 億美元,是為數(shù)不多有潛力與 ChatGPT 所屬機(jī)構(gòu) OpenAI 競(jìng)爭(zhēng)的初創(chuàng)公司之一,也是罕見(jiàn)的僅用 16 個(gè)月時(shí)間就成長(zhǎng)為獨(dú)角獸的公司。其應(yīng)用程序 Character.AI 是一個(gè)神經(jīng)語(yǔ)言模型聊天機(jī)器人,可以生成類似人類的文本響應(yīng)并參與上下文對(duì)話。

Character.AI 于 2023 年 5 月 23 日在 Apple App Store 和 Google Play Store 發(fā)布,第一周下載量超過(guò) 170 萬(wàn)次。2023 年 5 月,該服務(wù)增加了每月 9.99 美元的付費(fèi)訂閱,稱為 c.ai+,該訂閱允許用戶優(yōu)先聊天訪問(wèn),獲得更快的響應(yīng)時(shí)間和早期訪問(wèn)新功能等特權(quán)。

Aidan N. Gomez早在 2019 年就已離開(kāi)谷歌,之后擔(dān)任 FOR.ai 研究員,現(xiàn)在是 Cohere 的聯(lián)合創(chuàng)始人兼 CEO。

Cohere 是一家生成式 AI 初創(chuàng)公司,于 2019 年成立,其核心業(yè)務(wù)包括提供 NLP 模型,并幫助企業(yè)改進(jìn)人機(jī)交互。三位創(chuàng)始人分別為 Ivan Zhang、Nick Frosst 和 Aidan Gomez,其中 Gomez 和 Frosst 是谷歌大腦團(tuán)隊(duì)的前成員。2021 年 11 月,Google Cloud 宣布他們將與 Cohere 合作,Google Cloud 將使用其強(qiáng)大的基礎(chǔ)設(shè)施為 Cohere 平臺(tái)提供動(dòng)力,而 Cohere 將使用 Cloud 的 TPU 來(lái)開(kāi)發(fā)和部署其產(chǎn)品。

值得注意的是,Cohere 剛剛獲得 2.7 億美元 C 輪融資,成為市值 22 億美元的獨(dú)角獸。

?ukasz Kaiser在 2021 年離開(kāi)谷歌,在谷歌工作了 7 年零 9 個(gè)月,現(xiàn)在是 OpenAI 一名研究員。在谷歌擔(dān)任研究科學(xué)家期間,他參與了機(jī)器翻譯、解析及其他算法和生成任務(wù)的 SOTA 神經(jīng)模型設(shè)計(jì),是 TensorFlow 系統(tǒng)、Tensor2Tensor 庫(kù)的共同作者。

Jakob Uszkoreit于 2021 年離開(kāi)谷歌,在谷歌工作時(shí)間長(zhǎng)達(dá) 13 年,之后加入 Inceptive,成為聯(lián)合創(chuàng)始人。Inceptive 是一家 AI 制藥公司,致力于運(yùn)用深度學(xué)習(xí)去設(shè)計(jì) RNA 藥物。

在谷歌工作期間,Jakob Uszkoreit 參與了組建谷歌助理的語(yǔ)言理解團(tuán)隊(duì),早期還曾從事過(guò)谷歌翻譯的工作。

Illia Polosukhin 于 2017 年離開(kāi)谷歌,現(xiàn)在是 NEAR.AI(一家區(qū)塊鏈底層技術(shù)公司)的聯(lián)合創(chuàng)始人兼 CTO。

唯一還留在谷歌的是Llion Jones,今年是他在谷歌工作的第 9 年。

如今,距離《 Attention Is All You Need 》論文發(fā)表已經(jīng)過(guò)去 6 年了,原創(chuàng)作者們有的選擇離開(kāi),有的選擇繼續(xù)留在谷歌,不管怎樣,Transformer 的影響力還在繼續(xù)。

關(guān)鍵詞:

責(zé)任編輯:hnmd004