首頁(yè) > 熱點(diǎn) > 正文

Transformer六周年：當(dāng)年連NeurIPS Oral都沒(méi)拿到，8位作者已創(chuàng)辦數(shù)家AI獨(dú)角獸_即時(shí)

2023-06-13 15:46:51來(lái)源：引領(lǐng)外匯網(wǎng)

Transformer六周年：當(dāng)年連NeurIPSOral都沒(méi)拿到，8位作者已創(chuàng)辦數(shù)家AI

有的人加入 OpenAI，有的人成立創(chuàng)業(yè)公司，也有的堅(jiān)守谷歌 AI。當(dāng)年正是他們共同開(kāi)啟了今天的 AI 大發(fā)展時(shí)代。

(相關(guān)資料圖)

編者按：本文來(lái)自微信公眾號(hào) 機(jī)器之心（ID：almosthuman2014）,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載

從 ChatGPT 到 AI 畫(huà)圖技術(shù)，人工智能領(lǐng)域最近的這波突破或許都要感謝一下 Transformer。

今天是著名的 transformer 論文提交六周年的日子。

論文鏈接：https://arxiv.org/abs/1706.03762

六年前，一篇名字有點(diǎn)浮夸的論文被上傳到了預(yù)印版論文平臺(tái) arXiv 上，「xx is All You Need」這句話被 AI 領(lǐng)域的開(kāi)發(fā)者們不斷復(fù)述，甚至已經(jīng)成了論文標(biāo)題的潮流，而 Transformer 也不再是變形金剛的意思，它現(xiàn)在代表著 AI 領(lǐng)域最先進(jìn)的技術(shù)。

六年后，回看當(dāng)年的這篇論文，我們可以發(fā)現(xiàn)很多有趣或鮮為人知的地方，正如英偉達(dá) AI 科學(xué)家 Jim Fan 所總結(jié)的那樣。

「注意力機(jī)制」并不是 Transformer 作者所提出的

Transformer 模型拋棄了傳統(tǒng)的 CNN 和 RNN 單元，整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全是由注意力機(jī)制組成。

雖然 Transformer 論文的名字是《Attention is All You Need》，我們也因它而不斷推崇注意力機(jī)制，但請(qǐng)注意一個(gè)有趣的事實(shí)：并不是 Transformer 的研究者發(fā)明了注意力，而是他們把這種機(jī)制推向了極致。

注意力機(jī)制（Attention Mechanism）是由深度學(xué)習(xí)先驅(qū) Yoshua Bengio 帶領(lǐng)的團(tuán)隊(duì)于 2014 年提出的：

《Neural Machine Translation by Jointly Learning to Align and Translate》，標(biāo)題比較樸實(shí)。

在這篇 ICLR 2015 論文中，Bengio 等人提出了一種 RNN +「上下文向量」（即注意力）的組合。雖然它是 NLP 領(lǐng)域最偉大的里程碑之一，但相比 transformer，其知名度要低得多，Bengio 團(tuán)隊(duì)的論文至今已被引用 2.9 萬(wàn)次，Transformer 有 7.7 萬(wàn)次。

AI 的注意力機(jī)制，自然是仿照人類的視覺(jué)注意力而來(lái)。人類大腦里有一種天生能力：當(dāng)我們看一幅圖時(shí)，先是快速掃過(guò)圖片，然后鎖定需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域。

如果不放過(guò)任何局部信息，必然會(huì)作很多無(wú)用功，不利于生存。同樣地，在深度學(xué)習(xí)網(wǎng)絡(luò)中引入類似的機(jī)制可以簡(jiǎn)化模型，加速計(jì)算。從本質(zhì)上說(shuō)，Attention 就是從大量信息中有篩選出少量重要信息，并聚焦到這些重要信息上，忽略大多不重要的信息。

近年來(lái)，注意力機(jī)制被廣泛應(yīng)用在深度學(xué)習(xí)的各個(gè)領(lǐng)域，如在計(jì)算機(jī)視覺(jué)方向用于捕捉圖像上的感受野，或者 NLP 中用于定位關(guān)鍵 token 或者特征。大量實(shí)驗(yàn)證明，添加了注意力機(jī)制的模型在圖像分類、分割、追蹤、增強(qiáng)以及自然語(yǔ)言識(shí)別、理解、問(wèn)答、翻譯中任務(wù)中均取得了明顯的性能提升。

引入了注意力機(jī)制的 Transformer 模型可以看做一種通用序列計(jì)算機(jī)（general-purpose sequence computer），注意力機(jī)制允許模型在處理輸入序列時(shí)根據(jù)序列中不同位置的相關(guān)性分配不同的注意力權(quán)重，這使得 Transformer 能夠捕捉到長(zhǎng)距離的依賴關(guān)系和上下文信息，從而提高序列處理的效果。

但在當(dāng)年，不論是 Transformer 還是最初的 attention 論文都沒(méi)有談到通用序列計(jì)算機(jī)。相反，作者們認(rèn)為它是解決一個(gè)狹窄而具體的問(wèn)題 —— 機(jī)器翻譯的機(jī)制。所以未來(lái)的我們追溯起 AGI 的起源時(shí)，說(shuō)不定可以追溯到「不起眼」的谷歌翻譯。

雖然被 NeurIPS 2017 接收，但連個(gè) Oral 都沒(méi)拿到

Transformer 這篇論文雖然現(xiàn)在影響力很大，但在當(dāng)年的全球頂級(jí) AI 會(huì)議 NeurIPS 2017 上，連個(gè) Oral 都沒(méi)拿到，更不用說(shuō)拿到獎(jiǎng)項(xiàng)了。當(dāng)年大會(huì)共收到 3240 篇論文投稿，其中 678 篇被選為大會(huì)論文，Transformer 論文就是被接收的論文之一，在這些論文中，40 篇為 Oral 論文，112 篇為 Spotlight 論文，3 篇最佳論文，一篇 Test of time award 獎(jiǎng)項(xiàng)，Transformer 無(wú)緣獎(jiǎng)項(xiàng)。

雖然無(wú)緣 NeurIPS 2017 論文獎(jiǎng)項(xiàng)，但 Transformer 的影響力大家也是有目共睹的。

Jim Fan 評(píng)價(jià)說(shuō)：在一項(xiàng)有影響力的研究變得有影響力之前，人們很難意識(shí)到它的重要性，這不是評(píng)委的錯(cuò)。不過(guò)，也有論文足夠幸運(yùn)，能夠第一時(shí)間被發(fā)現(xiàn)，比如何愷明等人提出的 ResNet，當(dāng)年獲得了 CVPR 2016 最佳論文，這一研究當(dāng)之無(wú)愧，得到了 AI 頂會(huì)的正確認(rèn)可。但在 2017 年那個(gè)當(dāng)下，非常聰明的研究者也未必能夠預(yù)測(cè)現(xiàn)在 LLM 帶來(lái)的變革，就像 20 世紀(jì) 80 年代一樣，很少有人能預(yù)見(jiàn)到 2012 年以來(lái)深度學(xué)習(xí)帶來(lái)的海嘯。

八位作者，人生各自精彩

當(dāng)時(shí)這篇論文的作者共有 8 位，他們分別來(lái)自谷歌和多倫多大學(xué)，五年過(guò)去了，大部分論文作者都已離開(kāi)了原機(jī)構(gòu)。

2022 年 4 月 26 日，一家名為「Adept」的公司官宣成立，共同創(chuàng)始人有 9 位，其中就包括 Transformer 論文作者中的兩位 Ashish Vaswani 和 Niki Parmar。

Ashish Vaswani在南加州大學(xué)拿到博士學(xué)位，師從華人學(xué)者蔣偉（David Chiang）和黃亮（Liang Huang），主要研究現(xiàn)代深度學(xué)習(xí)在語(yǔ)言建模中的早期應(yīng)用。2016 年，他加入了谷歌大腦并領(lǐng)導(dǎo)了 Transformer 的研究，2021 年離開(kāi)谷歌。

Niki Parmar 碩士畢業(yè)于南加州大學(xué)，2016 年加入谷歌。工作期間，她為谷歌搜索和廣告研發(fā)了一些成功的問(wèn)答和文本相似度模型。她領(lǐng)導(dǎo)了擴(kuò)展 Transformer 模型的早期工作，將其擴(kuò)展到了圖像生成、計(jì)算機(jī)視覺(jué)等領(lǐng)域。2021 年，她也離開(kāi)谷歌。

在離開(kāi)之后，兩人參與創(chuàng)立了 Adept，并分別擔(dān)任首席科學(xué)家（Ashish Vaswani）和首席技術(shù)官（Niki Parmar）。Adept 的愿景是創(chuàng)建一個(gè)被稱為「人工智能隊(duì)友」的 AI，該 AI 經(jīng)過(guò)訓(xùn)練，可以使用各種不同的軟件工具和 API。

2023 年 3 月，Adept 宣布完成 3.5 億美元的 B 輪融資，公司估值超過(guò) 10 億美元，晉升獨(dú)角獸。不過(guò)，在 Adept 公開(kāi)融資的時(shí)候，Niki Parmar 和 Ashish Vaswani 已經(jīng)離開(kāi)了 Adept，并創(chuàng)立了自己的 AI 新公司。不過(guò)，這家新公司目前還處于保密階段，我們無(wú)法獲取該公司的詳細(xì)信息。

另一位論文作者 Noam Shazeer 是谷歌最重要的早期員工之一。他在 2000 年底加入谷歌，直到 2021 年最終離職，之后成為了一家初創(chuàng)企業(yè)的 CEO，名字叫做「Character.AI」。

Character.AI 創(chuàng)始人除了 Noam Shazeer，還有一位是 Daniel De Freitas，他們都來(lái)自谷歌的 LaMDA 團(tuán)隊(duì)。此前，他們?cè)诠雀铇?gòu)建了支持對(duì)話程序的語(yǔ)言模型 LaMDA。

今年三月，Character.AI 宣布完成 1.5 億美元融資，估值達(dá)到 10 億美元，是為數(shù)不多有潛力與 ChatGPT 所屬機(jī)構(gòu) OpenAI 競(jìng)爭(zhēng)的初創(chuàng)公司之一，也是罕見(jiàn)的僅用 16 個(gè)月時(shí)間就成長(zhǎng)為獨(dú)角獸的公司。其應(yīng)用程序 Character.AI 是一個(gè)神經(jīng)語(yǔ)言模型聊天機(jī)器人，可以生成類似人類的文本響應(yīng)并參與上下文對(duì)話。

Character.AI 于 2023 年 5 月 23 日在 Apple App Store 和 Google Play Store 發(fā)布，第一周下載量超過(guò) 170 萬(wàn)次。2023 年 5 月，該服務(wù)增加了每月 9.99 美元的付費(fèi)訂閱，稱為 c.ai+，該訂閱允許用戶優(yōu)先聊天訪問(wèn)，獲得更快的響應(yīng)時(shí)間和早期訪問(wèn)新功能等特權(quán)。

Aidan N. Gomez早在 2019 年就已離開(kāi)谷歌，之后擔(dān)任 FOR.ai 研究員，現(xiàn)在是 Cohere 的聯(lián)合創(chuàng)始人兼 CEO。

Cohere 是一家生成式 AI 初創(chuàng)公司，于 2019 年成立，其核心業(yè)務(wù)包括提供 NLP 模型，并幫助企業(yè)改進(jìn)人機(jī)交互。三位創(chuàng)始人分別為 Ivan Zhang、Nick Frosst 和 Aidan Gomez，其中 Gomez 和 Frosst 是谷歌大腦團(tuán)隊(duì)的前成員。2021 年 11 月，Google Cloud 宣布他們將與 Cohere 合作，Google Cloud 將使用其強(qiáng)大的基礎(chǔ)設(shè)施為 Cohere 平臺(tái)提供動(dòng)力，而 Cohere 將使用 Cloud 的 TPU 來(lái)開(kāi)發(fā)和部署其產(chǎn)品。

值得注意的是，Cohere 剛剛獲得 2.7 億美元 C 輪融資，成為市值 22 億美元的獨(dú)角獸。

?ukasz Kaiser在 2021 年離開(kāi)谷歌，在谷歌工作了 7 年零 9 個(gè)月，現(xiàn)在是 OpenAI 一名研究員。在谷歌擔(dān)任研究科學(xué)家期間，他參與了機(jī)器翻譯、解析及其他算法和生成任務(wù)的 SOTA 神經(jīng)模型設(shè)計(jì)，是 TensorFlow 系統(tǒng)、Tensor2Tensor 庫(kù)的共同作者。

Jakob Uszkoreit于 2021 年離開(kāi)谷歌，在谷歌工作時(shí)間長(zhǎng)達(dá) 13 年，之后加入 Inceptive，成為聯(lián)合創(chuàng)始人。Inceptive 是一家 AI 制藥公司，致力于運(yùn)用深度學(xué)習(xí)去設(shè)計(jì) RNA 藥物。

在谷歌工作期間，Jakob Uszkoreit 參與了組建谷歌助理的語(yǔ)言理解團(tuán)隊(duì)，早期還曾從事過(guò)谷歌翻譯的工作。

Illia Polosukhin 于 2017 年離開(kāi)谷歌，現(xiàn)在是 NEAR.AI（一家區(qū)塊鏈底層技術(shù)公司）的聯(lián)合創(chuàng)始人兼 CTO。

唯一還留在谷歌的是Llion Jones，今年是他在谷歌工作的第 9 年。

如今，距離《 Attention Is All You Need 》論文發(fā)表已經(jīng)過(guò)去 6 年了，原創(chuàng)作者們有的選擇離開(kāi)，有的選擇繼續(xù)留在谷歌，不管怎樣，Transformer 的影響力還在繼續(xù)。

關(guān)鍵詞：

責(zé)任編輯：hnmd004