Transformer六周年:當(dāng)年連NeurIPS Oral都沒(méi)拿到,8位作者已創(chuàng)辦數(shù)家AI獨(dú)角獸_即時(shí)
有的人加入 OpenAI,有的人成立創(chuàng)業(yè)公司,也有的堅(jiān)守谷歌 AI。當(dāng)年正是他們共同開(kāi)啟了今天的 AI 大發(fā)展時(shí)代。
(相關(guān)資料圖)
編者按:本文來(lái)自微信公眾號(hào) 機(jī)器之心(ID:almosthuman2014),創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載
從 ChatGPT 到 AI 畫(huà)圖技術(shù),人工智能領(lǐng)域最近的這波突破或許都要感謝一下 Transformer。
今天是著名的 transformer 論文提交六周年的日子。
論文鏈接:https://arxiv.org/abs/1706.03762
六年前,一篇名字有點(diǎn)浮夸的論文被上傳到了預(yù)印版論文平臺(tái) arXiv 上,「xx is All You Need」這句話被 AI 領(lǐng)域的開(kāi)發(fā)者們不斷復(fù)述,甚至已經(jīng)成了論文標(biāo)題的潮流,而 Transformer 也不再是變形金剛的意思,它現(xiàn)在代表著 AI 領(lǐng)域最先進(jìn)的技術(shù)。
六年后,回看當(dāng)年的這篇論文,我們可以發(fā)現(xiàn)很多有趣或鮮為人知的地方,正如英偉達(dá) AI 科學(xué)家 Jim Fan 所總結(jié)的那樣。
「注意力機(jī)制」并不是 Transformer 作者所提出的Transformer 模型拋棄了傳統(tǒng)的 CNN 和 RNN 單元,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全是由注意力機(jī)制組成。
雖然 Transformer 論文的名字是《Attention is All You Need》,我們也因它而不斷推崇注意力機(jī)制,但請(qǐng)注意一個(gè)有趣的事實(shí):并不是 Transformer 的研究者發(fā)明了注意力,而是他們把這種機(jī)制推向了極致。
注意力機(jī)制(Attention Mechanism)是由深度學(xué)習(xí)先驅(qū) Yoshua Bengio 帶領(lǐng)的團(tuán)隊(duì)于 2014 年提出的:
《Neural Machine Translation by Jointly Learning to Align and Translate》,標(biāo)題比較樸實(shí)。
在這篇 ICLR 2015 論文中,Bengio 等人提出了一種 RNN +「上下文向量」(即注意力)的組合。雖然它是 NLP 領(lǐng)域最偉大的里程碑之一,但相比 transformer,其知名度要低得多,Bengio 團(tuán)隊(duì)的論文至今已被引用 2.9 萬(wàn)次,Transformer 有 7.7 萬(wàn)次。
AI 的注意力機(jī)制,自然是仿照人類的視覺(jué)注意力而來(lái)。人類大腦里有一種天生能力:當(dāng)我們看一幅圖時(shí),先是快速掃過(guò)圖片,然后鎖定需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域。
如果不放過(guò)任何局部信息,必然會(huì)作很多無(wú)用功,不利于生存。同樣地,在深度學(xué)習(xí)網(wǎng)絡(luò)中引入類似的機(jī)制可以簡(jiǎn)化模型,加速計(jì)算。從本質(zhì)上說(shuō),Attention 就是從大量信息中有篩選出少量重要信息,并聚焦到這些重要信息上,忽略大多不重要的信息。
近年來(lái),注意力機(jī)制被廣泛應(yīng)用在深度學(xué)習(xí)的各個(gè)領(lǐng)域,如在計(jì)算機(jī)視覺(jué)方向用于捕捉圖像上的感受野,或者 NLP 中用于定位關(guān)鍵 token 或者特征。大量實(shí)驗(yàn)證明,添加了注意力機(jī)制的模型在圖像分類、分割、追蹤、增強(qiáng)以及自然語(yǔ)言識(shí)別、理解、問(wèn)答、翻譯中任務(wù)中均取得了明顯的性能提升。
引入了注意力機(jī)制的 Transformer 模型可以看做一種通用序列計(jì)算機(jī)(general-purpose sequence computer),注意力機(jī)制允許模型在處理輸入序列時(shí)根據(jù)序列中不同位置的相關(guān)性分配不同的注意力權(quán)重,這使得 Transformer 能夠捕捉到長(zhǎng)距離的依賴關(guān)系和上下文信息,從而提高序列處理的效果。
但在當(dāng)年,不論是 Transformer 還是最初的 attention 論文都沒(méi)有談到通用序列計(jì)算機(jī)。相反,作者們認(rèn)為它是解決一個(gè)狹窄而具體的問(wèn)題 —— 機(jī)器翻譯的機(jī)制。所以未來(lái)的我們追溯起 AGI 的起源時(shí),說(shuō)不定可以追溯到「不起眼」的谷歌翻譯。
雖然被 NeurIPS 2017 接收,但連個(gè) Oral 都沒(méi)拿到Transformer 這篇論文雖然現(xiàn)在影響力很大,但在當(dāng)年的全球頂級(jí) AI 會(huì)議 NeurIPS 2017 上,連個(gè) Oral 都沒(méi)拿到,更不用說(shuō)拿到獎(jiǎng)項(xiàng)了。當(dāng)年大會(huì)共收到 3240 篇論文投稿,其中 678 篇被選為大會(huì)論文,Transformer 論文就是被接收的論文之一,在這些論文中,40 篇為 Oral 論文,112 篇為 Spotlight 論文,3 篇最佳論文,一篇 Test of time award 獎(jiǎng)項(xiàng),Transformer 無(wú)緣獎(jiǎng)項(xiàng)。
雖然無(wú)緣 NeurIPS 2017 論文獎(jiǎng)項(xiàng),但 Transformer 的影響力大家也是有目共睹的。
Jim Fan 評(píng)價(jià)說(shuō):在一項(xiàng)有影響力的研究變得有影響力之前,人們很難意識(shí)到它的重要性,這不是評(píng)委的錯(cuò)。不過(guò),也有論文足夠幸運(yùn),能夠第一時(shí)間被發(fā)現(xiàn),比如何愷明等人提出的 ResNet,當(dāng)年獲得了 CVPR 2016 最佳論文,這一研究當(dāng)之無(wú)愧,得到了 AI 頂會(huì)的正確認(rèn)可。但在 2017 年那個(gè)當(dāng)下,非常聰明的研究者也未必能夠預(yù)測(cè)現(xiàn)在 LLM 帶來(lái)的變革,就像 20 世紀(jì) 80 年代一樣,很少有人能預(yù)見(jiàn)到 2012 年以來(lái)深度學(xué)習(xí)帶來(lái)的海嘯。
八位作者,人生各自精彩當(dāng)時(shí)這篇論文的作者共有 8 位,他們分別來(lái)自谷歌和多倫多大學(xué),五年過(guò)去了,大部分論文作者都已離開(kāi)了原機(jī)構(gòu)。
2022 年 4 月 26 日,一家名為「Adept」的公司官宣成立,共同創(chuàng)始人有 9 位,其中就包括 Transformer 論文作者中的兩位 Ashish Vaswani 和 Niki Parmar。
Ashish Vaswani在南加州大學(xué)拿到博士學(xué)位,師從華人學(xué)者蔣偉(David Chiang)和黃亮(Liang Huang),主要研究現(xiàn)代深度學(xué)習(xí)在語(yǔ)言建模中的早期應(yīng)用。2016 年,他加入了谷歌大腦并領(lǐng)導(dǎo)了 Transformer 的研究,2021 年離開(kāi)谷歌。
Niki Parmar 碩士畢業(yè)于南加州大學(xué),2016 年加入谷歌。工作期間,她為谷歌搜索和廣告研發(fā)了一些成功的問(wèn)答和文本相似度模型。她領(lǐng)導(dǎo)了擴(kuò)展 Transformer 模型的早期工作,將其擴(kuò)展到了圖像生成、計(jì)算機(jī)視覺(jué)等領(lǐng)域。2021 年,她也離開(kāi)谷歌。
在離開(kāi)之后,兩人參與創(chuàng)立了 Adept,并分別擔(dān)任首席科學(xué)家(Ashish Vaswani)和首席技術(shù)官(Niki Parmar)。Adept 的愿景是創(chuàng)建一個(gè)被稱為「人工智能隊(duì)友」的 AI,該 AI 經(jīng)過(guò)訓(xùn)練,可以使用各種不同的軟件工具和 API。
2023 年 3 月,Adept 宣布完成 3.5 億美元的 B 輪融資,公司估值超過(guò) 10 億美元,晉升獨(dú)角獸。不過(guò),在 Adept 公開(kāi)融資的時(shí)候,Niki Parmar 和 Ashish Vaswani 已經(jīng)離開(kāi)了 Adept,并創(chuàng)立了自己的 AI 新公司。不過(guò),這家新公司目前還處于保密階段,我們無(wú)法獲取該公司的詳細(xì)信息。
另一位論文作者 Noam Shazeer 是谷歌最重要的早期員工之一。他在 2000 年底加入谷歌,直到 2021 年最終離職,之后成為了一家初創(chuàng)企業(yè)的 CEO,名字叫做「Character.AI」。
Character.AI 創(chuàng)始人除了 Noam Shazeer,還有一位是 Daniel De Freitas,他們都來(lái)自谷歌的 LaMDA 團(tuán)隊(duì)。此前,他們?cè)诠雀铇?gòu)建了支持對(duì)話程序的語(yǔ)言模型 LaMDA。
今年三月,Character.AI 宣布完成 1.5 億美元融資,估值達(dá)到 10 億美元,是為數(shù)不多有潛力與 ChatGPT 所屬機(jī)構(gòu) OpenAI 競(jìng)爭(zhēng)的初創(chuàng)公司之一,也是罕見(jiàn)的僅用 16 個(gè)月時(shí)間就成長(zhǎng)為獨(dú)角獸的公司。其應(yīng)用程序 Character.AI 是一個(gè)神經(jīng)語(yǔ)言模型聊天機(jī)器人,可以生成類似人類的文本響應(yīng)并參與上下文對(duì)話。
Character.AI 于 2023 年 5 月 23 日在 Apple App Store 和 Google Play Store 發(fā)布,第一周下載量超過(guò) 170 萬(wàn)次。2023 年 5 月,該服務(wù)增加了每月 9.99 美元的付費(fèi)訂閱,稱為 c.ai+,該訂閱允許用戶優(yōu)先聊天訪問(wèn),獲得更快的響應(yīng)時(shí)間和早期訪問(wèn)新功能等特權(quán)。
Aidan N. Gomez早在 2019 年就已離開(kāi)谷歌,之后擔(dān)任 FOR.ai 研究員,現(xiàn)在是 Cohere 的聯(lián)合創(chuàng)始人兼 CEO。
Cohere 是一家生成式 AI 初創(chuàng)公司,于 2019 年成立,其核心業(yè)務(wù)包括提供 NLP 模型,并幫助企業(yè)改進(jìn)人機(jī)交互。三位創(chuàng)始人分別為 Ivan Zhang、Nick Frosst 和 Aidan Gomez,其中 Gomez 和 Frosst 是谷歌大腦團(tuán)隊(duì)的前成員。2021 年 11 月,Google Cloud 宣布他們將與 Cohere 合作,Google Cloud 將使用其強(qiáng)大的基礎(chǔ)設(shè)施為 Cohere 平臺(tái)提供動(dòng)力,而 Cohere 將使用 Cloud 的 TPU 來(lái)開(kāi)發(fā)和部署其產(chǎn)品。
值得注意的是,Cohere 剛剛獲得 2.7 億美元 C 輪融資,成為市值 22 億美元的獨(dú)角獸。
?ukasz Kaiser在 2021 年離開(kāi)谷歌,在谷歌工作了 7 年零 9 個(gè)月,現(xiàn)在是 OpenAI 一名研究員。在谷歌擔(dān)任研究科學(xué)家期間,他參與了機(jī)器翻譯、解析及其他算法和生成任務(wù)的 SOTA 神經(jīng)模型設(shè)計(jì),是 TensorFlow 系統(tǒng)、Tensor2Tensor 庫(kù)的共同作者。
Jakob Uszkoreit于 2021 年離開(kāi)谷歌,在谷歌工作時(shí)間長(zhǎng)達(dá) 13 年,之后加入 Inceptive,成為聯(lián)合創(chuàng)始人。Inceptive 是一家 AI 制藥公司,致力于運(yùn)用深度學(xué)習(xí)去設(shè)計(jì) RNA 藥物。
在谷歌工作期間,Jakob Uszkoreit 參與了組建谷歌助理的語(yǔ)言理解團(tuán)隊(duì),早期還曾從事過(guò)谷歌翻譯的工作。
Illia Polosukhin 于 2017 年離開(kāi)谷歌,現(xiàn)在是 NEAR.AI(一家區(qū)塊鏈底層技術(shù)公司)的聯(lián)合創(chuàng)始人兼 CTO。
唯一還留在谷歌的是Llion Jones,今年是他在谷歌工作的第 9 年。
如今,距離《 Attention Is All You Need 》論文發(fā)表已經(jīng)過(guò)去 6 年了,原創(chuàng)作者們有的選擇離開(kāi),有的選擇繼續(xù)留在谷歌,不管怎樣,Transformer 的影響力還在繼續(xù)。
關(guān)鍵詞:
責(zé)任編輯:hnmd004
- 吉林藝術(shù)學(xué)院研究生怎么樣?吉林藝術(shù)學(xué)院考2023-06-15
- 湖北進(jìn)京舉辦文旅推介會(huì) 發(fā)放4億旅游消費(fèi)2023-06-15
- 快手彈幕如何打開(kāi)?快手怎么錄別人的直播?2023-06-15
- 當(dāng)前觀點(diǎn):打印機(jī)出現(xiàn)橫紋解決辦法?打印機(jī)2023-06-15
- iphone5什么時(shí)候出的?iphone5什么時(shí)候發(fā)布2023-06-15
- 上汽困局何解? 微速訊2023-06-15
- 全球要聞:如何在世界之窗瀏覽器里下載視頻2023-06-15
- 環(huán)球短訊!江西旅游景點(diǎn)有哪些?江西的特色2023-06-15
- 申請(qǐng)如何專利?專利法第二十六條的內(nèi)容是什2023-06-15
- 信用報(bào)告多久更新一次?網(wǎng)貸多但是沒(méi)有逾期2023-06-15
- 候補(bǔ)訂單退款多久到賬?候補(bǔ)取消了怎么沒(méi)退2023-06-15
- 今頭條!形成牛市的因素有哪些?股市牛市會(huì)2023-06-15
- 信息:z97主板能插3060顯卡嗎?x99主板支持2023-06-15
- 安杰洛·希亞維奧-全球?qū)崟r(shí)2023-06-15
- 瘦西湖門(mén)票多少錢(qián)?瘦西湖門(mén)票怎么預(yù)約? 2023-06-15
- 今日精選:轉(zhuǎn)配股是什么意思?10轉(zhuǎn)5股和102023-06-15
- 仙佑集團(tuán)膏藥代加工市場(chǎng)規(guī)模不斷擴(kuò)大 效率2023-06-15
- 醫(yī)保停了3年沒(méi)交要補(bǔ)交嗎?醫(yī)保斷交之前的2023-06-15
- 汽車(chē)安全帶卡扣不好拔怎么回事?安全帶插座2023-06-15
- 淄博:大力發(fā)展綠色優(yōu)質(zhì)農(nóng)產(chǎn)品種植 天天亮2023-06-15
- 農(nóng)村宅基地買(mǎi)賣(mài)需要滿足哪些條件?農(nóng)村宅基2023-06-15
- 速訊:如何一鍵清理系統(tǒng)垃圾?軟件占用的系2023-06-15
- 雞瓜子的做法是什么?雞瓜子煮多長(zhǎng)時(shí)間熟?2023-06-15
- 天天即時(shí):賬戶余額查詢?cè)趺床椋ù驽X(qián)進(jìn)去了2023-06-15
- 炒原油期貨是什么意思?原油期貨的杠桿率是2023-06-15
- 世界新資訊:補(bǔ)辦結(jié)婚證都需要哪些材料?結(jié)2023-06-15
- 海參崴旅游景點(diǎn)推薦有哪些?海參崴旅游幾月2023-06-15
- 理想汽車(chē)周銷量0.84萬(wàn)輛 理想ONE已正式停售2023-06-15
- 焦點(diǎn)關(guān)注:對(duì)沖基金到底是什么 對(duì)沖基金的2023-06-15
- 機(jī)動(dòng)車(chē)損失保險(xiǎn)包括什么保障范圍呢?機(jī)動(dòng)車(chē)2023-06-15
精彩推薦
閱讀排行
- 600909主力資金流向介紹 600909...
- 保險(xiǎn)個(gè)代是什么意思?保險(xiǎn)公司專...
- 結(jié)售匯逆差什么意思?結(jié)售匯逆差...
- 國(guó)家衛(wèi)健委28項(xiàng)措施提升醫(yī)療質(zhì)量...
- 每日短訊:渣打銀行現(xiàn)貸派申請(qǐng)條...
- 應(yīng)用程序無(wú)法正常啟動(dòng)怎么回事...
- 渭南:2023年新建停車(chē)泊位不少于...
- 當(dāng)前速讀:延安發(fā)布棗芽茶公用品牌
- 7萬(wàn)億之后 科創(chuàng)板的下一站|全球...
- 天天實(shí)時(shí):四部門(mén):對(duì)不裁員、少...
-
【天天報(bào)資訊】隨聲附和的意思是什么怎么解釋?隨聲附和是貶義詞嗎?
下一篇2023-06-13 16:55:03
-
中東土豪也愛(ài)“好特賣(mài)”?品牌折扣店開(kāi)進(jìn)棕櫚
上一篇2023-06-13 15:45:16