在機器學習賽道,入局遲的Arm為何跑在了前面?
Arm在整個機器學習和人工智能的潮流中可能有點晚了,至少在現(xiàn)代芯片的專門設計中是這樣的。但就部署在最廣泛設備上的人工智能和機器學習芯片的數(shù)量而言,這一芯片知識產(chǎn)權的設計者擊敗了所有人。
Arm的客戶,包括競爭對手英特爾和英偉達,它們也正忙著在各處部署人工智能技術。該公司還創(chuàng)造了特定的機器學習指令和其他技術,以確保人工智能被嵌入幾乎所有電子產(chǎn)品,而不僅僅是進入服務器的高端設備。
在服務器的層面上,像亞馬遜這樣的客戶正在將基于Arm的機器學習芯片引入其數(shù)據(jù)中心。最近,Arm機器學習小組副主席Steve Roddy在媒體活動上與外媒進行了溝通。
以下是采訪內容:
Q:你對機器學習的關注點是什么?
Steve Roddy:我們瞄準的是高端消費者,這顯然是首選。Arm以什么出名?手機處理器。所以專用NPU(神經(jīng)處理單元)的概念首次出現(xiàn)在高端手機上,F(xiàn)在,蘋果、三星、MediaTech、華為和高通都在設計自己的產(chǎn)品。這在一部1000美元的手機里很常見。
我們推出的是一系列處理器,不僅服務于這個市場,也服務于主流市場和低端市場。我們最初的設想是,我們進入這個市場,為人們制造VR眼鏡、智能手機,以及那些你更關心性能而不是成本平衡的地方。歷史經(jīng)驗表明,功能設置出現(xiàn)在高端手機上,需要幾年時間,然后轉移到主流的400-500美元的手機上,然后幾年之后,最終出現(xiàn)在更便宜的手機上。
我認為,最有趣的是,整個NPU機器學習的進展速度飛快,但原因不同。例如,過去800萬像素的傳感器從這里開始,然后當它足夠便宜的時候,它會到另一個地方,然后當它更便宜的時候,它又會轉移。不僅僅是組件成本下降并集成到其中,而是被其他東西所取代。機器學習算法可以用來做出不同的或更聰明的決策,來決定系統(tǒng)是如何集成和組合在一起以不同的方式增加價值,或者以不同的方式減少成本。
Q:你描述了神經(jīng)網(wǎng)絡如何找出做某事的方法,然后你會剔除那些實際上不必要的東西。你最終會得到一個更高效或更小的東西,它可以嵌入到微控制器中。
Roddy: 那是一個新興的領域。退一步說,機器學習實際上有兩個組成部分。算法的創(chuàng)建,學習,或者訓練,就像它所說的,幾乎只發(fā)生在云中。對我來說,我想開玩笑地說,大多數(shù)從業(yè)者都會同意,這是一個擁有一百萬臺打字機的百萬只猴子。其中一個寫莎士比亞十四行詩。訓練過程就是這樣的。
事實上,谷歌是明確的。谷歌現(xiàn)在有一個叫做AutoML的東西。假設你有一個從某個開源存儲庫中挑選的算法,它非常適合你的任務。它是一些你只需要稍微調整了一下的圖像識別的東西。你可以將其加載到谷歌的云服務中。他們這樣做,顯然是因為它以計算服務的方式運行計量器。但基本上是你想付多少錢的問題。
他們將隨機嘗試創(chuàng)建神經(jīng)網(wǎng)絡的不同變體。這里有更多的過濾器,那里有更多的層級,反向操作,不按順序執(zhí)行,然后重新運行訓練集。這個現(xiàn)在可以實現(xiàn)1%左右的準確率。這只是你想花多少錢的問題。在這一百萬只猴子,一百萬臺打字機的操作下,計算需要1000美元還是10000美元?請注意,我發(fā)現(xiàn)了一個在面部識別,語音識別,或者其他任何方面都比它精確2%的方法。
把這些都放在一邊。這就是神經(jīng)網(wǎng)絡的發(fā)展。這種部署稱為推理。現(xiàn)在我想對我想要識別的物體進行一次特定的推理。我想在車上運行它,在人行橫道上認出老奶奶,或者諸如此類的。Arm顯然專注于它所部署的大量硅市場,無論是邊緣市場還是終端市場。
例如,你在會議中心的墻上安裝了一堆傳感器,燈熄滅了,里面充滿了煙霧,因為它著火了。你可以用傳感器識別火災,激活,并在地板上尋找尸體。他們可以向消防部門發(fā)出求救信號。“人在這里”;“不要去這個房間,那里沒有人”;“去這個房間”。這是一件很酷的事情。但你希望它超級高效。你不想讓整個會議中心重新布線。你只需要把這個電池驅動的東西貼起來,并期待它能運行三六個月。每隔六個月,你可以更換傳感器的安全系統(tǒng)。
這是一個利用數(shù)學家創(chuàng)造的抽象模型并將其簡化以適應約束設備的問題。這是未來最大的挑戰(zhàn)之一。我們有自己的處理器,它們很擅長在終端設備上實現(xiàn)高效的神經(jīng)網(wǎng)絡。從一過程來自于數(shù)學家,他們正在構思新型的神經(jīng)網(wǎng)絡并理解其中的數(shù)學原理,然后把它連接到較低層次的程序員那里,他是一個嵌入式系統(tǒng)的程序員——那里有一個巨大的技能缺口。
如果你是一個24歲的數(shù)學奇才,剛拿到本科數(shù)學學位和數(shù)據(jù)科學研究生學位,從斯坦福大學畢業(yè),大的互聯(lián)網(wǎng)公司會在你的宿舍外為你提供了一份工作。實際上你是在神經(jīng)網(wǎng)絡及其背后的數(shù)學方面很出色,但你在嵌入式軟件編程方面沒有任何技能。那位嵌入式軟件工程師,負責組裝CPU、GPU和ARM NPU,將操作系統(tǒng)放在芯片上,做驅動程序和低級固件,他說:“嘿,這是一段代碼,里面有一個神經(jīng)網(wǎng)絡。確保它運行在這個有2兆內存和200MHz CPU的受限小設備上。讓它發(fā)揮作用!
負責嵌入的人會說,“我不知道這個神經(jīng)網(wǎng)絡是干什么的。它需要的計算量是我的10倍。我可以扔掉的90%是多少?我怎么知道?”高層級的那個人,那個數(shù)學家,對約束裝置一無所知。他研究數(shù)學,大腦的模型。他不懂嵌入式編程。大多數(shù)公司不會同時擁有兩個人。很少有高度整合的公司會讓所有人聚在一個房間里進行交談。
經(jīng)常會有這樣的言論,你說你是數(shù)學家,我是嵌入式軟件工程師。我們必須有保密協(xié)議才能進行對話。你愿意授權模型輸出,但你不會放棄你的源數(shù)據(jù)集,你的訓練數(shù)據(jù)集,因為那是你的寶藏。這就是價值所在。你給我一個訓練有素的模型,可以識別人行橫道上的貓、人或祖母,很好,但你不會透露細節(jié)。你不會告訴我發(fā)生了什么。這里我要解釋的是,這怎么不適合我的約束系統(tǒng)。你能為我做什么?
你不是嵌入式程序員。我不是數(shù)學家。我們該怎么辦?這是我們投資的領域,其他人也在投資。隨著時間的推移,在未來這將是一個神奇的領域。這有助于關閉它之間的循環(huán)。這不是一個單向的事情,你給我一個算法,我不斷地破解它,直到我使它適合。你給我的是99%的正確率,但我只能實現(xiàn)82%的正確率,因為我需要花費大量的計算來適應它。這總比什么都沒有好,但我真的希望我能回到過去,重新訓練,并有一個無止境的循環(huán),在那里我們可以以更好的方式合作。把它看作是約束和理想之間的協(xié)作。
Q:我想知道這里聽起來熟悉的部分是相同的還是非常不同的,但是Dipti Vachani談論了汽車聯(lián)盟,以及每個人將如何在自動駕駛汽車上合作,從原型到生產(chǎn)。她說我們不能在這些車里裝超級計算機。我們必須把它們降低到更小、更便宜的設備上,這些設備可以投入生產(chǎn)。你說的有什么相似之處嗎?超級計算機已經(jīng)找出了這些算法,現(xiàn)在需要把它們降低到實際水平。
Roddy:當數(shù)學家創(chuàng)建這些神經(jīng)網(wǎng)絡時,他們通常使用浮點運算。他們是在一個抽象的無限精度和本質上無限的計算能力。如果你想要更多的計算能力,你需要啟動更多的刀片服務器,啟動整個數(shù)據(jù)中心。你在乎什么?如果你愿意寫支票到亞馬遜或谷歌,你可以這樣做。
Q:但你不能把數(shù)據(jù)中心放在車里。
Roddy:沒錯,一旦我有了算法的形狀,它就變成了一個問題。你會聽到像量化、聚類這樣的術語。如何減少復雜度,刪去那些實際上并不重要的部分呢?你的大腦中有很多神經(jīng)連接(這是在模仿大腦),但其中一半是垃圾。他們中有一半在真正的事。有很強的連接可以傳遞信息,也有很弱的連接可以修剪掉。如果你失去了一半的腦細胞,你仍然可以認出你的伴侶或配偶。訓練過的神經(jīng)網(wǎng)絡也是如此。它們在想象的神經(jīng)元之間有很多聯(lián)系。你可以去掉其中的大部分,你仍然可以得到相當好的準確度。
Q:但是你會擔心你丟掉的東西在某些情況下可以用來防止車禍。
Roddy: 這是一個測試用例。如果我去掉一半的計算,會發(fā)生什么?這就是所謂的再培訓。再培訓,或者更重要的是要記住目標。不是假設數(shù)據(jù)中心或超級計算機的無限容量,而是假設我的計算能力有限。
汽車行業(yè)就是一個很好的例子。假設10年后你是XYZ德國部件公司行人安全系統(tǒng)的實驗室主任。你的算法運行在最新和最好的雷克薩斯和奔馳汽車上。它們每個都有價值5000美元的計算硬件。你的算法也運行在一輛9年歷史的中國轎車上,而這款車恰好是你的第一代系統(tǒng)。
你的一位科學家提出了最好的新算法。它的準確率提高了5%。不管怎樣,奔馳車的精確度要高5%,但你有義務將其提供給另一個人(事實上,你可能有一份合同,要求你每季度更新一次)。更糟糕的是,現(xiàn)在我們有來自10家汽車公司的17個平臺。你如何把這個新的數(shù)學發(fā)明應用到所有這些地方?必須有一些結構化的自動化。這是汽車聯(lián)盟在一個封閉領域所做努力的一部分。
我們正在開發(fā)的技術是圍繞“我們如何建立這些橋梁?”例如,你怎么把一個模型放入開發(fā)人員使用的訓練集(TensorFlows或者Caffes)。這讓他們可以說,“好吧,與其假設我是在云中進行推理,不如假設我是在一個智能門鈴的2美元微控制器上運行?”為這個而訓練,而不是為抽象而訓練。這可以建立很多基礎設施。
不管好壞,它必須跨越行業(yè)。你必須在Facebook的數(shù)據(jù)科學家、XYZ半導體的芯片制造者、匣子制造商和軟件算法人員之間建立起橋梁,這些人都在試圖一起對其進行內部升級。
Q:聯(lián)盟中可能有像英偉達這樣的競爭對手。你如何把這個保持在比競爭對手更高的水平上?
Roddy:英偉達做的事,對我來說,他們是顧客。他們在賣芯片。
事實上,英特爾從Arm那里買了很多東西。在架構上,英偉達是一個很好的例子。他們有自己的NPU。他們稱之為NVDLA。他們知道在云中訓練,是的,是GPU。那是他們的堡壘。但當他們談到邊緣設備時,他們甚至說不是每個人都能在口袋里裝上50瓦的GPU。他們有他們自己的版本,我們在這里談到的MPU是以不同大小的整數(shù)運算的定點來實現(xiàn)。從4平方毫米到1平方毫米的硅。這東西的功率不到一瓦特。這比高性能的GPU要好得多。
如果你口袋里有一部相對現(xiàn)代的手機,你就有了NPU。如果你在過去幾年里買了一部800美元的手機,它會有NPU。蘋果有一個。三星有一個。華為有幾代都有。他們都做了自己的事。我們預計,隨著時間的推移,這些公司中的大多數(shù)將不會繼續(xù)開發(fā)自己的硬件。神經(jīng)網(wǎng)絡基本上只是一個巨大的數(shù)字信號處理濾波器。例如,在一幅大圖像中有一組龐大的系數(shù)。我的圖像分類器可能有1600萬個系數(shù),我有400萬像素的圖像。那只是一個巨大的乘法運算。它是多重累積的。這就是為什么我們要討論CPU的乘法累加性能。這就是為什么我們建造這些NPU,除了倍增積累什么也不做。這是一個巨大的過濾器。
現(xiàn)實是,要在8×8的乘法上進行創(chuàng)新,你能做的只有這么多。基本的構建塊就是它本身。這是系統(tǒng)設計。在我們的設計中有很多關于最小化數(shù)據(jù)移動的東西。它在塊級和系統(tǒng)級的數(shù)據(jù)移動方面很聰明。我不希望10年后,每個手機廠商和汽車廠商都有自己的專用NPU。這沒有道理。軟件和算法需要專用。架構也需要專用。但是構建塊引擎可能會得到許可,就像CPU和GPU 一樣。
沒有什么能保證我們會贏。我們希望如此。因為總有人要實現(xiàn)?赡軙幸恍┓浅:玫墓⿷虨镹PU提供許可,并且大多數(shù)專利產(chǎn)品將會消失。我們希望我們是贏家之一。我們喜歡認為我們有足夠的資金去投資去贏得勝利,即使我們的第一批產(chǎn)品沒有在市場上取得勝利。但有跡象表明它實際上相當不錯。我們預計這會在5到10年內發(fā)生。在系統(tǒng)級,有太多的系統(tǒng)設計選擇和系統(tǒng)軟件選擇。這是關鍵的不同點。
Q:那么,在你將要競爭的關卡上,你會覺得Arm正在追趕你嗎?或者你會對此提出異議嗎?
Roddy:這取決于你看的是什么,你的印象是什么。如果你坐下來說,“現(xiàn)在:此時此刻AI在世界上運行了多少,它在哪里運行?”Arm無疑是贏家。絕大多數(shù)人工智能算法實際上并不需要專用的NPU。機器學習一直延伸到類似你手機上智慧文本輸入法這樣的東西。你的手機可能已經(jīng)啟用了“ok谷歌”或“你好Siri”。這是機器學習。它可能不在GPU或NPU上運行。它可能只是運行在M級內核上。
如果你看看市場上的手機,有多少智能手機?可能是40億到50億?其中大約15-20%的手機有NPU。這是最后三代蘋果手機,最后兩到三代三星手機。就大概說有5億吧?犊卣f,可能是十億。但每個人都有Facebook。每個人都有谷歌的預測文本。每個人都有語音助手。這是一個神經(jīng)網(wǎng)絡,它和其他系統(tǒng)一起在CPU上運行。沒有別的選擇。
如果你快速瀏覽一下,看看大部分推論在哪里運行,你會發(fā)現(xiàn)它們在CPU上,并且大部分在ARM上。即使在云中,當您討論推理在何處運行時(不是訓練,而是部署),絕大多數(shù)推理都在CPU上運行。很明顯,大部分是Intel的CPU,但是如果你使用亞馬遜的話,就有ARM的服務器。
金融界最經(jīng)典的是什么?我想有購物中心的衛(wèi)星照片分析,這樣我可以看到Home Depot的交通模式,知道我應該做空還是做多Home Depot的股票。人們真的會這么做。你需要一堆衛(wèi)星圖像來訓練。你還需要財務報告。你有所有家庭倉庫或JC Penny的所有交通圖片,你把它們和過去15年的季度結果聯(lián)系起來,這樣你就建立了一個神經(jīng)網(wǎng)絡,F(xiàn)在我們認為我們有了一個將交通模式與財務結果關聯(lián)起來的模型。讓我們來看看過去三天衛(wèi)星在北美所有家庭倉庫的現(xiàn)場拍攝,并對他們的收入做出預測。
那個實際的預測,那個推斷,是在CPU上運行的?赡苄枰獛字艿腉PU訓練來建立模型,但我有1000張照片。每一個推論都需要半秒鐘。你不需要為此啟動一堆GPU。運行它之后,20分鐘就可以完成。你已經(jīng)做了你的預測。事實上,我們是神經(jīng)網(wǎng)絡的主要實現(xiàn)者。但說到對這么有魅力的NPU的看法的話,我們現(xiàn)在的市場上還沒有這樣的產(chǎn)品。因此,我們落后了。
但不可否認的是,我們現(xiàn)在只是在設計層面介紹我們的NPU家族。我們有三個NPU。我們已經(jīng)給它們以授權。它們在我們客戶的手中。他們正在做設計。今年你不會看到硅。也許明年晚些時候。沒有人等著我發(fā)表聲明。整個行業(yè)還要再過十年才能穩(wěn)定下來。華為有自己的產(chǎn)品。蘋果有自己的產(chǎn)品。三星有自己的產(chǎn)品。高通有自己的產(chǎn)品。英偉達有自己的產(chǎn)品。每個都有自己的。他們真的需要每年投資100個人的人力在硬件上來生產(chǎn)8位乘法器嗎?答案可能是否定的。
Q:我記得蘋果公司在他們的活動中介紹了他們最新的芯片。他們說,機器學習比以前強大了6倍。對芯片這部分的投資是有意義的。這是可以給你帶來很多好處的部分。當你在手機和其他強大的設備上看到這些更大的系統(tǒng)芯片時,你是否期望這部分會被放大到原來的兩倍甚至三倍?
Roddy:有些是,有些不是。我們看到機器學習功能以多種不同的方式擴散。一個意料之外的方式是,它是如何比歷史可能預測的更快地進入低成本設備的。屏幕尺寸和相機尺寸過去常常以固定的速度從高端到中檔再到低端一代代地下降。我們已經(jīng)看到了一個更快速的擴展,因為你可以用NPU做一些有趣的事情,在某種程度上可以讓你在系統(tǒng)的其他地方降低成本,或者啟用與系統(tǒng)其他部分不同的功能。
低成本手機中一個很好的例子是人臉解鎖。人臉解鎖通常是一個低功耗、低分辨率的攝像頭,必須從你的臉上辨別出我的臉。這就是它所需要做的一切。如果你是個十幾歲的孩子,你的朋友就不能打開你的手機開始發(fā)送有趣的短信。它通常只在CPU上的軟件中運行,通常是ARM CPU。不管是1000美元的手機還是100美元的手機,這都足以解鎖手機。
但現(xiàn)在,你想把這款售價100美元的手機,變成發(fā)展中國家那些沒有銀行賬戶的人的代理銀行服務。你不希望通過這個糟糕的相機快速自拍來決定誰在進行金融交易。你需要更精確的面部3D映射。你可能需要同時進行虹膜掃描。如果你能在應用處理器的基礎上再增加一個20、30、40美分的小的專用NPU來實現(xiàn)這一點,它只會被用來做實際的詳細的面部分析,這大概就是我們想要的NPU家族中最小的尺寸。
突然之間,對于100美元的手機,安裝一個專用的NPU是有意義的,因為它使手機成為一個安全的銀行設備。這不是為了讓自拍看起來更好。一個買100美元手機的人不愿意為了讓自拍看起來更好而花錢。但是銀行公司愿意資助這款手機來獲得交易流,當然,前提是他們能從發(fā)生在孟加拉國或其他地方的每一筆80美分的微交易中獲得一分錢。我們現(xiàn)在看到的功能,一開始是出于虛榮心,例如讓Snapchat濾鏡更漂亮,讓我的自拍看起來年輕20歲,但現(xiàn)在你可以用它來做不同的事情。
Q:你認為機器學習占硅預算的百分比應該是多少?
Roddy:這取決于應用程序。有一些產(chǎn)品類別是人們愿意投入的。如今最完美的狀態(tài)是什么?人們把10或12萬億次計算放入手機。我們要做的一件事是查看各種類型的功能,計算工作量是多少?其中多少是神經(jīng)網(wǎng)絡部分,多少是其他形式的計算?
比如語音處理。M級CPU上運行。你不需要它能做到“OK Google”和“Hello Siri”。你需要去另一端看一個類似綠屏的東西,我會用我的自拍說,“看我!我在海灘上!”雖然我實際上在一個沉悶的會議室里,但它把我剪輯了出來,把我放在海灘上。盡管我在看球賽,但是“嗨,親愛的,我還在辦公室”。那需要巨大的馬力來實現(xiàn)。
但如果你受到Instagram的影響,然后你自然會花1200美元買最新款的手機,因為你會想要最酷的視頻。但如果在手機里裝一個具備每秒20萬億次計算的NPU只要多花5美元,為什么不呢?它這么酷。它是由兩端驅動的。你可以做些很好的事情。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機器人及智能工廠展
-
7月31日免費預約>> OFweek 2025具身智能機器人產(chǎn)業(yè)技術創(chuàng)新應用論壇
-
免費參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
8月5日立即報名>> 【在線會議】CAE優(yōu)化設計:醫(yī)療器械設計的應用案例與方案解析
推薦專題