Dojo超級計算機對特斯拉的重要性正在與日俱增。
對于馬斯克來說,Dojo不僅僅是特斯拉用來在云端訓練自動駕駛模型的超級計算機,實際上,它已經(jīng)成為馬斯克商業(yè)帝國下AI業(yè)務的基石。
大摩此前甚至將Dojo比喻為“特斯拉的AWS”,認為其將成為特斯拉未來最大的價值驅(qū)動因素。
在馬斯克宏偉的AI藍圖中,Dojo到底起到怎樣的作用?日前,科技媒體TechCrunch記者Rebecca Bellan發(fā)布深度報道《Tesla Dojo: Elon Musk’s big plan to build an AI supercomputer, explained》,以Dojo為出發(fā)點,詳細解釋了馬斯克的AI計劃。
以下是文章亮點:
1、特斯拉的純視覺路徑(僅依靠攝像頭而非傳感器來捕捉數(shù)據(jù))是其需要超級計算機的主要原因。
2、特斯拉的目標是在接下來的大約18個月內(nèi)實現(xiàn)“半特斯拉AI硬件,半英偉達/其他”,“其他”可能是AMD芯片。
3、Dojo計劃的核心是特斯拉的專有D1芯片,這意味著特斯拉將來可能不必依賴英偉達的芯片,低成本就可以獲取大量算力。
4、Dojo芯片是特斯拉的保險單,可能會帶來紅利。
5、預計到今年10月,Dojo的總算力將達到100 exaflops,約等于320500塊英偉達 A100 GPU的算力水平;預計今年年底前,Dojo1將實現(xiàn)與約8000塊H100等效的在線訓練。
文章全文如下:
多年來,埃隆·馬斯克一直在談論Dojo——這是將成為特斯拉人工智能雄心基石的人工智能超級計算機。這個項目對馬斯克來說非常重要,他最近表示,隨著特斯拉準備在10月公布其robotaxi,公司的人工智能團隊將“加倍發(fā)力”推進Dojo項目。
但Dojo究竟是什么?它對特斯拉的長期戰(zhàn)略為何如此關鍵?
簡而言之:Dojo是特斯拉定制構(gòu)建的超級計算機,旨在訓練其“全自動駕駛”的神經(jīng)網(wǎng)絡。提升Dojo與特斯拉實現(xiàn)全自動駕駛并將robotaxi推向市場的目標密切相關。FSD目前在大約200萬輛特斯拉汽車上,可以執(zhí)行一些自動化駕駛?cè)蝿眨匀恍枰祟愒隈{駛座保持注意力。
特斯拉將原定于8月公布其robotaxi的時間推遲到了10月,但無論是馬斯克的公開言論還是特斯拉內(nèi)部的消息源都告訴我們,自動駕駛的目標并未消失。
特斯拉似乎正準備在人工智能和Dojo上投入巨資以實現(xiàn)這一壯舉。
特斯拉Dojo背后的故事
馬斯克不希望特斯拉僅僅是一家汽車制造商,或不僅僅是太陽能電池板和能源存儲系統(tǒng)的提供商。相反,他希望特斯拉成為一家人工智能公司,一家通過模仿人類感知來破解自動駕駛汽車代碼的公司。
大多數(shù)其他開發(fā)自動駕駛汽車技術的公司都依賴傳感器的組合來感知世界(比如激光雷達、雷達和攝像頭)以及高清晰度地圖來定位車輛。特斯拉相信,它可以僅依靠攝像頭來捕捉視覺數(shù)據(jù),然后使用先進的神經(jīng)網(wǎng)絡來處理這些數(shù)據(jù),并快速決定汽車應該如何表現(xiàn)。
正如特斯拉前人工智能主管Andrej Karpathy在2021年該公司的首次AI Day上所說,公司基本上正在嘗試“從頭開始構(gòu)建一個合成生物”。(馬斯克自2019年以來一直在預告Dojo,但特斯拉在AI Day正式宣布了它。)
像Alphabet的Waymo這樣的公司,已經(jīng)通過更傳統(tǒng)的傳感器和機器學習方法,實現(xiàn)了4級自動駕駛汽車的商業(yè)化——SAE將其定義為在特定條件下無需人類干預即可自行駕駛的系統(tǒng)。而特斯拉至今還未生產(chǎn)出一個不需要人類參與的自動駕駛系統(tǒng)。
大約有180萬人為特斯拉的FSD支付了高昂的訂閱費,目前其價格為8000美元,最高時定價為15000美元。推銷的點是,經(jīng)過Dojo訓練的人工智能軟件最終將通過隔空更新推送給特斯拉客戶。FSD的規(guī)模也意味著特斯拉已經(jīng)能夠收集到數(shù)百萬英里的視頻片段,用于訓練FSD。這意味著,特斯拉能夠收集的數(shù)據(jù)越多,這家汽車制造商就越接近實現(xiàn)真正的全自動駕駛。
然而,一些行業(yè)專家表示,簡單地向模型投入更多數(shù)據(jù)并期望它變得更聰明的方法可能存在局限性。
“首先,存在經(jīng)濟限制,這樣做很快就會變得成本過高,”普渡大學硅谷電子與計算機工程教授Anand Raghunathan對TechCrunch表示。他進一步說,“有聲音說我們實際上可能會耗盡有意義數(shù)據(jù)來訓練模型。更多的數(shù)據(jù)并不一定意味著更多的信息,所以這取決于那些數(shù)據(jù)是否包含有用信息來創(chuàng)建一個更好的模型,以及訓練過程是否能夠真正將這些信息提煉成更好的模型。”
Raghunathan說,盡管有這些疑慮,但至少在短期內(nèi),數(shù)據(jù)似乎會更多。更多的數(shù)據(jù)意味著需要更多的算力來存儲和處理,以訓練特斯拉的AI模型。這就是超級計算機Dojo的用武之地。
什么是超級計算機?
Dojo是特斯拉設計的超級計算機系統(tǒng),用作人工智能,特別是FSD的訓練場。這個名字是對武術練習道場的致敬。
超級計算機由數(shù)千臺稱為節(jié)點的小型計算機組成。這些節(jié)點各自擁有自己的CPU(中央處理單元)和GPU(圖形處理單元)。前者負責節(jié)點的總體管理,后者則處理復雜的事情,比如將任務分割成多個部分并同時進行處理。GPU對機器學習操作至關重要,就像它們支持FSD訓練模擬一樣。它們還支持大型語言模型,這就是為什么生成式AI的崛起使得英偉達成為地球上最有價值的公司。
甚至特斯拉也購買英偉達的GPU來訓練其人工智能(這是后話)。
為什么特斯拉需要超級計算機?
特斯拉的純視覺路徑是其需要超級計算機的主要原因。FSD背后的神經(jīng)網(wǎng)絡是在大量駕駛數(shù)據(jù)上訓練的,以識別和分類車輛周圍的物體,然后做出駕駛決策。這意味著當FSD啟動時,神經(jīng)網(wǎng)絡必須連續(xù)不斷地收集和處理視覺數(shù)據(jù),速度要與人類深度和速度識別能力相匹配。
換句話說,特斯拉想要創(chuàng)造一個數(shù)字版的人類視覺皮層和大腦功能。
為了達到這個目標,特斯拉需要存儲和處理從世界各地的汽車收集的所有視頻數(shù)據(jù),并運行數(shù)百萬次模擬來訓練其模型上的數(shù)據(jù)。
特斯拉似乎依賴英偉達為其當前Dojo訓練計算機提供動力,但它不想把所有雞蛋放在一個籃子里——尤其是因為英偉達芯片價格昂貴。特斯拉還希望制造出更好的東西,增加帶寬并減少延遲。這就是為什么這家汽車制造商的AI部門決定提出自己的定制硬件計劃,該計劃旨在比傳統(tǒng)系統(tǒng)更有效地訓練AI模型。
該計劃的核心是特斯拉的專有D1芯片,該公司表示這些芯片已針對AI工作負載進行了優(yōu)化。
更多關于這些芯片的信息
特斯拉與蘋果持有類似的觀點,即認為硬件和軟件應該被設計為一起工作。這就是為什么特斯拉正在努力擺脫標準GPU硬件、設計自己的芯片來驅(qū)動Dojo。
特斯拉在2021年的AI Day上展示了其D1芯片,這是一個手掌大小的硅方塊。截至今年5月,D1芯片已經(jīng)投入生產(chǎn)。中國臺灣半導體制造公司臺積電正在使用7納米制程工藝制造這些芯片。根據(jù)特斯拉的說法,D1擁有500億個晶體管和一個645平方毫米的大尺寸,這一切都在說D1承諾將非常強大和高效,并能夠快速處理復雜任務。
“我們可以同時進行計算和數(shù)據(jù)傳輸,我們的定制ISA(指令集架構(gòu))完全針對機器學習工作負載進行了優(yōu)化,”特斯拉前自動駕駛硬件高級總監(jiān)甘尼什·文卡塔拉曼在2021年特斯拉AI Day上說。“這是一個純粹的機器學習機器。”
盡管如此,D1芯片仍然不如英偉達的A100芯片強大,后者也是由臺積電使用7納米工藝制造的。A100擁有540億個晶體管,尺寸為826平方毫米,所以在性能上略勝于特斯拉的D1。
為了獲得更高的帶寬和計算能力,特斯拉的AI團隊將25個D1芯片融合在一起形成一個區(qū)塊,作為一個統(tǒng)一的計算機系統(tǒng)。每個區(qū)塊具有9 petaflops的計算能力和每秒36 TB的帶寬,并包含電源、冷卻和數(shù)據(jù)傳輸所需的所有硬件。你可以將這個區(qū)塊想象成一個由25臺小型計算機組成的自給自足的計算機。六個這樣的區(qū)塊組成一個機架,兩個機架組成一個機柜。十個機柜組成一個ExaPOD。在2022年的AI Day上,特斯拉表示Dojo將通過部署多個ExaPODs來擴展。所有這些加在一起構(gòu)成了超級計算機。
特斯拉還在開發(fā)下一代D2芯片,旨在解決信息流瓶頸問題。D2不是連接各個芯片,而是將整個Dojo塊放置在單個硅片上。
特斯拉尚未確認它已訂購或預計收貨多少D1芯片,也還沒有提供將Dojo超級計算機在D1芯片上運行所需的時間表。
6月在X上的一篇帖子稱:“埃隆正在德克薩斯州建造一個巨大的GPU冷卻器”,對此,馬斯克回復說,特斯拉的目標是在接下來的大約18個月內(nèi)實現(xiàn)“半特斯拉AI硬件,半英偉達/其他”。根據(jù)馬斯克1月的評論,“其他”可能是AMD芯片。
Dojo對特斯拉意味著什么?
控制自己的芯片生產(chǎn)意味著特斯拉有一天可能能夠以低成本快速為人工智能培訓項目添加大量計算能力,特別是在特斯拉和臺積電擴大芯片生產(chǎn)規(guī)模的情況下。
這也意味著特斯拉將來可能不必依賴英偉達的芯片,這些芯片的價格越來越高,也越來越難以確保。
在特斯拉第二季度財報電話會議上,馬斯克表示,對英偉達硬件的需求“如此之高,以至于通常很難獲得GPU。”他說,他對能夠穩(wěn)定地在需要時獲得GPU“相當擔憂”,“因此我認為這需要我們在Dojo上投入更多的努力,以確保我們擁有所需的培訓能力。”
話雖如此,特斯拉今天仍在購買英偉達芯片來訓練其AI。6月,馬斯克在X上發(fā)帖說:
“在我所說的特斯拉今年將進行的大約100億美元與AI相關的支出中,大約一半是內(nèi)部的,主要是特斯拉設計的AI推理計算機和我們所有汽車中存在的傳感器,加上Dojo。對于構(gòu)建AI培訓超級集群,英偉達硬件大約占到成本的2/3。我目前對特斯拉今年購買英偉達的最佳猜測是30億到40億美元。”
推理計算指的是特斯拉汽車實時執(zhí)行的AI計算,與Dojo負責的訓練計算是分開的。
Dojo是一個冒險的賭注,馬斯克通過多次表示特斯拉可能不會成功,以此來對沖這一賭注。
從長遠來看,特斯拉理論上可以基于其AI部門創(chuàng)建一種新的商業(yè)模式。馬斯克曾表示,Dojo的第一個版本將專門為特斯拉計算機視覺標記和培訓量身定制,這對FSD和培訓Optimus(特斯拉的仿人機器人)非常有利,但對其他事情沒什么用處。
馬斯克曾表示,Dojo的后續(xù)版本將更傾向于通用AI培訓。與此相關的一個潛在問題是,幾乎所有現(xiàn)有的AI軟件都是為GPU編寫的。使用Dojo來訓練通用AI模型將需要重寫軟件。
除非特斯拉出租其算力,類似于AWS和Azure出租云計算能力的方式。馬斯克在第二季度收益電話會議上還指出,他看到“通過Dojo與英偉達競爭的一條路”。
摩根士丹利在2023年9月的一份報告中預測,Dojo可以通過解鎖robotaxi和軟件服務的新收入流,為特斯拉市值增加5000億美元。
簡而言之,Dojo的芯片是這家汽車制造商的保險單,可能會帶來紅利。
Dojo進展如何?
路透社去年報道稱,特斯拉于2023年7月開始生產(chǎn)Dojo,但馬斯克在2023年6月的一篇文章中暗示,Dojo已經(jīng)“在線并運行有用的任務幾個月了。”
大約在同一時間,特斯拉表示,預計到2024年2月,Dojo將成為最強大的五臺超級計算機之一——這一壯舉尚未公開披露,讓我們懷疑它是否已經(jīng)發(fā)生。
該公司還預計,到2024年10月,Dojo的總算力將達到100 exaflops。(1 exaflop等于每秒1千萬億次計算機操作。要達到100 exaflops,假設一塊D1能達到362 teraflops,特斯拉將需要超過276,000塊D1,或大約320,500塊英偉達 A100 GPU。)
特斯拉還在2024年1月承諾投資5億美元,在紐約州布法羅的超級工廠建造一臺Dojo超級計算機。
2024年5月,馬斯克指出,特斯拉奧斯汀超級工廠的后部將保留用于“超密集的水冷超級計算機集群”。
就在特斯拉二季度財報電話會議后,馬斯克在X上發(fā)帖稱,這家汽車制造商的AI團隊正在使用特斯拉HW4 AI計算機(更名為AI4),這是特斯拉汽車中的硬件,存在于英偉達GPU的訓練循環(huán)中。他指出,細分大約是90,000個英偉達的H100加上40,000臺AI4計算機。
他繼續(xù)說:“Dojo1將在今年年底前實現(xiàn)與約8,000塊H100等效的在線訓練。不是很多,但也不少。”