菜單導航

AI芯片大戰背后:英特爾對英偉達虎視眈眈,國內

作者:?精裝之家 來源:?精裝之家 發布時間:?2020年01月13日 16:59:44

原標題:AI芯片大戰背后:英特爾對英偉達虎視眈眈,國內芯片公司蠢蠢欲動 來源:36氪

編者按:本文來自微信公眾號“半導體行業觀察”(ID:icbank),作者 蔣思瑩,36氪經授權發布。

AI不僅是最大科技熱點,也是未來數十年科技發展趨勢。伴隨著這股熱潮,AI芯片成為了半導體行業的新風向,投資者的新寵。AI芯片經過了2018年的喧囂,在2019年得到了沉淀。伴隨著AI芯片企業的成長,7nm工藝也逐漸成熟,這兩者在多元化應用場景的催化之下,也為市場提供了更多的AI芯片產品。

人工智能的運用分成兩個階段,一是學習訓練階段,二是推理階段。訓練芯片通常需要通過大量的數據輸入,或采取增強學習等非監督學習方法,訓練出一個復雜的深度神經網絡模型,這其中以英偉達的GPU表現最為突出。推理芯片則是利用訓練好的模型,使用新的數據去“推理”出各種結論,此需求也促進GPU、FPGA和ASIC等不同硬件的發展。

經過幾年的發展,很多企業也開始圍繞著AI訓練芯片或AI推理芯片展開了競爭。在這場大戰背后,有幾個現象值得關注。英特爾對英偉達虎視眈眈

伴隨著人工智能時代的到來,海量數據的紅利,使得AI訓練芯片得到了快速發展。在這當中,GPU因其通用性和高性能的優勢,被AI訓練芯片市場所接受,據相關數據顯示,GPU在云端訓練市場上占比高達90%。而提到GPU就不得不提到,GPU行業的傳奇——英偉達。英偉達在2006以及2007年,分別推出了Tesla架構以及CUDA系列編程環境,降低了將GPU用作于通用計算的難度。2012年,隨著人工智能、深度神經網絡技術的突破發展,英偉達也憑借其在GPU領域的積累迅速崛起,股價一路飆升——2015年20美元的股價在2018年到達了292美元的高點。財富的積累,也為英偉達接下來的發展帶來了機會。這可以從英偉達在研發上的投入得以體現,英偉達在研發投入上一直保持著增長的趨勢,2016到2018財年中增長35%,2019財年前兩個季度就投入了11.2億美元,同比大漲36%。從營收上看,據其第三季度財報數據顯示,英偉達2020財年Q3營收達30.14億美元。

英偉達一路高歌猛進,也使得其他企業盯上了AI這塊大蛋糕。2016年英特爾宣布了“以數據為中心”的戰略轉型,AI的發展離不開數據,從其戰略轉型中,也不難看出英特爾正在著力布局AI領域。作為一家老牌半導體企業,英特爾雄厚的資金力量和技術積累,為其發展AI芯片奠定了基礎。

具體來看,自2016年以后,英特爾就開始陸續收購AI芯片企業——2016 年 8 月,英特爾以 4.08 億美元收購了 Nervana;2019年12月,英特爾在 AI 芯片領域又出手了,公司宣布以 20 億美元收購以色列芯片制造商 Habana Labs。有了 Habana Labs的加持,使得英特爾在訓練芯片和推理芯片上能夠更上一層樓。(Habana Labs的明星產品是兩個AI專用芯片:AI 推理芯片 Goya(戈雅)和 AI 訓練芯片 Gaudi(高迪)。其中, Gaudi被英國資深芯片工程師James W. Hanlon,評為了當前十大AI訓練芯片之一。)

英特爾對AI芯片的未來十分看好。從英特爾公布的消息來看,2017年,英特爾的AI芯片部門收入達10億美元;2019年,AI收入預計將達到35億美元,這也意味著英特爾的AI營收兩年增長了250%。

在這種增長率的背后,自然離不開產品的支撐。據介紹,2017年英特爾AI收入來主要自于英特爾至強處理器在數據中心中的AI應用,而2019年則包含了其今年最新推出的AI芯片——NNP系列。2019 年 11 月在人工智能峰會上,英特爾發布了首款云端 AI 專用芯片 Nervana 神經網絡處理器(NNP)系列產品。NNP全稱 Nervana Neural Network Processor,這是英特爾推出的第一款面向數據中心客戶,針對復雜深度學習的專用 ASIC 芯片。Nervana NNP 并不是一枚芯片,而是一個芯片家族。據悉,NNP-T用于訓練,NNP-I主打推理。

NNP-T

NNP-T采用了16nm FF+制程工藝,有270萬個16nm晶體管,硅片面積680平方毫米,60mmx60mm 2.5D封裝,包含24個張量處理器組成的網格。核心頻率最高可達1.1GHz,60MB片上存儲器,4個8GB的HBM2-2000內存,它使用x16 PCIe 4接口,TDP為150~250W。

NNP-I

NNP-I采用了10nm工藝,基于Ice Lake處理器,在數據中心推理工作負載中,它的效率達4.8TOPs/W,功率范圍可以在10W到50W之間。在ResNet50上,NNP-I在10W的功率水平上每秒可以完成3600次推理,每瓦每秒可以處理360張圖片。

相較于英特爾,英偉達則選擇在今年的11月中低調地發布了其GPU新品——基于Volta Tesla的新變種,Tesla V100s,來捍衛其在AI領域中的地位。據外媒報道顯示,在配置方面,Tesla V100S具有相同的GV100 GPU,該GPU基于12nm FinFET工藝而打造。規范包括5120個CUDA內核,640個Tensor內核和32 GB的HBM2內存。即使這些規格與現有的Tesla V100非常相似,但是GPU和內存時鐘速度都進行了一些重大更改。Tesla V100S采用250W設計,在300W的TDP下可提供14.75 TFLOP的最大FP32計算性能。國內芯片公司蠢蠢欲動

AI新時代的到來,讓眾多企業站在了同一起跑線上。在這大爭之世中,不僅有老牌半導體巨頭的強勢參與,也有一些國產品牌開始初顯鋒芒。同時,我國龐大的電子市場所帶來的數據資源,也為AI訓練芯片的發展提供了肥沃的土壤。在這種環境的驅動下,國產廠商也開始試水訓練芯片市場。

華為曾在2018年10月舉辦了一場主題為AI的大會,2019年8,華為推出了華為昇騰910,該芯片昇騰 910 定位于云端 AI 芯片,著重 AI 訓練能力。昇騰910是華為首款采用達芬奇架構的 AI 芯片,基于 7nm 增強版 EUV 工藝,其 AI 核集成了 3D 立方體計算引擎,可以在一個時鐘周期內完成 4096 的乘加運算。據悉,昇騰 910 是目前為止計算密度最大的單芯片,最大功耗為 350W。據infoq的報道稱,最新的測試結果表明:在算力方面,昇騰 910 完全達到了設計規格,即:半精度 (FP16) 算力達到 256 Tera-FLOPS,整數精度 (INT8) 算力達到 512 Tera-OPS,重要的是,達到規格算力所需功耗僅 310W,明顯低于設計規格的 350W。2019年10月,昇騰910也被James W. Hanlon評為當前十大AI訓練芯片之一。

除華為之外,我國互聯網巨頭也紛紛試水AI訓練芯片。在人工智能時代之前,這些互聯網企業經過多年的積累,已經建立了生態優勢。待到深度學習熱潮的爆發,這些互聯網企業生態中的數據價值開始凸顯,而這就需要AI訓練芯片?;ヂ摼W企業跨界涉足AI訓練芯片領域,可以通過資本運作的方式來參與,也可以選擇建立新的部門或子公司,通過硬核技術切入AI訓練芯片的競爭。

騰訊于2018年8月投資了一家專攻于AI訓練芯片的初創企業——燧原科技。在此則消息官宣的20個月后,燧原科技發布了其首款AI訓練芯片“邃思”。據悉,邃思DTU主要應用于云端人工智能訓練,采用格羅方德12nm FinFET工藝,480平方毫米主芯片上承載141億個晶體管,算力可達20TFLOPS,最大功耗225W。該芯片基于通用 AI 處理器的設計,具備一定的可編程性,其計算核心擁有 32 個通用獨立自主設計的可擴展神經元處理器(SIP),每 8 個 SIP 可以組合成 1 個可擴展智能計算群(SIC)。據燧原科技介紹,邃思 DTU 由 12nm FinFET 工藝打造,集成了 141 億個晶體管,采用 2.5D 封裝,具有 16Gbps 的 PCIe 4.0 接口和 25Gbps 的 ESL 高速互聯。

此外,百度也宣布了其在訓練芯片上的最新進展——在2018百度AI開發者大會上,李彥宏發布了中國首款云端AI全功能AI芯片“昆侖”,據悉,昆侖系列芯片將由百度自主研發,其中包含訓練芯片昆侖818-300,推理芯片昆侖818-100。2019年12 月,三星和百度官方宣布,百度首款 AI 芯片昆侖已經完成研發,將由三星代工,最早將于明年初實現量產。具體來說,昆侖芯片基于百度自主研發的,面向云、邊緣和人工智能的神經處理器架構 XPU 和三星的 14nm 工藝技術。在算力方面,昆侖芯片支持PCIe 4.0 x8,提供 512 GBps 的內存帶寬,在 150 W的功率下實現 260 TOPS 的處理能力;它支持針對自然語言處理的預訓練模型 Ernie,推理速度比傳統 GPU/FPGA 加速模型快 3 倍。推理芯片市場百家爭鳴

相較于訓練芯片,推理的市場門檻相對較低,應用場景也更加廣泛。這也使得,很多初創公司在推理芯片方面展開了競爭——寒武紀、地平線、依圖科技、平頭哥、比特大陸等廠商均于今年推出了相關產品。

乘著AI的東風,國內崛起了一批AI獨角獸企業。寒武紀作為國內比較早的一批投入到AI芯片的企業,于2019年推出了“思元”系列兩款產品——思元270、思元220。其中,思元220是寒武紀在第21屆高交會正式發布的邊緣AI系列產品。思元220(MLU220)芯片是寒武紀在邊緣智能計算領域產品的代表。據悉,思元 220 是一款專門用于深度學習的 SOC 邊緣加速芯片,采用TSMC 16nm工藝,同時采用了FCCSP的封裝,尺寸15mmx15mm??蛻艨梢愿鶕嶋H應用靈活的選擇運算類型來獲得卓越的人工智能推理性能。思元220的推出也標志寒武紀在云、邊、端實現了全方位、立體式的覆蓋。

2019年2月27日,AI芯片初創企業地平線宣布,公司獲得了6億美元(約合40億人民幣)左右的B輪融資,估值達30億美元,借此,地平線也成為全球估值最高的人工智能芯片獨角獸企業。在今年10月的深圳安博會上,地平線發布了其新一代AIoT芯片“旭日二代”,這是“旭日”系列的第二款邊緣AI推理芯片。據悉,旭日二代集成了地平線第二代 BPU 架構(伯努利架構),在邊緣端即可實現全視頻結構化能力。它的功耗僅2W,算力達4TOPS,其算力利用率高達90%。

依圖科技作為我國“AI四小龍”之一,經過近8年的發展,其產品也被成功應用于智能安防、依圖醫療、智慧金融、智慧城市、智能硬件等領域。2019年5月,依圖推出了“發布即商用”的自研AI芯片求索(QuestCore?),這是一款云端AI推理專用芯片。據悉,依圖QuestCore?使用了16nm工藝,采用SoC解決方案、ARM+ManyCore?架構、LPDDR4X內存,而其64路全高清攝像機實時解碼、50路視頻解析成為備受矚目的功能。據介紹,作為云端服務器芯片,求索可以獨立運行,不依賴Intel x86 CPU。這也是依圖芯片與英偉達GPU、谷歌TPU和其他AI芯片公司研發的AI加速器產品一個很大的不同。

一股挖礦熱潮,讓比特大陸一舉成為最受關注的科技公司之一。而伴隨著這股熱潮過后,比特大陸也開始思考它的發展之路。眾所周知,“礦機”芯片主要以ASIC芯片為主,ASIC芯片的計算能力和計算效率都直接根據特定的算法的需要進行定制的,所以具有體積小、功耗低、高可靠性、保密性強、計算性能高、計算效率高等優勢。而這種優勢與AI時代下所需要的芯片不謀而合。因而,比特大陸也將目光投向了AI芯片領域,并推出了算豐系列芯片。2019年9月,比特大陸在福州正式發布其第三代AI芯片——城市大腦專用芯片BM1684,該芯片聚焦于云端及邊緣應用的人工智能推理。據悉,該芯片采用臺積電12nm工藝,在功耗16瓦的前提下,FP32 精度算力可達到2.2TFlops,INT8算力可高達17.6Tops,在Winograd卷積加速下INT8算力更提升至35.2Tops,并集成高清解碼和編碼算法,實現了低功耗、高性能、全定制,是一顆低功耗、高性能的SoC芯片。

此外,在2019年云棲大會上,阿里巴巴也重磅發布了其AI推理芯片——含光800,引發了行業的關注。據悉,含光800采用臺積電12nm制程工藝,含170億晶體管,支持PCIe 4.0和單機多卡,今年第四季度開始量產。據官方介紹,在業界標準的ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。相關媒體報道稱,含光 800 是阿里成立平頭哥芯片公司后第一款正式流片的芯片,是阿里里巴巴第一次使用了自己的硬件架構,也是互聯網公司研發的第一款大芯片。結語

從上述消息中看,根據2019年各個企業發布的新產品顯示,國外企業在AI訓練芯片市場占有一定優勢。國內專注于AI訓練芯片的企業相對較少,實力比較雄厚的國內企業幾乎不約而同地均選擇了訓練芯片和推理芯片雙路線發展的策略,更多的本土公司則瞄準了AI推理芯片的發展。

而從2012年AI芯片初現崢嶸到現在的8年發展當中,AI早已經由一個概念逐漸落實到各個場景當中。在接下來優勝略汰的市場競爭中,這些企業或許將面臨著巨大的壓力,或許也會在未來經歷一番行業并購,但無論如何這些AI芯片的后續發展仍更令人期待。

一定牛吉林十一选五