1. <video id="51u6e"></video>

        h1_key

        當前位置:首頁 >新聞資訊 > 行業資訊>英偉達orin芯片算力和技術詳解
        英偉達orin芯片算力和技術詳解
        2023-02-17 11352次

          探討Orin的硬件和軟件架構,包括新一代的GPU、CPU、深度學習加速器,以及基于Orin的軟件棧,我們在之后將會介紹英偉達端到端的解決方案。


        英偉達orin芯片算力和技術詳解

          英偉達2019年推出了DRIVE AGX Orin平臺,最高算力(INT8)達到2000TOPS,是一個既覆蓋從L2到L5自動駕駛全場景,也包含可視化、數字儀表、車載信息娛樂及交互的高性能AI平臺,且在硬軟件上與上一代Xavier完全兼容,下圖為基于單Orin和雙Orin從L2到L5自動駕駛的系統方案。

        英偉達orin芯片算力和技術詳解

          DRIVE AGX Orin平臺中,內置了Orin SoC芯片,下圖為基于Jetson AGX Orin機器人計算平臺,供參考。

        英偉達orin芯片算力和技術詳解

          2. Orin的系統架構

          Orin SoC采用7納米工藝,由Ampere架構的GPU,ARM Hercules CPU,第二代深度學習加速器DLA、第二代視覺加速器PVA、視頻編解碼器、寬動態范圍的ISP組成,同時引入了車規級的安全島Safety Island設計,下圖為Orin SoC的系統架構。


        英偉達orin芯片算力和技術詳解


          Orin支持204GB/s的內存帶寬和最高64GB的DRAM,高速I/O接口與上一代Xavier SoC的接口兼容,可實現275TOPS的INT8算力,是Xavier的7倍,功耗55W。


         3. Orin的硬件架構3.1 Ampere GPU

          Orin采用了新一代的Ampere架構GPU,由2個GPC(Graphics Processing Clusters,圖形處理簇)組成。

          每個GPC又包含4個TPC(Texture Processing Clusters, 紋理處理簇),每個TPC由2個SM(Streaming Multiprocesor,流處理器)組成,下圖為Orin的GPU架構。


        英偉達orin芯片算力和技術詳解

          每個SM有192KB的L1緩存和4MB的L2緩存,包含128個CUDA Core和4個Tensor Core。

          因此Orin總計2048個CUDA Core和64個Tensor Core,INT8稀疏算力為170 TOPS(Tensor Core提供),INT8稠密算力為54TOPS,FP32算力為5.3TFLOP(由Cuda Core提供)。

          與上一代Volta架構的GPU相比,Tensor Core引入了對稀疏性的支持, 稀疏性Sparsity是一種細粒度的計算結構,可以使吞吐量翻倍并減少內存使用量。


          3.2 第三代張量核稀疏化技術

          Ampere架構中第三代Tensor Core是亮點,首次引入了細粒度結構化稀疏性技術(Fine-grained structured sparsity ,稀疏性),也是支撐英偉達對外宣傳“AI算力標桿”的關鍵控制點。


        英偉達orin芯片算力和技術詳解




          稀疏化技術主要分為兩個部分:

          一是對權重網絡先進行密集訓練(Dense trained weights),再將網絡權重修剪(pruning)為2:4的稀疏矩陣,稀疏矩陣中每個4個元素中有2個非零值,最后再對非零權重進行微調(fine-tune),通過權重網絡壓縮,使得數據占用空間和帶寬減少為原來的一半;

          二是在Tensor Core中加入選擇電路,稱為稀疏的tensor core),根據權重的索引過濾掉0的位置,讓weights不是0的部分和輸入的Tensor對應的部分做內積,使矩陣乘法所需計算量大大減少,即通過跳零(skipping the zeros)將數學計算的吞吐量加倍。


          3.3 第二代DLA

          Orin上推出了第二代深度學習加速器DLA,相比于第一代,主要有兩個變化:

          第一是增加了本地緩沖,以提高效率并減少DRAM帶寬;第二是引入了結構化稀疏功能(structured sparsity),增加了深度卷積處理器(depth wise convolution processor)和硬件調度器(hardware scheduler),下圖為第二代DLA架構。

        英偉達orin芯片算力和技術詳解

          總體使得DLA的INT8稀疏算力為105TOPS,INT8稠密算力為11.4TOPS,而Xavier中的第一代DLA為5TOPS。

          TensorRT可以在DLA上INT8或FP16運行各種網絡,并支持卷積、反卷積、全連接、激活、池化、batch歸一化(batch normalization)等各種層。


          3.4 Arm A78 CPU

          Orin系統架構中,CPU從之前自研的Carmel架構回到了到5納米工藝的ARM Cortex-A78上,下圖為CPU架構。

        英偉達orin芯片算力和技術詳解

          Orin多達12個CPU內核,每個內核包含了64KB的L1指令緩存和64KB的L1數據緩存,以及256KB的L2緩存。

          每4個CPU內核組成一個CPU簇,共同使用一個2MB的L3緩存,支持的最大CPU頻率達到了2.2GHz。

          相比于上一代Xavier的8核Carmel CPU,Orin的12核A78 CPU性能提升1.9倍。


          3.5 內存和通訊

          Orin最高支持64GB的256位LPDDR5和64GB的eMMC。

          DRAM支持3200MHz的最大時鐘速度,每個引腳6400Gbps,支持204.8GB/s的內存帶寬,是Xavier內存帶寬 memory bandwidth 的1.4倍、存儲storage的2倍。

          下圖顯示了Orin各組件中,通過內存控制器結構(Fabric)和DRAM如何通訊和數據交互。


        英偉達orin芯片算力和技術詳解



          3.6 視頻編解碼器

          Orin包含一個多標準視頻編碼器 (ENC)、一個多標準視頻解碼器 (DEC) 和JPEG處理塊 (JPEG)。

          ENC和DEC支持完整硬件加速的編解碼標準,包括H.265、H.264 、AV1等;JPEG用于JPEG靜止圖像的解壓縮計算、圖像縮放、解碼(YUV420、YUV422H/V、YUV444、YUV400)和色彩空間轉換(RGB到YUV)等功能。

          3.7 第二代視覺加速器PVA和VIC

          Orin中對PVA進行了升級,包括雙7路VLIW(超長指令字)矢量處理單元、雙DMA和Cortex-R5,支持計算機視覺中過濾、變形、圖像金字塔、特征檢測和FFT等功能。

        英偉達orin芯片算力和技術詳解

          Orin還包含一個Gen 4.2視頻成像合成器 (Video Imaging Compositor,VIC) 2D 引擎,支持鏡頭畸變校正和增強、時間降噪、視頻清晰度增強、像素處理(色彩空間轉換、縮放、混合和合成)等圖像處理功能。

          為了調用Orin SoC上的多個硬件組件(PVA、VIC、CPU、GPU、 ENC等),英偉達開發了視覺編程接口 ( Vision Programming Interface,VPI)。作為一個軟件庫,VPI附帶了多種圖像處理算法(如框過濾、卷積、圖像重縮放和重映射)和計算機視覺算法(如哈里斯角檢測、KLT 特征跟蹤器、光流、背景減法等)。


          3.8 I/O接口

          Orin包含大量的高速 I/O,包括了22通道PCIe Gen4、以太網接口(千兆、10千兆)、顯示端口、16通道MIPI CSI-2、USB3.2等。


        英偉達orin芯片算力和技術詳解

          Orin中帶有電源管理集成電路 (Power Management Integrated Circuit,PMIC)、穩壓器和電源樹,支持15W、30W 、50W、60W功率模式。


          4. Orin的軟件棧

          Orin的軟件棧是基于軟件開發工具包SDK(Software Development Kit)來提供支撐的。

          主要是板級支持包 (BSP),包括了引導程序Bootloader、Linux內核、驅動程序Driver、工具鏈Tool chain和基于Ubuntu的參考文件系統,BSP也支持各種安全功能(安全啟動、可信執行環境、磁盤和內存加密等)。

          在BSP之上,有多個用于加速應用程序的用戶級庫,包括深度學習加速庫(CUDA、CuDNN、Tensor RT),加速計算庫(cuBLAS、cuFTT),計算機視覺和圖像處理庫(VPI),多媒體和相機庫(libArgus 和 v4l2)。

          TensorRT是用于深度學習推理的運行時庫( Runtime library)和優化器( Optimizer ),可提供更低的延遲(Latency)和更高的吞吐量( Throughput ), 即通過模型量化、融合內核節點( Fusing nodes in a kernel)和選擇最佳數據層和算法(Best data layers and algorithms )來優化GPU內存和帶寬(Memory and bandwidth)的使用。

          cuDNN( CUDA Deep Neural Network Library,深度神經網絡庫),是英偉達專門為深度神經網絡所開發出來的GPU加速庫,針對卷積、池化等常見操作做了非常多的底層優化,比一般的GPU程序要快很多,大多數主流深度學習框架都支持 cuDNN。

          此外,Orin軟件棧上也支持特殊場景的SDK,包括用于智能視頻分析應用程序的DeepStream、用于機器人應用程序的Isaac和用于自然語言處理應用程序的Riva,以支撐更多生態應用發展。

          下圖是基于Jetson AGX Orin機器人計算平臺供參考。


        英偉達orin芯片算力和技術詳解

          對于邊緣部署場景,推出了預訓練模型 (PTM) ,已經采用了數百萬張圖像進行了預訓練,模型庫中包括了人車檢測、自然語言處理、姿勢估計、車牌檢測、人臉檢測等模型,可以實現開箱即用;

          此外配合TAO工具包( TAO toolkit ),使客戶能夠使用自己的數據集進行訓練、微調和優化這些預訓練模型,形成快速部署。

          針對已經部署在邊緣端的模型,借助云,通過容器和容器編排技術實現定期更新,包括具有Docker集成的 NVIDIA Container Runtime,以簡化大規模 AI 模型的部署。


          5. 地表最強,車企瘋搶

          目前Orin的訂單火爆,已經有越來越多的車企和初創公司宣布搭載Orin平臺。

          上汽的R和智己,理想L9、蔚來ET7、小鵬新一代P7,威馬M7、比亞迪、沃爾沃XC90,還有自動駕駛卡車公司智加科技,Robotaxi等眾多明星企業Cruise、Zoox、滴滴、小馬智行、AutoX、軟件公司Momonta等等,都搭載Orin平臺進行開發。

          很多車企在拿到Orin樣板都迫不及待地官宣,試圖對外展示是Orin的首裝,Orin的交付,可以看作是今年智能汽車里程碑事件。


        英偉達orin芯片算力和技術詳解



          6. 汽車人參考小結

          燃料汽車向電瓶車和智能汽車過渡,高電池壽命成為標準,以電池壽命為代表的電氣化基本進入下半年;對于智能汽車,行業自然達成共識,從“馬力”到“計算率”,所以從電池壽命到馬力時代。英偉達的賣點是計算率,非常準確,是利用自己的優勢開始計算能力的軍備競爭。汽車公司的智能仍在競爭中,特別是在高端車型中,迫切需要有賣點和標簽,市場上只有英偉達可選芯片,所以汽車公司瘋狂搶劫。汽車人員認為,一方面,orin芯片算力率稀疏,計算利用率和成本性能需要更詳細的分析,汽車公司對其計算能力的認識將越來越清晰;另一方面,在主流車型中,芯片的計算率將逐漸向電池壽命收斂,最終達到平衡,回歸成本性能的真實狀態。

      2. 時科榮獲“國際影響力品牌”大獎,引領半導體行業創新發展
      3. 5月29日,2024電子信息產業新質生產力交流大會暨第七屆“藍點獎”頒獎盛典在深圳龍華隆重舉行。本次大會匯聚了來自政府、學術界、產業界及企業界的近600位嘉賓,共同探討和展望電子信息產業新質生產力的發展趨勢與前景,并表彰了在電子信息創新發展、品牌價值提升及技術競爭等方面做出卓越貢獻的企業
        2024-06-03 179次
      4. 瑞薩收購Transphorm擴展電源產品陣容
      5. 瑞薩與Transphorm宣布雙方已達成最終協議,根據該協議,瑞薩子公司將以每股5.10美元現金收購Transphorm所有已發行普通股,較Transphorm在2024年1月10日的收盤價溢價約35%,較過去十二個月的成交量加權平均價格溢價約56%,較過去六個月的成交量加權平均價格溢價約78%。
        2024-01-11 651次
      6. 瑞薩電子預先公布了第五代R-Car SoC
      7. 瑞薩電子預先公布了第五代R-Car SoC的相關信息,該SoC面向高性能應用,采用先進的Chiplet小芯片封裝集成技術,將為車輛工程師在設計時帶來更大的靈活度。舉例來說,若高級駕駛輔助系統(ADAS)需要兼顧更突出的AI性能時,工程師可將AI加速器集成至單個芯片中。
        2023-12-12 898次
      8. ROHM羅姆半導體采用SOT-223-3小型封裝的600V耐壓Super Junction MOSFET
      9. ROHM羅姆半導體開發出采用SOT-223-3小型封裝(6.50mm×7.00mm×1.66mm)的600V耐壓Super Junction MOSFET*1,新產品非常適用于照明用小型電源、電泵和電機等應用。
        2023-12-12 803次
      10. MPS全系列電機驅動產品
      11. MPS芯源系統在上海舉辦了一場電機驅動產品媒體發布會。MPS 公司模擬產品線總監瞿松(Song Qu)協同 MPS 公司中國區負責電機驅動和傳感器產品的 BD 經理潘興卓(Patrick Pan)分享了在汽車電子,特別是汽車電機驅動的發展方向、技術及市場優勢,以及未來的布局和規劃,并介紹了一些新產品。
        2023-11-06 980次

        萬聯芯微信公眾號

        元器件現貨+BOM配單+PCBA制造平臺
        關注公眾號,優惠活動早知道!
        10s
        溫馨提示:
        訂單商品問題請移至我的售后服務提交售后申請,其他需投訴問題可移至我的投訴提交,我們將在第一時間給您答復
        返回頂部
        欧美亚洲日本国产黑白配_制服丝袜中文字码_美国国自产拍在线蜜芽_视频一区中文字幕日韩专区_人妻另类校园