Vitis AI 2.5

Vitis™ AI 2.5 版本亮點

  • 新增 AI 模型庫
    • 14 個新模型,包括 BERT-NLP 模型、Vision Transformer (ViT)、OCR 模型、實時 SLAM 以及更多 Once-for-all (OFA) 模型
    • 38 個麵向 AMD EPYC™ 服務器處理器的基礎及優化模型
  • AI 量化器增加了 Model Inspector 模型檢查器,且支持了 TensorFlow 2.8 和 Pytorch 1.10
  • 全圖形優化器 (WeGO) 支持 Pytorch 1.x 和 TensorFlow 2.x 框架
  • Versal® ACAP DPU 支持 VC1902 器件的多個計算單元模式(Multiple compute units)、支持 Depthwise卷積和 LeakyReLU 算子組合等;Zynq Ultrascale MPSoC DPU IP 新增了由全新算術邏輯單元 (ALU) 實現的 Pool 、Depthwise 卷積,HardSigmoid 和 HardSwish 功能,大內核尺寸的 MaxPool、AveragePool、矩形內核 AveragePool 等更多運算符 (OP) 及功能組合。
  • 推斷服務器 Inference Server 支持基於 AMD ZenDNN 的 AMD EPYC™ 服務器處理器
  • 全流程加速 (Whole Application Acceleration) 增加了麵向 VCK5000 加速卡和 Zynq® UltraScale+™ ZCU102/ZCU104 評估套件的新示例

Vitis AI 2.5 最新信息(按類別)

展開以下部分,了解有關新特性和增強功能的更多詳情。

  • 新增 14 個模型,共提供 134 個模型
  • 擴展了用於不同 AI 工作負載的模型類別
    • 增加了文本檢測和 E2E OCR
    • 增加了Bert-NLP 模型和 Vision Transformer 模型
    • 增加了更多 OFA 優化的模型,包括 OFA-RCAN 超高分辨率增強和 OFA-YOLO 目標檢測等
    • 增加了用於工業視覺模型和 SLAM 場景的模型
  • 新增 38 個麵向 AMD EPYC 服務器處理器的基礎及優化模型
  • 易用性增強
    • 根據應用類別改進了模型庫索引
  • 新增模型檢查器 Model Inspector,可用於檢查浮點模型,並顯示模型分區結果
  • 支持 TensorFlow 2.8 和 Pytorch 1.10 版本框架
  • 支持浮點縮放係數和按通道粒度的量化
  • 支持不同量化策略
  • OFA 增強
    • 支持偶數值的 kernel size
    • 支持 ConvTranspose2d
    • 更新的示例
  • One-step 及迭代壓縮功能增強
    • 異常發生之後可恢模型分析或搜索
  • 支持基於 ALU 的 DPU IP - DPUCZDX8G
  • 支持了新模型
  • 新增了 6 個模型軟件庫
  • 支持 17 個新模型
  • 增強了支持自定義算子(Custom OP)功能
  • 新增了 CPU 支持算子
  • Xdputil 工具增強
  • 兩套基於 VCK190 開發套件的新 Demo
  • 全麵支持自定義算子(Custom OP)和 Graph Runner
  • 穩定性優化

邊緣端 DPU - DPUCZDX8G

  • Zynq Ultrascale MPSoC DPU IP 新增了由算術邏輯單元( ALU )實現的 Pool 和 Depthwise 卷積功能,且支持:
    • 大內核尺寸 MaxPool、AveragePool、矩形內核尺寸的 AveragePool 和 16 位常數權重
    • HardSigmoid 和 HardSwish
    • DepthWiseConv 和 LeakyReLU 組合
    • 並行配置
  • 提供 ZCU102 套件(Vitis 2022.1)上基於全新 DPU IP 的參考設計 (TRD)

邊緣端 DPU - DPUCVDX8G

  • 優化的 ALU 以更好地支持 channel-attention 等功能
  • 支持 VC1902 器件上多個計算單元 Multiple Compute Units
  • 支持 DepthWiseConv 和 LeakyReLU 組合
  • 提供 VCK190 套件(Vitis 2022.1)基於全新 Versal DPU IP 的參考設計(TRD),包含 C32B1-6 和 C64B1-5 不同配置。

數據中心端 DPU - DPUCVDX8H

  • 支持更大內核尺寸的 Depthwise 卷積,從 1x1 到 8x8 不等
  • 支持基於 AI 引擎(AI Engine)的 Pooling、ElementWise 加法及乘法,以及大內核尺寸的 Pooling
  • 支持更多 Depthwise 卷積內核尺寸

數據中心端 DPU - DPUCADF8H

  • 支持 ReLU6/LeakyReLU 及 MobileNet 係列模型
  • 修複了某些情況下在 .XO流程中目錄丟失的問題
  • 支持 PyTorch 1.x 和 TensorFlow 2.x 框架內推理流程
  • 增加了 19 個 PyTorch 1.x/TensorFlow 2.x/TensorFlow 1.x 示例,包括分類、目標檢測和分割
  • 推理服務器流程中新增 gRPC API
  • 支持基於 ZenDNN 的 AMD EPYC™ 服務器處理器,及 Tensorflow/Pytorch 模型
  • 提供 VCK5000 和 ZCU104 套件的新示例 — ResNet 及 ADAS 目標檢測應用
  • 提供新的 ResNet 示例,包含基於 AI 引擎的預處理內核
  • 使用預構的 DPU 流程為 Alveo U50 卡和 ZCU102 套件生成 Xclbin — ResNet 及 ADAS 目標檢測應用
  • 使用預構的 DPU 流程為 ZCU104 和 VCK190 套件生成 Xclbin — ResNet 和 ADAS 目標檢測應用
  • 所有的 VCK190 示例已移植至 VCK190 现金网博e百 板
Vitis AI 2.0

Vitis AI 2.0 版的幾大亮點:

  • 提供 VCK190(量產芯片)、VCK5000(量產芯片)和 U55C 的 GA 版
  • 支持新版本的 Pytorch 和 Tensorflow:Pytorch 1.8-1.9、Tensorflow 2.4-2.6
  • 新增 3 個全新 NLP 模型、2 個 OFA(Once-for-all)模型和 22 個新模型 ,包括 Solo、Yolo-X、UltraFast、CLOC、PSMNet、FairMOT、SESR、DRUNet、SSR
  • 新增自定義 OP 流程,可使用 DPU 不支持的 OP 運行模型,在量化器、編譯器和運行時之間實現增強性
  • VCK190 DPU 和 VCK5000 DPU 的附加層與配置
  • 為 AI 優化器新增 OFA 修剪及 TF2 Keras 支持
  • 直接從 Tensorflow (Demo) 為雲計算 DPU 運行推斷

Vitis AI 2.0 最新信息(按類別)

展開以下部分,了解有關新特性和增強功能的更多詳情。

  • 新增 22 個模型(共計 130 個模型)
    • 19 個最新 Pytorch 模型,包括 3 個 NLP 模型和 2 個 OFA 模型
    • 3 個全新 Tensorflow 模型
  • 新增的應用模型
    • AD/ADAS:實例分割(Solo)、交通標誌檢測(Yolo-X)、車道檢測(UltraFast)、傳感器融合(CLOCs)
    • 醫療:超分辨率 (SESR)、圖像去噪 (DRUNet)、光譜去噪 (SSR)
    • 智慧城市/工業視覺:雙眼深度估計(PSMNet)、聯合檢測和 Re-ID(FairMOT)
  • EoU 增強
    • 更新了自動化腳本以查找和下載您需要的模型
  • TF2 量化器
    • 增加了對 TF 2.4-2.6 的支持
    • 增加對自定義 OP 流程的支持,包括形狀推斷、量化和轉儲
    • 增加對 CUDA 11 的支持
    • 在部署 QAT 模型時新增對 input_shape 分配的支持
    • 增強了對 TFOpLambda 層的支持
    • 更新了對硬件仿真的支持,包括 sigmoid 層、leaky_relu 層、全局及非全局平均池化層
    • 修複順序模型漏洞,量化位置調整
  • TF1 量化器
    • 增加了對新 OP 的量化支持,包括 hard-sigmoid、hard-swish、element-wise multiply
    • 增加了用硬 sigmoid 代替標準 sigmoid 的支持
    • 更新了轉儲黃金結果時,對浮點權值轉儲的支持
    • 針對 python API 和 cli API 的不一致性進行了漏洞修複
  • Pytorch 量化器
    • 增加了對 pytorch 1.8 和 1.9 的支持
    • 支持 CUDA 11
    • 支持自定義 OP 流程
    • 提升了內存使用與精確性的高速微調性能
    • 量化特征圖減少內存消耗
    • 改進了 QAT,包括更好的量化尺度初始化以及獲取量化器參數的全新 API
    • 支持更多的量化運算:一些 1D 和 3D 運算、DepthwiseConvTranspose2D、pixel-shuffle、pixel-unshuffle、const
    • 可采用 CONV+CONCAT+BN 模式進行 CONV/BN 融合
    • 一些消息增強,有助於用戶進行問題定位
    • 針對硬件一致性進行了漏洞修複
  • TensorFlow 1.15
    • 為模型訓練提供了 tf.keras.Optimizer 支持
  • TensorFlow 2.x
    • 支持 TensorFlow 2.3-2.6
    • 新增迭代修正
  • PyTorch
    • 支持 PyTorch 1.4-1.9.1
    • 在修正過程中支持共享參數
    • 新增一步修正
    • 新增一勞永逸 (OFA) 模型
    • 用於迭代及一步修正的統一 API
    • 支持量化器使用修正模型
    • 支持 nn.Conv3d 和 nn.ConvTranspose3d
  • 嵌入式平台上的 DPU
    • 支持 DPUCVDX8G(xvDPU) 的 conv3d、transposedconv3d、upsample3d 和 upsample2d 並可對其進行優化
    • 提高了 DPUCVDX8G(xvDPU) 的高分辨率輸入效率
    • 支持 ALUv2 新特性
  • Alveo/雲計算平台上的 DPU
    • 為 DPUCVDX8H(DPUv4E) 提供 depthwise-conv2d、h-sigmoid 和 h-swish 支持
    • 為 DPUCAHX8H(DPUv3E) 提供 depthwise-conv2d 支持
    • 支持高分辨率模型推斷
  • 支持自定義 OP 流程
  • 支持模型專區的所有新模型:在 Vitis AI 庫中進行端到端部署
  • 改進了 GraphRunner,能更好地支持自定義 OP 流程
  • 增加了說明如何整合自定義運算的示例
  • 增加了更多預執行 CPU 運算
  • DPU 驅動程序/運行時更新,支持 Vivado 流程的 Xilinx 器件樹生成器 (DTG)
  • 支持圖形運行器中的 CPU 任務跟蹤
  • 文本摘要更好的內存帶寬分析
  • 更好的性能,可以對大型模型進行分析
  • Zynq SoC/MPSoC 的 CNN DPU,DPUCZDX8G (DPUv2)
    • 更新至 2021.2
    • 更新了 Vivado 流程中的中斷連接
  • Alveo-HBM 的 CNN DPU,DPUCAHX8H (DPUv3E)
    • 支持深度卷積
    • 支持 U55C
  • Alveo-DDR 的 CNN DPU,DPUCADF8H (DPUv3Int8)
    • 更新的 U200/U250 xlcbins 支持 XRT 2021.2
    • 發布了 XO 流程
    • 發布了 IP 现金网博e百 指南 (PG400)
  • Versal 的 CNN DPU,DPUCVDX8G (xvDPU)
    • C32(單批 32-aie 內核)和 C64(單批 64-aie 內核)均可配置
    • 支持 C64 1~5 的可配置批量大小
    • 支持並優化了新 OP:conv3d、transposedconv3d、upsample3d、upsample2d
    • 減少 Conv bubble 和計算冗餘
    • 在 ALUv2 中支持 16 位 const 權值
  • Versal 的 CNN DPU,DPUCVDX8H (DPUv4E)
    • 使用 6 PE 配置支持深度卷積
    • 支持 h-sigmoid 和 h-swish
  • 升級至 Vitis 和 Vivado 2021.2
  • 自定義插件示例:在 VCK190 上使用 Cost Volume(基於 RTL)加速器的 PSMNet
  • U50 上支持光流 (TV-L1) 的全新加速器
  • VCK190 上的高分辨率分割應用
  • 在 FPGA 和 CPU 版本之間比較吞吐量和精度的選項
    • 吞吐量提升幅度從 25% 到 368% 不等
  • 經過重組,提高了可用性和可見性
  • 提供了使用 DPU 不支持的 OP 部署模型的新功能
    • 在量化過程中定義自定義 OP
    • 在通過圖形運行器部署前注冊並實現自定義 OP
  • 新增兩個示例
    • Pointpillars Pytorch 模型
    • MNIST Tensorflow 2 模型
  • 為 U50 和 U55C 新增 DPU 支持
  • 直接從 Tensorflow 框架為雲計算 DPU 運行推斷
    • 自動執行子圖分區並為 DPU 子圖應用優化/加速功能
    • 將非 DPU 子圖分派到運行在 CPU 上的 TensorFlow
  • VCK5000 上的 Resnet50 和 Yolov3 演示
  • 支持在雲端/本地提供服務的 xmodel (EA)
  • 當 TRAIN 和 TEST 相指向相同的 LMDB 文件時,vai_q_caffe 掛起
  • TVM 編譯的 Inception_v3 模型使用 DPUCADF8H (DPUv3Int8) 提供的精度較低
  • 在由錯誤模式匹配導致的 QAT 中,會出現 TensorFlow 1.15 量化器錯誤
Vitis AI 1.4

Vitis AI 1.4 版的幾大亮點:

  • 支持新平台,包括 Kria KV260 SoM 套件和 Versal ACAP 平台 VCK190、VCK5000;
  • 支持從版本 1.5 到版本 1.7.1 的擴展型 Pytorch 框架;
  • 新增業界一流的模型,包括 4D 雷達檢測、圖像-激光雷達傳感器融合、3D 檢測與分割、多任務、深度估算、超高分辨率與更多模型,適用於汽車、智能醫療和工業視覺應用;
  • 使用全新 Graph Runner API 實現更輕鬆的子圖分區用戶體驗;
  • 性能提升;

Vitis AI 1.4 的新類別

展開以下部分,進一步了解 Vitis AI 1.4 的新特性和增強功能。

  1. 新增 16 個模型,總共提供不同深度學習框架(Caffe、TensorFlow、TensorFlow 2、PyTorch)的 108 個模型。
  2. 與 Vitis AI 1.3 相比,增加了模型的多樣性:
    1. 對於自動駕駛和 ADAS 而言,增加了 4D 雷達檢測、圖像-激光雷達傳感器融合、環繞視圖 3D 檢測、升級的 3D 分割與多任務模型
    2. 對於醫學和工業視覺而言,增加了深度估算、RGB-D 分割以及超高分辨率等參考模型
  3. 易用性增強:提供自動下載腳本,可根據型號名稱和硬件平台自由選擇版本
  1. 在訓練後量化 (PTQ) 過程中支持快速微調;
  2. 改進的量化感知訓練 (QAT) 函數:
  3. 支持更多層:swish/sigmoid、hard-swish、hard-sigmoid、LeakyRelu 以及嵌套 tf.keras 功能及序列模型;
  4. 支持更多層:
    1. swish/sigmoid、 hard-swish、hard-sigmoid、LeakyRelu
    2. 嵌套 tf.keras 功能及序列模型
  5. 支持新型號:EfficientNet、EfficientNetLite、Mobilenetv3、Yolov3 和 Tiny Yolov3
  6. 不僅通過 subclassing tf.keras.layers 支持自定義層,而且還支持自定義量化策略;
  7. 不僅支持自定義層, 而且還支持自定義量化策略
  8. 提高了易用性,修複了漏洞

  1. 支持 Pytorch 1.5-1.7.1
  2. 支持激活
    1. hard-swish、hard-sigmoid
  3. 支持更多操作符:
    1. Const、Upsample 等
  4. 量化過程中支持共享參數
  5. 更強的量化分析及錯誤檢查功能
  6. 提高了 QAT 功能:
    1. 根據 PTQ 結果提供支持訓練
    2. 支持重複使用的模塊
    3. 支持恢複訓練
  1. 在 TF1 中支持 tf.keras API
  2. 可為模型分析提供單個 GPU 模式支持
  1. 通過簡化的 API 提高了易用性;
  2. 支持 torch.nn.ConvTranspose2d;
  3. 支持重複使用的模塊;
  1. 為 DPUCVDX8G 提供 ALU 支持 (xvDPU)
  2. 支持跨層預提取優化選項
  3. 支持 xmodel 輸出節點分配
  4. 啟用特性實現零拷貝:
    1. DPUCZDX8G (DPUv2)
    2. DPUCAHX8H (DPUv3E)
    3. DPUCAHX8L (DPUv3ME)
  5. 開源網絡可視化工具Netron正式支持 Xilinx XIR
  1. 在 AI 模型專區支持 16 個新模型:
    1. 11 個全新 Pytorch 模型
    2. 5 個全新 Tensorflow 模型,1 個來自 Tensorflow 2.x
    3. 1 個新的 Caffe 模型
  2. 引入了新部署 API graph_runner,特別是對於具有多個子圖的模型
  3. 為 DPU 和 xmodel 調試引入了新工具 xdputil
  4. 支持全新 KV260 SoM 套件
  5. 支持 VCK190 上的 DPUCVDX8G (xvDPU)
  6. 支持 VCK5000 上的 DPUCVDX8H (DPUv4E)
  1. 支持 Versal 平台 VCK190 和 VCK5000
  2. 支持 Petalinux 2021.1、OpenCV v4
    1. 更新樣本,使用 INT8 作為輸入來改進 EoU,減少從 FP32 到 INT8 的轉換;
  1. 支持全新 DPU IP:
    1. DPUCVDX8G (xvDPU)
    2. DPUCAHX8L (DPUv3ME)
    3. DPUCVDX8H (DPUv4E)
  2. 在 vivado 流程中支持 DPUv2 和 xvDPU
  3. 內存 IO 統計
  4. 提高了易用性
  1. DPUv2 IP 升級至 2021.1
  1. VCK190 xvDPU TRD
  2. 支持批量大小 1~6,基於 C32 模式可配置
  3. PL 支持全新 OP:
    1. 高達 256x256 的全局平均池、元素乘法、Hardsigmoid 和 Hardswish
  4. 部署更多模型
  1. 在 Vitis AI 1.4 中發布 xo
  1. 支持最新 U250 平台 (2020.2)
  2. 支持最新 U200 平台 (2021.1)
  3. 漏洞修複
  1. 通過權值預提取功能,提高了小型網絡處理的 DPU 性能
  1. 在 ZCU102 上提供了多目標跟蹤 (SORT) 示例
  2. 為 Versal (VCK190) 提供了分類應用示例
  3. 將現有示例更新為 XRT API 和零拷貝
  4. 提供了 U200 (DPUv3INT8) TRD
  5. 端口 U200/250 示例使用 DPUv3INT8 而不是 DPUv1
  6. xRNN 預處理加速示例(嵌入層)
  7. SSD MobileNet U280 示例現在可在硬件上加速預處理及後處理
  1. 支持所有 DPU — ZCU102/4、U50、U200、U250、U280
  2. 為邊緣設備使用 Petalinux
  3. 在應用層使用 AKS 提高了吞吐量
  4. 按 python 筆記本提供 Yolov3 教程
  1. 將 DPU 內核統一成一個內核,並為 Alveo U200/250 (DPUv3INT8)、U280、U50、U50lv 增加采樣