NVIDIA 首次将GPU虚拟化引入AI、深度学习和数据科学领域

近日，NVIDIA宣布其虚拟GPU（vGPU）技术现可支持AI、深度学习和数据科学服务器虚拟化。NVIDIA虚拟GPU曾变革了虚拟客户端计算。如今，AI工作负载可以轻松地部署在虚拟化环境中，比如基于全新vComputeServer软件和NVIDIA NGC的VMware vSphere。而在此之前，这在CPU中才可以实现。通过与VMware的合作，该架构将帮助企业在客户数据中心和VMware Cloud on AWS之间无缝迁移GPU上的AI工作负载。

vComputeServer让数据中心管理员可以在虚拟环境中在GPU服务器上运行AI工作负载，进一步提升了计算的安全性、利用率和可管理性。IT管理员可以使用VMware vSphere（包括vCenter和vMotion）等hypervisor虚拟化工具来管理所有数据中心应用，包括运行于NVIDIA GPU之上的AI应用。

尽管许多公司都在数据中心中部署了GPU，但是其AI训练和推理等GPU加速工作负载通常却仍在裸机上运行。这些GPU服务器通常是独立的，需要进行单独管理，这使得其利用率和灵活性受到了限制。

借助vComputeServer，IT管理员能够让GPU加速虚拟化服务器的管理变得更为简单，同时还能保留现有的工作负载，并降低总体运营成本。与仅使用CPU的服务器相比，基于4颗NVIDIA V100 GPU的vComputeServer将深度学习的速度提高了50倍，性能接近于裸机水平。

此次的宣布不仅支持VMware vSphere，同时也支持基于KVM的hypervisor（包括红帽和Nutanix），这让管理员可以在管理GPU集群和数据中心剩余部分时，能够使用相同的工具。

虚拟GPU可提升任意工作负载的性能

由于借助NVIDIA vComputeServer拓展了vGPU产品组合，NVIDIA开始为数据分析、机器学习、AI、深度学习、HPC以及其他服务器工作负载提供支持。vGPU产品组合还包括以下虚拟桌面产品：面向知识工作者的NVIDIA GRID虚拟PC和GRID虚拟应用程序，以及面向专业图形的Quadro虚拟数据中心工作站。

NVIDIA vComputeServer提供了GPU共享和GPU聚合等功能，前者可以让单颗GPU支持多台虚拟机的运行，后者则可以让多颗GPU同时支持一台虚拟机。这也使得利用率和可用性能够得以最大化。

vComputeServer的特性有：

· GPU性能：深度学习训练速度比仅使用CPU快50倍，与GPU裸机运行性能相近.

· 高级计算：纠错代码和动态页面收回可防止高精度工作负载中的数据损坏。

· 实时迁移：支持GPU的虚拟机可以在短时间中断或停机时间的情况下迁移。

· 安全性增强：企业可以将服务器虚拟化的安全性优势扩展到GPU集群。

· 多租户隔离：通过隔离工作负载，在一个基础设施上就可以安全地支持多个用户。

· 管理和监控：借助主机、VM和应用级别的可视化，管理员可以使用同样的管理程序可视化工具来管理GPU服务器。

· 支持更多的GPU：用户现可基于NVIDIA T4、V100 GPU、Quadro RTX 8000和6000 GPU，以及基于Pascal架构的P40、P100和P60 GPU使用vComputeServer。

NVIDIA NGC现可支持 VMware vSphere

NVIDIA NGC是一个可以优化深度学习和科学计算的GPU加速云平台，提供了超过150个容器、预训练模型、训练脚本和工作流程，从概念到制作为AI提供全程加速，其中包括CUDA加速的数据科学软件RAPIDS。

RAPIDS提供了一系列开源库，可加速整个数据科学工作流程，其中包括数据加载、ETL、模型训练和推理，以便数据科学家能够更快地完成工作，并显著扩展了他们所能够创建的模型类型。