近日,NVIDIA宣布其虚拟GPU(vGPU)技术现可支持AI、深度学习和数据科学服务器虚拟化。NVIDIA虚拟GPU曾变革了虚拟客户端计算。如今,AI工作负载可以轻松地部署在虚拟化环境中,比如基于全新vComputeServer软件和NVIDIA NGC的VMware vSphere。而在此之前,这在CPU中才可以实现。通过与VMware的合作,该架构将帮助企业在客户数据中心和VMware Cloud on AWS之间无缝迁移GPU上的AI工作负载。
vComputeServer让数据中心管理员可以在虚拟环境中在GPU服务器上运行AI工作负载,进一步提升了计算的安全性、利用率和可管理性。IT管理员可以使用VMware vSphere(包括vCenter和vMotion)等hypervisor虚拟化工具来管理所有数据中心应用,包括运行于NVIDIA GPU之上的AI应用。
尽管许多公司都在数据中心中部署了GPU,但是其AI训练和推理等GPU加速工作负载通常却仍在裸机上运行。这些GPU服务器通常是独立的,需要进行单独管理,这使得其利用率和灵活性受到了限制。
借助vComputeServer,IT管理员能够让GPU加速虚拟化服务器的管理变得更为简单,同时还能保留现有的工作负载,并降低总体运营成本。与仅使用CPU的服务器相比,基于4颗NVIDIA V100 GPU的vComputeServer将深度学习的速度提高了50倍,性能接近于裸机水平。
此次的宣布不仅支持VMware vSphere,同时也支持基于KVM的hypervisor(包括红帽和Nutanix),这让管理员可以在管理GPU集群和数据中心剩余部分时,能够使用相同的工具。
虚拟GPU可提升任意工作负载的性能
由于借助NVIDIA vComputeServer拓展了vGPU产品组合,NVIDIA开始为数据分析、机器学习、AI、深度学习、HPC以及其他服务器工作负载提供支持。vGPU产品组合还包括以下虚拟桌面产品:面向知识工作者的NVIDIA GRID虚拟PC和GRID虚拟应用程序,以及面向专业图形的Quadro虚拟数据中心工作站。
NVIDIA vComputeServer提供了GPU共享和GPU聚合等功能,前者可以让单颗GPU支持多台虚拟机的运行,后者则可以让多颗GPU同时支持一台虚拟机。这也使得利用率和可用性能够得以最大化。
vComputeServer的特性有:
· GPU性能:深度学习训练速度比仅使用CPU快50倍,与GPU裸机运行性能相近.
· 高级计算:纠错代码和动态页面收回可防止高精度工作负载中的数据损坏。
· 实时迁移:支持GPU的虚拟机可以在短时间中断或停机时间的情况下迁移。
· 安全性增强:企业可以将服务器虚拟化的安全性优势扩展到GPU集群。
· 多租户隔离:通过隔离工作负载,在一个基础设施上就可以安全地支持多个用户。
· 管理和监控:借助主机、VM和应用级别的可视化,管理员可以使用同样的管理程序可视化工具来管理GPU服务器。
· 支持更多的GPU:用户现可基于NVIDIA T4、V100 GPU、Quadro RTX 8000和6000 GPU,以及基于Pascal架构的P40、P100和P60 GPU使用vComputeServer。
NVIDIA NGC现可支持 VMware vSphere
NVIDIA NGC是一个可以优化深度学习和科学计算的GPU加速云平台,提供了超过150个容器、预训练模型、训练脚本和工作流程,从概念到制作为AI提供全程加速,其中包括CUDA加速的数据科学软件RAPIDS。
RAPIDS提供了一系列开源库,可加速整个数据科学工作流程,其中包括数据加载、ETL、模型训练和推理,以便数据科学家能够更快地完成工作,并显著扩展了他们所能够创建的模型类型。
所有NGC软件都可以部署在虚拟化环境中,例如基于vComputeServer的VMware vSphere。
IT管理员可以使用VMware vSphere这一类hypervisor可视化工具来管理VM中的NGC容器,其中VM运行于NVIDIA GPU之上。
此外,借助经验证的NGC Ready服务器,NVIDIA还能帮助IT在生产过程中更快地使用GPU服务器;企业级支持还能让用户和管理员可以直接同NVIDIA的专家接触,就NGC软件、降低风险和提升生产力等问题进行沟通。
责任编辑: