GPU over IP/IB:趋动OrionX产品的创新之路
在数字化转型的浪潮中,GPU over IP/IB技术正成为数据中心和云计算领域的一股新兴力量。这种技术通过将物理GPU资源虚拟化,实现了跨网络的高效利用,为AI、机器学习、科学计算等高性能计算任务提供了前所未有的灵活性和扩展性。本文将深入探讨这一技术的原理、优势以及趋动科技OrionX产品如何通过实现GPU over IP/IB技术,为企业的智算算力使用带来革命性的变革。
Part1
GPU over IP/IB技术
GPU over IP/IB技术是现代数据中心(智算中心)和云计算环境中的关键创新,它们允许GPU资源通过网络进行远程访问和高效利用。这种技术的核心在于,它能够将物理GPU的计算资源抽象为虚拟化的GPU(vGPU),使得这些资源可以在网络中的任何位置被调用,就像访问本地资源一样。这种能力极大地扩展了GPU的应用范围,使得原本局限于单个机器的GPU资源得以在更广阔的网络环境中共享和利用。
GPU over IP技术通过TCP/IP网络实现,而GPU over IB则依赖于InfiniBand网络,后者提供了更低的延迟和更高的带宽,适合于大规模并行计算,智算中心和数据中心环境。
Part2
GPU资源网络化的必要性
在当今这个数据驱动的时代,GPU作为并行处理的强有力工具,在AI、机器学习、科学计算等领域扮演着至关重要的角色。然而,随着计算需求的激增,传统的GPU部署模式面临着一系列挑战:
· 资源利用率低:在传统的部署模式下,每个GPU通常被绑定到特定的机器上,这导致在某些情况下,GPU可能处于空闲状态,而其他机器的GPU则可能过载。
· 成本高昂:为了满足不断增长的计算需求,企业不得不投入巨资购买更多的GPU硬件,这不仅增加了初期投资,还带来了维护和管理的复杂性。
· 灵活性不足:物理GPU的部署位置限制了AI应用的部署灵活性,使得资源的动态调整变得困难。
为了克服这些挑战,GPU over IP/IB技术应运而生。它通过将GPU资源虚拟化并通过网络进行管理,实现了资源的动态分配和优化利用。这样,企业可以根据实际需求,灵活地调整GPU资源,确保资源始终得到高效利用,同时降低了成本和运维复杂度。
此外,这种技术还支持跨地域的资源统一管理调度,使得企业能够构建更加灵活和可扩展的计算环境,以适应不断变化的业务需求。
Part3
GPU资源网络化的必要性OrionX-GPU over IP/IB技术实践者
趋动科技的OrionX(猎户座)AI算力资源池化解决方案是GPU over IP/IB技术的实践者和领导者。OrionX通过软件定义算力,颠覆了原有的AI应用直接调用物理GPU的架构,增加了软件层,将AI应用与物理GPU解耦合。AI应用调用逻辑的vGPU,再由OrionX将vGPU需求匹配到具体的物理GPU。这一架构实现了GPU资源池化,让用户高效、智能、灵活地使用GPU资源,达到了降本增效的目的。
Figure 1:趋动产品OrionX逻辑架构图
OrionX的产品功能和特性包括:
· 资源池化:OrionX帮助客户构建数据中心级AI算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI算力。
· 动态资源分配:OrionX支持将GPU切片为任意大小的vGPU,允许多AI负载并行运行,提高物理GPU利用率。
· 高性能:OrionX本地vGPU性能损耗几乎为零,远程vGPU性能损耗小于2%,确保了计算任务的高效执行。
· 弹性扩展:支持从单台到整个数据中心GPU服务器纳管,通过RDMA(IB/RoCE)或TCP/IP网络连接各个节点,实现资源池弹性扩展。
· 灵活调度:支持AI负载与GPU资源分离部署,CPU与GPU资源解耦合,有助于最大化数据中心基础设施价值。
· 全局管理:提供GPU资源管理调度策略,GPU全局资源池性能监控,为运维人员提供直观的资源利用率等信息。
· 对AI开发者友好:一键解决AI开发者面临的训练模型中GPU/CPU配比和多机多卡模型拆分问题,节省大量宝贵时间。
Part4
OrionX与其它GPU虚拟化技术对比
在整个技术领域,全球范围内真正提供GPU over IP/IB的厂商屈指可数。
之前有Bitfusion,2019年被VMware收购,2023年5月5日后已经不对外销售。再之前,有一个学校的研究项目是rCUDA,这是一个闭源的软件,提供的是二进制文件,可以申请下载试用,但不得用于商业用途,其支持的CUDA版本基本都是8.0,已经有很多年没有人维护了。趋动科技在这个领域深耕,从2019年成立以来,专注在软件定义AI算力领域,真正让基于GPU over IP/IB技术的产品在企业、智算中心部署和发挥巨大价值。
传统的GPU虚拟化技术,例如大家熟知的Nvidia的GRID(vGPU)软件,是2013年发布的主要面向Hypervisor用以支持虚拟机更好的使用GPU,在那个年代,人工智能尚未爆发,更多的使用场景是VDI,即大家熟悉的Citrix和VMware的虚拟桌面方案,用以在制造和设计领域,更好的利用GPU资源。这种方案是基于静态固定等比切分的理念给予虚拟机更小颗粒度的GPU以实现资源共享。
之后随着容器逐渐渗入企业,一些基于容器的GPU共享技术开始出现,例如开源的GPU Manager/cGPU等,这类方案也是遵循类似的思路,针对单张GPU卡,按照业务的需求,采用细颗粒度算力和显存的静态分配。在常见的K8S Yaml文件里你可以看到不同厂家的资源设置参数如下:
xxx.xxx.xxx/vcuda-core: n #申请的vGPU的数量,指的是一个容器内可以用几个vGPU
xxx.xxx.xxx/vcuda-memory: n #申请的vGPU所使用的显存大小
xxx.xxx.xxx/vcuda-ratio: n #申请的vGPU所使用的算力占整卡的百分比
此类方案只能采用静态分配,其vGPU的数量受到Pod所在节点的GPU数量的限制,无法跨越单机的范畴,无法在一个GPU的资源池里通过网络来获取GPU资源池的资源。该类方案实现了容器的GPU资源共享,但是相当于把多个鸡蛋放在一个篮子里,如果没有高可用的方案对于业务的高可用会带来较大的风险。在虚拟机领域,VMware早些年已经支持了带vGPU的VM的热迁移的能力,配合其HA/DRS给企业的业务带来更大的业务保障。
所以,本质上来讲,趋动的OrionX和此类VM或容器GPU共享方案不仅技术路线不一样,实现的功能不一样,而且,看到的愿景也完全不一样——一个看到的是网络联通的整个GPU资源池,一个仅仅是单服务器节点内的卡。
一个典型的GPU over IP/IB的部署架构如下:
Figure2: CPU和GPU服务器混合部署
新型智算中心推荐的就是这种支持多芯异构、解耦部署的架构,GPU和CPU/内存灵活配比,随需调用。
趋动科技深度参与的《中国移动NICC新型智算中心技术体系白皮书》里也有智算资源池化平台相关的阐述,请在第6章节进行查看。基于GPU池化的业务逻辑架构图如下:
Figure 3:AI业务与AI算力池化
Part5
OrionX在企业中的应用与收益
在OrionX数百个企业中的应用案例表明,该技术能够有效提升GPU资源的利用率,降低硬件成本。企业通过OrionX构建的AI算力资源池,可以根据业务需求灵活调整资源分配,实现了资源的弹性扩展。此外,OrionX还支持与容器云平台的集成,进一步简化了AI应用的部署和管理,降低了运维复杂度。了解详细的客户案例,请浏览趋动科技官网和关注官方公众号。
OrionX基于GPU over IP/IB的技术创新,不仅提高了GPU资源的利用率,还通过简化部署和管理流程,为企业的AI创新提供了强有力的支持。随着AI技术的不断进步,OrionX有望在更多行业中发挥其独特的价值,促进企业降本增效、节能减排,加速AI发展和业务创新,推动企业数字化转型和智能化升级。