让客户实现AI算力自由——趋动科技与博云完成算力调度容器化验证
引言
近日,趋动科技联合国内容器云市场优秀厂商博云完成了兼容性测试。测试结果表明双方产品完全兼容,各项功能运行正常,性能表现优异,可在大数据、云计算、人工智能等应用场景中为客户提供可靠、稳定、高效运行的AI 算力。
近年来,国家对算力的重视程度不断提升。在算力基础设施方面,先后发布《全国数据中心应用发展指引》、《关于加快构建全国一体化大数据中心协同创新体系的指导意见》等;在算力服务方面,发布了《推动企业上云实施指南》、《云计算发展三年行动计划》等。虽然国家对算力的不断重视使得算力发展进入快车道,但是在社会应用层面依然存在各式各样的问题亟待技术界、产业界一一解决。例如,在支持AI技术的应用方面,GPU是其中一个关键要素。GPU擅长更高效地处理大量并行的数据和任务,经常与CPU搭配使用,以发挥各自的长处。然而近些年,全球众多企业用户却陷入了买不到或买不起的“芯片危机”,以及算力需求不断增长的矛盾之中。因此企业在面对业务对算力不断高速增长的需求和有限的资源之间的矛盾时,如何高效地发挥IT设施的算力能力、如何高效地调度算力资源、提高使用效率成为了CIO必须解决的问题。
得益于近些年同样发展得如火如荼的云原生技术、尤其是作为云原生技术底座的容器云技术的高速发展和产业化落地,业界发现,将GPU等算力资源容器化、资源池化,可以使算力的管理能力拓展到整个数据中心。这个解决方案将AI应用和GPU服务器硬件解耦,实现虚拟GPU 资源的动态伸缩和灵活调度,给对AI、大数据、高性能等计算服务有显著需求的企业解了燃眉之急。
博云作为国内容器云市场占有率排名前五的唯一创业型厂商,在容器云领域拥有多年的深耕和积累。博云容器云产品在AI应用支撑、高性能计算方面也做了专门布局。例如在为国内某高精尖领域顶级研究机构建设的容器云平台中,其AI应用支撑模块仅仅在上线初期就实现了资源利用率提升30%以上、作业调度能力提升60倍的效能提升,随着建设的不断深入,效能还在不断提升。
双方通过对组件兼容、测试模型和数据集、单机单卡、资源切分、资源聚合、资源排队、资源超分、远程调用、资源动态、算力控制等十个功能测试,验证了 “OrionX AI算力资源池化软件”在博云容器云平台“Beyond Container”上的运行情况。
01 资源按需分配
验证 OrionX 可根据用户实际应用需求按百分比分配 AI 加速卡算力,按 MB 为单位分配 AI 加速卡显存。
02 资源调度
验证 OrionX client 容器可在没有配置 AI 加速卡的服务器上运行,并通过 OrionX 使用远端服务器上的 AI 加速卡资源。
03 资源切分
验证多个 OrionX client 容器可对同一 AI 加速卡服务器上的 AI 加速卡资源进行切分,同时进行训练或推理任务。
04 资源聚合
验证 OrionX 在用户进行单机多卡模型训练时,可将本地和远端的 AI 加速卡资源进行自动汇聚以满足训练任务对 AI 加速卡资源的需求。
05 资源动态分配
验证 OrionX 支持资源共享功能,当启动 OrionX Client Runtime对应的 Pod 时,OrionX Controller 不会马上将申请的 OrionX vGPU 资源分配给该 Pod,在 Pod 运行期间,只有 AI 应用在调用 OrionX vGPU 的时候,该部分 OrionX vGPU 资源才会被该 Pod 占用,AI 任务结束停止时,OrionX vGPU 资源即被释放。
测试结果表明双方产品完全兼容,各项功能运行正常,性能表现优异。通过 OrionX 按需调用、远程调用、资源聚合等能力的赋能,博云容器云平台拥有了对 AI算力资源进行细粒度管理和监控的能力,可在大数据、云计算、人工智能等应用场景中为客户提供可靠、稳定、高效运行的AI 算力。
技术融合驱动产业革新
“数字化、网络化、智能化“已成为AI行业应用的基本特征,并在一步步促进行业应用向多样化与多元化方向发展。在智能化时代,“强大的算力”将成为驱动技术创新与行业高质量发展的重要引擎。云原生是解决国家经济建设、社会发展、科技创新、国家安全重大挑战性问题的重要手段。
以降低企业投入成本,提高计算资源使用效率为目标的高性能云计算,将成为数字变革的赋能底座,满足千行百业数字化转型对算力的差异化、定制化需求。相信博云与趋动科技在基于容器实现GPU资源池化管理方面的结合,将为企业级客户的数字业务发展提供强大的助力!