partner_logo

企业级GPU 资源池化云平台解决方案​

  • 业务挑战:

伴随着金融科技的不断创新,人工智能、大数据等新兴技术已成为金融行业的重要驱动力,正在引发新一轮产能革命,场景营销配套“智能化”服务,金融科技推动数字化转型。但由于缺乏高效经济的 AI 算力资源池化解决方案,导致绝大部分金融机构只能独占式地使用昂贵的 AI 算力资源,带来居高不下的 AI 算力使用成本;由于缺少对异构算力硬件支持,用户不得不修改 AI 应用以适应不同厂商的 AI 算力硬件。这会加剧 AI应用开发部署复杂性、提高 AI 算力投入成本并导致供应商锁定。 

  • 方案简介:

随着云原生成为云计算的新内核,在以容器为应用运行载体的 Kubernetes 平台上运行 AI 训练和推理任务,成为 AI 应用在企业落地的热点和首选。趋动科技&DaoCloud 提供的基于GPU资源池化的云平台联合方案,基于云原生架构全面整合虚拟化、网络、存储、安全等能力,实现 GPU 资源池化、动态伸缩和灵活调度,实现了在容器云平台上进行 GPU 资源细粒度管理和监控的目的。借助云原生天然的分布式、弹性扩展和轻量虚拟化能力,此方案能够提供超强的算力,屏蔽硬件基础设施管理的复杂性,有效缓解计算压力,大幅提升 AI 应用的业务效率并避免供应商锁定,因此可被广泛应用于深度学习训练、科学计算、图形图像处理等场景。

  • 方案价值:

  1. 业务并发量规格化提升:采用 GPU 资源池方式调度资源,以“化整为零”的方式细粒度分配GPU,用户定义算力+显存的双维度,极尽贴合业务需要。

  2. 异构支持:支持多种芯片异构池化,统一调度。

  3. 可视化编排:在容器云平台用户界面即可管理 CPU 和 GPU 资源。

  4. 降本增效GPU 利用率提升3-5倍;GPU算力资源按需调度、动态调整,支持AI 应用运行时才分配GPU资源,相同的GPU资源能支持更多的算法工程师进行开发。

  5. 多场景:支持推理、开发、训练等多种 AI 应用场景。

  6. 易用性:开发环境无需人工协调资源分配,提升算法工程师使用体验,降低管理成本。

  7. 多云管理: 一键式创建/接入容器集群,实现大规模集群跨云/跨集群的统一管理;图形化创建流水线,满足多场景需求;一站式应用分发,兼容多形态应用;全面打造一站式生产就绪云原生管理平台。

  8. 完善的用户权限体系: 整合 Kubernetes RBAC 权限体系,支持为不同用户设置细粒度权限,实现资源隔离,保证业务数据安全性。

  • 解决方案架构图: