业务挑战:
学生和老师无法通过一套管理平台实现HPC和AI场景的统一使用和管理,导致在使用时总是需要在多套平台间来回切换账号。
缺乏一套能够为学生、老师提供数据、算法、算力统一管理的AI开发平台,导致学生、老师的开发环境难于管理和维护。
GPU资源利用不充分,无法根据不同的AI业务需求进行资源灵活切分和资源共享,学校不断投入资金采购新的GPU,大量的GPU资源严重浪费。
方案简介:
趋动科技Gemini+OrionX 和联科CHESS集群管理平台进行整合,为学校与科研机构提供集HPC+AI的一体化管理平台。趋动科技双子座(GEMINI)AI训练平台,提供强大的AI资源管理服务以及高效的AI算法开发和训练支持,能够化繁为简,帮助科研单位建好AI平台、管好AI资源、用好AI服务;底层结合趋动科技猎户座(OrionX)软件定义GPU技术,可细粒度切分GPU,远程调用GPU,跨服务器聚合GPU,从而允许AI科研任务根据资源使用情况(利用率、使用周期、使用位置等)进行动态调整,能最大化地利用GPU资源,充分激活科研算力;联科集团CHESS集群管理平台提供GPU池化资源的统一管理、监控和调度,并提供架构设计、集群部署、应用集成、性能调优、实施运维等服务。趋动科技和联科集团共同为用户搭建一套完善、高效的HPC+AI集群系统。
方案价值:
一体化管理平台,实现HPC和AI的统一管理和使用。
提供敏捷的智能应用开发,加速科研智能化升级。
满足科研、教学多种场景,一站式AI教学体系建设。
更加灵活、多变的GPU资源调度技术,让GPU池具备弹性伸缩能力。
基于GPU资源池化技术,GPU充分复用,满足数倍人员同时在线AI开发和训练。
解决方案架构图
联