项目背景
格灵深瞳是一家行业领先的人工智能科技公司,随着人工智能行业市场的火爆,格林深瞳人工智能算法研发团队和人工智能算力资源也在快速增长,如何帮助研发人员更加充分使用、管理算力资源,是格林深瞳亟需解决的问题。
项目挑战
1.研发人员“独占式”使用裸机/裸卡资源,造成大量算力资源浪费。
2.研发人员多,研发项目多,所有GPU卡以整卡的方式分配,算法开发和模型训练所需资源难以快速分配,并且占用后回收困难。
3.租用的公有云裸金属GPU服务器,没有有效的统一管理手段。
趋动解决方案
针对以上的需求,趋动基于格灵深瞳研发部门服务器集群部署了双子座(Gemini)AI开发训练平台,为其搭建了一套基于云原生的人工智能服务平台,帮助格林深瞳实现了硬件集群平台化管理,开发团队的平台化管理以及算力资源的按需分配和快速回收。
客户成功
1、在平台侧,为研发团队提供开箱即用的开发训练环境,通过平台的调度能力能实现计算任务的高效调度及任务结束后资源的快速释放,整体提升了算法研发团队的开发效率。
2、在底层通过趋动OrionX软件定义GPU算力池建设,实现集群GPU算力池的搭建,为开发人员弹性供给GPU算力,大幅提升GPU使用效率,降低了算力资源投入的成本。
3、通过趋动双子座Gemini+OrionX,格灵深瞳也完成了算力池化建设,CPU、GPU、内存等算力资源统一管理统一运维,所有集群资源共享、共用,提升了集群管理能力。
用户反馈
Gemini AI平台在我们部门上线一年,平台上线前,平台下集群的资源只能满足2个项目组十几位工程师的资源使用,Gemini平台正式上线后,还是原来的集群资源,支撑了11个项目组,近70+位工程师的算法模型开发、训练资源诉求,通过集群下有限的算力资源,不到一年时间支撑了6000+开发训练任务,大幅度提升了算力资源的使用效率,同时也提升了团队人员的工作效率,帮助我们简化了硬件环境运维的复杂度。
——冯子勇丨格灵深瞳算法部负责人