项目背景
西北工业大学计算机学院的师生进行人工智能学习和实训的过程中,存在GPU资源较少,学生多,无法同时满足所有学生的实训要求。且GPU的资源管理和分配需要消耗老师大量的时间。
项目挑战
1.学生的数量比GPU的数量多很多,无法满足上课学生同时使用。
2.学生做实训时会经常报错或者中断,对切分后的vGPU有强隔离性要求。
3.要能减少运维老师的工作量,简化资源分配和回收过程。
趋动解决方案
1. 趋动科技的OrionX AI算力池化方案可以实现对GPU的切分、聚合、远程调用、动态加载和释放的能力,可以满足学生实训的切分需求,也可通过聚合满足老师科研场景的高算力需求。
2.在学院现有的容器平台上部署OrionX的相关组件,师生的AI程序无需做出修改即可运行在OrionX的vGPU环境上。
3.通过OrionX将GPU进行切分,让有限的GPU可以满足更多的学生使用。
4.结合OrionX的动态加载与释放能力,轻松实现资源的分配与回收过程。
客户成功
客户部署了趋动科技OrionX产品,解决了GPU少,学生需求多的矛盾;利用OrionX的管理运维能力,解决了人工协调GPU且需要人工分配与回收的问题,大大减轻了运维的工作量,提升了学生申请GPU的效率。
用户反馈
研究生团队原来在实验室服务器虚拟化环境中使用LAMMPS,VASP等应用软件需要GPU卡直通方式进行加速,因为GPU有限,只允许几个学生同时做实验,其他同学需要耗费比较长的等待资源时间,非常影响科研进度,上线了OrionX软件之后,同样的GPU,可以允许数十位同学同时使用实验环境,加快了科研进度,大大减轻了教学科研资源短缺方面的压力。
——张博丨计算机学院究生导师