项目背景
对AI相关技术的创新和探索,是清华大学交叉信息研究院重点关注方向之,由于数据量的快速增长,算法模型的参数量呈现指数级增加,这无疑对于算力的需求更大。对此,交叉信息院的师生们就深有感触,在与AI相关的教学和科研中,算力是他们的“刚需”。
项目挑战
1.无论是在教学还是科研中,由于GPU被某个应用“独占”,即使该应用负载很低,GPU也无法将闲置资源共享,导致了GPU资源存在大量浪费。
2.AI科研需要使用大量GPU卡进行调优和支撑,但是由于人卡绑定的使用方式,导致资源调配困难,无法满足AI科研项目队算力的需求。
3.仍有不少应用面临算力紧缺,因此不得不通过采购新GPU来缓解,算力的持续采购需求导致IT 成本快速上升。
4.多种型号GPU卡并存,会带来兼容性问题,同时也会使运维管理和AI应用的开发部署变得复杂。
趋动解决方案
为解决上述问题,满足教学和科研对AI算力资源的需求,交叉信息院最终选择了趋动科技作为合作伙伴,为他们提供解决方案。趋动科技 (VirtAITech) 发布的OrionX(猎户座)AI算力池化解决方案能够对物理GPU资源进行细粒度切分,在教学中以有限的资源提供给更多师生进行实训使用;其资源的动态调整功能,能够实现资源按需分配,灵活满足各科研组对AI模型训练的计算需求,充分释放科研组的生产力;其统一管理平台能有效简化部署管理工作,让师生将更多精力投入到自己的工作中。
客户成功
交叉信息院选择与趋动科技合作,部署了OrionX AI算力池化解决方案将院内几百张GPU卡形成统一的软件定义资源池,实现资源的按需分配、动态调度,提高算力资源利用率消除资源浪费,实现算力随需调用助力科研提速,保护现有投资降低硬件投入成本,高效满足日常教学和科研工作对于AI算力的需求,缓解了GPU资源需求压力。
用户反馈
猎户座通过对GPU进行池化管理,消除了原本分配的壁垒,让学校师生可以灵活调用更多的GPU,有利于科研工作的开展。
——尹伟丨清华大学交叉信息学院