资讯详情

Information for details

高校AI领域再次突破,趋动科技AI加速器资源池落地西北工业大学

近日,业界领先的AI加速器资源池化软件公司趋动科技VirtAITech.com与西北工业大学计算机学院(以下简称“西工大计算机院”)共同宣布,西工大计算机院成功部署趋动科技OrionX猎户座AI加速器资源池化软件,实现高效弹性利用AI算力,助力西工大在AI科研领域不断突破。“趋动科技的OrionX猎户座AI加速器资源池化解决方案帮助西工大计算机院构建高校数据中心级AI加速器资源池,实现快速分配/回收,灵活按需调度,动态调整GPU资源。 

时间走过21世纪第二个十年,人工智能应用在人们生活工作中逐渐普及,人工智能发展进入到下半场,从过去少数企业在某些特定场景中的试点,到目前广泛领域下的落地,人们越来越感受到人工智能的力量和便利。中国技术研究的最前沿高等院校也不例外,大多数学科都已完成了与AI跨学科研究的初步探索,寻找到了新的结合点,不断的拓展出新的研究方向,比如AI+农业科学指导果蔬种植,AI+环境科学预测天气,AI+机械科学增强机器自学习能力,AI+车辆工程辅助车辆智能驾驶等等领域。

 


在这个AI无处不在的时代,很多高校都会面对在初级阶段中采购的零散AI算力资源无法满足新一代研究需要的问题,如何利用好新旧AI算力资源,如何在有限的项目资源情况下实现科研突破,如何实现AI算力灵活高效的管理和分配,成为顶级高校中各个学科在AI科研方向突破的基石。

正是因为这个契机,促成了西北工业大学计算机院与趋动科技的合作。

西北工业大学直属于中国工业和信息化部,是985211工程大学,其中西工大计算机学院曾研制出我国第一台机载计算机、第一台微程序控制的小型通用计算机、第一块航空大规模专用集成电路芯片等,获得过全国科学大会奖和国家科技进步奖等瞩目成绩。

趋动科技由多位具有世界500强中国研究院负责人背景并且具有共同远大理想的高科技人才创立,是全球AI资源池化技术的领导者,致力于帮助客户提高AI资源利用率和降低TCO,提高算法工程师的工作效率。趋动科技荣登WISE2020「新基建创业榜」最具成长性创业公司TOP20, 趋动科技的OrionX 猎户座计算平台荣获“2020新基建与行业创新应用优秀解决方案“。

此次趋动科技OrionX猎户座AI加速器资源池化解决方案为西工大计算机院带来创新的GPU资源管理和分配方案,引入软件定义GPU概念,将OrionX软件部署在多台不同类型的GPU服务器上,通过网络互联,构建了一个统一的GPU资源池化层,实现了新旧GPU资源的统一调度,灵活分配,弹性伸缩等云化能力,提高GPU资源利用率,助力AI科研“有卡可用,按需分配,高效管理”。

 


主要落地场景包括:

1、GPU资源共享使用,按需分配

AI发展的初级阶段,每个老师会根据各自项目需求采购GPU服务器资源,但大量时间在研究算法过程,对机器资源难以充分使用;另一方面,有些大模型训练场景,需要更多GPU卡资源,又会发现现有可用资源不足,难以满足快速训练验证模型需要。

所以我们通过建设统一的AI算力资源池,将所有新旧GPU资源进行统一纳管,打造完整的GPU资源池平台,实验室或者学院的所有相关老师和学生,都可以通过趋动科技OrionX平台实现GPU资源灵活动态申请。大家共享GPU资源,按实际使用情况分配GPU资源,将有限的GPU服务器资源发挥出最大价值,为科学研究提供足够的算力支持。

2、训练+推理集群混合部署

AI研究可以分为模型训练和推理预测两个过程,其中模型训练是从已有数据中学习一种能力的过程,往往需要1到N块GPU卡来实现学习加速,而推理预测是通过已学会的能力对新输入数据的判断,往往只需要不到一张GPU卡的资源。


因为对GPU卡资源需求的不同,造成了目前老师们对GPU卡资源的管理方式不同,有的是通过以占有最大需求资源为目标申请资源,优先把训练资源所需的卡量占用,方便后续推理验证;有的对资源进行功能划分,大部分机器用于训练,少部分机器用于推理。无论是哪种方式,都会对GPU资源造成一定的空闲和浪费。

通过趋动科技OrionX平台,能够实现训练和推理集群的混合部署,不需要再把有限的资源分割出不同的场景,无论是训练所需的1~N张GPU资源,还是推理所需的<1GPU资源,都可以灵活的从OrionXAI算力资源池中申请获取,并且训练和推理资源通过修改配置就能实现无缝切换,无需重启容器或者虚拟机,简单易用,快速上手。OrionX最强大的一点是只有当AI任务调用到GPU进行计算时候,资源才会实际被占用,否则仍在在资源池当中,这样能够最大限度的保证资源提供给最需要的人,实现GPU资源池高效管理。

3、AI开发测试环境快速验证

目前最常见的AI开发测试环境为JupyterNotebook,是一款基于网页的交互计算应用程序。可以非常方便的用于AI代码开发、代码编写、代码运行和结果展示。西工大计算机院同样有一部分老师学生会使用此方法来进行AI研究。

而JupyterNotebook使用GPU时候有一个缺点,就是Web启动之后必须长期占用一张GPU卡资源。导致一台GPU服务器只能支撑有限的老师和学生使用,使用完毕后环境切换起来也非常繁琐,容易造成数据丢失。而通过OrionX AI算力资源池化解决方案,可以实现AI应用与GPU资源的解耦合,即在启动JupyterNotebook时,占用的是虚拟GPU资源,而非物理GPU卡,只有当AI代码运行需要调用到GPU能力时候,计算任务才会分配到GPU卡上完成计算。通过这种方式,提升了单台GPU服务器的承载能力,支撑了更多的老师和学生完成AI模型的开发和调试,并且提高了GPU服务器的整体利用率,从另一个角度,也帮助高校实现对硬件资源的降本增效。