文远知行

趋动科技OrionX GPU池化解决方案助力文远知行完成开发训练集群GPU资源池化调度管理

项目背景

文远知行成立于2017年,是全球领先的L4级自动驾驶科技公司,拥有一支规模超600辆的自动驾驶车队,自动驾驶里程超过2,500万公里。文远知行致力于开发安全可靠的无人驾驶技术,应用场景覆盖智慧出行、智慧货运和智慧环卫,已进入自动驾驶商业化运营阶段,商业营收居全球同类企业之首,形成自动驾驶出租车(Robotaxi)、自动驾驶小巴(Robobus)、自动驾驶货运(Robovan)、自动驾驶环卫车(Robosweeper)、高阶智能驾驶(Advanced Driving Solution)等五大产品矩阵。


项目挑战

1、 自动驾驶算法开发团队众多,每个算法工程师都需要申请独立GPU资源来完成算法开发工作,但卡被独占后,未充分利用。

2、随着公司业务快速发展,算法团队也在不断壮大,传统1人1卡,或者多人1卡的人为调度方式难以满足需求。

3、开发卡分散在不同的算法工程师,给管理人员在管理方面带来很大管理挑战。


趋动解决方案

趋动科技为客户设计K8S+RDMA+OrionX的融合方案,实现GPU资源统一管理、调度。借助GPU池化后的动态申请、动态挂载,释放等能力,帮助客户提升GPU卡效率,同时实现弹性满足算法人员算力需求。


客户成功

1、GPU资源动态挂载和释放满足了少量GPU支撑大量算法工程师开发和训练需求,打破过去因GPU长期独占导致的算力资源不足问题,帮助客户降低GPU采购成本。

2、通过OrionX远程调用+ RDMA网络能力,使AI开发不再局限在某一台GPU服务器上运行,可以在任意一台服务器(即使是CPU服务器)使用GPU资源,GPU池化后,算法人员可按需动态申请GPU资源等,帮助用户提升算法人员工作效率。

3、GPU池化后,实现了GPU资源统一调度、统一监控、管理,提升了基础架构运维人员工作效率。


用户反馈

GPU资源池是在2020年左右建设的,至今已经三年多了,公司的算法人员相比2020年增加300%,在GPU池里未曾扩容的情况,通过资源池的算力资源超分复用、调度能力,完全能满足扩充后算法人员算力需求。另外,相比传统GPU卡使用方式,池化后,我们算法人员不再像以往需要关心基础设施层问题,可以更加专注于本职算法研发工作。

——彭绍东丨文远知行算法研发