全媒体总裁对话 | 北京趋动科技有限公司CEO王鲲:软件定义算力,助推高校AI科研及专业建设
全媒体视角
AI算力需求高速增长 AI算力利用不容乐观
王鲲:在人工智能这一宏大命题之下,又细分了很多不同的场景。从计算机视觉、AlphaGo开始,再到涌现出的AI应用相关技术,例如人脸识别、语音识别、ChatGPT、大语言模型等,我们可以看到,人工智能技术正在高速发展,研发成果不断涌现,应用场景持续拓展。
一个产业的发展一般来说会有三个阶段,即Make it work(可用)、Make it perform(好用)、Make it cheap(用得起)。我认为,人工智能不同的应用处在不同的发展阶段。例如,人脸识别、语音识别等技术已经发展到了Make it cheap阶段,已广泛应用于各行各业。而大语言模型LLM还处在Make it perform阶段,能解决一些问题但是成本还是偏高。在大语言模型领域,其数据决定了模型的质量,而不同行业的数据会催生出不同行业的模型。当大模型要服务的行业并非全行业的时候,自然可以有效降低算力等各方面成本,走向Make it cheap阶段。相信未来大模型发展趋势会逐渐走向行业化、专业化和轻量化。
夏巍峰:人工智能爆发式发展,对算力的效率提出了更高的要求,趋动科技深耕软件定义AI算力领域。算力为什么如此重要?目前算力整体发展情况如何?
王鲲:人工智能作为可以极大提升人类劳动生产率的工具,未来会进入高速发展的快车道。实际上,整个人类的发展历史就是劳动生产率不断提高的历史。而人工智能高速发展的背后必须要有算力做支持。我们之所以坚定在软件定义AI算力这一领域创新创业,成立趋动科技,是因为三个重要的核心“假设”。首先人工智能未来一定会进入千家万户和各行各业,改变人类社会。其次人工智能的发展一定会带动全人类对于算力需求的高速增长。第三所有的用户都是期望算力的成本越低越好。基于这三个核心“假设”,趋动科技通过提升算力利用的物效和人效,尽量降低用户在算力使用方面的成本。
我认为,在未来很长一段时间内,整个人类社会对于AI算力的需求一定会持续高速增长。国产芯片行业发展前景巨大,算力硬件和算力软件需求的总量会越来越大,与此同时,国产算力所占的份额也会随之提升。
但当前AI算力利用率很低。根据美国AWS的统计,企业GPU利用率大约在10%—30%,而国内企业的GPU利用率大多在15%以内,浪费严重。软件定义算力就是要去解决GPU芯片利用率低的问题,趋动科技做的事情就是通过创新的下一代软件定义算力技术,来帮助客户高效利用算力资源。
夏巍峰:是什么原因造成的GPU利用率低呢?
王鲲:造成巨大浪费的原因是用户对GPU的使用和管理太粗放。如果把芯片比作固定50个座位的大巴车,把AI业务比作旅行团,算力利用可以看成是给旅行团匹配大巴车的过程。绝大部分的用户是在以固定座位数量的大巴车来服务这些人数不一的旅行团。例如,来3个人的旅行团派一辆50座位的大巴车,来10人的旅行团还是派一辆50座位的大巴车,从而导致大量座位(资源)浪费。
也许我们可以想到,能否调度更多不同规格的车辆解决大量座位(资源)浪费的问题?即从算力硬件的角度解决这一问题,生产不同规格的芯片,用不同的芯片进行不同AI业务的服务。答案是只能缓解,但无法根除这一问题。主要有以下几点原因:首先不可能有无穷多种规格的车辆,其次很难提前预算需要准备多少辆每一种规格的车,第三用的车辆规格越多,车队的管理成本越多,第四这种方式缺少灵活性。所以本质上来讲靠硬件只能缓解,不能根除算力利用浪费这一问题。
AI算力资源池化——为全行业用户深度赋能
夏巍峰:趋动科技是如何提高算力利用效率的?成效如何?
王鲲:趋动科技在做的事情,就是把用户对算力管理和使用的力度,从车辆级别降到座位级别。软件定义算力,就是通过资源的池化,把大巴车的座位变成一个资源池,无论针对多大规模的旅行团,只需要从资源池中划分出对应的座位数即可。而且这是一个动态可调整的过程,例如,早上出门20个人,下午变成5个人回来了,多出来的15个不用的座位,还可以继续回到池子里,供别人使用,这样可以最大限度上减少资源的浪费。总结来说,我们根据对算力的不同需求,在池子中动态划出精确的需求部分,从而让用户对于算力的使用和管理,实现了从车辆级别的粗放型变成座位级别的精细化管理。
趋动科技GPU资源池化解决方案效果显著。根据对趋动科技用户GPU的利用率统计,GPU资源利用率可以普遍提升3—8倍,而用户全生命周期的成本节省超过50%,50%的成本节省,这在今天的商业社会是一个巨大的优势。另一方面,比起节省成本来说,有些用户更大的难题是机房无法扩容,无法增加更多的电,这就意味着单个机房里面能够放的设备数是固定的,放不了更多设备了,而趋动科技算力资源池化软件可以帮助这些用户在同样多的设备下提升四倍、五倍甚至更多业务量,实现AI业务持续高速增长。
夏巍峰:提高算力利用效率,主要应用在哪些领域?不同领域对算力需求和要求有什么样不同?
王鲲:趋动科技的用户分布在全行业领域,包括银行、证券、保险、运营商、能源、电力、互联网、交通运输、智能制造、科研院所等各行各业。趋动科技算力资源池化软件是一个普适性很高很强的软件,并没有限制在某一两个行业。实际上,趋动科技的算力资源池化软件相当于是GPU的通用操作系统,不需要为各个行业定制,我们卖给不同行业客户的软件是完全相同的软件。可以说,只要用户用得上GPU,就可以用我们的软件。
躬耕入局 助推高校AI
夏巍峰:趋动科技为什么非常关注教育领域?AI人才需求巨大,有效供给却存在着严重不足。您认为人工智能的人才培养需要什么样人才培养模式和人才培养的环境?
王鲲:趋动科技非常关注教育领域,有以下几点原因。
第一,当前人工智能正在高速发展,趋动科技作为AI产业生态的一环正在深度参与其中,所以站在趋动科技的角度,我们希望未来人工智能技术和应用落地发展的越快越好。而对人工智能产业的发展来说,人才是不可忽视的力量,人工智能产业相关的人才越多,人工智能产业才会发展的越快。各个行业客户对算力硬件和算力相关软件的需求也会越来越大。
第二,从趋动科技的商业模式出发,我们也希望能够参与到人工智能人才培养和整个人工智能生态建设当中去。趋动科技有两大商业模式,一是软件服务,二是趋动云服务。趋动科技商业模式的本质是锚定用户对于AI算力的需求。我们把用户分为两大类,一类是拥有GPU服务器等大量的算力硬件的用户,面对这类用户,我们通过软件服务为用户降本增效。还有一类是很难具备算力硬件的用户,这类用户包括中小企业、高校、科研院所等。我们为这类用户提供趋动云服务。用户在趋动云AI平台注册账号后,就可以在这个平台上完成AI相关的几乎所有工作,包括代码开发与调试,模型开发与训练等。趋动云AI训练平台根据使用时间来付费,不使用的时候便无需再付费,极大的便利了用户的工作,同时也降低了使用门槛。趋动云AI训练平台简单易用,同时使用成本也非常的低,我们给到用户的使用价格目前来看是市场上最低的。
夏巍峰:趋动科技在助推AI专业建设及科研建设方面有什么样的解决方案?
王鲲:目前我们给到不同的高校两大类解决方案。一类是高校如果有大量的机器,我们就为高校部署趋动云私有化版本,也就是包括AI算力资源池化软件和趋动云AI训练平台在内的一整套软件服务,更好的满足高校教学和科研需求,使得AI开发、AI模型训练等各方面都变得非常简单。另外一类是高校如果没有硬件,就可以直接在趋动云AI训练平台租用算力。无论哪一种解决方案,都可以提升算力利用的物效和人效。
我们也正在建立一个交流社区,用户可以在社区分享平台使用经验,并互相之间给到一些指导或者建议。
夏巍峰:趋动科技是2019年创立的,您为什么选择AI算力这个方向?目前公司发展处于什么样的发展阶段,公司未来的发展规划和目标是什么?
王鲲:GPU资源池化技术是非常底层的技术,相当于一个操作系统层的技术,所以它具有普适性,但其挑战性在于它的难度比较大,需要很长时间的领域积累。趋动科技创始团队以及核心的研发团队主要来自于IBM、微软、EMC、以及国内的顶级科技企业。我在2005年从中国科学技术大学博士毕业之后加入了IBM,后来又进入了微软、EMC。从2008年左右开始,我就陆续带领团队开展CPU虚拟化、FPGA虚拟化、GPU池化软件相关的工作,我们较早涉足这些技术领域,拥有十多年的技术积累,而且这三种芯片几乎覆盖了当前所有的芯片种类。之所以选择AI算力这一方向,首先是因为我们在这个领域是专业的,而且我们有很长时间的积累。我们创业的时候设置了两个前提条件,一是天花板足够高,二是门槛足够高。AI算力天花板的高度取决于人工智能市场发展的高度,人工智能产业高速发展,意味着AI算力的天花板也会变得越来越高。GPU算力池化技术门槛也很高,而且到今天为止,在全世界范围之内我们的产品也是独一无二的,所以我们潜在的竞争对手不会很多,这样我们成功的概率才会大。
目前趋动科技正处在高速发展和成长的阶段。我们有来自各行各业的头部企业客户,在市场拓展方面已经迈出了很坚实的一步,并且已经进入发展快车道。接下来我们将重点围绕以下几点做好未来发展规划:
第一,继续加大对AI算力资源池化软件和趋动云AI训练平台的研发投入力度,满足不同行业客户对AI算力的最新需求。对趋动科技来说,技术的研发始终是发展的重头。
第二,进一步提高趋动科技在市场上的知名度和潜在客户对趋动科技的认知度,开拓出更大的AI算力市场,支持更多的国产芯片。我认为,国产芯片将迎来发展新机遇,我们已经支持了寒武纪、海光等国产芯片。另外,我们也会把趋动科技软件服务和趋动云服务覆盖到更多的海内外高校,帮助到更多的学院、专业、学生和老师,培养出更多优秀的人工智能人才。
王鲲正在带领趋动科技翻越GPU资源池化技术这座雪山。“这座雪山从来没有人爬过,这里面有多少坑,哪条路通,大家都不知道。我们的优势在于,在爬这座雪山之前,我们已经爬过CPU虚拟化和FPGA虚拟化的雪山。即便如此,我们从2015年开始爬GPU资源池化技术这座雪山到现在,历经八年的时间才做到目前这个高度。”正如王鲲所言,世界上没有捷径可以走,对门槛极高的GPU资源池化技术来说,尤其如此,而王鲲带领下的趋动科技团队,已成为AI算力资源池化技术领域的登山高手。