资讯详情

Information for details

技术助力传统:AI算力池化技术推动南京农业大学古籍研究与文化传承

随着AI技术的不断发展,其在各个领域的应用也日益广泛。在古籍研究领域,AI技术同样展现出了巨大的潜力。近日,南京农业大学王东波教授团队在古籍智能化研究与产业应用研讨会上发布了荀子古籍大语言模型产品。


荀子古籍大语言模型是由南京农业大学王东波教授为首席专家的国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组,累时数月研究推出的,专门应用于古籍处理与研究的智能工具,是一款专门用于古籍信息处理的基座模型、对话模型与智能代理为主要目标的开源的、公益的古籍大语言模型。


xunzi.png


荀子模型可以实现包括:


1、古籍智能标引:荀子模型具备强大的古籍文献标引能力,能够对古籍中的内容进行高质量主题标引,帮助研究人员快速了解文章主题。


2、古籍信息抽取:荀子模型能够自动从古籍中抽取关键信息,如人物、事件、地点等,大大节省了研究人员的信息整理时间。


3、诗歌生成:荀子模型还具备诗歌生成的能力,能够根据给定的主题或关键词,自动生成符合语法规则和韵律要求的古诗,为诗词爱好者提供创作灵感。


4、古籍高质量翻译:对于那些难以理解的古籍文献,荀子模型能够提供高质量的翻译服务,帮助研究人员更好地理解原文含义。


5、阅读理解:荀子模型能够对给出的古文文本进行分析解释,实现对古籍文本的自动阅读。


6、词法分析:荀子模型可以完成古籍文本的自动分词和词性标注,能够有效提升语言学工作者的研究效率。


7、自动标点:荀子大模型可以快速完成古籍文本的断句和标点,提升研究者以及业余爱好者对古籍文本的阅读体验。


荀子古籍大语言模型整个开发和训练过程均有趋动科技为其赋能助力。


南京农业大学启动荀子古籍大语言模型时,选择了趋动科技的OrionX AI算力资源池化软件+Gemini AI开发训练平台整体方案为其构建高效AI算力平台,包括AI算力资源池化、与外部高性能存储对接、一站式模型协同开发训练、全局管理等核心能力价值在荀子古籍大语言模型的研发过程中得到了充分体现。


xunzi1.png

解决方案架构图


趋动科技为南京农业大学荀子古籍大语言模型研发实现的收益,主要有以下几点:


· 资源利用率大幅提升。在项目过程中,共有超过二十位同学参与了荀子古籍大语言模型的开发工作。为了平衡成本与效率,OrionX通过打造AI算力资源池,为同学按需提供虚拟算力进行代码开发、调试,从物理卡1人1卡的分配方式,升级为一张卡支持8-10位同学同时使用。


· 提升训练和推理效率。荀子古籍大语言模型的参数量达6B,需要大量的计算资源支持训练。OrionX通过多机分布式、跨机聚合等功能整合多台服务器上的AI算力资源,形成可被统一调度管理的资源池,能够提升模型训练的效率,将原先单机需要3~5天的训练任务缩短到只需要1~2天,极大地提高了训练速度,节省大量的时间。此外,荀子古籍大语言模型单精度推理大约需要16G显存,通过切分功能,单卡可支撑多个推理验证任务,一个算力资源池便可支撑开发、训练、推理全流程。


xunzi2.png


· 数据管理更灵活。荀子古籍大语言模型的研发和训练需要处理大量的TXT纯文本数据,趋动科技Gemini AI开发训练平台通过对接外部高性能存储,帮助工程师高效地管理多种数据,为模型的训练提供了有力支持。训练的模型数据在外部存储中集中管理、共享使用,避免重复数据浪费存储资源。


xunzi3.png


· 团队协同更高效。在模型的开发过程中,算法工程师之间需要频繁地交流、分享资源与成果。Gemini AI开发训练平台集成了代码管理功能,同学们各自创建代码仓库、分支、版本,配置共享属性,完成开发后代码快速合并,方便大家更加高效地完成模型开发工作。


xunzi4.png


通过AI算力资源的高效利用,以及一站式开发平台简化开发流程,我们很高兴地看到荀子古籍大语言模型事半功倍地完成了研发,推动了古籍研究与保护工作的新发展,提高了中华传统文化传承的效率与质量。未来,趋动科技将继续发挥技术优势,为更多的科研工作提供支持,推动AI技术在各领域应用落地!



荀子古籍大语言模型和Chat是一个完全开源和公益性质的基座模型及对话模型,欢迎下载使用:https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM