南农大团队研发“古籍版ChatGPT”,为何取名“荀子”
“荀子”古籍大语言模型示意图 微信公众号@南农信管之窗CIM 图
最近,南京农业大学的信息管理学院有一个令人瞩目的成就:他们的王东波团队开发出了我国第一个专门用于古籍处理和研究的智能工具——“荀子”古籍大语言模型。这个模型拥有超过20亿字的《四库全书》和其他古籍文献的大型语料库,并具备了自然语言理解、自动翻译和自动标引等功能。值得一提的是,这个模型已经在GitHub和ModelScope等网站上实现了开源。
王东波强调,荀子不仅是一位杰出的先秦朴素唯物主义思想家和散文家,他在语言学理论领域的贡献同样值得称道。因此,以他的名字来命名这一项目,旨在缅怀这位语言学的奠基人。对于普通读者而言,接触繁体、竖版、无句读的古文并非易事。然而,随着“荀子”项目的上线,智媒时代的来临使得古籍研究与现代汉语之间的交流变得更加便捷。古文的阅读理解、标点添加以及翻译成现代汉语等难题,都可以轻松地交给“荀子”处理。而对于专家来说,他们还可以利用这个平台完成诸如古籍词法分析、实体识别、关系抽取、文本分类与匹配以及文本摘要等一系列工作。
“荀子”的诞生,与其背后的高性能算力基础设施紧密相连,同时也离不开团队长期的精加工语料库,其投入的数据量高达40亿字。王东波指出,虽然模型的构建受到算力和场景应用等因素的影响,但是,高质量、精准度的数据才是关键。自2008年开始接触古籍,团队在2013年至今一直致力于人工精标注数据的收集工作。举例来说,《岳阳楼记》中,为了训练机器对其中形容词的标注,首先需要训练相关人员对形容词进行标注,然后在大量的人工标注之后,让机器学习。
王东波表示,期待通过“荀子”大语言模型,将古籍的智能化研究与跨学科人才培养结合,让学生既有前瞻的科研视野,又积累较深厚的人文底蕴,同时让更多受众接触、品读、传播古籍,唤活“故纸堆”。返回搜狐,查看更多
责任编辑:
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!