新华网上海7月6日电(史依灵 实习生师千行)甲骨文是中国发现的年代最早的成熟文字,但其研究专业门槛高,存在众多难点。而如今,在人工智能技术的加持下,甲骨文研究正跑出“加速度”。
7月5日,在世界人工智能大会上,全球首个甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本,以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。基于该数据集,研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法,助推甲骨文研究加速数字化和智能化。
全球首个甲骨文多模态数据集发布。新华网 发(受访者供图)
“高质量的AI算法依赖高质量的甲骨文数据集。”数字甲骨共创中心有关负责人介绍,以往业界的甲骨文数据集存在信息简陋、标注信息较简单以及单一数据集字数较少等问题,“如检测数据集,只能把字抠出来,不知道字是什么;字符识别数据集,只能认几百个字;因为专业知识缺乏,有些标注信息不完善等。这些也成为甲骨文智能算法开发的一大掣肘”。
数字甲骨共创中心有关负责人说,此次开源的甲骨文多模态数据集集合了甲骨文数字化研究的最新成果。一方面,该数据集吸收了当前业界最先进的甲骨文研究资料,包括剑桥大学博士秦培超发布的镜元甲骨文字库和清华大学黄天树教授发布的《摹本大系》;另一方面,AI相关技术的应用也为数据集的信息丰富提供了支撑。如由腾讯优图实验室联合安阳团队开发的甲骨字检测模型,可以对甲骨片上的字进行一个初步的标注;字形降噪与匹配模型,为检索提供了最直接的方法;甲骨校重算法,可以实现拓片与大系摹本的配准,使得大系摹本可以直接辅助拓片的标注;同时双方联合打造的协同创新平台,也大大提升了数据标注的效率。“此外,数据集专业复查以甲骨文信息处理实验室的研究生为主力,充分融合了甲骨文知识和机器学习知识的专业知识,也大大提升了数据集在AI算法研究场景下的可用性”。
中国社会科学院学部委员宋镇豪表示,甲骨文是中华文明的重要瑰宝,甲骨文研究不仅有助于揭示中国上古信史,还能为现代汉字由来和汉语研究提供标志性依据。通过AI技术的应用,有望加快甲骨文探析进程,解决长期困扰学界的疑难问题。
“数字化和人工智能技术为甲骨文的破译带来了新的可能性和机遇。”安阳甲骨文信息处理教育部重点实验室负责人刘永革说,甲骨文的研究对于中华文化的传承和发展具有重要意义。期待与更多有志于此的科研团队合作,利用先进的技术手段,进一步挖掘和解读甲骨文中的丰富信息,促进历史文化的传承与创新发展。
“甲骨文数字化及多模态甲骨文数据集的发布为甲骨文的研究和传承注入了新活力。”厦门大学教授、国家杰出青年科学基金获得者纪荣嵘表示,这一创新举措不仅将古老的甲骨文以精准的数字化形式得以保存,确保了文化瑰宝的永续流传,更通过多模态数据集的方式,集成了拓片、摹本,辞例分组、释读顺序等多重元素,为研究者构建了一个全面而深入的研究平台。“全球最大的甲骨文多模态数据集的发布,将极大地推动甲骨文的跨学科研究,让我们能更深入地探寻其背后的历史脉络、文化内涵和社会背景。同时,为公众打开了一扇直观而生动了解甲骨文的窗口,有力促进了中华优秀传统文化的传承与普及”。
在腾讯数字文化实验室负责人舒展看来,守护中华文脉,应焕活汉字源头。“团队一直在探索用人工智能助力甲骨文‘破译’和活化利用,同时腾讯还将‘甲骨文AI破译’纳入‘探元计划’支持的创新探索型项目的定向命题。”舒展介绍,腾讯联合数字甲骨共创中心发布甲骨文AI破译需求,揭榜挂帅,期待与有技术储备、有意愿共创、致力于AI助力甲骨文破译的科研机构形成解决方案。后续将经过遴选评审的共创伙伴将获得资助,共创甲骨文AI考释破译的新算法、新工具、新方法。
近年来,腾讯持续探索数字科技与文化深度融合,运用前沿数字科技帮助文化遗产保护传承,发起并推动了AI助力甲骨文研究、三星堆文物修复、国博数字人等多个项目,用数字技术推动文化遗产焕活。