您现在的位置: 龙8app龙8app下载网  >>  媒体龙8app  >> 正文 选择字号【

AI驱动的甲骨缀合 ——附新缀十则

【龙8app下载作者:河南大学计算机与信息工程学院 张重生  来自: 2020-11-3  已访问: 责任编辑:王宏宇 】

河南大学甲骨文研究有着十分悠久的历史,董作宾,孙海波,朱芳圃,石璋如,尹达,郑慧生等著名甲骨学者,都曾执教或就读于河南大学。而今,王蕴智教授带领下的河南大学古汉字研究所继续孜孜矻矻地坚守在这一领域,承续着这一光荣传统。

将计算机与甲骨文研究相结合,是河南大学的优良传统。1987年河南大学计算机系郑逢斌参与研发了第一个甲骨文信息处理系统,而后郑慧生与郑逢斌等人又合作设计了第一套形意结合的甲骨文输入法,这在当时的甲骨学界是非常领先的水平。

近年来,河南大学对甲骨文与计算机结合的工作给予了大力支持。2019年6月23日,门艺,张重生邀请了多位甲骨学界的专家,在河南大学召开了人工智能与甲骨文识别专题研讨会(图1)。经过与专家们的咨询商讨,会议确定了甲骨缀合与甲骨文识别两项任务作为今后主要的发展方向。其后,又邀请了首都师范大学,西南大学和厦门大学的甲骨文专家和计算机专家召开了两次“甲机会”,确定了人工智能(AI)驱动和人机耦合的缀合思路,并对相关技术路线进行了详细论证。

图 1 人工智能与甲骨文识别专题研讨会(河南大学)

利用计算机辅助甲骨缀合的实践由来已久,很多从事甲骨缀合的学者都曾利用计算机来提高缀合效率。但计算机参与的甲骨缀合与人工智能(AI)驱动的甲骨缀合是很不同的,过去的计算机缀合模型都没有起到切实的缀合作用,也没有帮助甲骨学家减轻缀合工作的劳动强度。因此,我们确定的首要目标是研发一个切实可用的缀合模型。而近年来人工智能(AI)技术的突飞猛进,让我们有机会更接近这一目标。

本项研究前期,我们尝试让缀合模型模拟专家的边缘密合判别能力和甲骨形态辨识能力,首先对卜骨拓片图像进行专门的技术攻关,以期让模型在一定的范围内(前10项备选甲骨)达到较高的缀合召回率。2019年底我们完成了两个版本的甲骨缀合模型,并进行了不断的优化。通过将学界已经缀合的250组甲骨混入随机4000片甲骨中进行了实际测试,模型结果前10项的复缀率达到99%以上(图2)。

图 2 缀合程序中复缀甲骨的界面

基于此,2020年1月我们将相关成果提交给了人工智能国际顶会IJCAI-2020(Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence,),并被大会录用发表(图3)。

图 3 张重生等发表在人工智能顶级会议IJCAI-2020上的论文页面

2020年8月,我们邀请了首都师范大学和河南大学的师生对部分甲骨材料进行了整理,展开了实际(实质性)的甲骨缀合工作。通过半个月的协作,我们的模型再次得到了优化,使得实际运用中的前10项复缀率依然保持在85%以上(未能复缀的部分主要是边缘不密合,而主要依靠残字,残辞而缀合的类型)。并新缀了一些甲骨,此摘选十则,以就教于方家:

第一则:合集7615正反+旅藏769正反(边缘相似度0.91708)

第二则:拼集65+英藏1168(边缘相似度0.63356)

第三则:合集165+合集2873(边缘相似度0.625000)

第四则:合集2824+合补5175(边缘相似度0.61417)

第五则:合集7494+合补3222(边缘相似度0.54804)*

*注:本则缀合过程中,发现合集7494与合补3222,合集13242的密合程度非常相仿,故怀疑为同一片甲骨。

第六则:合集14981+合集15543(边缘相似度0.56198)

第七则:北珍1453正+合集3007(边缘相似度0.55454)

 

第八则:合集17750+合集13132(边缘相似度0.66666)

第九则:合集7483+合集6541(边缘相似度0.73029)

第十则:合集12344+合补3636(边缘相似度0.88461)

下一步,我们将尽快把缀合软件(定名为“缀多多”)公开,以方便学界共同利用这一工具,产生更多的缀合成果。同时,我们还会进一步发展相关技术,一方面尝试模拟专家对残辞残字的研判能力,进一步缩小范围。另一方面,研究龟甲部分的缀合方法,争取在龟甲部分也能取得一定突破。

我们希望在不久的将来,在“缀多多”等AI甲骨缀合技术的帮助下,人工智能的运用可以让甲骨学者的缀合模式发生一个根本性改变,并最终完全解决这一问题。

录入时间:2020-11-03[打印此文] [关闭窗口]

Baidu