本文作者:张恨水

细读2024年新奥门免费资料,北京大学珍藏甲骨文字碎片缀合成果及全球首个甲骨文多模态数据集开源

细读2024年新奥门免费资料,北京大学珍藏甲骨文字碎片缀合成果及全球首个甲骨文多模态数据集开源摘要: 细读2024年新奥门免费资料,北京大学珍藏甲骨文字碎片缀合成果及全球首个甲骨文多模态数据集开源最近二十年,甲骨文破译逐渐进入瓶颈期。AI需要一个怎样的甲骨文数据库写论文要引用甲骨文...

北京大学藏两片甲骨文计算机辅助拼接的结果。拼接前的甲骨文为1.丙戌日和□2.即□王说,叀王问,乇。五月。完整的甲骨文为“丙戌日,王说:王又问。五月。”有学者认为,“又”与“有”同音,“即”与“有”。“同是”即丙戌日,日偏食,商王通过占卜认为会带来灾祸,所以举行了“乇”祭祀。

7月5日,上海,2024世界人工智能大会。安阳师范大学团队宣布,全球首个甲骨文多模态数据集正式开源。所谓多模态,是指收录了1万个甲骨文拓片、抄本、甲骨文对应单个词语的数据。数据集包含了方位、对应部首、对应官字、例文分组、释义顺序等数据。研究人员可以基于此数据集开发甲骨文检测、识别、抄本生成、字形匹配、释义等智能算法。

近年来,安阳师范学院甲骨文信息处理教育部重点实验室利用计算机对70余组甲骨文残片进行拼合,居全国首位,其中一组经过拼合后形成了一个新的连贯文字,如果解读无误,这句话可能记录了公元前1900多年的一次日偏食,引起了极大关注。

近二十年来,甲骨文的破译逐渐进入瓶颈期研究进展今期澳门开奖结果查询,为此,在政府相关部门的推动下,多所高校的研究团队致力于探索人工智能(AI)辅助技术用于甲骨文研究,国内互联网巨头、科技公司也纷纷加入其中,与学界开展跨学科合作。人工智能的应用为甲骨文研究提供了新思路,神秘的商代甲骨文与科幻的人工智能的碰撞,是一场中华文化独特的罗曼史。

AI需要什么样的数据库?

输入人工智能的标准化、多模态数据集源自二十年前一位数学老师开发的输入法。

1991年,安阳殷虚花园庄东H3号坑出土​​甲骨1583片,这是殷虚甲骨发掘史上的第三次重大发现。当时,毕业于河南师范大学数学系的刘永革被分配到安阳师范学院(安阳师范学院),职业生涯的前十年,他与甲骨研究毫无瓜葛。

20世纪90年代末,安阳师范学院安排青年教师考研,刘永革等十人来到西安,目标是考上西北工业大学计算机工程学院。当时个人微型计算机刚刚兴起,进机房要戴鞋套,以防静电。刘永革学的是数学,考研有四门科目,其中三门是他从来没有学过的。于是,他到书店买专业书,就地复习。一位同学买了一台新相机,邀请大家一起去参观秦始皇陵兵马俑坑。参观过程中,他开玩笑说:“刘永革,你别再复习了,跟我去肯定考不上。”刘永革大概没有去看兵马俑——2000年,他获得了计算机软件与理论硕士学位,专业是数据库应用。

21世纪初,安阳师范学院有一批从事甲骨文研究的中青年学者,其中有李学山、韩江苏,他们80年代曾在“商文化研究班”师从甲骨文专家胡厚宣。甲骨文怎样输入计算机?虽然有甲骨文编码输入法,但学习成本很高,就像五笔字型输入法一样,需要背一整套代码。老师们找到当时已经在计算机系任教的刘永革,希望他开发一种完全不同的输入法。先用软件描出甲骨文,将描出的图形矢量化,做成字型库。然后根据日本学者岛国雄的甲骨文自然分类法设计检索系统。用C++编写动态数据交换程序。 使用时呈现的是甲骨文常用部首的图形化界面,你只需要点击鼠标进行搜索,然后点击需要的文字,不用去记代码,对于字数较少的甲骨文来说,这款输入法就非常适合。

细读2024年新奥门免费资料,北京大学珍藏甲骨文字碎片缀合成果及全球首个甲骨文多模态数据集开源

甲骨文不仅要输入单个单词,还要输入整句话,还要找出前人的解释来对照。最好有甲骨拓片的原图或复印件,可以用文本文档,也可以用word文档,但要看清晰的拓片图片,就只能用PDF文件了。历史与博物馆学院的韩江苏教授意识到,甲骨文研究需要文字、图像、文本一体化、便于检索的数据库。“甲骨文文字与图片数据库”于2004年成功申请到国家社科基金。有了甲骨文输入法的成功经验,刘永革自然而然地加入了研究团队。一位优秀的计算机老师毅然跨界加入甲骨文,带领计算机系的年轻人从零开始学习甲骨文,为研究团队增添了新鲜血液。到项目完成时,已经囊括了数十部权威研究文献和7万余片甲骨拓片的精华。

郭庆平是安阳师范学院中文系教授,退休后自学甲骨文,从事甲骨文篆刻工作。有一次,他请刘永革帮他寻找几个现代汉字对应的甲骨文字形,刘永革很快就把结果给了老人。一个月的时间,你这么快就找到了?!这电脑真棒,我也要学电脑!”那一年,郭庆平已经89岁了,家里人也不支持,他拿出7000元钱偷偷送给刘永革,要他帮忙。刘永革说:“老人好学,我给他买了个大显示器,让他能轻松识字。后来,他又用电脑写了三本甲骨文的书,投稿出版。” 2008年,刘永革及其团队提交的《基于甲骨文语料库的计算机辅助解读技术研究》项目获批国家自然科学基金项目,甲骨文的数字化,大大方便了科研人员,为人工智能时代的到来铺平了道路。

细读2024年新奥门免费资料,北京大学珍藏甲骨文字碎片缀合成果及全球首个甲骨文多模态数据集开源

2016年3月,谷歌团队开发的(初级围棋)程序战胜了韩国围棋九段李世石,震惊世界。这也被认为是人工智能发展一个大周期的元年。一个月后,国家有关部委领导在河南安阳调研时,刘永革表示,要利用大数据、云计算等现代技术手段破译甲骨文。两年后,安阳师范学院甲骨文信息处理教育部重点实验室获批,刘永革出任实验室主任。按照规定,教育部重点实验室学术委员会主任应该是院士。“我们安阳一个小地方,不认识什么院士。”

幸运的是,他们找到了2015年新当选中国工程院院士的戴琼海,刘永革聘请他担任学术委员会主任,戴琼海是清华大学自动化系教授,长期致力于立体视觉与计算摄影理论与关键技术的研究,现任中国人工智能学会理事长。

2019年是甲骨文发现120周年,在甲骨文研究专家宋振浩的指导下,安阳师范学院发布了“殷契文苑”甲骨文数据平台,这是当今世界最全、最规范、最权威的甲骨文数据平台,在国内影响巨大,免费向国外研究者开放,迄今已更新四次,共收录甲骨文154篇、甲骨文论著34417篇、图片23万余幅。利用上亿像素的相机、高清摄影、微距摄影、三维建模、红外等技术,研究人员对每块甲骨文拍摄了150多张照片,利用微痕增强技术,研究人员可以清晰地看到甲骨上较浅的痕迹,更准确地分析出笔画、轮廓,其中有些痕迹具有特殊含义。 甲骨文是用朱砂描绘的,这部分文字的研究也是甲骨文研究的一个分支。有的甲骨文年代非常久远,红色朱砂已经脱落,但通过光谱分析,还是可以判断甲骨文部分有朱砂。另外根据机器学习的需求,增加了图像数据标注。

回过头来看,原来为 输入法创建的矢量字体库,如今被“魔改”得面目全非,科技的发展已经超越了人类的想象。

细读2024年新奥门免费资料,北京大学珍藏甲骨文字碎片缀合成果及全球首个甲骨文多模态数据集开源

使用计算机将破碎的甲骨文拼凑起来

张展2019年在中国科学院大学获得计算机应用技术博士学位,2021年在中国科学院沈阳自动化研究所完成博士后研究,研究方向为计算机视觉、模式识别、数字图像处理。郭安是他的室友。找工作时,郭安回到安阳师范学院谋求教职,张展则来到安阳寻找机会。这是他第一次见到刘永革研究热点澳门码今晚开奖免费查结果,老刘想让张展留下来,但后者还没拿定主意。没过多久,刘永革就接到了张展的电话,他很高兴:“有相应待遇自然不用说,张展来找我,结婚前我动员了系里的老师,让大家给他开个好工资,再介绍一个人来,我得把他留在安阳。”

刘永革立刻看上了张湛,因为他的研究方向很适合计算机辅助甲骨文拼接,这是一种在短期内实质性推动甲骨文解读的手段。

细读2024年新奥门免费资料,北京大学珍藏甲骨文字碎片缀合成果及全球首个甲骨文多模态数据集开源

安阳环宝斋藏甲骨残片

当前的甲骨文解读工作确实处在瓶颈期,在甲骨学进一步发展的道路上,文字解读迟迟未到,导致甲骨文对商史的研究难以进一步深入。2024年,进行了两次甲骨文解读优秀成果的征集评选,对破译未解甲骨文、经专家委员会审定合格的研究成果,给予每字10万元的奖励。第一次细读2024年新奥门免费资料,北京大学珍藏甲骨文字碎片缀合成果及全球首个甲骨文多模态数据集开源,复旦大学姜玉斌获一等奖,获10万元;第二次,复旦大学陈建、吉林大学周忠兵均获一等奖。八年,三个字,这就是当今甲骨文的解读速度。

为何如此难以破译?目前学术界普遍公认甲骨文共有4500多个字,其中已破译的近1500个,其余3000个字则较难破译,比如没有对应的现代汉字,或是后世不再使用的地名、人名等。甲骨文的破译,是通过已知推断未知的方法来破译的。1991年安阳殷虚花园庄东H3坑的发掘,是最后一次重大的甲骨发现,近三十年来,新发现的甲骨数量实在太少,这也使得解释研究工作陷入了巧妇难为无米之炊的境地。

因此,不少学者把目光转向了现存甲骨的潜力,希望从中榨取有价值的新线索。现存的甲骨大部分以残片的形式存在,一是因为甲骨用于占卜,有过钻孔、烧毁、断绳等情况。二是早期的甲骨采集者在安阳小屯村收购甲骨,按片计价。村民们把挖出的甲骨打碎后卖掉。所以后来就把价格改为甲骨上的文字数量。指甲的自然纹路有裂痕、断裂的,最小的也比人的指甲大不了多少。如果把甲骨残片拼凑起来,就能得到一个新的连贯的句子,学者们阅读解读,就能得到新的解释。

细读2024年新奥门免费资料,北京大学珍藏甲骨文字碎片缀合成果及全球首个甲骨文多模态数据集开源

俄罗斯艾尔米塔什博物馆的甲骨文拼合结果。原文为“壬辰倭王占卜,真王问:‘何如……虎踞?焉……二人与史实不同……”释文为“壬辰倭王占卜,真王问:‘何如……虎踞?焉……二人与史实不同……”释文为“壬辰倭王之日,真王占卜,真王问:‘何如……虎踞?焉……二人与史实不同……”

但甲骨文的编纂工作难度大、劳动强度大。故宫博物院是世界第三大甲骨收藏单位,馆藏殷旭甲骨超过2万片,其中大部分从未被编纂出版过。唯一的成果是《故宫博物院藏殷旭甲骨》《马衡卷》《谢博书卷》中300余片甲骨的高清图片和拓片的出版。人工拼接甲骨文碎片需要记住大量的甲骨文信息,需要专业技能,工作量大。一所大学能有研究甲骨文的人也就那么几个,他们刻苦学习、钻研经典一辈子,才有资格参与这项工作。直觉就像数学公式一样,没有规律可循。 有学者感叹,甲骨文断痕的边缘没有一定的规律,而人们对信息有偏好,可能这里敏感,其他地方不一定敏感,所以错过了很多。

计算机没有直觉,只有数字和概率,与人不同,它们可以找到不规则的边际信息来匹配。

细读2024年新奥门免费资料,北京大学珍藏甲骨文字碎片缀合成果及全球首个甲骨文多模态数据集开源

张展向我们展示了如何利用计算机辅助拼接甲骨碎片。首先准备需要拼接的甲骨碎片图像,计算分辨率精度(通过插值获得),修复甲骨轮廓周围的毛刺,在分段标记边缘提取一条曲线。将边缘曲线旋转±20°,得到一组相同曲线的不同倾斜角度。利用边缘曲线集拟合选定的一批甲骨拓片轮廓。对边缘曲线进行多个小段采样,计算源甲骨碎片图像与目标甲骨碎片图像边缘采样点之间的距离和作为不相似度,当不相似度值小于某设定值时,即表示可能生成一组成功的拼接。

这有点难以解释,但计算机可以在瞬间输出连接结果。

最初,张展运行程序,得到了一组拼接结果,发在了微信朋友圈,大家喜出望外。随后,他们得知,这组甲骨文碎片之前已经被人拼接过,但至少证明了这个方法管用。不久之后,实验室终于得到了新的“独家”拼接结果。不仅文字可以接连,就连贯穿两片甲骨文的铭文也能清晰地衔接起来。随着项目的进展,我们得到了一组拼接结果,关于拼接后接连起来的甲骨文解读文章陆续发表。

这种拼接方法取得了一定的成功。但要进一步深入,仍然存在困难。目前的技术可以将选定的一块甲骨和另一块或一批甲骨进行拼接最新研究澳门王中王100%的资料2024,如果要让计算机能够一次性对大量甲骨图像进行拼接,找到一对或多对可以拼接在一起的甲骨,需要新的算法和更强大的算力。除了技术因素外,还有一个问题也困扰着研究人员,全球约有16万块甲骨,分散在15个国家和地区,而真正被整理出来用于研究并公开发表的甲骨拓片却少之又少,机构之间、国家之间的交流合作和资源共享并不容易。

为此,安阳师范学院团队今年正式启动“全球甲骨文数字化回流计划”,寻求国家、省市政府部门和社会各界的支持,希望收集国内外甲骨文馆藏数据,让散落在世界各地的甲骨文得以复原。这是一个宏大而浪漫的计划,任何被形容为浪漫的事情,往往都是艰难的,可能需要很多年才能完成。刘永革对张湛说:“你看,我一辈子都在搞数据库,如果你把一生都花在拼凑甲骨文碎片上,那就完了。”与几千年的甲骨文相比,人生不过是沧海一粟,很多事情要想成功,还有很长的路要走,后人又将何去何从?

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,28人围观)参与讨论

还没有评论,来说两句吧...