您的位置: 首页 > 广告

合合信息发布行内首个古彝文编码“大字典”用AI为古文字开启“焕新”之路

出处:北京商报 网编:刘浩天 2023-09-26

数字化技术已成为传统文化保护与传承的新途径。近年来,以甲骨文AI识别、敦煌数字藏经洞为代表的项目,让更多优秀的民族文化被世界看见。

文字是文化的重要载体,古彝文承载了深远的彝族历史内涵,蕴含着丰富的文化信息。近期,合合信息联合上海大学、华南理工大学针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,并于近期发布了业内首个古彝文基础编码数据库。

据团队成员表示,该项目有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,降低古彝文书籍、文献阅读的门槛,通过数字化的形式,让这门传承了千年的神秘语言不再遭受岁月的侵蚀,在融入现代社会的过程中焕发新的生命力。

图片来源:企业供图
合合信息旗下扫描全能王上线公益活动入口,用古彝文为用户献上祝福 

古彝文保护背后的困境与难点

彝文是云南、贵州、四川等地的彝族人使用的文字,而“古彝文”专指在民间流通使用的原生态彝文。古彝文传承至今已有数千年历史,是世界上最古老的文字之一。根据《滇川黔桂彝文字集》,古彝文多达87046字,比《康熙字典》还要多,是记录少数民族历史沿革、管理制度、民风民俗的重要载体。

目前,行业技术厂商主要通过AI、OCR等数字化技术对古籍进行保护,古籍识别项目主要专注于对汉字及其各种变体的识别。传统的古彝文来源于岩书、布书、竹简等不同类型,文档排版复杂不规范,年代久远,图像质量低,给识别带来极大难度。

受制于数据样本的稀少、字形的复杂多变,原生态彝文的数字化是一项大工程。项目技术负责人、华南理工大学电子与信息学院教授金连文表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。

金连文认为,建立一个专门的数据库,通过基础编号将不同样式归纳,可以“破解”古彝文“一对多”的关系,解决文字查询问题。

多方合力为古彝文打通“数字化”之路

此前,在中国西南多家高校的共同努力下,规范和通用彝文的数字化工作取得了重要突破。2022年12月,合合信息与上海大学、华南理工大学共同开启以国家珍贵古籍《西南彝志》为中心的贵州古彝文图像识别及数字化校对项目,引入AI技术提升古籍识别效率,从异体字、变体字、误用字和混用字中提炼出编码。在对7万6千字符的样本进行训练后,团队近期成功建立了包含上千个古彝文基础编码的数据库,堪称古彝文编码“大字典”。

为了推进古彝文“大字典”项目的顺利进行,在收集语料收集的过程中,研究人员使用了合合信息旗下扫描全能王“智能高清滤镜”功能,高效解决古彝文识别的版式检测、图像处理和文字识别等难题,对于污渍、残破的彝文古籍,只需通过“智能高清滤镜”轻轻一扫,即可得到一张清晰、平整的图片。

“智能高清滤镜”通过算法大模型,让AI代替人去“思考”,达成图像识别、检测、分析、研判、结论的全链路闭环,最终为用户自动选择出最优处理方案。“智能高清滤镜”的智能研判主要基于精准的图像感知,通过深度学习模型,进行图像特征获取,感知到图像特征并对应进行图像处理,应对各种复杂文档,达成场景化的决策效果。

古彝文“大字典”的面世,并非合合信息在传统文化保护领域的首次尝试。近年来,合合信息在甲骨文、钟鼎文等古文字识别项目中接连实现新的突破。在对甲骨文、钟鼎文的处理过程中,合合信息通过智能图像处理技术解决了曲面、模糊、阴影、非常规文字影响下的识别难题,也为古彝文的数字化奠定了实践基础。

技术融合焕新传统文化

相较于甲骨文和金文,因年代久远、字形复杂,古彝文识别挑战更大,也更具备世俗意义:甲骨文和金文从某种意义上说都属于消亡类文字,但古彝文至今依旧保留了古代固有形制,在中国大西南地区仍有应用。古彝文的数字化不仅作用于民族文化记忆的留存,也能通过互联网及各大知识平台,让广大人民认识、理解这一悠久、优美的语言,创造有底蕴、有故事的民族文化活动,让传统文化焕发新的生命力。

古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑曾在项目启动时表示,“传统也和人一样有生老病死的过程,并和人一样有通过后代延续生命的能力。我们一起为之努力的数字化,可能是彝文古籍的‘传统的新生命周期’的开始”。

伴随着小康社会的发展,国家对于传统文化保护、传承的重视程度正在不断加强。2022年,中办、国办印发的《关于推进实施国家文化数字化战略的意见》明确提出“中华文化全景呈现,中华文化数字化成果全民共享”的目标,要求强化中华文化数据库数据入库标准。

古彝文编码“大字典”的发布,是校企联合,以数字化手段助力传统文化传承的一次示范。邵文苑认为,古彝文数据库的发布并非一个最终的研究结果,而是一项非常重要的基础性工作。“基础编码的发布,意味着这些文字在数字社会里从此拥有了‘身份证号码’,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究,文化保护还需要全社会的参与。”邵文苑说。

本网站所有内容属北京商报社有限公司,未经许可不得转载。 商报总机:010-64101978 媒体合作:010-64101871

商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市中同律师事务所(010-82011988)

网上有害信息举报  违法和不良信息举报电话:010-84276691 举报邮箱:bjsb@bbtnews.com.cn

ICP备案编号:京ICP备08003726号-1  京公网安备11010502045556号  互联网新闻信息服务许可证11120220001号