合合信息发布首个古彝文基础编码“大字典”，用AI“抢救”濒危语言

2023-09-27 13:23:00 来源：搜狐

小大

少数民族的文字是文化遗产宝库中的重要内容，也是民族文化的重要载体。近期，合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库，该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进，针对现有的《西南彝志》、云贵一带字符，以智能图像处理、智能文字识别等AI技术开展统一编码，并于近期发布了业内首个古彝文基础编码数据库（简称“数据库”）。

“古彝文”专指在民间流通使用的原生态彝文。根据《滇川黔桂彝文字集》，古彝文多达87046字，比《康熙字典》（47035字）还要多。在目前发现的彝文古籍中，《西南彝志》是其中字数最多、篇幅最长、体量最大、内容最丰富的巨著，有“彝族古代百科全书”之誉。古彝文作为一门濒临消亡的语言，其典籍的数字化之路也面临着巨大的挑战。

数据库项目技术负责人、华南理工大学电子与信息学院教授金连文提到，原生态彝文此前没有被系统性地进行数字化编码，古彝文没有公开数据集，标注困难，异体字繁多，每个字的异体写法少则两三种，多则几十种，且字体间风格差异大。因此，建立一个专门的数据库，通过基础编号将不同样式归纳，才能“破解”古彝文“一对多”的关系，解决文字查询问题。

在对7万6千字符的样本进行训练后，团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式，该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法，如同“大字典”一般，帮助人们降低古彝文书籍、文献阅读的门槛。

古彝文字符多样性无统一规范样式，数据库查询编码：09460502

（图源：滇川黔桂彝文字集）

“古彝文数据库的发布并非一个最终的研究结果，而是一项非常重要的基础性工作。”古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示，基础编码的发布，意味着这些文字在数字社会里从此拥有了“身份证号码”，能够被更多地展现在网络空间上，被更广泛的人群看见、认识、研究。“文化保护也需要全社会的参与。语言文明是历史留给人类的宝贵财富，承载着过去的民族记忆，也终将成为当下和未来的创新之源。”邵文苑说。

为了推进古彝文“大字典”项目的顺利进行，在收集语料收集的过程中，研究人员通过合合信息旗下扫描全能王“智能高清滤镜”功能，高效解决古彝文识别的版式检测、图像处理和文字识别等难题，对于污渍、残破的彝文古籍，只需用“智能高清滤镜”轻轻一扫，即可得到一张清晰、平整的图片。

扫描全能王“智能高清滤镜”古籍扫描效果（图源：西南彝志）

“智能高清滤镜”通过算法大模型，让AI代替人去“思考”，达成图像识别、检测、分析、研判、结论的全链路闭环，最终为用户自动选择出最优处理方案。“智能高清滤镜”的智能研判主要基于精准的图像感知，通过深度学习模型，进行图像特征获取，感知到图像特征并对应进行图像处理，应对各种复杂文档，达成场景化的决策效果。

目前，全球已有多家技术厂商、机构采用AI技术助力古籍保护，例如北京大学等高校联合字节跳动等科技公司发起的“识典古籍”项目，阿里巴巴与四川大学等高校、机构发起“汉典重光”项目。龙泉寺用基于深度学习的单字识别引擎进行《六十华严》的大藏经版本的电子化，也引起了社会广泛关注。数字化技术，已经成为文化保护与传承的新途径，让更多优秀文明成果被看见，助力传统的民族文化焕发新的生命力。图片由合合信息提供授权使用

责任编辑：kj005

文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com

关键词：

洗碗机爆发在即国产品牌逐渐成为市场主流

金融科技下，金融企业如何保障信息安全

主播雨化田们再接新活，这次让网友们下载的是交管12123APP

深圳看到科技发布Kandao Meeting S 180°超广角智能视频会议机

中华网家电

合合信息发布首个古彝文基础编码“大字典”，用AI“抢救”濒危语言

越野越青春｜大湾区首届溯溪越野挑战赛圆满完赛！

平安健康方蔚豪：企业健管是具有长远发展潜力的蓝海赛道

巨星传奇旗下胶原专家摩肌博士推出魔瓶系列，多维度改善肌肤健康状态

奇瑞捷豹路虎推出豪华中型SUV新作：全新路虎发现运动版

帅丰电器董事长商若云：稳扎稳打，铸就百年企业

重磅发布：中国信通院《2023大模型和AIGC产业图谱》

相关新闻

合合信息发布首个古彝文基础编码“大字典”，用AI“抢救”濒危语言

艾莱依家纺：秋冬之季，领略色彩的时尚潮流与艺术魅力

雅阁璞邸酒店3.0亮相宜昌，实力登顶网红热搜满房连连

汇聚金融力量共创美好生活|民生保险广东分公司开展金融消费者权益保护“五进入”集中宣传日活动

在AI的风口上，百度营销如何助力企业抢占先机？

MICE+酒店：CP联手，如何抢占新商旅时代战略高地?

中国乡村带头人访韩再“取经” 三星“分享村庄”迈入产业融合振兴新阶段

2023宁波网球公开赛正赛持续发力王曦雨发球速度达207km/h

东古调味中秋献礼《月光照亮的地方》走心诠释团圆滋味

见微知著·固本创新│理光工程投影机代理商大会圆满召开！

家电推荐

家电图片

揭秘实体制造业“好伴侣”，行业独角兽跨越速运的崛起之路

中华慈善日，联盛药业北京、贵州、江西三地携手公益行

就今晚！姿美堂99大促抢购开启，超值爆款美丽价到，囤1次美1年~

“一人饮酒”不如“双向奔赴”，揭秘IP营销背后的魔力

新闻排行

从“小树苗”到“大森林” 成都...

探索新赛道哪个领域能成为家电...

2021年全球TV出货下降6.2% 面板...

巨头争相布局全屋智能市场向AI...

Mini LED市场不及预期产业陷...

海南省市场监管局抽查10批次快热...

智能化开辟产品创新边界智能坐...

中国制造主导高端冰箱进入新一...

苹果或正开发Apple Music新功能...

欧洲智能手机2021年“现状”：三...