识典古籍
访问链接:https://www.shidianguji.com/
2022年10月11日,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。
2023年6月13日,文化和旅游部、北京大学、抖音集团在国家图书馆举行签约仪式。三方将以中华古籍智慧化整理和服务为突破口,共建全国智慧图书馆体系,到2025年底,完成国家图书馆等收藏单位提供的2.5万种古籍的数字化整理,并提供公益性公众阅读服务。
该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别;自动标点技术,是通过序列标注的方式对古籍自动进行标点划分;命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。
平台特点:页面简洁,浏览流畅,提供影印底本作为参照,已实现字典释义、文白对照、繁简转换、文图对照等,降低了公众理解古籍的门槛;用户还可以通过分词检索,快速找到所需古籍内容,提升知识获取效率。
使用介绍:
1、高级检索:可按书名和作者进行检索
2、鼠标放在图标上可见书名、作者和版本信息