阿里的“扫地僧”,2年“抄”了20万页古籍

阿里达摩院与四川大学合作,利用AI技术将散失海外的20万页古籍数字化,帮助古籍回归。项目面临古籍文字类别庞大、版式复杂、保存状况各异的挑战,通过聚类数据生产识别和主动学习数据生产识别等机器学习方法,实现高准确率的古籍识别。这一工作对于国家文化传承、学术研究和公众接触传统文化具有重要意义。
金磊 贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI

阿里达摩院,一个正儿八经搞AI的地方。

但偏偏“扫地僧”们干起了文绉绉的工作:

研究古籍。

他们将流散海外的珍贵古籍善本以数字化的形式请回故土。

第一批达20万页

宋百家诗存

当理科生干起了专业文科生的工作,会擦出怎样的火花?

古籍为何“出海”,又如何“回来”?

关于这个故事,很精彩,也很有意义

古籍为何外流?

1860年(清咸丰10年),五千年文明古国此刻风雨飘摇。

北有英法联军捣毁圆明园,逼迫中国签下《天津条约》、《北京条约》。

南有太平军进入杭州,

藏有《四库全书》的“南三阁”之一杭州文澜阁,次年毁于战乱。

阁圮而书散,无数经典,从此淹没在历史中。

文澜阁遭遇“灭顶之灾”后,杭州藏书家丁申、丁丙兄弟在逃难途中无意间发现文澜阁《四库全书》残编。

相传,丁式兄弟买包子时,偶尔发现包食物的纸,“皆四库书也”,大惊。

于是他们开始紧急救书,上下打点,四处寻访。

经历这轮战乱,文澜阁本《四库全书》的四分之一被丁氏兄弟抢救,四分之三消散飘零,不知所踪。

直到将近100年后的1950年代,清代曹庭栋辑纂的《宋百家诗存》 (卷七),出现在美国加州大学伯克利分校东亚图书馆。

而这本《宋百家诗存》,正是丢失的文澜阁本《四库全书》之一。

目前有线索可查的,只能明确伯克利东亚图书馆从日本三井文库购得这批古书。

伯克利东亚图书馆
评论 50
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值