金磊 贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI
阿里达摩院,一个正儿八经搞AI的地方。
但偏偏“扫地僧”们干起了文绉绉的工作:
研究古籍。
他们将流散海外的珍贵古籍善本以数字化的形式请回故土。
第一批达20万页。

△宋百家诗存
当理科生干起了专业文科生的工作,会擦出怎样的火花?
古籍为何“出海”,又如何“回来”?
关于这个故事,很精彩,也很有意义。
古籍为何外流?
1860年(清咸丰10年),五千年文明古国此刻风雨飘摇。
北有英法联军捣毁圆明园,逼迫中国签下《天津条约》、《北京条约》。

南有太平军进入杭州,
藏有《四库全书》的“南三阁”之一杭州文澜阁,次年毁于战乱。
阁圮而书散,无数经典,从此淹没在历史中。

文澜阁遭遇“灭顶之灾”后,杭州藏书家丁申、丁丙兄弟在逃难途中无意间发现文澜阁《四库全书》残编。
相传,丁式兄弟买包子时,偶尔发现包食物的纸,“皆四库书也”,大惊。
于是他们开始紧急救书,上下打点,四处寻访。
经历这轮战乱,文澜阁本《四库全书》的四分之一被丁氏兄弟抢救,四分之三消散飘零,不知所踪。

直到将近100年后的1950年代,清代曹庭栋辑纂的《宋百家诗存》 (卷七),出现在美国加州大学伯克利分校东亚图书馆。
而这本《宋百家诗存》,正是丢失的文澜阁本《四库全书》之一。
目前有线索可查的,只能明确伯克利东亚图书馆从日本三井文库购得这批古书。


阿里达摩院与四川大学合作,利用AI技术将散失海外的20万页古籍数字化,帮助古籍回归。项目面临古籍文字类别庞大、版式复杂、保存状况各异的挑战,通过聚类数据生产识别和主动学习数据生产识别等机器学习方法,实现高准确率的古籍识别。这一工作对于国家文化传承、学术研究和公众接触传统文化具有重要意义。
最低0.47元/天 解锁文章
153





