殆知阁古代文献藏书2.0版txt文本质量如何

一位研究者在寻找高质量的四大名著文本,用于分析生僻字数量。在殆知阁找到了资源,但发现四库全书文本已转换为简体,且部分特殊字符丢失。讨论了光盘版四库全书中私有区汉字及提取方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近想分析一下四大名著生僻字数量,苦于没有质量好的txt文本。解决方案有两个,一是自己从pdf或epub上提取,二是找txt版本。后来在知乎上知道了殆知阁,不知道这个资料库质量如何?

网上回答:

我下载下来看了,那些没加标点的四库全书文本肯定是从四库全书电子版中提取出来的,因为私有区的汉字两者是一样的。只是文本都转换成简体了,太可惜了。如果能在哪里找到提取方法就好了,一直都好想要里面的文本。只是用按键精灵复制的话,带双行夹注的文本都错乱了。

纯学术探讨。光盘版的《四库全书》造了很多字,对应的是一个个汉字小图片(记忆中是这样),所以提取出来的文本没有这些字。以前unicode不普及,很多字都没造出来,各家造的字编码又不统一,所以输入和显示都成问题,现在好多了

不是图片,光盘版自己造的字总共有三千多个,这些字都在汉字编码的私有区里,用FZKai-Z03或HT_CJK+这两个字体就可以显示,超出这个范围的(一般都在字书里)才用图片。提取出来的文本也要用这两个字体才能完美显示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知识大胖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值