扫描这本书：数字图书馆和搜索技术的版权困境_人类至少已经累计“出版”了3200万册书、7.5亿篇文章、2500万首歌、5亿幅图画、50-优快云博客

本文链接：https://blog.youkuaiyun.com/micro9981/article/details/82187110

随着技术的发展，人类创作的内容数量巨大。为了将这些内容数字化，世界各地的图书馆和公司每年都会扫描大量的书籍。例如，斯坦福大学正在使用先进的机器人技术来加快其藏书的扫描过程，而一些工作则外包给了劳动力成本较低的国家，如中国。此外，版权问题导致大量作品难以获取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从苏美尔人的黏土写字版时代至今，人类至少已经“出版”了3200万本书、7.5亿篇文章、2500万首歌、5亿幅图画、50万部电影、300万个视频短片和电视节目还有1000亿个网页。所有这些东西都分布在世界各地的图书馆和档案馆。当彻底数字化之后，这所有数据可以被压缩到（以目前的技术水平）50P（50,000,000G)字节的硬盘里。

现在世界各地的公司和图书馆每年都要扫描将近一百万本书。光Amazon一家就扫描了几十万本当代图书。位于硅谷中心的斯坦福大学（与谷歌合作的5所图书馆之一就在这里）正在用一家瑞士公司4DigitalBooks的“艺术之都”机器人扫描它的八百万本藏书。这台机器有一辆小型SUV车那么大，它能自动把每本书翻页并且扫描，每小时能扫1000页。只需要一个操作员工把书放到水平支架上，气动机器指会精确地翻开每一页，推动它不断掠过扫描镜头。

　　不过，与其它很多经济全球化的例子一样，这些工作实际在相隔很远的地方同时进行，包括在我们睡觉的时候。我们把扫描工作也外包给了别人。超星，一家位于北京的新兴公司，已经扫描了中国200座各类图书馆中的全部藏书。它已经完成了130万册中文图书的数字化，大约是1949年以来所有中文出版的图书的一半。在斯坦福，每扫描一本书要花去30美元，而在中国只要10美元。

　　卡内基梅隆大学的Raj Redd教授决定要把一个较大规模的英语图书馆搬到一个扫描劳动力便宜的地方。2004年，他从卡内基梅隆图书馆和卡内基图书馆的库藏室借了3万本书，把它们用一个集装箱运到了中国，让中国工人在流水线上对这些图书进行扫描。他把自己的计划称作“百万图书计划”。他打算利用分布在中国和印度的20个扫描站每天扫描出10万页，并且希望两年内总共数字化100万本图书。

在图书领域，不断增加的版权保护年限已经造成了不良影响。它导致大批的作品被出版商遗弃，大批作品就这样被扔到了无底黑洞，不见天日。绝大多数出版商是因为觉得继续出版这些书无利可图，而另一些则根本搞不清楚自己是否拥有它们的版权，因为以前作家的合同并不像现在写得那么明晰。这些被抛弃的图书总数令人震惊：在全球的图书馆中，大约有75%的图书已经成为孤本，只有15%的图书是公共所有的。还算幸运的是，有10%的图书仍然在出版。而其余的大部分图书，已经沦入黑洞。

中文原文地址如下：http://www.donews.com/Content/200605/891ce04f1fbe4df8b895bab3c33e1a4e.shtm

英文原文地址如下：http://www.nytimes.com/2006/05/14/magazine/14publishing.html?ei=5088&en=c07443e36874dbb8&ex=1305259200&partner=rssnyt&emc=rss&pagewanted=all