
tika
farYang
这个作者很懒,什么都没留下…
展开
-
tika in action之1.1(理解数字文件)
1.1理解数字文件 数字文件及其文件格式的世界就像一个宇宙,当中的每一个都有其自己的语言。大多数程序只是理解他们自身的文件格式和一小部分相关的格式,在1.1章节中所提到的的转换器中,例如当一个程序需要通过另一个程序来读取文件时,通常需要导出模块或者显示插件。 在使用中,存在着有上千个不同类型的文件格式,并且大多数格式都有着不同的版本和语言。例如使用最为广泛的翻译 2016-04-30 23:45:05 · 1055 阅读 · 0 评论 -
tika in action之1.1.1(文件格式的分类)
为了写完成上面所提到的搜索引擎,你必须理解不同的文件格式和自己要存储的文本和资料方法论。第一步要做的是能够识别和区分不同的文件类型。我们不多数人只是了解日常中一些常用文件类型的术语,例如,spreadsheet,webpage,但是这些属于不能够准确地用在计算机程序中。通常,在文件名后缀的结尾处的信息,例如,xls,html这些出现在mac系统和其他进程的文件信息,是用来识别文件的格式。不幸的是,翻译 2016-04-30 23:48:07 · 899 阅读 · 0 评论 -
tika in action之1.1.2(文库分析程序)
为了能够从数字文件中提取信息,你需要理解文件的格式。所编写的程序是为了与这些不同的文件一同工作(Suchunderstanding is built into the applications designed to work with specifickinds of documents.)。例如,微软office主键是用于读写word文档,然而Adobe Acrobat和Acrobat R翻译 2016-04-30 23:50:54 · 1056 阅读 · 0 评论