chapter1
1.1数字文档协议
Adode Photoshop:pdf,psd,jpg,gif,png....
Microsoft Office:xls,doc,docx,xlsx,,vsd...
Firefox,IE,Safari,etc:html,xthml,xml,rdf,rss...
1.1.1一种文件格式分类
MIME(Multipurpose Internet Mail Extensions) 标准
多用途互联网邮件扩展类型
1.1.2解析库
文件格式多
应用程序之间不允许别的程序很容易得到文本内容
替换方法是实现或者使用一种文件格式解析库
java标准库中的java.util.zip 解析库包
1.1.3作为通用的结构化文本
应用要求
XML Html最普遍的使用范围最广的文件格式
程序关注的内容
1.1.4通用的元数据
“data about data”:描述数据的数据,主要是描述数据的属性(property)的信息。
元数据模型
XMP标准(可扩展元数据平台):用于处理和涉及到的文件的内容储存信息的标准。
Property类:提供PropertyType和值类型枚举捕获的元数据的名称和值
metadata类:提供元数据模型的支持,提供各种方法来提取一个文件的内容
N-grams算法支持语言选择
1.1.5理解一切的程序?
search engine
文件>识别文件的格式>选择合适的解析器>提供解析后的原文的数据和解析后的元数据
apache Lucene...
TILL(tag image file format)标签图像文件格式
1.2什么是apache tika
1.2.1一些历史
1.2.2关键设计目标
tika全部的架构
new parsers can be easily added and removed from the framework
统一的parser接口:
低内存占用和快速处理
1.1数字文档协议
Adode Photoshop:pdf,psd,jpg,gif,png....
Microsoft Office:xls,doc,docx,xlsx,,vsd...
Firefox,IE,Safari,etc:html,xthml,xml,rdf,rss...
1.1.1一种文件格式分类
MIME(Multipurpose Internet Mail Extensions) 标准
多用途互联网邮件扩展类型
1.1.2解析库
文件格式多
应用程序之间不允许别的程序很容易得到文本内容
替换方法是实现或者使用一种文件格式解析库
java标准库中的java.util.zip 解析库包
1.1.3作为通用的结构化文本
应用要求
XML Html最普遍的使用范围最广的文件格式
程序关注的内容
1.1.4通用的元数据
“data about data”:描述数据的数据,主要是描述数据的属性(property)的信息。
元数据模型
XMP标准(可扩展元数据平台):用于处理和涉及到的文件的内容储存信息的标准。
Property类:提供PropertyType和值类型枚举捕获的元数据的名称和值
metadata类:提供元数据模型的支持,提供各种方法来提取一个文件的内容
N-grams算法支持语言选择
1.1.5理解一切的程序?
search engine
文件>识别文件的格式>选择合适的解析器>提供解析后的原文的数据和解析后的元数据
apache Lucene...
TILL(tag image file format)标签图像文件格式
1.2什么是apache tika
1.2.1一些历史
1.2.2关键设计目标
tika全部的架构
new parsers can be easily added and removed from the framework
统一的parser接口:
低内存占用和快速处理