
文件格式
文章平均质量分 52
xywlzd
这个作者很懒,什么都没留下…
展开
-
MS-PPT 文件格式概述
MS-PPT 二进制文件格式由 Microsoft Office PowerPoint 2003、Microsoft PowerPoint 2002、Microsoft PowerPoint 2000 和 Microsoft PowerPoint 97 使用。它从当前用户流开始,然后是 PowerPoint 文档流、图片流以及摘要信息、自定义 XML 数据和数字签名的一些可选流。大多数实际内容驻留转载 2012-09-08 15:21:09 · 2306 阅读 · 0 评论 -
ifilter接口的实现
简单介绍一下,具体技术细节以后再详细介绍索引服务对文件进行编录时针对不同类型的文件调用相应的filter,正如打开不同类型的文件需要对应到不同的应用程序一样 windows本身只对有限的几种文件进行编录(txt,doc等),如果需要对某种新类型的文件进行编录索引则需要注册相应的filter与之相对应 filter是对ifilter接口的实现,IFilter主要有Init G转载 2012-09-20 12:28:10 · 657 阅读 · 0 评论 -
Winnowing算法
在介绍winnowing之前,我们先来了解一下有关copy-detection的知识。copy-detection主要用于检测文件或网页中相同的内容,判定是否存在拷贝、抄袭等行为以及程度。在下面的讨论中,我们将范围缩减到只考虑包含ASCII字符的文件,不考虑图片及视屏等内容。通常情况下,我们认为用于copy-detection的算法应该满足以下要求: 1、无视空白符(Whites转载 2012-09-19 10:37:46 · 8685 阅读 · 4 评论 -
Rabin-Karp算法
Rabin-Karp算法在字符串匹配中其实也不算是很常用,但它的实用性还是不错的,除非你的运气特别差,最坏情况下可能会需要O((n-m)*m)的运行时间(关于n,m的意义请看上篇)。平均情况下,还是比较好的。朴素的字符串匹配算法为什么慢? 因为它太健忘了,前一次匹配的信息其实可以有部分可以应用到后一次匹配中的,而朴素的字符串匹配算法只是简单的把这个信息扔掉,从头再来,因此,浪费了时间。好好的利转载 2012-09-19 12:05:03 · 624 阅读 · 0 评论 -
文本特征提取方法研究
一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化转载 2012-09-14 15:14:05 · 3481 阅读 · 0 评论 -
Tika解析非结构文档处理过程的简单分析
转自:http://flym.iteye.com/blog/723430 http://flym.iteye.com/blog/723558 前缀时间在使用Jackrabbit作非结构化内容的存取,当问到当存取一个word文档时,jackrabbit能不能对word文档里面的内容作全文检索呢。回去查了一下相关的文档,是可以的,而且用的是一个叫Tika的工具。转载 2012-10-01 16:08:50 · 2954 阅读 · 0 评论 -
fread 和 fgets
fgets函数用来从文件中读入字符串。fgets函数的调用形式如下:fgets(str,n,fp);此处,fp是文件指针;str是存放在字符串的起始地址;n是一个int类型变量。函数的功能是从fp所指文件中读入n-1个字符放入str为起始地址的空间内;如果在未读满n-1个字符之时,已读到一个换行符或一个EOF(文件结束标志),则结束本次读操作,读入的字符串中最后包含读到的换行符。因此,原创 2012-09-27 10:20:38 · 501 阅读 · 0 评论 -
函数fgets和fputs、fread和fwrite、fscanf和fprintf用法小结
字符串读写函数fgets和fputs一、读字符串函数fgets函数的功能是从指定的文件中读一个字符串到字符数组中,函数调用的形式为: fgets(字符数组名,n,文件指针); 其中的n是一个正整数。表示从文件中读出的字符串不超过 n-1个字符。在读入的最后一个字符后加上串结束标志'\0'。例如:fgets(str,n,fp);的意义是从fp所指的文件中读出n-1个字符送入 字符数组str中转载 2012-09-27 10:17:01 · 731 阅读 · 0 评论 -
Unicode、UTF-8、ASCII、GB2312等编码
字符编码知识:Unicode、UTF-8、ASCII、GB2312等编码之间是如何转换的? 字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得字符编码的知识。不注意的人可能对这个不在意,但这些名词有时候实在让人迷惑,对想学习计算机知识的人来说,搞懂它也十分重要,我也是在学习中慢慢了解了一些这方面的知识。 1. ASCII码 在计算机内部,所有的信息最终转载 2012-09-28 09:39:16 · 646 阅读 · 0 评论 -
C语言中文本文件与二进制文件的区别是什么
一、文本文件与二进制文件的定义 大家都知道计算机的存储在物理上是二进制的,所以文本文件与二进制文件的区别并不是物理上的,而是逻辑上的。这两者只是在编码层次上有差异。 简单来说,文本文件是基于字符编码的文件,常见的编码有ASCII编码,UNICODE编码等等。二进制文件是基于值编码的文件,你可以根据具体应用,指定某个值是什么意思(这样一个过程,可以看作是自定义编码)。转载 2012-09-27 09:10:02 · 2801 阅读 · 0 评论 -
文件格式转换
2010-07-3011:01 此页由Linux Wiki用户Chenxing于2008年3月11日 (星期二)10:45的最后更改。 出自Linux Wiki 在Linux中常常涉及到多种文档格式,如doc、txt、html、rtf等等。为了方便文件传递,就可能需要在各种格式之间进行转换。 OpenOffice.Org可以方便的打开多各文档格式并按需进行转换,但要一次处理大转载 2012-09-08 16:28:09 · 3304 阅读 · 1 评论 -
MS-DOC 文件格式概述
MS-DOC 文件格式概述Microsoft Office Word 2003、Microsoft Word 2002、Microsoft Word 2000 和 Microsoft Word 97 都使用 MS DOC 二进制文件格式作为其默认文件格式。这种文件格式适用于任何具有 .doc 或 .dot 扩展名的文件。 Word 文档中的基本数据单位是字符,它可能包括格式字符和其他不可见转载 2012-09-08 15:17:06 · 5135 阅读 · 0 评论 -
Ifilter
什么是IFilter?IFilter接口由微软设计,便于在索引服务中使用。主要为了从文件抽取文本,从而使索引服务能够索引及搜索。一些版本的windows本身实现了若干Office文件的IFilter接口,也有一些用于其他文件类型---比较流行的Adobe PDF 过滤器---免费和商用的过滤器。IFilter接口主要用于抽取文件的重要部分,像Office文档、PDF文档等非文本文件,但也用于H转载 2012-09-20 12:36:18 · 2525 阅读 · 1 评论