大规模文本数据库中的短文分类方法
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是由于短文中的关键词出现次数少,而且带标签的训练样本又通常数
(本文共3页)
阅读全文>>
针对大规模文本数据库中频繁项集挖掘的特殊要求,本文提出了一种新的并行挖掘算法parFIM。parFIM以一种简单的数据结...
(本文共5页)
阅读全文>>
同一对象正式出版发表的思想论著,在社交媒体发布的个人观点,或在其他不同来源渠道发表的承载思想的文字,统称为对象的"话语"。对"话语"的解读是语言...
(本文共3页)
阅读全文>>
中文文本文件的句子中常包含有一些有价值的结构化数据 .本文提出了一种针对中文文本结构化信息的抽取机制 :抽取文本中的匹配模式 ,并将抽取后的匹配模式作为匹配模板放入知识...
(本文共4页)
阅读全文>>
数据去重可删除备份过程中的冗余数据,节约存储资源与与网络带宽,是目前数据存储领域研究的重点问题。针对传统方法去重率和吞吐量低的问题,提出一种新的大型文本数据库中分布式数据去重备份方法。介绍了大型文本数据库中分布式数据...
(本文共6页)
阅读全文>>
本文较全面地统计分析了Dialog系统的全文本数据库,揭示了该系统全文数据库的有关发展...
(本文共5页)
阅读全文>>