
数据挖掘
chszs
这个作者很懒,什么都没留下…
展开
-
章一 导论(1)
章一 导论由于人们认知能力的有限性,海量信息在给人们带来方便的同时也带来了一大堆的问题。第一是信息超载,难以消化;第二是有效信息难以提取,真假信息难以辨识;第三是信息安全难以保证,有意或无意的行为经常会威胁到信息的安全;第四是信息形式不一致,既有结构化的信息,也有非结构化的信息,难以统一处理。普通的数据库系统虽然可以高效地实现数据的录入、查询、统计和维护等功能,并可以对数据做一些简单分析处理,原创 2007-01-24 00:34:00 · 2337 阅读 · 0 评论 -
MySQL存储过程使用表名做参数
MySQL存储过程使用表名做参数动态创建表的例子。原创 2010-08-17 15:35:00 · 11473 阅读 · 2 评论 -
用R读取PDF并进行数据挖掘
用R读取PDF并进行数据挖掘,例子如下:# here is a pdf for miningurl <- "http://www.noisyroom.net/blog/RomneySpeech072912.pdf"dest <- tempfile(fileext = ".pdf")download.file(url, dest, mode = "wb")# set path to pdf原创 2012-10-01 12:28:28 · 10989 阅读 · 0 评论 -
Apache Lucene 4.0今日发布
经过了三年的开发努力,Apache Lucene 4.0终于发布了。Apache Lucene是一个高性能,全功能的文本搜索引擎库,完全用Java编写的。这是一个技术适用于几乎任何需要全文搜索,特别是跨平台的应用程序。Apache Lucene 4.0版的亮点:1. 索引格式支持条目、邮件列表、数据库存储的字段、条目矢量等格式,通过编码器API实现了可插拔。可以选择或自定义索引格式。2. 矢量空间原创 2012-10-13 10:33:58 · 2651 阅读 · 1 评论 -
Apache Solr 4.0今日发布
经过了三年的开发努力,Apache Solr Server 4.0终于发布了。Apache Solr是流行的,速度极快,开源的NoSQL的搜索平台,来自于Apache Lucene项目。它的主要功能包括强大的全文搜索,命中高亮显示、面搜索、动态集群、数据库集成、丰富的文档和地理信息搜索。Solr是高度可扩展的、提供了分布式搜索和索引的容错功能,强大的搜索和导航功能等。Apache Solr 4.0原创 2012-10-13 10:45:56 · 2966 阅读 · 0 评论 -
数据清洗工具OpenRefine
数据清洗工具OpenRefine作者:chszs,转载需注明。博客主页:http://blog.youkuaiyun.com/chszs数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。一、介绍OpenRefine我们来看一个残酷的现实:你的数据是杂乱无章的。错误会散步到你的大数据集中,无论你有多么细心,错原创 2014-02-27 13:39:31 · 37656 阅读 · 0 评论 -
数据湖
数据湖2018.2.21版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。我们生活在数据时代,根据Gartner的报告,全球信息数据量每年以59%的速度递增。管理海量数据是一个重大挑战,数据的品种和增长速度使管理变得更加困难。而且非常明显的是,越来越巨量的数据随着时间在继续生成,特别是在手持设备和互联网连接设备数量的指数增长的背景下。对于参与其中的组织来说,这是事实...原创 2018-02-22 19:15:00 · 2332 阅读 · 0 评论