
爬虫
文章平均质量分 59
wa2003
这个作者很懒,什么都没留下…
展开
-
用R语言的RCurl和正则表达式爬团购网的旅游团购数据
用R里的包Rcurl,代码如下 url='http://beijing.lashou.com/travel/menpiao' # web=readLines(url,encoding='UTF-8'); #逐行读取网页源文件 head(web,10); goods_name head(goods_name,1) [1] "【马驹桥】皕富园农场" goods_name",go原创 2015-04-28 21:53:05 · 1214 阅读 · 0 评论 -
【学习】Hadoop、爬虫和Elasticsearch的企业级应用
一、Hadoop生态系统 Hadoop利用大量廉价的计算机,提供了一个可扩展强,可靠性高的机制;并利用廉价的方式来存储大量数据。Hadoop把任务分成任务片,分布在数千台计算机上,从而进行快速分析,并分布式存储大量的数据。Hadoop还提供了新的和改进的分析技术,从而使大量结构化数据的复杂分析变为可能。 Hadoop的数据进行分布式存储;在集群上备份多份数据,从而来提高可靠性和实用性;数据在哪原创 2015-08-18 09:58:49 · 2882 阅读 · 0 评论