
云计算
longshenlmj
这个作者很懒,什么都没留下…
展开
-
倒排索引
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。 用途 倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等,用来存储这转载 2013-06-17 17:13:32 · 1107 阅读 · 0 评论 -
redis简单测试用例(内存不足,可以使用redis)
Redis本质上是一个Key-Value类型的内存数据库,很像memcached,听说他的性能远高于memcached,所以想自己搞个玩下。看到底有什么好处。在windows下使用redis首先要下载一个。非官方版 http://code.google.com/p/servicestack/wiki/RedisWindowsDownload下载完的Redis文件夹有以下几个文件 re转载 2014-05-16 10:58:23 · 3360 阅读 · 0 评论 -
一个大数据方案:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩、高可用。对大量信息的索引与搜索转载 2014-10-08 11:22:18 · 3371 阅读 · 0 评论 -
Google Dremel 原理 - 如何能3秒分析1PB
摘自:http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dreme转载 2014-10-08 16:42:41 · 1218 阅读 · 0 评论 -
Impala:新一代开源大数据分析引擎
impala架构分析Impala是Cloudera公司主导开发的新型查询系统,提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。那么Impala如何实现大数据的快速转载 2014-10-08 17:22:31 · 2610 阅读 · 0 评论 -
hadoop小知识札记
hadoop实现全局变量: 只读的可以,可修改的不行,只读的可以通过configuration 或者分布式缓存实现。 hadoop做图像处理时,每个map读入一个图片,每个map读入一张图片,然后所有的map还要读取一张全局图片再两张图片一起处理每个map读取一个,会产生太多的map,可以一个map读取多个。但最好,把文件放到HBase中,用MR处理。因为hdfs存大量小原创 2013-12-02 16:29:45 · 1421 阅读 · 0 评论 -
shell命令执行hive脚本(hive交互,hive的shell编程)
Hive执行方式Hive的hql命令执行方式有三种:1、CLI 方式直接执行2、作为字符串通过shell调用hive –e执行(-S开启静默,去掉”OK”,”Time taken”)3、作为独立文件,通过shell调用 hive –f或hive –i执行执行方式1键入“hive”,启动hive的cli交互模式。Set可以查看所有环境设置参数,并可以重设。其他命令如, Use datab原创 2016-01-19 15:15:42 · 60196 阅读 · 4 评论 -
hive分区partition(动态和静态分区混合使用; partition的简介)
分区是hive存放数据的一种方式。将列值作为目录来存放数据,就是一个分区。这样where中给出列值时,只需根据列值直接扫描对应目录下的数据,不扫面其他不关心的分区,快速定位,查询节省大量时间。分动态和静态分区两种动态分区1)不显示的给出分区名,根据列的取值自动建立对应分区(多少种取值,多少种分区),所以需要限制最大分区数: SET hive.exec.dynamic.partition=t原创 2016-05-18 19:41:22 · 13995 阅读 · 0 评论