
nosql
追寻北极
没有月亮的晚上,我们相信星光。没有路可走的时候,我们相信远方.--
展开
-
hive2.1.1 部署安装
安装hive 之前,要保证hadoop安装成功,本教程对应的是hadoop版本为2.6.4,hive 版本为 2.1.1,默认情况下,Hive元数据保存在内嵌的 Derby 数据库中,只能允许一个会话连接,只适合简单的测试。为了支持多用户多会话,则需要一个独立的元数据库,我们使用 MySQL 作为元数据库一、下载Hive下载地址:https://mirrors.tuna.tsing转载 2017-10-18 18:29:28 · 351 阅读 · 0 评论 -
hello MemSQL 入门安装示例
MemSQL 号称世界上最快的分布式关系型数据库,兼容MySQL但快30倍,能实现每秒150万次事务hello MemSQL 入门安装示例原创 2014-08-16 15:02:24 · 3018 阅读 · 0 评论 -
NoSQL数据库的分布式算法
原文出处: highlyscalable.wordpress.com 译文出处:juliashine 欢迎分享原创到伯乐头条转载 2014-08-16 22:35:32 · 613 阅读 · 0 评论 -
hello akka入门示例
hello akka入门示例原创 2014-09-09 10:05:57 · 1789 阅读 · 0 评论 -
Tokyo Tyrant(TTServer)介绍和安装 以及配置
Tokyo Cabinet 是日本人Mikio Hirabayashi 开发的一款DBM 数据库,该数据库读写非常快,哈希模式写入100 万条数据只需0.643 秒,读取100 万条数据只需0.773 秒,是Berkeley DB 等DBM 的几倍。Tokyo Tyrant 是由同一作者开发的Tokyo Cabinet 数据库网络接口。它拥有Memcached兼容协议,也可以通过HTTP 协议转载 2014-08-25 16:42:52 · 1338 阅读 · 0 评论 -
MongoDB使用过程中存在的问题
最近由于项目需要,使用了MongoDB存储数据。坦率的说,挺让人失望的,当然,不排除对MongoDB不太熟悉的原因。但总的说来,感觉名不副实,想让大家喜欢并接受,MongoDB还有很长的路要走。简单说一下碰到的问题:1. 非常耗内存。貌似这点很多人都抱怨过。因为MongoDB采用的是内存映射文件的方式存数据,所以特别吃内存,更郁闷的是,没有办法控制。如果MongoDB运行在一台专门转载 2014-08-11 15:08:35 · 917 阅读 · 0 评论 -
好博文汇总
http://blog.youkuaiyun.com/zhangzhaokun/article/details/8437230原创 2014-08-24 12:54:56 · 597 阅读 · 0 评论 -
LevelDB关键实现图解
转载:http://www.wzxue.com/leveldb%E5%9B%BE%E8%A7%A3/转载 2014-08-24 13:06:20 · 878 阅读 · 0 评论 -
LevelDB性能测试
最近工作需要找一个能使用磁盘存储数据,对写要求比较苛刻,需要每秒达100000TPS,读的时候需要能10000TPS左右,不能占用太多内存。单节点满足这个要求的常见有Redis、Memcached等,但是这个东西太费内存了,代价比较高,不太合适。找来找去,找到Leveldb这个神器了,在写的时候对内存要求不高,读的时候根据性能要求的不同需要对应的内存,如果使用SSD就是完美搭配了。转载 2014-08-24 12:41:59 · 6351 阅读 · 0 评论 -
spring rabbitTemplate消息DeliveryMode设置
在用spring和rabbitmq整合 对message的DeliveryMode的设置有两种方式一,在发送消息的时候设置DeliveryMode1,生产者调用rabbimqTemplate发送消息的时候,调用接口 public Message sendAndReceive(final String exchange, final String routingKey, final Me原创 2014-09-20 09:04:19 · 16844 阅读 · 0 评论 -
leveldb实现原理
LevelDb日知录之一:LevelDb 101 说起LevelDb也许您不清楚,但是如果作为IT工程师,不知道下面两位大神级别的工程师,那您的领导估计会Hold不住了:Jeff Dean和Sanjay Ghemawat。这两位是Google公司重量级的工程师,为数甚少的Google Fellow之二。 Jeff Dean其人:http://research.google.co转载 2014-08-24 13:10:26 · 655 阅读 · 0 评论 -
开源mq比较汇总
Kafka:scala 分布式消息服务.用于日志处理的分布式消息队列,特点,日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为以及系统运行日志。天生分布式。kafka同时支持离线和在线日志处理。消息必须先持久化,然后按顺序消费。仅支持topic.kafka以topic来进行消息管理,每个topic包含多个part(ition),每个part对应一个逻辑log,有多个segment组成.原创 2014-08-11 09:41:35 · 5367 阅读 · 0 评论 -
国内开源的比较不错的消息队列mq
METAQ是一款完全的队列模型消息中间件,服务器使用Java语言编写,可在多种软硬件平台上部署。客户端支持Java、C++编程语言。单台服务器可支持1万以上个消息队列,通过扩容服务器,队列数几乎可任意横向扩展。每个队列都是持久化、长度无限(取决于磁盘空间大小)、并且可从队列任意位置开始消费。 主要应用于异步解耦,Mysql数据复制,收集日志等场景http://metaq.taobao.org/HT原创 2014-08-11 10:37:58 · 5004 阅读 · 0 评论 -
用MongoDB实现MapReduce(翻译)
MapReduce 是 Google 在 2004 年发布的一个软件框架,用于支持大规模数据的分布式计算,详情请看这里。MongoDB 是一个开源的面向文档的 NoSQL 数据库系统,使用 C++ 编写,详情请看这里。1. 安装 MangoDB首先请按照官方这个文档安装 MongoDB 数据库,在本文中,我们是在 Mac OS X 下安装并测试无误。我使用 sudo port in转载 2013-12-26 14:49:31 · 846 阅读 · 0 评论 -
memcached命令行参数说明
1、启动Memcache 常用参数-p 设置TCP端口号(默认不设置为: 11211)-U UDP监听端口(默认: 11211, 0 时关闭) -l 绑定地址(默认:所有都允许,无论内外网或者本机更换IP,有安全隐患,若设置为127.0.0.1就只能本机访问)-d 以daemon方式运行-u转载 2014-09-23 16:13:00 · 725 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma转载 2014-11-26 09:35:22 · 565 阅读 · 0 评论 -
centos7 elasticsearch 安装kaka-river 报错 "java.security.InvalidAlgorithmParameterException"
1,安装报错如下[hadoop@Slave1 elasticsearch1.7]$ bin/plugin -install kafka-river -url https://github.com/mariamhakobyan/elasticsearch-river-kafka/releases/download/v1.2.1/elasticsearch-river-kafka-1.2.原创 2016-07-04 17:06:48 · 1707 阅读 · 0 评论 -
HDFS 原理、架构与特性介绍
本文主要讲述 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制1:当前HDFS架构详尽分析HDFS架构1、NameNode2、DataNode3、Sencondary NameNode数据存储细节NameNode 目录结构Namenode 的目录结构: ${ dfs转载 2016-01-22 11:48:00 · 622 阅读 · 0 评论 -
flume-ng+Kafka+Storm+HDFS 实时系统组合
大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章:1.一个好的项目架构应该具备什么特点?2.本项目架构是如何保证数据准确性的?转载 2016-01-22 11:44:44 · 800 阅读 · 0 评论 -
详解Hadoop核心架构HDFS+MapReduce+Hbase+Hive
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。如有不足,后续及时修改转载 2016-01-22 11:25:43 · 903 阅读 · 0 评论 -
有效选择七个关于Java的JSON开源类库
April 4, 2014 By Constantin Marian Alin翻译:无若 (英语原文:http://www.developer.com/lang/jscript/top-7-open-source-json-binding-providers-available-today.html) 简介JSON是JavaScript Object Notatio转载 2015-10-20 11:07:51 · 726 阅读 · 0 评论 -
neo4j介绍
http://www.searchtb.com/tag/neo4j原创 2015-06-27 16:46:19 · 961 阅读 · 0 评论 -
NoSQL系列:选择合适的数据库
内容目录:为什么使用NoSQL数据库?键值数据库文档数据库列族数据库图数据库附思维导图参考NoSQL系列:选择合适的数据库为什么使用NoSQL数据库?阻抗失衡 关系模型和内存中的数据结构不匹配 采用更为方便的数据交互方式提升开发效率待处理的数据量很大 数据量超过关系型数据库的承载能力 大集群的出现 在成本方面,集群中应用关系数据库转载 2015-06-27 16:27:36 · 841 阅读 · 0 评论 -
mogodb总体介绍还不错
【摘要】当今已进入大数据时代,特别是大规模互联网web2.0应用不断发展及云计算所需要的海量存储和海量计算发展,传统的关系型数据库已无法满足这方面的需求。随着NoSQL数据库的不断发展和成熟,可以较好地解决海量存储和海量计算方面的应用需求。本文重点描述作为NoSQL之一MongoDB数据库在海量数据存储方面的应用。1 引言NoSQL,全称是“Not Only Sql”,指的是非关系转载 2015-05-19 16:33:56 · 977 阅读 · 0 评论 -
Solr学习总结-附加功能
找到与查询结果相似的文档:http://localhost:8983/solr/select?q=name:edition&mlt=true&mlt.fl=name&mlt.mintf=1&mlt.mindf=1mlt.fl:按照结果文档的哪一个field求相似。mlt.mintf:结果文档中的本field的某一个词出现的tf大于此值,才以此词求相似。m转载 2015-04-01 15:45:19 · 733 阅读 · 0 评论 -
大数据分析架构中需要权衡的四个因素
通过提供对更广泛信息集的访问,大数据就可以为数据分析师和业务用户产生分析见解提供一臂之力。成功的大数据分析应用程序会揭示某些趋势和模式,以此来为决策制定提供更好的服务,并会指出新的创收机会和让企业领先于他们的商业竞争对手的方法。但首先,企业往往需要增强他们现有的IT基础设施建设以及数据管理流程以支持大数据架构的规模和复杂性。 Hadoop系统和NoSQL数据库已经成为管理大数据环境的重要转载 2014-11-24 11:56:23 · 838 阅读 · 0 评论 -
scribe、chukwa、kafka、flume日志系统对比
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。本文从设转载 2014-11-26 10:06:00 · 1083 阅读 · 0 评论 -
Hbase原理、基本概念、基本架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服转载 2014-11-25 11:00:39 · 687 阅读 · 0 评论 -
大数据笔记
大数据处理点滴笔记一般来说,根据数量级,两千万以内用MySQL, 两千万以上用Mongodb ,亿级别的用Hadoop。几十亿的数据hbase.用来做统计,Mongodb还是有一定的优势-----------------------------------------------------------------------------------------------------原创 2014-05-30 09:27:40 · 772 阅读 · 0 评论 -
HBase Java简单示例
Hbase采用Java实现,原生客户端也是Java实现,其他语言需要通过thritf接口服务间接访问Hbase的数据。Hbase作为大数据存储数据库,其写能力非常强,加上Hbase本身就脱胎于Hadoop故和Hadoop的兼容性极好,非常适合于存储半规则数据(灵活、可扩展性强、大数据存储)。基于Hadoop的mapreduce + Hbase存储,非常适合处理大数据。Hbase基本使用示例转载 2013-12-27 17:15:01 · 1084 阅读 · 0 评论 -
大交易数据简单介绍汇总
大交易数据(企业) 大交互数据(SNS)nosql需求背景高并发读写海量数据的高效存储和访问高扩展高可用大数据特征1,数据量巨大,2,数据多样性,3,数据实时性高扩展性和高可用性关系数据库存在的问题:1,面对高并发的读写需求,数据库压力巨大,硬盘IO无法承受2,面对海量的数据,数据库存储记录数有限,sql查询效率低下3,横向扩展艰难,无法通过快速增加服务原创 2013-12-23 16:13:39 · 1153 阅读 · 0 评论 -
mongodb功能简介
1,nosql数据库是什么非关系型数据库,主要用于社区web2.0网站主要解决:a,对数据库高并发的需求b,对海量数据的高效存储和访问需求c,对数据库高可用性和高扩展性的需求2,CAP理论一致性C 可用性A 分区容忍性P一个分布式系统最多满足两个CA传统数据库AP key-value数据库因此mongodb不能解决a,数据库事物一致性要求b,数据原创 2013-12-26 10:58:56 · 792 阅读 · 0 评论 -
mapreduce概念介绍
MapReduceMapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。对科班出生的程序员来说,最好的例子莫过于归并排序的例子,没错,归并排序流程就可以看作是一个MapReduce,只是我们在学校写过的归并排序程序可能还没有涉及到原创 2013-12-26 15:02:20 · 959 阅读 · 0 评论 -
mongodb简单介绍以及使用整理1
mongodb介绍:1,Mongodb一个基于分布式文件存储的数据库,由c++编写,旨在为web应用提供可扩展的高性能的存储解决方案2,一个介于关系数据库和非关系数据库之间的产品,是非关系型数据库中功能最丰富,最像关系数据库的产品3,它支持的数据结构非常松散,是类似json的 bson格式,因此可以存储比较复杂的数据类型4,支持的查询语言强大,语法类似面向对象的查询语言,几乎可以支原创 2013-12-23 17:10:24 · 747 阅读 · 0 评论 -
非结构化数据介绍
非结构化数据包括文本、图像、音频、视频、PDF、电子表格等。非结构化数据存储通常有两种方式:1. 将非结构化数据以文件的方式存储在文件系统中,同时将指向文件的链接或路径存储在数据库表中。这种方式数据读写的速度较快,但数据管理不方便,并需要额外考虑事务处理的一致性和数据的安全性。2. 将非结构化数据存储在传统的数据库表的大对象字段中。这种方式充分利用数据库的事务、管理和安全特性,但在数据转载 2014-01-07 14:42:28 · 4470 阅读 · 0 评论 -
MapReduce的模式、算法和用例
本文英文原文发表于知名技术博客《Highly Scalable Blog》,由@juliashine 进行翻译投稿。感谢译者的共享精神!译者介绍:Juliashine是多年抓娃工程师,现工作方向是海量数据处理与分析,关注Hadoop与NoSQL生态体系。英文原文:《MapReduce Patterns, Algorithms, and Use Cases》译文地址:《MapRedu转载 2014-01-03 14:12:21 · 745 阅读 · 0 评论 -
五大主流数据库模型
导读:无论是关系型数据库还是非关系型数据库,都是某种数据模型的实现。本文将为大家简要介绍5种常见的数据模型,让我们来追本溯源,窥探现在流行的数据库解决方案背后的神秘世界。什么是数据模型?访问数据库中的数据取决于数据库实现的数据模型。数据模型会影响客户端通过API对数据的操作。不同的数据模型可能会提供或多或少的功能。一般而言,数据模型不会直接提供过多的功能,许多功能必须由客户端自行实现。转载 2014-01-03 15:58:30 · 861 阅读 · 0 评论 -
浅析列式数据库的特点
最早的商业列式数据库是在1995年发布的Sybase IQ,但是一直到1999年左右才慢慢稳定到能够投入生产环境。现在的大多数分析型数据库都是在2003-2005年从Postgresql分支出来的。这篇文章解释介绍列式数据库的几大特点。1.高效的储存空间利用率传统的行式数据库由于每个列的长度不一,为了预防更新的时候不至于出现一行数据跳到另一个block上去,所以往往会预留一些空间。而面向列转载 2014-01-03 16:02:28 · 1954 阅读 · 0 评论 -
NoSQL开篇——为什么要使用NoSQL
【编者按】NoSQL在2010年风生水起,大大小小的Web站点在追求高性能高可靠性方面,不由自主都选择了NoSQL技术作为优先考虑的方面。今年伊始,InfoQ中文站有幸邀请到凤凰网的孙立先生,为大家分享他之于NoSQL方面的经验和体会。非常荣幸能受邀在InfoQ开辟这样一个关于NoSQL的专栏,InfoQ是我非常尊重的一家技术媒体,同时我也希望借助InfoQ,在国内推动NoSQL的发展,希转载 2014-01-03 14:07:37 · 722 阅读 · 0 评论 -
列存储介绍
数据库以行、列的二维表的形式存储数据,但是却以一维字符串的方式存储,例如以下的一个表:EmpIdLastnameFirstnameSalary1SmithJoe400002JonesMary500003JohnsonCathy44000这个简单的表包括员工代码(Emp转载 2014-01-03 16:06:54 · 630 阅读 · 0 评论