
nosql
事后诸葛亮
深入浅出!
展开
-
第1周 进入NoSQL世界;NoSQL与SQL的战争
关系数据库的弱点:很难进行分布式部署,I/O瓶颈显著。依赖于强大的服务器,需要花更大代价才可以突破性能极限难以处理非结构化数据all-in-onenosql数据库家族:键值(key-value)数据库。如,redis、memcached面向文档的数据库。如,mongodb面向列的数据库。如,hbase、cassandra面向图的数据库。如,neo4j原创 2013-12-10 16:37:02 · 1273 阅读 · 2 评论 -
第9周 Mongodb数据库高可用,分布式集群部署
mongodb管理#启动MongoDB[root@linux bin]# ./mongod -f /nosql/mongodb/mongodb/bin/mongodb.confforked process: 3104[root@linux bin]# all output going to: /nosql/mongodb/mongodb/log/mongodb.log[ro原创 2013-12-25 15:50:53 · 1805 阅读 · 0 评论 -
第10周 Mongodb的GridFS与分片
GridFSGridFS是一种将大型文件存储在MongoDB的文件规范。 GridFS 规范提供了一种透明的机制,可以将一个大文件分割成为多个较小的文档。这将容许我们有效的保存大的文件对象,特别对于那些巨大的文件,比如视频。 用于在数据库里存储二进制大文件可以统一用数据库处理数据,而无需借助外部的文件系统可以利用MongoDB的复制或分片机制,故障恢复和可扩展性较好原创 2013-12-26 18:06:29 · 4077 阅读 · 0 评论 -
第11周 海量数据与列式数据库Cassandra
CassandraCassandra的含义由Facebook开发,后被捐献给Apache基金会,成为开源软件以Amazon Dynamo为最初的模仿对象,结合Google Big Table基于列族的数据模型,可以称为Dynamo 2.0支持无中心的分布式设计,不存在单点问题,所有节点功能完全一样在不间断服务的情况下可弹性扩展或收缩规模高可用,支持热替换故障原创 2013-12-26 18:07:09 · 2048 阅读 · 1 评论 -
第5周 Map-Reduce编程实战,eclipse与Hadoop集群连接
Eclipse的Hadoop插件参考:http://blog.youkuaiyun.com/cybercode/article/details/7084603http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlwin7下安装hadoop完成后,接下来就是eclipse hadoop开发环境配置了。具体的操作如下:原创 2014-01-11 00:09:44 · 3151 阅读 · 0 评论 -
第2周 实施Hadoop集群
Hadoop配置有关文件完全分布式模式的安装和配置##配置hosts文件 (所有节点都要做)[root@hadoop1 hadoop-0.20.2]# cat /etc/hosts# Do not remove the following line, or various programs# that require network functionality原创 2014-01-09 16:25:51 · 1994 阅读 · 0 评论 -
第4周 Map-Reduce体系架构
Map-Reduce编程模型ncdc气象数据下载:ftp://ftp.ncdc.noaa.gov/pub/data/gsod/ 数据中每一行就是一个时间点采集的温度信息,现在要分析一年中的最高温度。##MapperMap-reduce的思想就是“分而治之”Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”执行“简单的任务”有几个含义:1 数据原创 2014-01-11 00:08:13 · 1714 阅读 · 0 评论 -
第7周 HBase集群安装,管理
Hbase安装:单机模式#下载及解压hbase安装包http://download.youkuaiyun.com/detail/woshigeshou123/5452389#修改conf/hbase-env.sh脚本,设置环境变量[root@hadoop1 hbae]# tar zxf hbase-0.90.5.tar.gz[root@hadoop1 hbae]# cd hba原创 2014-01-13 18:09:52 · 1012 阅读 · 0 评论 -
第6周 Hadoop子项目与Hbase
Hadoop家族PigHadoop客户端使用类似于SQL的面向数据流的语言Pig LatinPig Latin可以完成排序,过滤,求和,聚组,关联等操作,可以支持自定义函数Pig自动把Pig Latin映射为Map-Reduce作业上传到集群运行,减少用户编写Java程序的苦恼三种运行方式:Grunt shell,脚本方式,嵌入式Hbase原创 2014-01-13 18:08:28 · 2444 阅读 · 0 评论 -
第9周 Hive体系架构、安装与HiveQL,应用案例
Hadoop流##wordcount的例子bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar -input input -output output -mapper /bin/cat -reducer /usr/bin/wc注意,命令一定要写完整的路径Hive 简介数据仓库工具。可以把H原创 2014-01-15 10:36:04 · 1654 阅读 · 0 评论 -
第10周 hadoop与关系型数据库交换数据
SqoopSQL-to-HDFS工具利用JDBC连接关系型数据库Sqoop的获取Hadoop-0.20.2下使用SqoopSQOOP不支持此版本,可使用CDH3。也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。CDH3和SQOOP 1.2.0的下载地址http://archive.cloudera.com/cd原创 2014-01-15 10:36:58 · 3653 阅读 · 0 评论 -
第3周 分布式文件系统HDFS原理与操作
Hello, World!##对刚安装好的hadoop集群做个测试[root@hadoop1 hadoop]# pwd/nosql/hadoop[root@hadoop1 hadoop]# mkdir input[root@hadoop1 hadoop]# cd input/[root@hadoop1 input]# echo "hello word" > test1.tx原创 2014-01-09 16:26:53 · 1357 阅读 · 1 评论 -
第1周 Hadoop的源起与体系介绍
Hadoop的源起——LuceneDoug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎早期发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现原创 2014-01-09 16:24:10 · 1754 阅读 · 0 评论 -
第2周 简单而有效的键值型内存数据库memcached
memcached 是一个键值型的内存数据库。http://www.memcached.org/http://www.memcached.org/files/memcached-1.4.16.tar.gzmemcached的特点:全内存运转哈希方式存储简单文本协议进行数据通信只操作字符型数据其它类型数据由应用解释,序列化以及反序列化集群也由应用进行控制,原创 2013-12-10 14:39:09 · 3090 阅读 · 1 评论 -
第3周 能承受海量压力的键值型数据库Redis
memcached 的缺点纯内存操作,关机后数据全部丢失保存字节数据,数据类型贫乏LRU算法导致数据不可控的丢失一致性处理简单应用端太厚,服务器端太薄应用场景有限,难以被看成是完整的数据库产品redis 的特点:内存+硬盘的持久化保存具有非常丰富的数据类型,尤其擅长数组类数据的高速度处理数据快照自带的主从复制丰富的数据原创 2013-12-12 17:44:22 · 3311 阅读 · 0 评论 -
第4周 Redis使用场景与案例分析
redis的主从复制:在前一节我们已经实践启动了一个redis服务,我们将其作为主机,现为其创建一个从机作备份使用 1.复制一份配置出来为从机所用[root@linux etc]# pwd/nosql/redis/redis/etc[root@linux etc]# cp redis.conf redis_slave.conf[root@linux et原创 2013-12-13 17:40:36 · 13877 阅读 · 2 评论 -
第5周 Redis部署,高可用与分布式集群部署
redis 的持久化:快照(snapshot):特定时间、特定命令、特定条件来触发,把某一时刻在内存中的数据全部写出到硬盘当中去。快照的时间不是实时的,可能会有数据的丢失。在宕机之后,会把全部dump文件中的数据读入到内存中,会I/O密集。AOF(append only file):每一次更新都会记录日志。日志文件是在快照的基础上来写的。(在AOF这里的“快照”跟上原创 2013-12-16 18:21:25 · 12486 阅读 · 0 评论 -
第13周 面向图的数据库Neo4J部署与使用
Neo4J介绍 图数据库的需求能以明显直观的方式存放图数据,而不是扭曲变化为别的替代方式能简单地进行图操作,例如寻路,遍历等图数据库的基本思想图(Graph)由节点(node,顶点)和关系(relationship,边)组成图在节点上记录数据(节点的属性,property)节点由关系组织成图,关系也具有属性寻路(Traversal,另一意思是遍历原创 2013-12-31 16:55:37 · 7639 阅读 · 0 评论 -
第12周 Cassandra集群配置
集群配置cassandra的安装在前面已经记录过了,可以参考:http://blog.youkuaiyun.com/zq9017197/article/details/17588581现在假设已经在两台服务器上分别安装好了cassandra。##在节点1修改配置文件conf/cassandra.yamlcluster_name: 'Cluster01'num_tokens: 256原创 2013-12-31 16:54:41 · 1958 阅读 · 0 评论 -
第6周 处理非结构化数据的利器Mongodb
mongodb:面向文档的nosqlmongodb官网:http://www.mongodb.org/10gen官网:http://www.mongodb.com/面向文档的存储引擎,可以方便的支持非结构化数据全面的索引支持,可以在任意属性上建立索引数据库本身内置的复制与高可用数据库本身支持的自动分片集群丰富的基于文档的查询功能原子化的数据操作非结构原创 2013-12-23 13:14:26 · 3873 阅读 · 0 评论 -
第7周 Mongodb的部署,数据操作
基本增删改查:#添加文档db.foo.insert({"bar":"baz"});db.foo.insert({"name":"ing"});#查询文档db.foo.find();#删除全部文档(清空集合)db.foo.remove();#删除指定记录db.foo.remove({"bar":"baz"});替换文档> db.foo.remove()原创 2013-12-24 11:47:45 · 895 阅读 · 2 评论 -
java操作redis
java操作redis:参考:http://blog.youkuaiyun.com/vv_demon/article/details/7676415 java调用你需要下载jedis.jar包 下载网址:https://github.com/xetorthio/jedis/downloadspackage test.redis;import redis.clients.jedis原创 2013-12-23 15:43:30 · 2628 阅读 · 0 评论 -
第8周 Mongodb的游标,索引,聚合操作与MapReduce
游标for(i=0; idb.c.insert({x : i});}var cursor = db.c.find();while (cursor.hasNext()) {obj = cursor.next();print(obj.x);}#limit和skip> db.c.find().limit(3){ "_id" : ObjectId("52原创 2013-12-24 16:23:17 · 1871 阅读 · 0 评论 -
第8周 Pig安装与Pig Latin语言,应用案例
pig 简介Pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作Pig方便不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语言pig latin进行数据处理Pig latin可以进行排序、过滤、求和、分组、关联等常用操作,还可以自定义函数,这是一种面向数据分析处理的轻量级脚本语言Pig可以看做是pig latin到map-原创 2014-01-15 10:33:55 · 2505 阅读 · 0 评论