
大数据存储与处理
取个程序猿的名字
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据存储与处理——Neo4j
几种数据库的对比传统的关系型数据库:略非关系型数据库这里我有困惑,不知道下面的是关系型还是非关系型1:面向列的数据库:HBase2:K-V数据库:Redis特点:能够存储数据结构,但是对数据关系难以刻画适用场景:储存用户信息(比如会话)、配置文件、参数、购物车等等。这些信息一般都和ID(键)挂钩3:文档数据库:MongoDB特点:文档数据库通常以 JSON 或 XML 格式存储数据...原创 2019-11-23 09:40:51 · 657 阅读 · 0 评论 -
大数据存储与处理——Hive和Pig
传统的mapper:public class WordCountMapper extends Mapper<Object, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new Text(); pu...原创 2019-11-16 11:35:21 · 544 阅读 · 0 评论 -
大数据存储与处理——YARN
Yarn产生的原因直接源于MRv1在几个方面的缺陷扩展性受限单点故障:JobTracker 完成了太多的任务,造成了过多的资源消耗难以支持MR之外的计算多计算框架各自为战,数据共享困难YARN即在一个集群上部署一个统一的资源调度管理框架YARN,在YARN之上可以部署其他各种计算框架由YARN为这些计算框架提供统一的资源调度管理服务,并且能够根据各种计算框架的负载需求,调整各自...原创 2019-11-08 15:55:17 · 426 阅读 · 0 评论 -
大数据存储与处理——HBase和Zookeeper安装教程
配置HBase1:下载并且解压如果不会可以看前面的博客2:配置文件conf/hbase-env.shexport JAVA_HOME="/root/jdk"hbase-site.xml<configuration> <property> <name>hbase.rootdir</name> <value>fi...原创 2019-11-07 11:22:21 · 441 阅读 · 0 评论 -
大数据存储与处理——ZooKeeper的基础知识
ZooKeeper分布式管理系统存在的问题多个计算机联系成分布式管理系统,会得到算力可以无限扩张等好处。但是缺点也是显而易见的。想象成一个大型的开发团队,那么存在的问题就如任务如何分配?谁当leader?leader离职后谁上任?员工离职后谁上任等问题解决方法:利用ZooKeeper进行信息在项目组的同步所以ZooKeeper的功能:分布式系统的分布式协同服务ZooKeeper是什么...原创 2019-11-06 20:39:23 · 394 阅读 · 0 评论 -
大数据存储与处理——HBase
HBase作为Google Bigtable的开源实现,Google Bigtable利用GFS作为其文件存储系统类似,则HBase利用Hadoop HDFS作为其文件存储系统;Google通过运行MapReduce来处理Bigtable中的海量数据,同样,HBase利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用Chubby作为协同服务,HBa...原创 2019-11-02 16:45:20 · 563 阅读 · 0 评论 -
大数据存储和处理——MapReduce程序和日志入门
MapReduce系统:CentOS 71:mapReduce编程首先写mapReduce的程序我是在主机的IDEA上写,然后通过xftp拷贝到虚拟机集群上的。也可以用其他方式具体代码如下:WordCount.classimport java.io.IOException;import java.util.StringTokenizer;import org.apache.hado...原创 2019-10-24 19:13:55 · 257 阅读 · 0 评论 -
大数据存储与处理——hadoop的hdfs命令的使用
1:创建HDFS目录例子: hadoop fs -mkdir /user 建立user 文件夹2:列出HDFS目录例子:hadoop fs -ls / 查看根文件目录3:本地文件 HDFS文件夹:上传文件hadoop fs -copyFromLocal /root/1.txt /userhadoop fs -copyFromLocal /root/1.txt /user 如...原创 2019-10-24 11:19:00 · 376 阅读 · 0 评论 -
大数据存储与处理——第五周Mapreduce
提高计算机性能的方案提高处理器字长Intel:1971年的4bits到2005年的64bits提高集成度摩尔定律:芯片集成度每18个月翻一倍,计算性能提高一倍流水线等微体系结构技术指令级并行(instruction-Level Parallelism)RISK结构流水线WordCount:文档词频统计使用四个map节点:map节点1:输入:(text1, “the weat...原创 2019-10-18 19:28:48 · 392 阅读 · 0 评论 -
大数据的存储与处理——GFS和HDFS简介
一:GFSGoogle需要一个支持海量存储的文件系统方法一:购置昂贵的分布式文件系统与硬件?方法二:是否可以在一堆廉价且不可靠的硬件上构建可靠的分布式文件系统?问题:为什么不使用当时现存的文件系统?Google所面临的问题与众不同 不同的工作负载,不同的设计优先级(廉价、不可靠的硬件)需要设计与Google应用和负载相符的文件系统优点:在物理上分离,逻辑上统一,用数量上的多,来弥补单个...原创 2019-10-11 21:11:25 · 3440 阅读 · 0 评论 -
大数据存储与处理—安装nutch
Nutch 是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。链接: https://pan.baidu.com/s/1j4nwwTne1AeAfa7x5zpEZQ 提取码: qdpj第一步:安装Java JDK首先查看系统是否已经安装了其他版本的JDK,如果有,先要把其他版本的JDK卸载。输入:# rpm-qa|grep gcj...原创 2019-10-10 22:25:16 · 287 阅读 · 0 评论 -
大数据存储与处理——配置HADOOP伪分布式
链接: https://pan.baidu.com/s/1j4nwwTne1AeAfa7x5zpEZQ 提取码: qdpj首先了解hadoop的几种分布模式1、本地模式:本地模式就是解压源码包,不需要做任何的配置。通常用于开发调试,或者感受hadoop2、伪分布模式:在学习当中一般都是使用这种模式,伪分布模式就是在一台机器的多个进程运行多个模块。虽然每一个模块都有相应的进程,但是却还...原创 2019-10-10 22:46:49 · 314 阅读 · 0 评论 -
大数据存储与处理——hadoop完全分布式搭建
安装三个虚拟机【貌似可以先配置好一个然后克隆成三个虚拟机?】首先修改名字:hostname 查看名字hostname hserver1 三个主机都需要修改名字IP映射文件vim /etc/hosts192.168.192.129 hserver1192.168.192.130 hserver2192.168.192.131 hserver3[根据#ifconfig查...原创 2019-10-11 20:06:23 · 402 阅读 · 0 评论 -
大数据存储与处理——谷歌三驾马车知识初步阅读
今天早上7:00出发去参加讨论,下午14:00回来睡到饭点,就只有晚上看了会nachos源码。但感觉还是得写点什么东西,明天有大数据的课,就把三驾马车看一看,只不过老师要求的是看论文,但是一共100多页论文要拿头看,所以还是googlebd一下基本知识点扫扫盲就好了。1:MapReduce 个人理解1)shuffle:map的shuffle: split(Inputformat)分片——...原创 2019-09-26 21:18:30 · 717 阅读 · 0 评论