
大数据
初步了解大数据 大数据入门
抹茶味的西瓜汁
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据第18次课作业
redis: redis是key-value存储的,放在内存中,并在磁盘持久化的数据结构存储 系统 jedis.set(key,value):设置键值对 jedis.get(key):获取key对应的值 jedis.append(key,内容):在原来值后面追加内容 jedis.exists(key):判断key是否存在 jedis.del(key):删除key jedis.incr(key):对应的值会加1 jedis.decr(key):key对应的值会减1 jedis.expire(key,100原创 2021-08-30 16:11:57 · 96 阅读 · 0 评论 -
大数据第17次课笔记
Broker:是kafka的实例,每个服务器上有一个或多个实例,现在我们可以认为每个broker对应一台服务器,kafka集群中的broker要有不重复的编号。broker.id是不重复的 topic:消息的主题,kafka的数据是保存在topic上的,每个broker上都可以创建多个topic partition:topic的分区(分文件夹),每个topic中的数据可以放在多个文件夹中,可以提高kafka的吞吐量。分区中的数据不能重复。 replication:每个分区的多个副本,副本数量不能大于brok原创 2021-08-30 09:49:14 · 91 阅读 · 0 评论 -
大数据第16次课笔记
Kafka的消息队列模式(点对点模式):生产者将消息放入消息队列,消费者通过线程监控有自己的消息,主动从 消息队列中取出。 Kafka的消息队列模式(发布订阅模式):生产者将消息放入消息队列,队列会将消息推送给订阅消息的消费者。 Kafka:是一个高吞吐量的分布式发布订阅消息系统,可以处理用户在网站中的所有动作流数据。 Kafka的优点: 可靠性:是一个分布式,分区,可复制,容错 可拓展性:系统轻松缩放,无需停机 耐用性:分布式提交日志,消息持久保存在磁盘上 性能快:对于发布和订阅消息具有高吞吐量,保证0停原创 2021-08-30 09:45:33 · 94 阅读 · 0 评论 -
大数据第15次课
Spark:是用于一个大规模数据处理的统一分析引擎 Spark特点:速度快,易用性好,兼容性好 正则表达式: \d 匹配一位数字 \w 匹配一位标识符 标识符是字母,数字,下划线 + 至少一位字符 ?出现0次或1次 {}{6}:重复出现6次 {6,}至少出现6次 {4,6}出现4,5,6次 []:[a-z] 匹配一位小写字母 [^a-z]匹配一位非小写字母 [0-9,a-z]匹配一位小写字母或数字 例: hive> select * from student where name rlike '[原创 2021-08-24 17:11:12 · 80 阅读 · 0 评论 -
大数据第14次课笔记
用Idea做hbase的各个操作:原创 2021-08-18 14:27:16 · 133 阅读 · 0 评论 -
大数据第13次课
第十三次课 HBase:是一个高可靠的,列存储,实时读写的分布式数据库系统 适合存储非结构化数据,不写SQL语句,基于列而不是基于行的模式 创建表语法: create 'stu','info' 表名 列族 查看表结构: describe 'stu' 修改表加入新列 alter 'stu',{NAMR=>'infos',VERSIONS=>3} 让stu表不可用 disable 'stu' 删除stu表 drop 'stu' 浏览工作空间: list_namespace 创建工作空间: creat原创 2021-08-17 11:23:30 · 152 阅读 · 0 评论 -
大数据第12次课
第十二次课 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。 创建分区方法: create table dept_partition( deptno int, dname string, loc string ) partitioned by (month string) row format delimited fields terminated by '\t'; 增加分区: 创建单个分区 hive (default)> a...原创 2021-08-14 15:33:11 · 179 阅读 · 0 评论 -
大数据第11次课笔记
第十一次课 Hive中的3个复杂类型: array数组 map键值对 struct结构体 DDL数据定义,用于创建数据库,表,视图,索引等内容 创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.do create database db_hive; 判断数据库是否存在: create database if not exists db_hive; 创建一个数据库,指定数据库在HDFS上存放的位置 create database db_hive2 locatio原创 2021-08-13 09:08:45 · 93 阅读 · 0 评论 -
java大数据第十次课笔记
第十次课 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MAPReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上 Hive的执行过程: Hive通过给用户提供的一系列交互接口,接受到用户的指令(SQL),使用自己的Driver。结合元数据(MetaStore),将这些指令翻译成MAPReduce, 提交到Hadoop中执行,最后,将执行原创 2021-08-11 20:56:41 · 77 阅读 · 0 评论 -
大数据第九次课 笔记
第九次课 Watch监听:监控节点的变化 分布式锁:是在zookeeper的服务器保证每一个客户端都能做到线程同步。 锁:同步锁,独占锁,共享锁 用idea实现监听: 利用分布式锁做买票系统: Ticket系统: 测试类: ...原创 2021-08-10 22:18:06 · 124 阅读 · 0 评论 -
大数据第八次课笔记
第八次课: zookeeper:分布式系统的协调服务 zookeerper的服务端的命令: zkServer.sh start:开启服务 zkServer.sh stop:停止服务 zkServer.sh restart:重启服务 zkServer.sh status:查看服务状态 zookeeper中的节点(znode): 遵循树型结构,有且只有一个根节点,在每个节点上都可以存放数据 节点可以是持久的,临时和顺序的。 zookeeper的客户端: 连接本地的服务器方式:zkCli.sh 连接其他zoo原创 2021-08-09 17:18:26 · 110 阅读 · 0 评论 -
大数据第七次课笔记
第七次课 mapTask的处理流程: 1.确定要进行计算的数据在DataNode的哪个目录下 2.遍历该目录下的每一个文件 3.遍历第一个文件,获取文件大小(300M) 4.根据文件大小计算切片数量,每个切片的最大大小是128M,300M的数据需要三个切片 5.根据切片数量开启mapTask进程,需要3个切片,会开启3个mapTask进程 6.将切片信息写入到MRAppMaster中 Shuffle:描述数据从mapTask到reduceTask之间的过程。 Shuffle的Map端的工作: 在内存缓冲原创 2021-08-09 08:10:55 · 114 阅读 · 0 评论 -
大数据第六次课笔记
第六次课 MapReduce:是一个分布式运算程序的编程框架 MapReduce的功能:将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 MapReduce的设计思想: 分而治之:对相互间不具有计算依赖关系的大数据实现任务划分,划分成多个子任务 将对象抽象成Map:将数据转成map方式存储,通过reduce并行计算,最终输出计算结果 隐藏底层实现细节:自动并行处理数据,系统的通信,任务的划分等功能全部由MapReduce框架实现,用户不用关心这些实现原创 2021-08-09 08:09:58 · 99 阅读 · 0 评论 -
大数据第五次课笔记
第五次课 Yarn:是Hadoop集群的资源管理系统,可为应用提供统一的资源管理和调度。 Yarn的组件: ResourceManager:是一个全局的资源管理器,集群只有一个,负责整个系统的资源管理和分配,处理客户端的请求。 由两部分组成:调度器Scheduler和应用程序管理器Application Manager ApplicationMaster:管理Yarn内运行的应用程序的每个实例,包括数据切分为应用程序申请资源,任务的监控和容错。 NodeManager:节点管理,整个集群中有多个,负责管原创 2021-08-04 08:54:57 · 112 阅读 · 0 评论 -
大数据第四次课笔记
第四次课 hdfs采用Master和Slave主从架构来存储数据,由4部分组成: HDFS Client:客户端 文件按块切分,与Namenode交互获取文件的位置,与DataNode交互,读取或写入数据,提供访问hdfs的命令 NameNode:管理者 管理hdfs的名称空间,数据块的位置信息,配置副本请求,处理客户端的读写请求 DataNode:具体操作者 存储文件 执行数据块的读写操作 Secondary NameNode:辅助元数据 对NameNode的辅助 对镜像进行定期合并 HDFS的功能:..原创 2021-08-02 17:44:43 · 95 阅读 · 0 评论 -
大数据第三次课笔记
第三节课 分布式系统是由一组通过网络进行通信,为了完成共同的任务而协调工作的计算机节点组成的系统 分布式系统异常的现象有哪些:分布式系统中有大量节点,且通过网络通信。单个节点的故障(进程crash,断电,磁盘损坏)网络通信也可能出现断网,高延迟的情况。 分布式异常的解决方法:最简单的办法,就是冗余或者复制集(Replication),即多个节点负责同一个任务,最为常见的就是分布式存储中,多个节点复杂存储同一份数据,以此增强可用性与可靠性。 分布式系统的类别:分布式数据存储,分布式计算,分布式文件系统,原创 2021-07-29 17:20:27 · 104 阅读 · 0 评论 -
hadoop 第二节课笔记
大数据的结构: 结构化数据:关系型数据 如数据库表中的数据 半结构化数据:XML JSON 日志文件中的数据 非结构化数据:视频,图片,音频,WORD,PDF中的数据 大数据的处理: 数据挖掘:从大量数据中通过算法搜索隐藏于其中的信息。相当于从海水中发现隐藏物产的过程 数据清洗:发现并纠正数据文件中可识别的错误。相当于把物产中的杂草,沙石除掉。 数据分析:对搜集来的信息进行分析,提取出有用的信息。形成结论。相当于对鱼类进行价值分类 数据可视化:将数据用精美、直观的图表展现。相当于将鱼类制作成色香味俱全的.原创 2021-07-27 20:33:41 · 117 阅读 · 0 评论 -
hadoop第一次课笔记
大数据:指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合。 主要解决的问题:海量数据的存储和海量数据的分析计算问题 按顺序给出数据存储单位:bit,Byte,KB,MB,GB,TB,PB,EB,ZB,YB,BB,NB,DB 2013年是大数据的元年 大数据的特点:4v 1.Volume大量的数据 2.Velocity高速 3.Variety 多样 4.Value 低价值密度 修改ip地址 vi/etc/sysconfig/network-scripts/ifcfg-ens33 添加ipa原创 2021-07-26 16:56:12 · 120 阅读 · 0 评论