
大数据学习
。。。
程序员阿伟
热爱编程,编程可以改变生活
专注大数据领域
前后端略有涉及
喜欢分享好玩有趣的小项目
个人座右铭:编程之路没有尽头,永远保持自己的热爱
展开
-
列式存储和行式存储的区别
好处:想查某个人所有的属性时,可以通过一次磁盘查找加顺序读取就可以。但是当想查所有人的年龄时,需要不停的查找,或者全表扫描才行,遍历的很多数据都是不需要的。好处:如果想查所有人的年龄只需把年龄那一列拿出来就可以了,例如 select age from xxx。可以看到每个字段的值都是按顺序扎堆存储在一起的,原创 2023-03-01 12:00:26 · 472 阅读 · 1 评论 -
hadoop一些常用命令
该命令后面 + hdfs的路径,可以查看该hdfs路径下的所有文件和目录一般我们只需要第八个结果,也就是文件的名称或者目录的文采,可以这样获取。原创 2022-08-23 18:52:29 · 652 阅读 · 0 评论 -
Hive中的时间函数的使用
注意:date_format函数中第一个参数只能是有格式的时间字符串,不能是时间戳字符串或者时间戳,并且,第二个参数的格式必须要跟第一个的一致才行。原创 2022-08-20 10:40:52 · 622 阅读 · 0 评论 -
Java注解的创建与使用,以及HBase表的数据自动封装
需求:将HBase中的表封装成对象,类似于MyBatis框架中的一张表封装成一个对象,类对应表名,字段对应属性, 因此使用注解可以实现这种场景实现流程:使用idea工具创建注解对于HBase表的特性,我们需要依次创建Table(表名),Column(列),RowKey(主键)等注解Table@Target({ElementType.TYPE})@Retention(RetentionPolicy.RUNTIME)public @interface Table .原创 2021-11-03 22:51:45 · 691 阅读 · 0 评论 -
01 Flume概述
Flume定义Flume 是Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单注意:Flume一般只处理文本文件,对于音频等二进制文件处理会报错Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFSFlume基础架构AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的,执行依次Flume任务就是启动一次Agent事件Agent 主要有 3...原创 2021-10-05 00:10:30 · 152 阅读 · 0 评论 -
02 Flume安装部署
官网地址(1)Flume 官网地址:Welcome to Apache Flume — Apache Flume(2)文档查看地址:Flume 1.9.0 User Guide — Apache Flume(3)下载地址:http://archive.apache.org/dist/flume/安装上传文件rz -E解压tar -zvxf apache-flume-1.9.0-bin.tar.gz -C /export/servers改名..原创 2021-10-05 00:21:14 · 107 阅读 · 0 评论 -
05 Flume入门案例之实时监控目录下多个新文件
案例需求:使用 Flume 监听整个目录的文件,并上传至 HDFS需求分析:实现步骤: 创建配置文件 flume-dir-hdfs.confvim flume-dir-hdfs.conf编写配置文件a3.sources = r3a3.sinks = k3a3.channels = c3# Describe/configure the sourcea3.sources.r3.type = spooldira3.sources.r3.spoolDir =.原创 2021-10-13 23:25:03 · 434 阅读 · 0 评论 -
03 Flume入门案例之监控端口数据
案例需求:使用 Flume 监听一个端口,收集该端口数据,并打印到控制台需求分析:实现步骤:安装netcatyum install -y nc查看44444端口有没有被占用netstat -nlp | grep 44444在 flume 目录下创建 job 文件夹并进入 job 文件夹mkdir -p job && cd job在 job 文件夹下创建 Flume Agent 配置文件 flume-netcat-log...原创 2021-10-05 23:42:54 · 462 阅读 · 0 评论 -
04 Flume入门案例之实时监控单个追加文件
案例需求:实时监控 Hive 日志,并上传到 HDFS 中需求分析:实现步骤:注意:Flume 要想将数据输出到 HDFS,依赖 Hadoop 相关 jar 包 ,确认 Hadoop 和 Java 环境变量配置正确在job目录下创建 flume-file-hdfs.conf 文件vim job/flume-file-hdfs.conf注:要想读取 Linux 系统中的文件,就得按照 Linux 命令的规则执行命令。由于 Hive 日志在 Linux 系统中所以读取.原创 2021-10-07 22:40:37 · 319 阅读 · 0 评论 -
raise RuntimeError(‘DataLoader worker (pid(s) {}) exited unexpectedly‘.format(pids_str))RuntimeErro
今天在使用pytorch加载数据时出现如下错误:raise RuntimeError('DataLoader worker (pid(s) {}) exited unexpectedly'.format(pids_str))RuntimeError: DataLoader worker (pid(s) 4252, 17184) exited unexpectedly仔细分析了一下,原因定位在num_workersdataloader = DataLoader(dataset,batch_s原创 2022-03-22 08:37:26 · 14942 阅读 · 11 评论 -
使用pycharm创建虚拟环境
为什么创建虚拟环境?一般来说,使用全局环境的话,会出现包版本冲突的情况,这样的话,每当我们需要完成项目时,就需要去不更改包的版本,如果为每个项目创建一个虚拟环境,这样的话,我们的项目的包库都是独立的,不存在冲突的现象。创建流程1.首先确保你的项目中没有该文件夹venv,这个文件夹就是用来存放环境的,新建的项目是没有该文件夹的。2.点击setting3.找到Interpreter4.完成后继续点击添加add5.可以看到这里有我们创建好的虚拟环境,点击OK即可..原创 2022-03-23 00:43:28 · 8632 阅读 · 3 评论 -
No module named yum
问题原因一般出现这种原因是因为yum与python的版本不对应,因为yum是python的模块,而你的系统中又存在多个版本的python,所以会对应不上解决方法所以修改yum的配置,修改文件: vim /usr/bin/yum#修改python解释器版本#!/usr/bin/python => #!/usr/bin/python2.7另外 也要修改urlgrabber-ext-down使用的解释器,与yum的python版本...原创 2022-05-11 21:09:24 · 2395 阅读 · 0 评论 -
Hive与HBase之间的区别和联系
首先要知道Hive和HBase两者的区别,我们必须要知道两者的作用和在大数据中扮演的角色概念Hive1.Hive是hadoop数据仓库管理工具,严格来说,不是数据库,本身是不存储数据和处理数据的,其依赖于HDFS存储数据,依赖于MapReducer进行数据处理。2.Hive的优点是学习成本低,可以通过类SQL语句(HSQL)快速实现简单的MR任务,不必开发专门的MR程序。3.由于Hive是依赖于MapReducer处理数据的,因此有很高的延迟性,不适用于实时数据处理(数据查询,数据插原创 2021-11-04 18:41:13 · 29338 阅读 · 0 评论 -
MapReducer的map和reducer的几种写法模板以及自定义数据类型
模板1最基本的MapReduecr程序的写法流程:将数据从本地文件导入,经过MapReduecr数据分析,将分析结果存储到HDFS案例代码Mapper代码import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduc...原创 2021-11-10 17:43:35 · 2612 阅读 · 0 评论 -
SparkStreaming整合Kafka
1.KafkaUtils.createDStream--API创建。2.会有一个Receiver作为常驻Task运行在Executor进行中,一直等待数据的到来。3. 一个Receiver效率会比较低,那么可以使用多个Receiver,但是多个Receiver中的数据又需要手动进行合并,很麻烦,且其中某个Receiver挂了之后,会导致数据丢失,需要开启WAL预写日志来保证数据的安全,但是效率又低了。4.Receiver模式使用Zookeeper来连接Kafka(Kafka的新版本中已经不推荐使用该方原创 2022-06-21 23:09:38 · 865 阅读 · 0 评论