- 博客(32)
- 资源 (1)
- 收藏
- 关注
原创 shell脚本使用expect实现sftp
expect <<- EOFspawn sftp -oPort=${PORT} ${USER}@${IP}expect { "password:" { send "${PASSWORD}\r" }}expect "sftp> "send "mkdir ${DESDIR}/data/hour/${DATE_AGO}\r"expect "sftp> "send "cd ${DESDIR}/data/week/\r"expect "sftp> "send
2022-05-27 18:56:35
1710
1
原创 Green Plume遇到的问题
安装一个过程语言进 PostgreSQL 数据库.ERROR: language "plpgsql" does not existHINT:Use CREATE LANGUAGE to load the language into the database.执行 createlang -d dbname plpgsql
2022-03-07 15:44:19
405
原创 win11右键恢复win10默认更多选项
管理员运行命令:重启就恢复win10右键了reg.exe add "HKCU\Software\Classes\CLSID\{86ca1aa0-34aa-4e8b-a509-50c905bae2a2}\InprocServer32" /f /ve 这个是恢复win11右键reg.exe delete "HKCU\Software\Classes\CLSID\{86ca1aa0-34aa-4e8b-a509-50c905bae2a2}\InprocServer32" /va /f ...
2022-01-16 10:33:02
1236
1
原创 Spark算子
Transformation算子RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行。列举部分算子:转换含义map(func)返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成filter(func)返回一个新的RDD,该RDD由经过func函数计算后返回值为t
2022-01-11 09:37:49
190
原创 大数据工具——oozie调度
一、 基础命令#提交任务。-config是指定oozie任务的job.properties文件位置,submit是提交任务,每次提交任务后会把任务放到服务器并生产一个jobId,但是并不会运行这个任务oozie job -oozie http://namenode.com:11000/oozie -config /root/test1/job.properties -submit#执行该任务,0000000-180927111227906-oozie-oozi-W这个是jobId,每个任务的id是唯
2022-01-07 18:30:09
1714
原创 Cloudera Manager拓展SPARK2-2.3.0.cloudera3-1.cdh5.6.0.p0.1-el6.parcel
一、准备工作Centos6.5的系统Cloudera Manager 版本5.6Spark2.3依赖的jdk1.8网上的资料提供的下载地址下载不了,只能基于原有的SPARK2-2.3.0.cloudera2-1.cdh5.13.3.p0.316101-el7.parcel修改从头制作可以参考如下参考地址1二、开始适配1.parcel包制作包名规则:以SPARK2-2.3.0.cloudera3-1.cdh5.6.0.p0.1-el6.parcel为例,第一个-前是包名,最后一个-后是
2021-11-26 15:35:44
1911
原创 kvm虚拟机操作
一、基础操作查看所有虚拟机virsh list --allvirsh list --all | grep 6.5克隆虚拟机并指定文件位置virt-clone -o centos6.5-template -n root-centos6.5-node1-171 -f /data1/kvm/vdisk/root-centos6.5-node1-171启动虚拟机virsh start root-centos6.5-node1-171关闭虚拟机virsh destroy ro
2021-11-25 13:33:34
384
原创 计算机网络(一)
一、OSI七层模型物理层:数据信号与物理信号相互转换。重要设备为中继器(Repeater,也叫放大器)和集线器。数据链路层:将数据组合为数据块(单位为 帧 ),以以太网协议稳定传输数据,寻找主机Mac地址(无规律,寻址太麻烦才有ip)。重要设备为网桥和交换机网络层:端到端传输(路径选择和逻辑寻址)。重要设备为路由器。主要协议:IP协议非常简单,仅仅提供不可靠、无连接的传送服务。主要功能有:无连接数据报传输、数据报路由选择和差错控制其他协议:地址解析协议ARP、逆地址解析协议RARP、因特网报
2021-11-09 15:42:24
291
原创 linux常用指令
1.查看系统核数cat /proc/cpuinfo |grep pro |wc -l2.查看内存free -g3.查看挂载点df -h4.将ISO文件挂载到一个指定目录下 mount -o loop rhel-server-7.0-x86_64-dvd.iso /media5.wc指令-c, --bytes print the byte counts-m, --chars print the character counts-l,
2021-11-09 10:56:56
111
原创 Spark从不同数据库读取数据常见问题
MySQL空值问题在url上加上?characterEncoding=utf-8ADB类型转换在url上加上?stringtype=unspecified
2021-09-07 17:56:14
121
原创 Docker简单操作
Dockerdocker安装的镜像地址配置[root@hadoop01 milvus]# cat /etc/docker/daemon.json{"selinux-enabled": false,"debug": true,"registry-mirrors":[ "https://registry.docker-cn.com", "http://hub-mirror.c.163.com", "https://docker.mirrors.ustc.edu.cn",
2021-08-27 11:36:00
351
原创 大数据工具——ClickHouse
一、基础概念1、什么是ClickHouseClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System),简称CH , 主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。ClickHouse是一个完全的列式数据库管理系统,允许在运行时创建表和数据库,加载数据和运行查询,而无需重新配置和重新启动服务器,支持线
2021-07-05 19:45:48
774
1
原创 Hadoop常用端口web界面
1、HDFS页面:500702、YARN的管理界面:80883、Zookeeper的服务端口号:21814、Kafka的服务端口号:90925、azkaban界面:84436、Hbase界面:16010,600107、Spark的界面:80808、Supervisor: 9001
2021-07-01 08:27:29
1784
原创 spark链接hive错误
错误代码Exception in thread "main" org.apache.spark.sql.streaming.StreamingQueryException: Cannot create hive connection jdbc:hive2://master:10000/=== Streaming Query ===Identifier: [id = 66ecc70a-bbdf-45f1-8362-b0c2e0d2bbf6, runId = d6878eb7-70c0-4d89-ab26
2021-06-30 22:28:32
478
1
原创 Scala语言——(二)
官方文档 https://docs.scala-lang.org/overviews/collections/overview.html一、集合1.可变集合和不可变集合不可变集合可以安全的并发访问。可变集合可以在适当的地方被更新或扩展。这意味着你可以修改,添加,移除一个集合的元素。# 不可变集合 scala.collection.immutable (Scala默认采用不可变集合)# 可变集合 scala.collection.mutable 不可变集合可变集合2.数组Ar.
2021-06-06 13:52:15
231
原创 MySQL 5.7账号锁定Account Lock
MySQL 5.7账号锁定Account Lockmysql>ALTER USER 'demo'@'localhost' ACCOUNT UNLOCK;Query OK, 0 rows affected (0.00 sec)
2021-05-22 15:14:25
820
原创 大数据工具——Kylin
官网:http://kylin.apache.org/cn/官方文档http://kylin.apache.org/cn/docs/下载地址http://kylin.apache.org/cn/download/一、Kylin简介1.Kylin概念Kylin是一个分布式的数据仓库平台,可以将Hive中的数据同步到Kylin中进行数据分析,也可也实现多维立方体的查询,将最终结果保存到Hbase中。Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求,它提供Hadoop/Sp.
2021-05-16 15:44:45
829
3
原创 大数据工具——Sqoop
一、Sqoop简介官方文档:http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html参考命令文档:http://www.360doc.com/content/16/1116/10/37253246_606951065.shtml1.产生背景早期由于技术的匮乏,要首先非结构和和结构化同步,是非常困难的,Hadoop生态研发了sqoop这样的一个同步工具,主要是实现异构化数据同步,不过sqoop更新较慢,因为sqoop工具比较小,最新版本是1.4.7
2021-05-15 09:33:31
1256
原创 大数据工具——DataX
官网:https://github.com/alibaba/DataX一、DataX概述日志数据:用户每天浏览的数据信息,一般都是用log进行保存,使用Flume进行采集业务数据:用户比较关键的信息,也就是重要的信息,例如,用户购买的商品,支付的金钱,用户注册的各种信息,这样的数据都会保存到业务数据库(MySQL)DataX就是可以将业务数据库的数据同步到数据仓库中(Hive)二、框架设计DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成
2021-05-14 21:36:52
1286
1
原创 大数据工具——Flume
一、Flume概念1.Flume介绍1、是一个分布式、可靠的、高可用的日志数据采集框架2、具有数据流的体系结构3、具有可调整的可靠性和容错性4、是Hadoop生态中的一个组件2.Flume设计1、Flume的最小运行单元是Agent,三大组件:Source,channel,Sink2、Flume在运行Agent时候,会占用JVM3、Flume组件Source:作用是与数据源进行交互,采集数据,封装成Event,传给ChannelEvent:采集的数据,对数据封装的对象,Event的
2021-05-10 22:28:19
290
原创 大数据工具—HBASE数据库(二)
一、Hbase的读写流程1.组件说明https://blog.youkuaiyun.com/m0_45993982/article/details/1164240862.写数据流程Client通过Zookeeper的调度,向RegionServer发出写数据请求,在Region中写数据。数据被写入Region的MemStore,知道MemStore达到预设阀值。MemStore的数据被Flush成一个StoreFile。随着StoreFile文件不断增多,当数量增长到一定阀值后,出发Compact合并
2021-05-06 21:51:21
259
原创 Windows修改映射文件
进入windows目录下C:\Windows\System32\drivers\etc直接修改目录文件通常不成功将hosts复制到桌面在最后添加192.168.1.100 hdp01192.168.1.101 hdp02192.168.1.102 hdp03保存后拉倒目录下替换
2021-05-06 20:21:38
396
原创 大数据工具——HBASE数据库(一)
一、HBASE基础概念1.HBASE概念HBASE是一个数据库----可以提供数据的实时随机读写。HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库)2.HBase特性- HBase的表模型与关系型数据库的表模型不同: - HBase的表没有固定的字段定义;- HBase的表中每行存储的都是一些key-value对 - HBase的表中有列簇的划分,用户可以指定将哪些kv插入哪个列族 - HBase的表在物理存储上,是
2021-05-05 18:49:27
497
2
原创 Hive 删除库、表失败
FAILED: IllegalStateException Unexpected Exception thrown: Unable to fetch table myuser1. You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ‘OPTION SQL_SELECT_LIMIT=DEFAULT
2021-05-04 11:41:38
358
原创 大数据工具——Hive(高级)
一、查询基本语法1.查询基本结构写顺序select fromjoin on group by havingorder bysort bylimitunion / union all执行顺序fromonjoinwheregroup by havingselectdistinctorder bylimit查询注意事项尽量不要使用子查询、尽量不要使用 in not in select * from aa1 where id in (select id fro
2021-05-03 15:24:43
305
原创 大数据工具——Hive(基础)
一、HIVE的定义Hive是一个基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MR、Spark、Tez。本质Hive的本质是将HQL转换成MapReduce任务,完成整个数据的分析查询,减少编写MapReduce的复杂度 。二、Hive的优缺点优点1.学习成本低:提供了类SQL查询语言HQL,使得熟悉SQL语言的开发人员无需关心细节,可以快速上手.2.
2021-04-29 16:20:44
792
3
原创 Notepad++插件远程链接虚拟机
Notepad++插件远程链接虚拟机1.选择插件中的插件管理2.搜索安装,安装会退出,没问题3.插件中心中选择nppftp4.小框中选择设置5.设置6.很多情况下都会只有根目录,刷新一下就好
2021-04-26 21:53:54
194
原创 大数据相关——YARN资源管理器
大数据相关——YARN资源管理器先学习一下YARN资源管理器,有利于学习MapReduce框架1.YARN简介 为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. Apache YARN(Yet another Resource Negotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式
2021-04-23 21:27:26
287
原创 大数据相关框架(一)Zookeeper
大数据相关框架(一)ZookeeperZookeeper安装参考:https://www.cnblogs.com/jimcsharp/p/8358271.html一、Zookeeper概述(一)定义及作用1.Zookeper是一个为分布式应用提供的一个分布式开源协调服务框架,是Google的Chubby的一个开源实现,是Hadoop和Hbase的重要组件。2.主要用于解决分布式集群中应用系统的一致性问题。3.可⽤于维护和监控存储的数据的状态,通过监控存储的数据状态的变化,从⽽达到基于数据的集群管
2021-04-22 22:04:43
299
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人