
大数据之路
see you in September
talk is cheap, show me code
展开
-
20200814极客时间从零学习大数据
极客时间从零学习大数据:Yarn将MapReduce执行引擎和资源调度分离开来, yarn是大数据平台上最主流的资源调度系统MapReduce,Spark 这类计算框架处理的业务场景都背称作批处理计算,因为它们通常针对以“天”为单位产生的数据进行一次计算,然后得到需要的结果,这中间计算需要花费的时间大概是几十分钟甚至更长的时间,因为计算的数据是非在线得到的实时数据,而是历史数据,所以这类计算也被称为大数据离线计算而在大数据领域,还有另外一类应用场景,它们需要对实时产生的大量数据进行即时计算,比如原创 2020-08-15 12:59:25 · 481 阅读 · 0 评论 -
剑指java offer数据库面试(二)
剑指java offer数据库面试设计一个关系型数据库程序实例存储管理,缓存机制,SQL解析,日志管理、权限划分、容灾机制、索引管理、锁管理存储(文件系统)索引模块常见问题为什么要使用索引快速查询数据什么样的信息能成为索引主键、唯一键以及普通键等索引的数据结构生成索引,建立二叉查找树进行二分查找生成索引,建立B-Tree结构进行查找生成索引,建立B+-Tree结构进行查找生成索引,建立Hash结构进行查找二叉查找树 --很容易变得像链表了B-Tre.原创 2020-07-16 16:49:08 · 247 阅读 · 0 评论 -
剑指javaoffer面试(—)计算机网络核心面试
面试准备:7层协议第一层 物理层:机械、电子、定时接口通信信道上的原始比特流传输第二层 数据链路层 物理寻址,同时将原始比特流转变为逻辑传输线路第三层 网络层 控制子网的运行,如逻辑编址、分组传输、路由选择第四层 传输层 接受上一层的数据,在必要的时候把数据进行分割,并将这些数据进行分割,并将这些数据交给网络层,且保证这些数据交给网络层,且保证这些数据段有效到达对端第五层 会话层 不同机器上的用户之间建立及管理会话第六层 表示层 信息的语法语义以及它们的关联,如加密解密...原创 2020-07-15 17:29:20 · 195 阅读 · 0 评论 -
20200714MySQL学习笔记(二)
SQL优化优化SQL的一般步骤发现问题->分析执行计划->优化索引->改写SQL发现问题常见问题发现渠道1.用户主动上报应用性能问题2.分析慢查询日志发现存在问题的SQL3.数据库时实监控长时间运行的SQL通过慢查询日志发现问题配置MySQL慢查询日志set global slow_query_log = [ON|OFF]set global slow_query_log_file = /sql_log/slowlog.logset global原创 2020-07-14 23:03:27 · 121 阅读 · 0 评论 -
20200713学习Mysql总结(一)
Mysql数据库关系数据库的特点数据结构化存储在二维表中支持事务的原子性A,一致性C,隔离性I,持久性D 特性支持使用SQL语言对存储在其中的数据进行操作宽表模式:把对象的属性全部存储在一个表中缺点:数据冗余:相同的数据在一个表中出现了多次数据更新异常:修改一行中某列的值时,同时修改了多行数据数据插入异常:部分数据由于缺失主键信息而无法写入表中数据删除异常:删除某一数据时不得不删除另一数据宽表模式的应用场景:配合列存储的数据报表应用三大范式:第一范式原创 2020-07-13 23:02:30 · 125 阅读 · 0 评论 -
20200710大数据学习笔记hadoop总结
HadoopHadoop的优势(4高)1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度4)高容错性:能够自动将失败的任务重新分配1.x 跟2.x区别 1.x中MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大,2.x的时候增加了Yarn,Yarn只负责资源的调原创 2020-07-11 02:08:57 · 185 阅读 · 0 评论 -
最近小小总结
mac安装了conda后,前面会有一个(base),如何取消$ conda config --set auto_activate_base falsejavaSe 为什么能跨平台,因为先编译成class文件,再通过虚拟机来执行,所以一次编译到处运行byte 1字节数short 2int 4long 8float 4double 8boolean 1char 2&和&&的区别(不同点):(1)、&逻辑运算符称为逻辑与运算符,&&...原创 2020-07-02 23:39:45 · 314 阅读 · 0 评论 -
20200626大数据之Flink学习笔记
Flink照着官网,在idea的目录下 mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-quickstart-scala \ -DarchetypeVersion=1.10.0然后可以出去吃饭了,慢到怀疑人生照着官网来个w...原创 2020-06-27 00:07:32 · 158 阅读 · 0 评论 -
20200625大数据spark学习笔记
启动src/redis-server redis.confsrc/redis-cli -h hadoop000 -p 6379keys * 查询里面的keyHBase特点大:面向列:列族(可以存放很多列),列族/列独立索引稀疏:对于空的列,不会占用存储空间数据类型单一:btye/string无模式:每一行的数据所对应的列不一定相同,每行的列是可以动态添加的数据多版本:比如company可以存放不同的版本的值 默认情况下版本号是自动分配的,是列的值插...原创 2020-06-26 01:27:34 · 238 阅读 · 0 评论 -
20200624SparkStreaming学习笔记+redis基础
数据可视化Spring Boot整合Echarts动态获取HBase的数据1) 动态的传递进去当天的时间 a) 在代码中写死 b) 让你查询昨天的、前天的咋办? 在页面中放一个时间插件(jQuery插件),默认只取当天的数据2) 自动刷新展示图 每隔多久发送一个请求去刷新当前的数据供展示统计慕课网当天实战课程从搜索引擎过来的点击量 数据已经在HBase中有的 自己通过Echarts整合Spring Boot方式自己来实现//阿里这个...原创 2020-06-25 01:32:20 · 179 阅读 · 0 评论 -
20200623SparkStreaming学习笔记
为什么是local[2] (需要资源)socket <- Receiver ->Memory -> Operation (也需要资源)所以不设置2的话就无法往下执行黑名单过滤访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> (zs: 20180808,zs)(ls: 20180808,ls)(ww: 20180808,ww)黑名单列表 ==> RDDzsls ...原创 2020-06-24 01:26:32 · 222 阅读 · 0 评论 -
20200622大数据sparkstreaming学习
kafka后续启动zookeeper再到kafka的confkafka-server-start.sh $KAFKA_HOME/config/server.propertiesnote:因为阿里云端口啥的费时间,我刷回Mojave使用配好的OOTB了,所以改成了hadoop000整合Flume和Kafka的综合使用avro-memory-kafka.confavro-memory-kafka.sources = avro-sourceavro-memory-kafka.sin.原创 2020-06-23 16:30:44 · 110 阅读 · 0 评论 -
20200621sparkstreaming学习笔记flume+zookeerpeer+kafka
弱弱的吐槽一句mac系统的catalina,太容易发烫了,我实在受不了了,然后昨天刷回Mojave了,不仅遇到很多坑,打电话给客服感觉问他们不如自己看文档== 最后搞了一天终于刷回Mojava 10.14.6了,我再也不升级了,电脑资料全没了==SparkStreaming安装Flumeexport FLUME_HOME=/home/hadoop/app/apache-flume-1.6.0-cdh5.16.2-binexport PATH=$FLUME_HOME/bin:$PATH从官网原创 2020-06-22 03:17:24 · 136 阅读 · 0 评论 -
20200618,0619大数据sparksql学习笔记
SparkSQL学习笔记学习Dataset,Dataframe,SparkSession,使用spark连接mysql读写数据cp hive.site.xml $SPARK_HOME/conf/cd $SPARK_HOME/bin./spark-shell --master local[2] --jars ~/lib/mysql-xxxx.jar //确保ResourceManager这些都起来了因为我的default里没数据所以spark.sql("show database..原创 2020-06-20 01:33:51 · 147 阅读 · 0 评论 -
20200617sparksql学习笔记
sparksql学习笔记wordcount object xxx{ def main(args:Array[String]){ val sparkConf = new SparkConf().setMaster("local").setAppName("xxx") val sc = new SparkContext(sparkConf) val rdd = sc.textFile("xxxx") rdd.flatmap(_.split("...原创 2020-06-18 00:30:01 · 138 阅读 · 0 评论 -
pySpark学习笔记
pySpark学习笔记编译python,有些依赖需要下载下sudo yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-develcd 解压后的python包,注意下载3版本的mkdir python3./configure --prefix=/home/had原创 2020-06-17 00:58:47 · 229 阅读 · 0 评论 -
20200615SparkSQL学习笔记三项目
mvn clean package -DskipTestsmvn install:install-file -Dfile=/Users/dongheng/Downloads/ipdatabase-master/target/ipdatabase-1.0-SNAPSHOT.jar -DgroupId=com.ggstar -DartifactId=ipdatabase -Dversion=1.0 -Dpackaging=jar数据处理流程1)数据采集 Flume: web日志写入到HDFS...原创 2020-06-15 21:02:21 · 129 阅读 · 0 评论 -
20200614sparkSQL学习笔记二
spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/rzdata_hive").option("dbtable", "rzdata_hive.TBLS").option("user", "root").option("password", "123456").option("driver", "com.mysql.jdbc.Driver").load()val jdbcDF = spark.read.format("j原创 2020-06-15 21:00:26 · 173 阅读 · 0 评论 -
20200613spark学习笔记一
笔记spark:官网下载spark 包,自己编译坑:pom.xml添加:<repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository>把里面的镜像改成阿里云的在 pom.xml里cd dev/vi make-distrib...原创 2020-06-14 02:09:20 · 177 阅读 · 0 评论 -
20200611Scala学习笔记
Scala学习笔记安装部署scala, 我用的2.11.8 , idea的scala插件我觉得需要science|上网,不然会慢的一批,而且很可能报错,4,5小时也有可能环境变量配一下,然后控制台输入scala看看能否运行在scala中,可以使用 val 或者 var 来定义变量,语法格式如下:val/var 变量标识:变量类型 = 初始值val 定义的是不可重新赋值的变量var 定义的是可重新赋值的变量note:scala中定义变量类型写在变量名后面scala的语句最后不需要添加原创 2020-06-12 00:46:34 · 128 阅读 · 0 评论 -
20200610数据仓库网站流量分析项目三
数据仓库网站流量分析项目三create table t_salary_detail(username string,month string,salary int)row format delimited fields terminated by ',';load data local inpath '/home/hadoop/data/t_salary_detail.dat' into table t_salary_detail;A,2015-01,5A,2015-01,15B,2015原创 2020-06-10 20:27:41 · 245 阅读 · 0 评论 -
20200608数据仓库网站流量分析二
数据仓库网站流量分析二主题就是hive建表一、 模块开发----数据仓库设计1. 维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具 箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求 出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快 速完成分析需求,同时还有较好的大规模复杂查询的响应性能。维度建模是专门应用于分析型数据库、数据仓库、数据集市建模的方法。数 据集市可以理解为是一种"小型数据仓库"。原创 2020-06-09 21:04:57 · 612 阅读 · 0 评论 -
20200608数仓网站流量日志分析项目一
数仓网站流量日志分析项目一黑马的项目,过了一遍总结就是mr做数据清洗,hive做sql,sqoop导入导出,azkaban做调度,最后Echarts做数据可视化总结:重点还是hive1.网站分析意义:为了赚钱。网站分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量 信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会 员或客户,通过更少的投入获取最大化的收入。首先,网站分析是网站的眼原创 2020-06-09 18:23:25 · 865 阅读 · 0 评论 -
20200606,07sqoop+azkaban学习笔记——大数据学习笔记
sqoop 加 Azkaban 学习笔记FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientgrant all privileges on *.* to 'root'@'%' i原创 2020-06-07 23:07:37 · 213 阅读 · 0 评论 -
20200604大数据Hive笔记三
本地模式:set hive.exec.mode.local.auto=true;create external table ruozedata_emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'location '/hive/external/emp原创 2020-06-05 01:51:22 · 101 阅读 · 0 评论 -
20200604大数据Hive笔记二
分桶表:感觉没怎么用到,有兴趣自己查下修改表结构[重命名:]()alter table old_table_name rename to new_table_name;把表score4修改成score5```sqlalter table score4 rename to score5;```- 查询表结构```sqldesc score5;```- 添加列```sqlalter table score5 add columns (mycol str...原创 2020-06-04 20:13:13 · 581 阅读 · 0 评论 -
20200603大数据hive学习笔记
Hive1.1 基本概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基 于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表 等。可以理解为: 面向分析的存储系统 。1.2. 主要特征数据仓库是面向主题的(Subject-Oriented )、集成的(Integr原创 2020-06-04 01:04:12 · 364 阅读 · 1 评论 -
20200603大数据mapreduce经典案例
reducejoinproduct.txtp0001,小米5,1000,2000p0002,锤子T1,1000,3000orders.txt1001,20150710,p0001,21002,20150710,p0002,3/* K1: LongWritable V1: Text K2: Text 商品的id V2: Text 行文本信息(商品的信息)*/public class ReduceJoinMapper extends Mapper<...原创 2020-06-03 12:36:15 · 690 阅读 · 0 评论 -
20200602大数据mapreduce编程
整理一下最近学习的mapreduce编程听说mapreduce公司里基本上不用了,所以这里就简单学习一下我都是在本地测试,不在yarn上测,这样节省时间一些1.mapreduce介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心 是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的 前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。原创 2020-06-03 00:18:33 · 228 阅读 · 0 评论 -
20200526大数据学习笔记
count(1) = count(*)NameNode:集群当中的主节点,管理元数据(文件的大小,文件的位置,文件的权限),主要用于管理集群当中的各种数据secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块: ResourceManager:接收用户的计算请求任务,并负责集群的资源分配NodeManager:负责执行主节点APPmaster分配的任务第二种:NameN.原创 2020-05-27 00:16:26 · 143 阅读 · 0 评论 -
2020.0521大数据笔记zookeeper
更改服务器的名字vi /etc/sysconfig/networkvi /etc/hostsvi /etc/hostname三连Zookeeper1.概述Zookeeper是一个开源的分布式协调服务框架,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题2.Zookeeper的特点Zookeeper本质上是一个分布式文件系统,适合存放小文件,也可以理解为一个数据库Zookeeper中存储的其实是一个又一个Znode,Znode是Zookeeper中的节点Z.原创 2020-05-23 20:25:54 · 209 阅读 · 1 评论 -
2020.05.17大数据学习笔记
最近几天忙于学校作业 == 唉1.MapReduce分布式计算框架, 生产开发复杂累赘,基本不用了 现在都是用Hivesql Spark Flinkmap 映射 将一组数据按照规则 映射为一组 数据条数不会发生变化id name1 a2 b3 c4 aselect * from t;select id,name+'1' from t;1 a12 b13 c14 ...原创 2020-05-17 22:20:36 · 253 阅读 · 0 评论 -
20200513大数据笔记
[-safemode <enter | leave | get | wait>]安全模式。 写不可以。读可以hdfs dfsadmin -safemode enterhdfs dfsadmin -safemode leave错误: Name node is in safe mode.什么时候会安全模式:1.hdfs故障 nn log日志根据错误去看看尝试能不能解决,和尝试先手动让他你看安全模式2.业务场景各个DN节点的数据平衡# Start balancer da..原创 2020-05-13 12:16:17 · 588 阅读 · 0 评论 -
20200512大数据笔记——HDFS
hdfs 跟mapreduce 尽可能同节点 数据本地化,就近原则,减少耗时元数据:物品的属性Schema(描述数据的数据)用户行为:通过监控实时获取mapreduce(复习)(1)通常一个集群中,有这几个角色:master、slave、client(2)数据副本——数据高可用、容灾(3)mapreduce——分而治之思想(4)一个split和一个map是一对一的关系上(5)开发java相当于开发函数,开发python等脚本,相当于规定好标准输入和输出hadoop 2.0主:R原创 2020-05-12 14:05:37 · 347 阅读 · 0 评论 -
hadoop基础—
hadoop入门首先配置文件,java使用jdk1.8.0_181hadoop使用hadoop-2.6.0-cdh5.16.2配置在bashrc里hdfs 存储mapreduce 计算(作业)yarn 资源和作业调度大数据平台: 存储是第一位 ;存储和计算是相辅相成的官网直接去看apache,照着上面的流程走hadoop3应该还是用不到,所以了解2就好了设置无密码认证. ssh-keygen. 按照官网一路回车就行namenode 启动core-site.x...原创 2020-05-10 19:47:07 · 111 阅读 · 0 评论 -
mysql的一些练习
mysql练习题--部门表dept部门表(deptno部门编号/dname部门名称/loc地点)create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13));insert into dept values (10, 'ACCOUNTING', 'NEW YORK');insert into dept values (20, 'RESEARCH', 'DALLAS');insert...原创 2020-05-10 10:09:43 · 189 阅读 · 0 评论 -
MySQL笔记二简单上手
1.sql类型ddl 数据定义语言 create dropdml 数据操作语言 select insert update delete 增删改查dcl 数据控制语言 grantcount(1) 1表示第一个字段create table ruoze(id int(11) not null auto_increment, 第一列必须是id自增长name varchar(255),age int(3),..........create_user varchar(25...原创 2020-05-09 14:29:23 · 170 阅读 · 0 评论 -
MySQL笔记一安装
把mysql安装到阿里云上,网上教程找一找很快的。本人是mac电脑,wins的可以用那个软件连接服务器传文件超快。我的话就用linux指令好了。scp mysqlxxxx.tar.gz root@xxxx:xxx(你要传的路径) 传完之后tar -zxvf 解压,如果是解压到别的目录 tar -zxvf -C xxxx(目录的路径)如果是传文件夹scp -C mysql root@xxxx:xxx(你要传的路径)可以ll看一下文件的大小跟权限,如果想修改权限可以修改下顺便说下记得安.原创 2020-05-09 10:25:24 · 107 阅读 · 0 评论 -
学习Linux指令三
ping 不通阿里云的网百度了是因为安全组问题然后自定义了安全组然后ping 公网ip 成功了然后关闭防火墙这些指令:service 开头是6 ,systemctl开头是7(centos)1:查看防火状态systemctl status firewalldservice iptablesstatus2:暂时关闭防火墙systemctl stop firewalldservice iptablesstop3:永久关闭防火墙systemctl disable...原创 2020-05-08 18:24:54 · 401 阅读 · 0 评论 -
Linux常用笔记二
增加用户useradd xxx查看用户 id xxx删除用户 userdel xxx切换用户 su -xx添加组 groupadd xxx把用户添加到哪个组(比如root组)usermod -a -G xxxx root设置密码 passwd 设置权限到root vi /etc/sudoers xxxx ALL=(...原创 2020-05-07 23:35:48 · 107 阅读 · 0 评论