see you in September-优快云博客

原创 20200814极客时间从零学习大数据

极客时间从零学习大数据:Yarn将MapReduce执行引擎和资源调度分离开来， yarn是大数据平台上最主流的资源调度系统MapReduce,Spark 这类计算框架处理的业务场景都背称作批处理计算，因为它们通常针对以“天”为单位产生的数据进行一次计算，然后得到需要的结果，这中间计算需要花费的时间大概是几十分钟甚至更长的时间，因为计算的数据是非在线得到的实时数据，而是历史数据，所以这类计算也被称为大数据离线计算而在大数据领域，还有另外一类应用场景，它们需要对实时产生的大量数据进行即时计算，比如

2020-08-15 12:59:25 479

原创剑指java offer数据库面试（二）

剑指java offer数据库面试设计一个关系型数据库程序实例存储管理，缓存机制，SQL解析，日志管理、权限划分、容灾机制、索引管理、锁管理存储(文件系统)索引模块常见问题为什么要使用索引快速查询数据什么样的信息能成为索引主键、唯一键以及普通键等索引的数据结构生成索引，建立二叉查找树进行二分查找生成索引，建立B-Tree结构进行查找生成索引，建立B+-Tree结构进行查找生成索引，建立Hash结构进行查找二叉查找树 --很容易变得像链表了B-Tre.

2020-07-16 16:49:08 244

原创剑指javaoffer面试(—)计算机网络核心面试

面试准备:7层协议第一层物理层：机械、电子、定时接口通信信道上的原始比特流传输第二层数据链路层物理寻址，同时将原始比特流转变为逻辑传输线路第三层网络层控制子网的运行，如逻辑编址、分组传输、路由选择第四层传输层接受上一层的数据，在必要的时候把数据进行分割，并将这些数据进行分割，并将这些数据交给网络层，且保证这些数据交给网络层，且保证这些数据段有效到达对端第五层会话层不同机器上的用户之间建立及管理会话第六层表示层信息的语法语义以及它们的关联，如加密解密...

2020-07-15 17:29:20 190

原创 20200714MySQL学习笔记(二)

SQL优化优化SQL的一般步骤发现问题->分析执行计划->优化索引->改写SQL发现问题常见问题发现渠道1.用户主动上报应用性能问题2.分析慢查询日志发现存在问题的SQL3.数据库时实监控长时间运行的SQL通过慢查询日志发现问题配置MySQL慢查询日志set global slow_query_log = [ON|OFF]set global slow_query_log_file = /sql_log/slowlog.logset global

2020-07-14 23:03:27 113

原创 20200713学习Mysql总结(一)

Mysql数据库关系数据库的特点数据结构化存储在二维表中支持事务的原子性A，一致性C，隔离性I，持久性D 特性支持使用SQL语言对存储在其中的数据进行操作宽表模式:把对象的属性全部存储在一个表中缺点：数据冗余：相同的数据在一个表中出现了多次数据更新异常：修改一行中某列的值时，同时修改了多行数据数据插入异常：部分数据由于缺失主键信息而无法写入表中数据删除异常：删除某一数据时不得不删除另一数据宽表模式的应用场景：配合列存储的数据报表应用三大范式：第一范式

2020-07-13 23:02:30 122

原创 20200710大数据学习笔记hadoop总结

HadoopHadoop的优势(4高)1)高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失2)高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。3)高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度4)高容错性:能够自动将失败的任务重新分配1.x 跟2.x区别 1.x中MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大，2.x的时候增加了Yarn，Yarn只负责资源的调

2020-07-11 02:08:57 182

原创 20200708算法与数据结构笔记——队列

上周的面试有点惨烈== 接着好好学习大数据跟算法吧------------------------------------------------------------------------------------------算法与数据结构:2:线性结构1）线性结构作为最常用的数据结构，其特点是数据元素之间存在一对一的线性关系2)线性结构有两种不同的存储结构，即顺序存储结构(数组)和链式存储结构(链表).顺序存储的线性表称为顺序表，顺序表中的存储元素是连续的3)链式存储的线性..

2020-07-09 00:13:05 116

原创最近小小总结

mac安装了conda后,前面会有一个(base),如何取消$ conda config --set auto_activate_base falsejavaSe 为什么能跨平台，因为先编译成class文件，再通过虚拟机来执行，所以一次编译到处运行byte 1字节数short 2int 4long 8float 4double 8boolean 1char 2&和&&的区别(不同点)：(1)、&逻辑运算符称为逻辑与运算符，&&...

2020-07-02 23:39:45 310

原创 20200627算法与数据结构——栈和队列

栈 Stack 队列 Queue栈是一种后进先出的数据结构Last in First Out(LIFO)队列是一种先进先出的数据结构First in First Out拿之前数组的类来模拟下栈跟队列，难点在于循环队列leetcode 第20题是通过栈来实现import java.util.Stack;public class Solution{ public boolean isValid(String s){ Stack<Charact...

2020-06-28 01:10:05 149

原创 20200627算法与数据结构——数组

可怕的算法，躲不掉的，开始学习数据结构与算法:数组:自己实现一个Array class简单版package simple;import java.util.Arrays;public class Array { private int[] data; private int size; // 构造函数，传入数组的容量capacity构造Array public Array(int capacity) { data = new int...

2020-06-27 19:02:10 114

原创 20200626大数据之Flink学习笔记

Flink照着官网，在idea的目录下 mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-quickstart-scala \ -DarchetypeVersion=1.10.0然后可以出去吃饭了，慢到怀疑人生照着官网来个w...

2020-06-27 00:07:32 152

原创 20200625大数据spark学习笔记

启动src/redis-server redis.confsrc/redis-cli -h hadoop000 -p 6379keys * 查询里面的keyHBase特点大:面向列：列族（可以存放很多列），列族/列独立索引稀疏：对于空的列，不会占用存储空间数据类型单一：btye/string无模式：每一行的数据所对应的列不一定相同，每行的列是可以动态添加的数据多版本：比如company可以存放不同的版本的值默认情况下版本号是自动分配的，是列的值插...

2020-06-26 01:27:34 234

原创 20200624SparkStreaming学习笔记+redis基础

数据可视化Spring Boot整合Echarts动态获取HBase的数据1）动态的传递进去当天的时间 a) 在代码中写死 b) 让你查询昨天的、前天的咋办？在页面中放一个时间插件(jQuery插件)，默认只取当天的数据2）自动刷新展示图每隔多久发送一个请求去刷新当前的数据供展示统计慕课网当天实战课程从搜索引擎过来的点击量数据已经在HBase中有的自己通过Echarts整合Spring Boot方式自己来实现//阿里这个...

2020-06-25 01:32:20 174

原创 20200623SparkStreaming学习笔记

为什么是local[2] (需要资源)socket <- Receiver ->Memory -> Operation (也需要资源)所以不设置2的话就无法往下执行黑名单过滤访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> (zs: 20180808,zs)(ls: 20180808,ls)(ww: 20180808,ww)黑名单列表 ==> RDDzsls ...

2020-06-24 01:26:32 214

原创 20200622大数据sparkstreaming学习

kafka后续启动zookeeper再到kafka的confkafka-server-start.sh $KAFKA_HOME/config/server.propertiesnote:因为阿里云端口啥的费时间，我刷回Mojave使用配好的OOTB了，所以改成了hadoop000整合Flume和Kafka的综合使用avro-memory-kafka.confavro-memory-kafka.sources = avro-sourceavro-memory-kafka.sin.

2020-06-23 16:30:44 108

原创 20200621sparkstreaming学习笔记flume+zookeerpeer+kafka

弱弱的吐槽一句mac系统的catalina，太容易发烫了，我实在受不了了，然后昨天刷回Mojave了，不仅遇到很多坑，打电话给客服感觉问他们不如自己看文档== 最后搞了一天终于刷回Mojava 10.14.6了，我再也不升级了，电脑资料全没了==SparkStreaming安装Flumeexport FLUME_HOME=/home/hadoop/app/apache-flume-1.6.0-cdh5.16.2-binexport PATH=$FLUME_HOME/bin:$PATH从官网

2020-06-22 03:17:24 134

原创 20200618，0619大数据sparksql学习笔记

SparkSQL学习笔记学习Dataset,Dataframe,SparkSession,使用spark连接mysql读写数据cp hive.site.xml $SPARK_HOME/conf/cd $SPARK_HOME/bin./spark-shell --master local[2] --jars ~/lib/mysql-xxxx.jar //确保ResourceManager这些都起来了因为我的default里没数据所以spark.sql("show database..

2020-06-20 01:33:51 145

原创 20200617sparksql学习笔记

sparksql学习笔记wordcount object xxx{ def main(args:Array[String]){ val sparkConf = new SparkConf().setMaster("local").setAppName("xxx") val sc = new SparkContext(sparkConf) val rdd = sc.textFile("xxxx") rdd.flatmap(_.split("...

2020-06-18 00:30:01 137

原创 pySpark学习笔记

pySpark学习笔记编译python，有些依赖需要下载下sudo yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-develcd 解压后的python包，注意下载3版本的mkdir python3./configure --prefix=/home/had

2020-06-17 00:58:47 227

原创 20200615SparkSQL学习笔记三项目

mvn clean package -DskipTestsmvn install:install-file -Dfile=/Users/dongheng/Downloads/ipdatabase-master/target/ipdatabase-1.0-SNAPSHOT.jar -DgroupId=com.ggstar -DartifactId=ipdatabase -Dversion=1.0 -Dpackaging=jar数据处理流程1）数据采集 Flume： web日志写入到HDFS...

2020-06-15 21:02:21 126

原创 20200614sparkSQL学习笔记二

spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/rzdata_hive").option("dbtable", "rzdata_hive.TBLS").option("user", "root").option("password", "123456").option("driver", "com.mysql.jdbc.Driver").load()val jdbcDF = spark.read.format("j

2020-06-15 21:00:26 170

原创 20200613spark学习笔记一

笔记spark:官网下载spark 包，自己编译坑：pom.xml添加：<repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository>把里面的镜像改成阿里云的在 pom.xml里cd dev/vi make-distrib...

2020-06-14 02:09:20 174

原创 20200611Scala学习笔记

Scala学习笔记安装部署scala, 我用的2.11.8 ， idea的scala插件我觉得需要science｜上网，不然会慢的一批，而且很可能报错，4，5小时也有可能环境变量配一下，然后控制台输入scala看看能否运行在scala中，可以使用 val 或者 var 来定义变量，语法格式如下:val/var 变量标识:变量类型 = 初始值val 定义的是不可重新赋值的变量var 定义的是可重新赋值的变量note:scala中定义变量类型写在变量名后面scala的语句最后不需要添加

2020-06-12 00:46:34 126

原创 20200610数据仓库网站流量分析项目三

数据仓库网站流量分析项目三create table t_salary_detail(username string,month string,salary int)row format delimited fields terminated by ',';load data local inpath '/home/hadoop/data/t_salary_detail.dat' into table t_salary_detail;A,2015-01,5A,2015-01,15B,2015

2020-06-10 20:27:41 243

原创 20200608数据仓库网站流量分析二

数据仓库网站流量分析二主题就是hive建表一、模块开发----数据仓库设计1. 维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall所倡导，他的《数据仓库工具箱》，是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。维度建模是专门应用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。

2020-06-09 21:04:57 606

原创 20200608数仓网站流量日志分析项目一

数仓网站流量日志分析项目一黑马的项目，过了一遍总结就是mr做数据清洗，hive做sql，sqoop导入导出，azkaban做调度,最后Echarts做数据可视化总结:重点还是hive1.网站分析意义:为了赚钱。网站分析，可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息，并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量，提升网站用户体验，让访客更多的沉淀下来变成会员或客户，通过更少的投入获取最大化的收入。首先，网站分析是网站的眼

2020-06-09 18:23:25 861

原创 20200606，07sqoop+azkaban学习笔记——大数据学习笔记

sqoop 加 Azkaban 学习笔记FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientgrant all privileges on *.* to 'root'@'%' i

2020-06-07 23:07:37 208

原创 20200604大数据Hive笔记三

本地模式：set hive.exec.mode.local.auto=true;create external table ruozedata_emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'location '/hive/external/emp

2020-06-05 01:51:22 99

原创 20200604大数据Hive笔记二

分桶表：感觉没怎么用到，有兴趣自己查下修改表结构[重命名:]()alter table old_table_name rename to new_table_name;把表score4修改成score5```sqlalter table score4 rename to score5;```- 查询表结构```sqldesc score5;```- 添加列```sqlalter table score5 add columns (mycol str...

2020-06-04 20:13:13 576

原创 20200603大数据hive学习笔记

Hive1.1 基本概念英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持(Decision Support)。数据仓库是存数据的，企业的各种数据往里面存，主要目的是为了分析有效数据，后续会基于它产出供分析挖掘的数据，或者数据应用需要的数据，如企业的分析性报告和各类报表等。可以理解为: 面向分析的存储系统。1.2. 主要特征数据仓库是面向主题的(Subject-Oriented )、集成的(Integr

2020-06-04 01:04:12 361 1

原创 20200603大数据mapreduce经典案例

reducejoinproduct.txtp0001,小米5,1000,2000p0002,锤子T1,1000,3000orders.txt1001,20150710,p0001,21002,20150710,p0002,3/* K1: LongWritable V1: Text K2: Text 商品的id V2: Text 行文本信息(商品的信息)*/public class ReduceJoinMapper extends Mapper&lt...

2020-06-03 12:36:15 689

原创 20200602大数据mapreduce编程

整理一下最近学习的mapreduce编程听说mapreduce公司里基本上不用了，所以这里就简单学习一下我都是在本地测试，不在yarn上测，这样节省时间一些1.mapreduce介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。

2020-06-03 00:18:33 224

原创 20200526大数据学习笔记

count(1) = count(*)NameNode:集群当中的主节点，管理元数据(文件的大小，文件的位置，文件的权限)，主要用于管理集群当中的各种数据secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点，主要用于存储集群当中的各种数据数据计算核心模块: ResourceManager:接收用户的计算请求任务，并负责集群的资源分配NodeManager:负责执行主节点APPmaster分配的任务第二种:NameN.

2020-05-27 00:16:26 139

原创 2020.0521大数据笔记zookeeper

更改服务器的名字vi /etc/sysconfig/networkvi /etc/hostsvi /etc/hostname三连Zookeeper1.概述Zookeeper是一个开源的分布式协调服务框架，主要用来解决分布式集群中应用系统的一致性问题和数据管理问题2.Zookeeper的特点Zookeeper本质上是一个分布式文件系统，适合存放小文件，也可以理解为一个数据库Zookeeper中存储的其实是一个又一个Znode,Znode是Zookeeper中的节点Z.

2020-05-23 20:25:54 204 1

原创 2020.05.17大数据学习笔记

最近几天忙于学校作业 == 唉1.MapReduce分布式计算框架，生产开发复杂累赘，基本不用了现在都是用Hivesql Spark Flinkmap 映射将一组数据按照规则映射为一组数据条数不会发生变化id name1 a2 b3 c4 aselect * from t;select id,name+'1' from t;1 a12 b13 c14 ...

2020-05-17 22:20:36 250

原创 20200513算法笔记

算法笔记三蛮力法brute force3.1 选择排序跟冒泡排序时间复杂度都是O(n2)选择排序的话每次都遍历一个，找出最小的放在左边背包问题：感觉这个有点蠢，就是包最多能放多多少重然后把东西放进去取价值最高的一组深度优先查找和广度优先查找depth-first search DFS breadth-first search BFSDFS:深度优先搜索属于图算法的一种，是一个针对图和树的遍历算法，英文缩写为DFS即Depth First Sear...

2020-05-13 18:41:39 115

原创 20200513大数据笔记

[-safemode <enter | leave | get | wait>]安全模式。写不可以。读可以hdfs dfsadmin -safemode enterhdfs dfsadmin -safemode leave错误： Name node is in safe mode.什么时候会安全模式：1.hdfs故障 nn log日志根据错误去看看尝试能不能解决，和尝试先手动让他你看安全模式2.业务场景各个DN节点的数据平衡# Start balancer da..

2020-05-13 12:16:17 582

原创 20200512算法笔记二

算法第二章首先复杂度符号。Θ，读音：theta、西塔；既是上界也是下界(tight)，等于的意思。Ο，读音：big-oh、欧米可荣（大写）；表示上界(tightness unknown)，小于等于的意思。ο，读音：small-oh、欧米可荣（小写）；表示上界(not tight)，小于的意思。Ω，读音：big omega、欧米伽（大写）；表示下界(tightness unknown)，大于等于的意思。ω，读音：small omega、欧米伽（小写）；表示下界(not tight)，大

2020-05-12 22:32:01 110

原创 20200512大数据笔记——HDFS

hdfs 跟mapreduce 尽可能同节点数据本地化，就近原则，减少耗时元数据：物品的属性Schema（描述数据的数据）用户行为：通过监控实时获取mapreduce（复习）（1）通常一个集群中，有这几个角色：master、slave、client（2）数据副本——数据高可用、容灾（3）mapreduce——分而治之思想（4）一个split和一个map是一对一的关系上（5）开发java相当于开发函数，开发python等脚本，相当于规定好标准输入和输出hadoop 2.0主：R

2020-05-12 14:05:37 340

原创 java笔记二

java 的 Integer 和 int 有什么区别？int 是 java 内置基本数据类型之一，java 为每个基本类型都提供了一个封装类，Integer 就是 int 的封装类（也叫包装类型）；int 变量的默认值为 0，Integer 变量的默认值为 null，所以 Integer 可以区分出未赋值和值为 0 的区别；Integer 类内部提供了一些关于整数操作的方法，例如上文用到的表示整数的最大值和最小值。Long 包装类型常量 cache 为 -128 到 127 之间Integer

2020-05-11 23:00:54 108

空空如也

空空如也