- 博客(31)
- 资源 (3)
- 收藏
- 关注
原创 scala的常用
Spark中的DataFrame的getAs方法如果取到的值是null的处理结果我遇到的两种情况吧val DF = hc.sql("...............")val rdd = DF.rdd.map{row =>val label = row.getAs[Int]("age")}1,如果getAs[Integer]("age")那么null值被拿出来依然为null...
2019-09-20 13:21:02
523
原创 1 面试
1.hive 内存溢出 1、Mapper/Reducer阶段JVM内存溢出(一般都是堆) ---参数的修改 2. MRAppMaster内存不足 ---参数的修改2 .python 排虫中URL的去重和反爬机制3 . spark groupby4 sparkStreaming 当数据聚变,怎么优化5 线程池...
2019-06-25 20:26:04
166
原创 Spark 优化策略和数据倾斜
1Spark用到序列化的地方 更改底层序列化的方法,如kryo2 配置多临时文件目录 spark.local.dir参数。当shuffle 可以创建多个文件夹,每个文件夹都对应一个真实的硬盘 spark.local.dir=/home/tmp,/home/tmp2,/home/tmp33 启用推测执行机制 可以设置spark.specula...
2019-06-05 11:37:57
229
原创 Spark
Spark 是专为大规模数据处理而设计的快速通用的计算引擎生态系统圈Spark组件 Core; 核心,实现RDD,API等相关操作,是其他组件的基础 SQL: 基于HiveQL与Spark交互的API,其中一个数据库表看作一个RDD Streaming: 对实时数据流进行处理和控制,以RDD的方式 MLib: 常用的机器学习算法库, 将算法的实现转为对RD...
2019-06-05 11:37:44
373
原创 scala
1 scala 底层是有一种隐式转换机制,比如对String类型,底层会转化Scala的StringOps类型2 scala 的通用的化简规则:调方法时候,方法的参数列表只有一个,则方法的()可以省略数字:1 scala中没有基本变量,都是对象和方法2 scala的int 表面是java的int 但是底层通过隐式转换,转成了scala的RichInt类型to方法。用生成...
2019-06-03 09:30:26
1175
原创 kafka
一。 简介Kafka是一个分布式的流式处理平台,主要包含三个功能: 发布和订阅数据,类似于消息队列或者企业中的消息传递系统 存储数据的时候有容错(分布式+复本机制)和持久化机制 数据产生的时候处理记录(数据),当数据出现,能处理数据 生产者和消费者解耦 应用:1 构建可靠的数据传输的实时流管道2 在转换或者响应数据流的时候构建实时流程序kafka采用的是p...
2019-05-31 09:27:59
214
原创 kafka --2
1 Kafka 正在成为管理和处理流式数据的利器。Kafka 堆内存的使用率非常高,容易产生垃坡对象,所以可以把这些值设得小 些。如果一台服务器有 64GB 存,井且使用 GB 堆内存来运行 Kafka ,那么可以参考以下的配置: axGCPause HHs 可以设为 20 s; In1.t1.at1.ngHeap0ccupancyPe cent 可以设为 35 ,这样可以让垃圾回收...
2019-05-30 14:09:19
121
原创 Sqoop
1 sqoop是Apache 提供的工具,用于hdfs和关系型数据库之间数据的导入和导入2 可以从hdfs导出数据到关系型数据库,也可以从关系型数据库导入数据到hdfs解压Sqoop de 安装包 在lib利用指令操作1 查看mysql所有数据库sh sqoop list-databases --connect jdbc:mysql://192.168.150.13...
2019-05-28 19:11:05
528
原创 hive 内部表和外部表 维度表和实体表
1 内部表 先在hive里建一张表,然后向这个表插入数据(用insert可以插入数据,也可以通过加载外部文件方式来插入数据),这样的表称之为hive的内部表2 外部表 HDFS里已经有数据了,然后,通过hive创建一张表来管理这个文件数据。则这样表称之为外部表 注意,hive外部表管理的是HDFS里的某一个目录下的文件数据进入hive,执行:create exte...
2019-05-28 18:48:00
1369
原创 HBase
HBase本身就是一个非关系型数据库 HBase在存储数据的时候也是以key-value结构来进行存储 HBase基于Hadoop运行,但是Hbase的效率控制在秒的级别 HBase在存储的时候基于列进行存储的 - 传统的行存储的方式,在查询特定列的时候,大部分时间花在磁盘寻址上;在实际开发中,查询数据往往不是整表查询往往是查询指定的几列,在这个时候列存储的方式的效率就明显要高一些 在HB...
2019-05-27 20:17:34
214
原创 Hive
1 基于Hadoop的一个离线分析2 类sql语言--HQL3.降低Hadoop中MapReduce的开发4 在底层将输入的HQL转化MapReduce 运行效率慢5 一个操作数据仓库工具的工具6 对结构化数据来进行分析7 表 ,以及表中的字段是hive的元数据,hive处理的数据放在HDFS8 HIve的元数据默认在Hive自带基础指令:1 show dat...
2019-05-27 09:34:57
147
原创 hadoop Yarn
一 简介:在Hadoop1.0 1 JobTrcaker 任务调度(分配Maptasker和ReduceTask 并监控任务的执行情况)和 资源管理(job执行) 2 TaskTracker 任务执行在Hadoop2.0yarn ResourceManager (资源管理 :负责资源的监控) --ApplicationManager Schedula...
2019-05-22 10:15:38
218
原创 hadoop mapReduce
简介: 1 是Hadoop中的一个用于进行分布式计算的框架 2 意味着将计算2个阶段:Map(映射)阶段和Reduce(规约)阶段Mapper组件的知识点Mapper组件开发方式:自定义一个类,继承MapperMapper组件的作用是定义每一个MapTask具体要怎么处理数据。例如一个文件,257MB,会生成3个MapTask。即三个MapTask处理逻辑是一样的,只是...
2019-05-18 11:25:57
420
原创 线程池的简介
一、简介意义:为了减少服务器端线程的大量的创建和销毁线程池刚创建的时候没有任何的线程,当来了新的请求的时候才会创建线程(核心线程)去处理对应的请求 当请求处理完成之后,核心线程不会被回收在核心线程达到指定的数量之前,每一个请求都会在线程池中创建一个新的核心线程当核心线程被全部占用的时候,新来的请求会放入工作队列中。工作队列本质上是一个阻塞式队列当工作队列被占满,再来的新请求会交给临时...
2019-05-16 15:14:15
224
原创 Hadoop
一.概论1 一个开源,可靠的,可开展的用于分布式框架2.本身用于离线分析的框架,对历史数据进行分析二.模块1.hadoop Common:基本模块2 HDFS:用于存储数据3 hadoop Yarn:任务调度和节点管理4 hadoop MapReduce:用于并行发布式计算5 hadoop Ozone:用于对象的存储6 hadoop Submarine: 用于机...
2019-05-15 16:00:09
247
原创 大数据的简介
一。5v1, Volumo 数据量大,大数据的数据量从TB,PB,EB ,ZB2. Variety 数据的种类和样式多,数据从开始结构化----半结构化---非结构化3. Value 数据价值密度低4.Veracity 数据的质量或真实性5. Velocity 数据的增强速度越来越快6 6v--连通性:数据之间的关联性,7v---动态性 8v--可视性...
2019-05-14 18:09:33
1027
原创 Zookeeper的节点
zookeeper的安装:1.关闭防火墙 firewalld服务即可: sudo systemctl stop firewalld.service && sudo systemctl disable firewalld.service2. JDK3. tar-xvf4.进人 cdzookeeper-3.4.8/conf5.zo...
2019-05-14 18:09:00
836
原创 表连接优化,left join
EXPLAIN PARTITIONS SELECT *FROM delivery_warning_detail_unload AS uLEFT JOIN delivery_warning_detail_handover AS h ON u.main_waybill_no = h.main_waybill_noLEFT JOIN delivery_warning_detail_s...
2019-05-14 18:08:44
671
原创 netty的学习
1 .什么是Netty * 高性能,事件驱动,异步非堵塞 *基于NIO的客户端,服务器端编程框架 * 稳定性和伸缩性2.Netty使用场景 * 高性能领域,多线程并发领域,异步通信领域3. IO的分类*java的BIO ,伪异步IO,NIO,AIO一。java IO通信1.BIO通信 *一个线程负责连接,一请求一应答,缺少弹性伸缩能力2.伪...
2019-05-14 18:07:57
142
原创 青青的笔记
不知不觉2018年就过去了,在跨入2019的当天,我认识你,刘燕青2019年的目标1.好好守护另一半2.进入一家大数据的公司,手握理想的offer 2019刚刚开始,在未来的日子,我们一起守护,家里的一切,我们来一起扛。 ...
2019-01-14 09:50:10
146
原创 2018已经流逝至尾声,我的2019在哪里?
回想上次最长的假期(春节),2018里面的日子,日子真快,日子一天接一天,一月接一节,有些迷茫,有些失望,更多是忙,忙,忙。爱:曾经想去看看你,犹豫了,曾经多多赚点钱,失败了,曾经想去换更好的房子,没有你的地方,再好也不像家。曾经想和你一起看看心中的地方,你没有回音,我放弃了,我累了。。。友情:曾经想去成都看看,一起看看大海,放弃了。曾经想打电话给你,好像没有话题,...
2018-12-28 17:03:05
137
转载 java 分布式与集群的区别和联系
一.先说区别:一句话:分布式是并联工作的,集群是串联工作的。1.分布式是指将不同的业务分布在不同的地方(微服务是为了满足在不同微服务实现不同功能)。 而集群指的是将几台服务器集中在一起,实现同一业务(redis集群,数据库集群)。分布式中的每一个节点,都可以做集群。 而集群并不一定就是分布式的。举例:就比如新浪网,访问的人多了,他可以做一个群集,前面放一个响应服务器,后面几台服务器...
2018-09-05 15:10:43
2295
原创 在项目开发中redisCacheUtils
在项目开发中redisCacheUtilspackage com.sf.stms.server.redis;import java.time.Duration;import java.time.Instant;import java.util.ArrayList;import java.util.Arrays;import java.util.Collection;import...
2018-08-24 17:09:58
1868
原创 DataGrid用在实体类和简写jsp和h5
一. 实体类的注解 这里的@DataGridDisplay是自定以的注解,在下面有介绍这里的@@ColimnDisplay是自定以的注解,在下面有介绍 二. action 或Controller返回jsp或h5数据三.介绍奇特的注解和类1.DataGridConfig2.@ColumnDisplay注解3.@DataGridp...
2018-08-22 10:20:06
727
原创 SpringBoot ,SpringMVC 和Spring
Spring Boot ,Spring MVC 和Spring的比较1 . SpringFramework 最重要的特性是依赖注入。所有SpringModules不是依赖注入就是IOC控制反转。当我们适当的使用DI和IOC可以开发松耦合应用。2 . Spring Mvc是基于 Servlet 的一个 MVC 框架 ,提供一种分离式的方法来开发web应用,通过运用Dispatcher
2018-05-10 10:08:48
949
1
原创 springboot的微服务
Spring Boot让你可以通过嵌入式服务器将它提供的Java应用程序与你自己的应用程序一起使用。它使用了Tomcat,因此你不必使用其他的Java EE容器。Spring Boot的教程示例可以访问这里。你可以在这里找到所有的Spring Boot工程,你会发现Spring Boot拥有你的应用程序所需的所有基础架构。无论你是在编写安全类、配置类或是大数据类的应用程序,总能找到对应的S
2018-02-01 10:55:38
232
原创 spring 5.0 的一些特性
整个框架的代码基于java8通过使用泛型等特性提高可读性对java8提高直接的代码支撑运行时兼容JDK9核心特性JDK8的增强:访问Resuouce时提供getFile或和isFile防御式抽象有效的方法参数访问基于java 8反射增强在Spring核心接口中增加了声明default方法的支持一贯使用JDK7 Charset和StandardCharsets的增强兼容J
2018-02-01 10:00:22
1472
原创 springcloud ,微服务
spring cloud 基于springboot,为我们提供配置管理,服务发现,断路器,代理服务等我们在做分布式开发常用的问题的解决方案。
2018-01-03 16:20:50
224
原创 springboot的热部署的笔记
springboot的热部署常用的两种方法使用 Spring Loaded使用 spring-boot-devtools一。springloaded在 POM 文件中添加依赖?1234567891011121314
2018-01-03 13:59:17
222
原创 spingboot 的缓存—spring.cashe
1. @CachePut(value = "people",key = "#person.id")解释:@cachePut缓存新增的或更新的数据到缓存,其中缓存名称为people ,数据的key是person的id2. @CacheEvict(value = "people")解释 :@CacheEvict从缓存people中删除key为id的数据3.@Cache
2017-12-27 17:09:55
480
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人