自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 资源 (2)
  • 收藏
  • 关注

原创 SparkStreaming 搭建《一》Win10可通用,供参考

是在本地windows配的,具体的如何配置其实要搞的麻烦事很多,多百度吧。编译环境:Spark2.3.1scala2.11.8jdk1.8hadoop2.6.5hive1.2.2kafka1.1.0Hbase1.4.5 一、新建工程:File-scala-idea二、指定工程名称,JDK版本,Scala版本。三、这里你看到的是scala项目,...

2018-08-16 14:52:31 1586

原创 模仿[一个] 制作的Android app<三>

测试豆瓣api,这里调用了豆瓣TOP250,还有正在热映 的api接口。并且结合了Rxjava 还有Rxtrofit具体用法如下这是封装的一个网络调用的基础类。1.首先编写一个apiService接口工厂。public interface MovieApiService { //region @description API 定义相关 String BAS

2017-03-26 14:37:12 922

原创 模仿[一个] 制作的Android app<一>

写一段博客整理一下自己,前段时候模仿豆瓣做了一个简单的app,简单来说根据豆瓣api 从网站上获取最新数据,包括豆瓣电影,豆瓣图书,豆瓣音乐。作为一个大学生,以前在宿舍的时候就是抱着豆瓣Top250为信仰,啃完了它的榜单电影。查了一些资料,发现用豆瓣的接口也不是那么难。贴一下自己写的一个简单的页面。   做完发现其实豆瓣的这个并不是很难,而且

2017-03-25 20:21:33 2775 2

原创 es学习分享

1.es写入原理、查询原理为什么搜索是近实时的? Elasticsearch 是怎样保证更新被持久化在断电时也不丢失数据? 为什么删除文档不会立刻释放空间?1.1ES写入流程以下是从主分片或者副本分片检索文档的步骤顺序:1、客户端向Node 1发送获取请求。2、节点使用文档的_id来确定文档属于分片0。分片0的副本分片存在于所有的三个节点上。 在这种情况下,它将请求转发到Node 2。3、Node 2将文档返回给Node 1,然...

2021-08-04 10:36:37 428

原创 mapPartition

mapPartitions函数会对每个分区依次调用分区函数处理,然后将处理的结果(若干个Iterator)生成新的RDDs。mapPartitions与map类似,但是如果在映射的过程中需要频繁创建额外的对象,使用mapPartitions要比map高效的过。比如,将RDD中的所有数据通过JDBC连接写入数据库,如果使用map函数,可能要为每一个元素都创建一个connection,这样开销很大,如果使用mapPartitions,那么只需要针对每一个分区建立一个connection。SparkC.

2020-07-17 21:55:53 1106

原创 Storm介绍

1.storm概念Storm中涉及的主要概念有:1.storm概念 拓扑(Topologies) 元组(Tuple) Spouts Bolts 2.实例可以看到Storm中各个概念的名字起的非常好,也很形象。拓扑(Topologies)一个Storm拓扑打包了一个实时处理程序的逻辑。一个Storm拓扑跟一个MapReduce的任务(job)是类似的。主要区别是MapReduce任务最终会结束,而拓扑会一直运行(当然直到你杀死它)。一个拓扑是一个...

2020-07-17 16:52:44 270

原创 Spark和Hadoop的比较

Hadoop框架主要模块包括:Hadoop Common Hadoop分布式文件系统 HDFS Hadoop YARN Hadoop MapReduceSpark速度快,可以进行批处理,然而它真正擅长的是流处理,交互式查询和机器学习Hadoop中的MR和Spark的主要区别在于,MapReduce使用持久存储,而Spark使用弹性分布式数据集RDD附录一个关于MapReduce的解释 我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。.

2020-07-17 16:50:58 360

原创 cube的理解,以及维度

1.数据立方体                        Cube物理模型  如上图所示,一个常用的3维立方体,包含:时间、地点、产品。假如data cell 中存放的是产量,则我们可以根据时间、地点、产品来确定产量,同时也可以根据时间、地点来确定所有产品的总产量等。  Apache Kylin就将所有(时间、地点、产品)的各种组合实现算出来,data cell 中存放度量,其中每一种组合都称为cuboid。估n维的数据最多有2^n个cuboid,不过Kylin通过设定维度的种类,可以减

2020-07-17 16:50:18 3148

原创 维度、度量、指标概念

事实表,维度,度量,指标之间的关系事实表:每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如销售商品所产生的数据,与软件中实际表概念一样维度:说明数据,维度是指可指定不同值的对象的描述性属性或特征。例如,地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”。指标:衡量数据,指标是指可以按总数或比值衡量的具体维度元素。例如,维度“城市”可以关联指标“人口”,其值为具体城市的居民总数。维度和指标的关系:虽然维...

2020-07-17 16:49:25 7733

转载 Spark优化技巧《一》

1.性能调优1.1 分配更多资源分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源?# 在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数:/usr/local/spark/bin/spark-submit\--classcn.spark.sparktest.core.WordCountCluster \--num-ex

2020-07-17 10:30:12 378

原创 explain的分析技巧

除select,其他比如insert,update和delete均可以使用explain查看执行计划,从而知道mysql是如何处理sql语句,分析查询语句或者表结构的性能瓶颈。作用1、表的读取顺序2、数据读取操作的操作类型3、哪些索引可以使用4、哪些索引被实际使用5、表之间的引用6、每张表有多少行被优化器查询explain用法:explain+SQL语句即可!执行计划包...

2020-04-22 17:36:35 371

原创 Spark常用API<Scala>

概览 1.转换 2.动作 1.Transformation 1.1一个RDD进行转换操作 1.2 两个RDD的转换操作 1.3对一个Pair RDD进行转化操作 1.4对两个PairRDD进行转换操作 2.Action 2.1对一个RDD进行行动操作 2.2Pair RDD行动操作 概览这里只有 Scala 的API,Java 与 Python...

2020-04-18 10:17:17 489

原创 Spark常用API<Java>

1.Transformation操作<Java>主要做的是就是将一个已有的RDD生成另外一个RDD。Transformation具有lazy特性(延迟加载)。Transformation算子的代码不会真正被执行。只有当我们的程序里面遇到一个action算子的时候,代码才会真正的被执行对1.1一个RDD进行转换操作举例:对一个数组为{1, 2, 3, 3}的RDD进行基本的R...

2020-04-18 10:16:08 608

原创 构造函数

 1.构造函数的概念  很多java新手谈到构造函数就会犯晕,我们先来看看什么是构造函数。  首先,构造函数是函数的一种特殊形式,特殊在哪里?构造函数中不需要定义返回类型(void是无需返回值的意思,请注意区分两者),且构造函数的名称与所在的类名完全一致,其余的与函数的特性相同,可以带有参数列表,可以存在函数的重载现象。  2.构造函数的格式  了解了构造函数的基本概念,现在来写一...

2019-08-19 10:50:37 815

转载 MySQL-explain讲解

本文转载自博主:https://blog.youkuaiyun.com/jiadajing267/article/details/81269067除select,其他比如insert,update和delete均可以使用explain查看执行计划,从而知道mysql是如何处理sql语句,分析查询语句或者表结构的性能瓶颈。作用1、表的读取顺序2、数据读取操作的操作类型3、哪些索引可以使用...

2019-07-12 13:16:03 224

原创 tomcat7只支持jdk1.7及以下,若是jdk1.8则需要用tomcat8及以上

org.apache.catalina.LifecycleException: Failed to start component [StandardE.工作中出的错,应该牢记。

2019-03-05 17:00:59 26104 4

原创 Shell脚本学习《一》

在公司有很多地方都会用到shell脚本,用来跑spark程序或者用来写脚本进行数据批处理。介绍一下,shell1.shell简介Shell本身是一個用C語言編寫的程序,它是用戶使用Unix/Linux的橋梁,用戶的大部分工作都是通過Shell完成的。Shell既是一種命令語言,又是一種程序設計語言。作為命令語言,它交互式地解釋和執行用戶輸入的命令;作為程序設計語言,它定義了各種變量和參...

2019-03-01 10:56:20 308

转载 try catch 异常

转载自该博客,分析的比较详尽https://www.cnblogs.com/wcf6676/p/4905909.html

2019-02-27 18:46:46 197

转载 Mysql基础-数据库表的查询操作(重要)

      序言          1、MySQL表操作(创建表,查询表结构,更改表字段等),          2、MySQL的数据类型(CHAR、VARCHAR、BLOB,等),          本节比较重要,对数据表数据进行查询操作,其中可能大家不熟悉的就对于INNER JOIN(内连接)、LEFT JOIN(左连接)、RIGHT JOIN(右连接)等一些复杂查询。 通过本节的...

2019-01-02 17:43:02 1100

原创 Mysql高性能优化第六章 查询优化

背景:查询优化基础:查询的生命周期大致可以按照顺序如下来看:从客户端、服务器、然后在服务器上解析,生成执行计划,执行,并将返回结果给客户端。其中执行是生命周期中最重要的阶段。Mysql查看慢查询的指标:响应时间:服务时间和排队时间,服务时间是指数据库处理这个查询花了多少时间,排队时间是指服务器因为等待某些资源而没有真正执行查询的时间,可能是I/O时间,也可能是等待行锁等待。扫描...

2018-12-31 16:15:18 223

原创 高性能索引笔记-第五章

1.B+树索引特点综合前面的文章介绍,b+树索引的最大的两个优点,一个是所有的数据存放在叶子节点上;另一个是叶子节点之间是都有指针,所以也支持顺序查询,笔记快。B-Tree索引的限制:例:创建的索引包含last_name,first_name,dob列 如果不是按照最左列开始查找,则无法使用索引。如无法使用索引查找名字为bill的的人,也无法查找某个特定生日的人。因为这两列都不是数...

2018-12-31 15:32:08 219

转载 mysql中的B+树索引

转自http://blog.youkuaiyun.com/u013235478/article/details/50625677B+树索引是B+树在数据库中的一种实现,是最常见也是数据库中使用最为频繁的一种索引。B+树中的B代表平衡(balance),而不是二叉(binary),因为B+树是从最早的平衡二叉树演化而来的。在讲B+树之前必须先了解二叉查找树、平衡二叉树(AVLTree)和平衡多路查找树(B-...

2018-12-31 13:30:03 8115

原创 Mysql查询语句执行过程及运行原理

Mysql查询语句执行原理数据库查询语句如何执行?DML语句首先进行语法分析,对使用sql表示的查询进行语法分析,生成查询语法分析树。 语义检查:检查sql中所涉及的对象以及是否在数据库中存在,用户是否具有操作权限等 视图转换:将语法分析树转换成关系代数表达式,称为逻辑查询计划; 查询优化:在选择逻辑查询计划时,会有多个不同的表达式,选择最佳的逻辑查询计划; 代码生成:必须将逻辑查...

2018-10-22 22:36:21 22619 7

原创 数据分类《二》贝叶斯分类

本博客是参考《数据仓库与数据挖掘技术》以及诸多道友的blog。仅作为自己学习的一个总结。贝叶斯分类是一种基于统计学的分类方法,可以预测一个类成员关系的可能性。数据挖掘主要使用两种分类,朴素贝叶斯和贝叶斯网络方法。前者使用贝叶斯进行预测,后者是一个带有注释的有向无环图,以有效表示大变量集的联合概率分布,适用于分析大量变量之间的相互关系,贝叶斯理论应用于文档分类,医疗诊断,预测,推理和归纳等数据挖...

2018-10-22 12:48:25 3920

原创 数据分类(一)决策树

背景知识:Classification是一个从现有的带有类别的数据集中寻找同一类别数据的共同特征,并以这些特征为依据对新数据进行区分的过程。分类决策树的核心思想就是在一个数据集中找到一个最优特征,然后从这个特征的选值中找一个最优候选值(这段话稍后解释),根据这个最优候选值将数据集分为两个子数据集,然后递归上述操作,直到满足指定条件为止。用途:决策树技术主要用来进行分类和预测,以实例...

2018-10-22 09:46:41 1416 1

转载 KMP算法

 一:背景展开目录给定一个主串(以 S 代替)和模式串(以 P 代替),要求找出 P 在 S 中出现的位置,此即串的模式匹配问题。Knuth-Morris-Pratt 算法(简称 KMP)是解决这一问题的常用算法之一,这个算法是由高德纳(Donald Ervin Knuth)和沃恩 · 普拉特在 1974 年构思,同年詹姆斯 ·H· 莫里斯也独立地设计出该算法,最终三人于 1977 年...

2018-09-07 10:54:31 190

原创 Druid系列《三》集群

 4.1集群安装集群配置的规划需要根据需求来定制,下面以一个开发环境机器搭建为例,描述如何搭建一个有HA特性的Druid集群.集群部署有以下几点需要说明 1. 为了保证HA,主节点部署两台 2. 管理节点与查询节点可以考虑多核大内存的机器部署规划 角色 机器 配置 集群角色 主节...

2018-08-31 10:46:44 796

原创 Druid系列 《二》Druid使用与安装

 2.1加载数据到DruidDruid支持流式(实时)和基于文件(批量)的数据提取方式。最常用的配置是:Files - 通过HDFS、S3、本地文件或者任何支持hadoop文件系统批量加载数据。如果你的数据集已经在这类文件系统中推荐使用这个方法。 Stream push - 使用Tranquility(向Druid发送流的客户端)将实时数据流推送到Druid。如果你的数据集来自于流式...

2018-08-31 10:45:35 2799

原创 Druid实践系列《一》

一、Druid介绍... 21.1官方介绍... 21.2架构:... 31.3 Data Storage and Segment 41.4数据... 51.4查询过程... 7二、Druid使用... 72.1加载数据到Druid. 72.1.1加载静态数据... 82.1.2加载流式数据... 82.2数据查询... 9三、单机安装... 103...

2018-08-31 10:42:52 938

原创 java开启子线程的方法及优化

1.new Thread的弊端执行一个异步任务你还只是如下new Thread吗? 1 2 3 4 5 6 7 new Thread(new Runnable() {        @Override     public void run() {         // TODO Au...

2018-08-22 14:54:09 10932

原创 Scala中的Option方法和GetOrElse

对于some来说:如果some指定了一个数,那从这里面取getOrElse方法结果都是该指定的数,若Option为空,则取出的getOrElse值是后面的指定的值,与option无关。就是一个默认的缺省值一样。Option[Int]是类型 Int的容器,更确切地说,你可以把它看作是某种集合,这个特殊的集合要么只包含一个元素(即单词的历史词频),要么就什么元素都没有(这个单词历史上没...

2018-08-20 15:47:18 3340

原创 SparkStreaming《三》读取kafka数据,增量保存在Mysql里

一、SparkStreaming读取kafka数据package org.apache.spark.examples.streamingimport java.sql.{PreparedStatement, Connection, DriverManager}import java.util.concurrent.atomic.AtomicIntegerimport org.apach...

2018-08-20 15:17:37 1686

转载 Spark打包方式SBT

下载sbt地址:sudo mkdir /usr/local/sbtsudo chown -R hadoop /usr/local/sbt # 此处的 hadoop 为你的用户名cd /usr/local/sbt安装以后 把sbtlanuncher放在sbt目录下接着在 /usr/local/sbt 中创建 sbt 脚本(vim ./sbt),添加如下内容:#!/b...

2018-08-16 20:21:46 1734

原创 SparkStreaming 搭建《二》运行SparkStreaming在集群上提交方式

本教程主要总结SparkStreaming并打包在集群上提交的方式。需要先开启$ nc -lk 9999代码:import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.{Seconds, Streaming...

2018-08-16 15:05:11 1527

转载 Redis应用场景

Redis的7个应用场景 一:缓存——热数据热点数据(经常会被查询,但是不经常被修改或者删除的数据),首选是使用redis缓存,毕竟强大到冒泡的QPS和极强的稳定性不是所有类似工具都有的,而且相比于memcached还提供了丰富的数据类型可以使用,另外,内存中的数据也提供了AOF和RDB等持久化机制可以选择,要冷、热的还是忽冷忽热的都可选。结合具体应用需要注意一下:很多人用spri...

2018-08-16 14:16:42 266

原创 Spark搭建历程-《sparkStreaming》1

在虚拟机上搭运行spark程序的时候: spark-submit --queue media --class test.SparkStreamingDemo --master yarn-cluster --executor-memory 2g --executor-cores 2 --conf spark.yarn.submit.waitAppCompletion=false ~/s...

2018-08-16 11:37:02 378

原创 Java笔试进阶《一》

public class HashSetTest { public static void main(String[] args) { String s1,s2,s3 = "abc", s4 ="abc" ; s1 = new String("abc"); s2 = new String("abc"); System....

2018-07-10 17:27:06 246

转载 WireShark使用教程 TCP/UDP

抓包应该是每个技术人员掌握的基础知识,无论是技术支持运维人员或者是研发,多少都会遇到要抓包的情况,用过的抓包工具有fiddle、wireshark,作为一个不是经常要抓包的人员,学会用Wireshark就够了,毕竟它是功能最全面使用者最多的抓包工具。Wireshark(前称Ethereal)是一个网络封包分析软件。网络封包分析软件的功能是撷取网络封包,并尽可能显示出最为详细的网络封包资料。Wi

2017-10-20 17:01:00 29102 2

转载 Wireshark抓包示例

Wireshark 基本语法,基本使用方法,及包过虑规则:1.过滤IP,如来源IP或者目标IP等于某个IP例子:ip.src eq 192.168.1.107 or ip.dst eq 192.168.1.107或者ip.addr eq 192.168.1.107 // 都能显示来源IP和目标IPlinux上运行的wire

2017-10-20 16:59:50 3062

原创 百度地图api批量转换坐标

百度地图官网提供的坐标批量转换    var points = [new BMap.Point(116.3786889372559,39.90762965106183),                  new BMap.Point(116.38632786853032,39.90795884517671),                  new BMap.Point

2017-10-15 14:53:40 6918

Android开发艺术探索-书中代码

Android开发艺术探索-书中代码,全部的代码。可编译运行,用于购买任玉刚的书友进行辅助开发

2018-06-25

Butterknife

在androidStudio 上用的本地插件 ,解决因为代理的问题不能搜索到这些插件的小伙伴们Butterknife GsonFormat

2017-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除