sinat_32176267-优快云博客

原创 SparkStreaming 搭建《一》Win10可通用，供参考

是在本地windows配的，具体的如何配置其实要搞的麻烦事很多，多百度吧。编译环境：Spark2.3.1scala2.11.8jdk1.8hadoop2.6.5hive1.2.2kafka1.1.0Hbase1.4.5 一、新建工程：File-scala-idea二、指定工程名称，JDK版本，Scala版本。三、这里你看到的是scala项目，...

2018-08-16 14:52:31 1617

原创模仿[一个] 制作的Android app<三>

测试豆瓣api,这里调用了豆瓣TOP250,还有正在热映的api接口。并且结合了Rxjava 还有Rxtrofit具体用法如下这是封装的一个网络调用的基础类。1.首先编写一个apiService接口工厂。public interface MovieApiService { //region @description API 定义相关 String BAS

2017-03-26 14:37:12 959

原创模仿[一个] 制作的Android app<一>

写一段博客整理一下自己，前段时候模仿豆瓣做了一个简单的app,简单来说根据豆瓣api 从网站上获取最新数据，包括豆瓣电影，豆瓣图书，豆瓣音乐。作为一个大学生，以前在宿舍的时候就是抱着豆瓣Top250为信仰，啃完了它的榜单电影。查了一些资料，发现用豆瓣的接口也不是那么难。贴一下自己写的一个简单的页面。做完发现其实豆瓣的这个并不是很难，而且

2017-03-25 20:21:33 2809 2

1.es写入原理、查询原理为什么搜索是近实时的？ Elasticsearch 是怎样保证更新被持久化在断电时也不丢失数据? 为什么删除文档不会立刻释放空间？1.1ES写入流程以下是从主分片或者副本分片检索文档的步骤顺序：1、客户端向Node 1发送获取请求。2、节点使用文档的_id来确定文档属于分片0。分片0的副本分片存在于所有的三个节点上。在这种情况下，它将请求转发到Node 2。3、Node 2将文档返回给Node 1，然...

2021-08-04 10:36:37 500

原创 mapPartition

mapPartitions函数会对每个分区依次调用分区函数处理，然后将处理的结果(若干个Iterator)生成新的RDDs。mapPartitions与map类似，但是如果在映射的过程中需要频繁创建额外的对象，使用mapPartitions要比map高效的过。比如，将RDD中的所有数据通过JDBC连接写入数据库，如果使用map函数，可能要为每一个元素都创建一个connection，这样开销很大，如果使用mapPartitions，那么只需要针对每一个分区建立一个connection。SparkC.

2020-07-17 21:55:53 1150

原创 Storm介绍

1.storm概念Storm中涉及的主要概念有：1.storm概念拓扑(Topologies) 元组(Tuple) Spouts Bolts 2.实例可以看到Storm中各个概念的名字起的非常好，也很形象。拓扑(Topologies)一个Storm拓扑打包了一个实时处理程序的逻辑。一个Storm拓扑跟一个MapReduce的任务(job)是类似的。主要区别是MapReduce任务最终会结束，而拓扑会一直运行（当然直到你杀死它)。一个拓扑是一个...

2020-07-17 16:52:44 298

原创 Spark和Hadoop的比较

Hadoop框架主要模块包括：Hadoop Common Hadoop分布式文件系统 HDFS Hadoop YARN Hadoop MapReduceSpark速度快，可以进行批处理，然而它真正擅长的是流处理，交互式查询和机器学习Hadoop中的MR和Spark的主要区别在于，MapReduce使用持久存储，而Spark使用弹性分布式数据集RDD附录一个关于MapReduce的解释我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数书就更快。.

2020-07-17 16:50:58 402

原创 cube的理解，以及维度

1.数据立方体　　　　　　　　　　　　　　　　　　　　　　　　Cube物理模型　　如上图所示，一个常用的3维立方体，包含：时间、地点、产品。假如data cell 中存放的是产量，则我们可以根据时间、地点、产品来确定产量，同时也可以根据时间、地点来确定所有产品的总产量等。　　Apache Kylin就将所有（时间、地点、产品）的各种组合实现算出来，data cell 中存放度量，其中每一种组合都称为cuboid。估n维的数据最多有2^n个cuboid，不过Kylin通过设定维度的种类，可以减

2020-07-17 16:50:18 3311

原创维度、度量、指标概念

事实表，维度，度量，指标之间的关系事实表：每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据，如销售商品所产生的数据，与软件中实际表概念一样维度：说明数据，维度是指可指定不同值的对象的描述性属性或特征。例如，地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”。指标：衡量数据，指标是指可以按总数或比值衡量的具体维度元素。例如，维度“城市”可以关联指标“人口”，其值为具体城市的居民总数。维度和指标的关系：虽然维...

2020-07-17 16:49:25 8018

转载 Spark优化技巧《一》

1.性能调优1.1 分配更多资源分配哪些资源？Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源？# 在生产环境中，提交spark作业时，用的spark-submit shell脚本，里面调整对应的参数：/usr/local/spark/bin/spark-submit\--classcn.spark.sparktest.core.WordCountCluster \--num-ex

2020-07-17 10:30:12 415

原创 explain的分析技巧

除select，其他比如insert，update和delete均可以使用explain查看执行计划，从而知道mysql是如何处理sql语句，分析查询语句或者表结构的性能瓶颈。作用1、表的读取顺序2、数据读取操作的操作类型3、哪些索引可以使用4、哪些索引被实际使用5、表之间的引用6、每张表有多少行被优化器查询explain用法：explain+SQL语句即可！执行计划包...

2020-04-22 17:36:35 421

原创 Spark常用API<Scala>

概览 1.转换 2.动作 1.Transformation 1.1一个RDD进行转换操作 1.2 两个RDD的转换操作 1.3对一个Pair RDD进行转化操作 1.4对两个PairRDD进行转换操作 2.Action 2.1对一个RDD进行行动操作 2.2Pair RDD行动操作概览这里只有 Scala 的API，Java 与 Python...

2020-04-18 10:17:17 536

原创 Spark常用API<Java>

1.Transformation操作<Java>主要做的是就是将一个已有的RDD生成另外一个RDD。Transformation具有lazy特性(延迟加载)。Transformation算子的代码不会真正被执行。只有当我们的程序里面遇到一个action算子的时候，代码才会真正的被执行对1.1一个RDD进行转换操作举例：对一个数组为{1, 2, 3, 3}的RDD进行基本的R...

2020-04-18 10:16:08 664

原创构造函数

　1.构造函数的概念　　很多java新手谈到构造函数就会犯晕，我们先来看看什么是构造函数。　　首先，构造函数是函数的一种特殊形式，特殊在哪里？构造函数中不需要定义返回类型（void是无需返回值的意思，请注意区分两者），且构造函数的名称与所在的类名完全一致，其余的与函数的特性相同，可以带有参数列表，可以存在函数的重载现象。　　2.构造函数的格式　　了解了构造函数的基本概念，现在来写一...

2019-08-19 10:50:37 840

转载 MySQL-explain讲解

本文转载自博主：https://blog.youkuaiyun.com/jiadajing267/article/details/81269067除select，其他比如insert，update和delete均可以使用explain查看执行计划，从而知道mysql是如何处理sql语句，分析查询语句或者表结构的性能瓶颈。作用1、表的读取顺序2、数据读取操作的操作类型3、哪些索引可以使用...

2019-07-12 13:16:03 245

原创 tomcat7只支持jdk1.7及以下，若是jdk1.8则需要用tomcat8及以上

org.apache.catalina.LifecycleException: Failed to start component [StandardE.工作中出的错，应该牢记。

2019-03-05 17:00:59 26214 4

原创 Shell脚本学习《一》

在公司有很多地方都会用到shell脚本，用来跑spark程序或者用来写脚本进行数据批处理。介绍一下，shell1.shell简介Shell本身是一個用C語言編寫的程序，它是用戶使用Unix/Linux的橋梁，用戶的大部分工作都是通過Shell完成的。Shell既是一種命令語言，又是一種程序設計語言。作為命令語言，它交互式地解釋和執行用戶輸入的命令；作為程序設計語言，它定義了各種變量和參...

2019-03-01 10:56:20 355

转载 try catch 异常

转载自该博客，分析的比较详尽https://www.cnblogs.com/wcf6676/p/4905909.html

2019-02-27 18:46:46 221

转载 Mysql基础-数据库表的查询操作（重要）

　　　　　　序言　　　　　　　　　　1、MySQL表操作(创建表，查询表结构，更改表字段等)，　　　　　　　　　　2、MySQL的数据类型(CHAR、VARCHAR、BLOB,等)，　　　　　　　　　　本节比较重要，对数据表数据进行查询操作，其中可能大家不熟悉的就对于INNER JOIN(内连接)、LEFT JOIN(左连接)、RIGHT JOIN(右连接)等一些复杂查询。通过本节的...

2019-01-02 17:43:02 1135

原创 Mysql高性能优化第六章查询优化

背景：查询优化基础：查询的生命周期大致可以按照顺序如下来看：从客户端、服务器、然后在服务器上解析，生成执行计划，执行，并将返回结果给客户端。其中执行是生命周期中最重要的阶段。Mysql查看慢查询的指标：响应时间：服务时间和排队时间，服务时间是指数据库处理这个查询花了多少时间，排队时间是指服务器因为等待某些资源而没有真正执行查询的时间，可能是I/O时间，也可能是等待行锁等待。扫描...

2018-12-31 16:15:18 245

原创高性能索引笔记-第五章

1.B+树索引特点综合前面的文章介绍，b+树索引的最大的两个优点，一个是所有的数据存放在叶子节点上；另一个是叶子节点之间是都有指针，所以也支持顺序查询，笔记快。B-Tree索引的限制：例：创建的索引包含last_name,first_name,dob列如果不是按照最左列开始查找，则无法使用索引。如无法使用索引查找名字为bill的的人，也无法查找某个特定生日的人。因为这两列都不是数...

2018-12-31 15:32:08 245

转载 mysql中的B+树索引

转自http://blog.youkuaiyun.com/u013235478/article/details/50625677B+树索引是B+树在数据库中的一种实现，是最常见也是数据库中使用最为频繁的一种索引。B+树中的B代表平衡（balance），而不是二叉（binary），因为B+树是从最早的平衡二叉树演化而来的。在讲B+树之前必须先了解二叉查找树、平衡二叉树（AVLTree）和平衡多路查找树（B-...

2018-12-31 13:30:03 8173

原创 Mysql查询语句执行过程及运行原理

Mysql查询语句执行原理数据库查询语句如何执行？DML语句首先进行语法分析，对使用sql表示的查询进行语法分析，生成查询语法分析树。语义检查：检查sql中所涉及的对象以及是否在数据库中存在，用户是否具有操作权限等视图转换：将语法分析树转换成关系代数表达式，称为逻辑查询计划；查询优化：在选择逻辑查询计划时，会有多个不同的表达式，选择最佳的逻辑查询计划；代码生成：必须将逻辑查...

2018-10-22 22:36:21 22771 7

原创数据分类《二》贝叶斯分类

本博客是参考《数据仓库与数据挖掘技术》以及诸多道友的blog。仅作为自己学习的一个总结。贝叶斯分类是一种基于统计学的分类方法，可以预测一个类成员关系的可能性。数据挖掘主要使用两种分类，朴素贝叶斯和贝叶斯网络方法。前者使用贝叶斯进行预测，后者是一个带有注释的有向无环图，以有效表示大变量集的联合概率分布，适用于分析大量变量之间的相互关系，贝叶斯理论应用于文档分类，医疗诊断，预测，推理和归纳等数据挖...

2018-10-22 12:48:25 4000

原创数据分类（一）决策树

背景知识：Classification是一个从现有的带有类别的数据集中寻找同一类别数据的共同特征，并以这些特征为依据对新数据进行区分的过程。分类决策树的核心思想就是在一个数据集中找到一个最优特征，然后从这个特征的选值中找一个最优候选值(这段话稍后解释)，根据这个最优候选值将数据集分为两个子数据集，然后递归上述操作，直到满足指定条件为止。用途：决策树技术主要用来进行分类和预测，以实例...

2018-10-22 09:46:41 1452 1

转载 KMP算法

一：背景展开目录给定一个主串（以 S 代替）和模式串（以 P 代替），要求找出 P 在 S 中出现的位置，此即串的模式匹配问题。Knuth-Morris-Pratt 算法（简称 KMP）是解决这一问题的常用算法之一，这个算法是由高德纳（Donald Ervin Knuth）和沃恩 · 普拉特在 1974 年构思，同年詹姆斯 ·H· 莫里斯也独立地设计出该算法，最终三人于 1977 年...

2018-09-07 10:54:31 212

原创 Druid系列《三》集群

4.1集群安装集群配置的规划需要根据需求来定制，下面以一个开发环境机器搭建为例,描述如何搭建一个有HA特性的Druid集群.集群部署有以下几点需要说明 1. 为了保证HA,主节点部署两台 2. 管理节点与查询节点可以考虑多核大内存的机器部署规划角色机器配置集群角色主节...

2018-08-31 10:46:44 833

原创 Druid系列《二》Druid使用与安装

2.1加载数据到DruidDruid支持流式（实时）和基于文件（批量）的数据提取方式。最常用的配置是：Files - 通过HDFS、S3、本地文件或者任何支持hadoop文件系统批量加载数据。如果你的数据集已经在这类文件系统中推荐使用这个方法。 Stream push - 使用Tranquility（向Druid发送流的客户端）将实时数据流推送到Druid。如果你的数据集来自于流式...

2018-08-31 10:45:35 2852

原创 Druid实践系列《一》

一、Druid介绍... 21.1官方介绍... 21.2架构：... 31.3 Data Storage and Segment 41.4数据... 51.4查询过程... 7二、Druid使用... 72.1加载数据到Druid. 72.1.1加载静态数据... 82.1.2加载流式数据... 82.2数据查询... 9三、单机安装... 103...

2018-08-31 10:42:52 995

原创 java开启子线程的方法及优化

1.new Thread的弊端执行一个异步任务你还只是如下new Thread吗？ 1 2 3 4 5 6 7 new Thread(new Runnable() { @Override public void run() { // TODO Au...

2018-08-22 14:54:09 11003

原创 Scala中的Option方法和GetOrElse

对于some来说：如果some指定了一个数，那从这里面取getOrElse方法结果都是该指定的数，若Option为空，则取出的getOrElse值是后面的指定的值，与option无关。就是一个默认的缺省值一样。Option[Int]是类型 Int的容器，更确切地说，你可以把它看作是某种集合，这个特殊的集合要么只包含一个元素（即单词的历史词频），要么就什么元素都没有（这个单词历史上没...

2018-08-20 15:47:18 3424

原创 SparkStreaming《三》读取kafka数据，增量保存在Mysql里

一、SparkStreaming读取kafka数据package org.apache.spark.examples.streamingimport java.sql.{PreparedStatement, Connection, DriverManager}import java.util.concurrent.atomic.AtomicIntegerimport org.apach...

2018-08-20 15:17:37 1724

转载 Spark打包方式SBT

下载sbt地址：sudo mkdir /usr/local/sbtsudo chown -R hadoop /usr/local/sbt # 此处的 hadoop 为你的用户名cd /usr/local/sbt安装以后把sbtlanuncher放在sbt目录下接着在 /usr/local/sbt 中创建 sbt 脚本（vim ./sbt），添加如下内容：#!/b...

2018-08-16 20:21:46 1776

原创 SparkStreaming 搭建《二》运行SparkStreaming在集群上提交方式

本教程主要总结SparkStreaming并打包在集群上提交的方式。需要先开启$ nc -lk 9999代码：import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.{Seconds, Streaming...

2018-08-16 15:05:11 1567

转载 Redis应用场景

Redis的7个应用场景一：缓存——热数据热点数据（经常会被查询，但是不经常被修改或者删除的数据），首选是使用redis缓存，毕竟强大到冒泡的QPS和极强的稳定性不是所有类似工具都有的，而且相比于memcached还提供了丰富的数据类型可以使用，另外，内存中的数据也提供了AOF和RDB等持久化机制可以选择，要冷、热的还是忽冷忽热的都可选。结合具体应用需要注意一下：很多人用spri...

2018-08-16 14:16:42 288

原创 Spark搭建历程-《sparkStreaming》1

在虚拟机上搭运行spark程序的时候： spark-submit --queue media --class test.SparkStreamingDemo --master yarn-cluster --executor-memory 2g --executor-cores 2 --conf spark.yarn.submit.waitAppCompletion=false ~/s...

2018-08-16 11:37:02 407

原创 Java笔试进阶《一》

public class HashSetTest { public static void main(String[] args) { String s1,s2,s3 = "abc", s4 ="abc" ; s1 = new String("abc"); s2 = new String("abc"); System....

2018-07-10 17:27:06 268

转载 WireShark使用教程 TCP/UDP

抓包应该是每个技术人员掌握的基础知识，无论是技术支持运维人员或者是研发，多少都会遇到要抓包的情况，用过的抓包工具有fiddle、wireshark，作为一个不是经常要抓包的人员，学会用Wireshark就够了，毕竟它是功能最全面使用者最多的抓包工具。Wireshark（前称Ethereal）是一个网络封包分析软件。网络封包分析软件的功能是撷取网络封包，并尽可能显示出最为详细的网络封包资料。Wi

2017-10-20 17:01:00 29300 2

转载 Wireshark抓包示例

Wireshark 基本语法，基本使用方法，及包过虑规则：1.过滤IP，如来源IP或者目标IP等于某个IP例子:ip.src eq 192.168.1.107 or ip.dst eq 192.168.1.107或者ip.addr eq 192.168.1.107 // 都能显示来源IP和目标IPlinux上运行的wire

2017-10-20 16:59:50 3224

原创百度地图api批量转换坐标

百度地图官网提供的坐标批量转换 var points = [new BMap.Point(116.3786889372559,39.90762965106183), new BMap.Point(116.38632786853032,39.90795884517671), new BMap.Point

2017-10-15 14:53:40 7064

Android开发艺术探索-书中代码

Butterknife

空空如也