- 博客(28)
- 资源 (19)
- 收藏
- 关注
原创 dubbo接口调试工具
最近的项目使用来dubbo进行开发,虽然可以使用telne客户端t进行dubbo的接口的调试,但总感觉调试起来不太方便,并且限制太多,于是抽了点时间出来编写了一个dubbo的客户端可视化调试工具,功能虽简单但可以快速的调试dubbo接口。该客户端通过连接注册中心(Nacos,Zookeeper,Redis)或者直连服务获取服务提供者进行dubbo接口调试。一、导入dubbo接口通过加载jar自动获取接口信息,生成请求参数的JSON个数,修改请求参数及将请求参数保存下来。二、配置注册...
2020-05-30 21:02:17
3405
3
原创 Elasticsearch文档表现及服务API操作
ElasticSearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。ElasticSearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。1.Elasticsearch中的文档表现...
2019-08-10 22:46:09
706
原创 HBase基于shell的增删改查等操作命令
1、基本命令1.1 查询状态(status)hbase(main):009:0> status1.2 查看版本(version) hbase(main):001:0> version1.3 查看帮助信息(help) hbase(main):038:0> helphbase(main):038:0> get helphb...
2019-07-26 20:27:10
1392
原创 MYSQL索引及查询优化
一、什么是索引 索引类似是大型图书馆建立书目索引,可以提高数据检索的效率,降低数据库的IO成本。MySQL在数据量较大(官方文档说500~800w记录)的情况下性能开始逐渐下降,所以大数据量建立索引来提高数据的检索效率是非常有必要的。1.1、索引的概念 MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构。我们可以简单理解为:...
2019-06-24 17:41:22
2531
1
原创 Spring注解配置事务管理
1 Sping事务简介事务管理是应用系统开发中必不可少的一部分,Spring为事务管理提供了丰富的功能支持。Spring事务管理分为编程式事务管理和声明式事务管理的两种方式。1.1 编程式事务编程式事务指的是通过编码方式实现事务,编程式事务管理使用TransactionTemplate或者直接使用底层的PlatformTransactionManager。对于编程式事务管理,sprin...
2019-06-11 21:57:45
4356
原创 [Node.js使用Mongoose操作MongoDB]
在Node.js中使用mongoose模块操mongodb是很简单的事情,mongoose提供了一套丰富的api来操作mongodb。1 定义MongoDB的Schema结构//获取mongodb组件var mongoose = require('mongoose');/** * 表结构定义 * */var schema = new mongoose.Schem...
2018-08-20 08:53:55
481
原创 [Spark RDD转换操作运算子]
Spark RDD转换操作RDD,即弹性分布式数据集,全称为Resilient Distributed Dataset,是一个容错的,并行的数据结构,可以让用户显式地 将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组非常丰富的操作来操作这些数据,如:map,flatMap,filter等转换操作,以及SaveAsTextFile,conutByKey等行动操作。本博客中...
2018-07-24 23:30:57
7224
原创 [Spark好友推荐]
好友推荐概念 目前大量的社交网站上,它们都有一个共同的特性,就是可以在好友关系的基础上推荐更多的联系人。例如,QQ的“你可能认识的人”特性允许用户查看它们可能联系的人。基本思想就是:如果tom是jack的好友,而tom又是peter的好友,也就是说,tom是jack和peter的共同好友,但是jack和peter可能并不认识你。那么社交网络系统可能就会推荐jack与peter联系,又或...
2018-07-20 21:47:58
6670
1
原创 [Spark共同好友查找]
共同好友的概念 在一个庞大的社交网络中,两个互相认识的朋友之间的也会存在共同好友。在这个庞大的社交网络总,对所有的用户对中找到”共同好友”,这是一个复杂及有趣的事情。假设,U为一个用户及其所有好友的一个集合:{U1,U2,U3,…Un},我们要从每组集合(Ui,Uj)(i != j)找出共同好友关系。 在如今的大多数社交网络(Facebook,LinkedIn,QQ)...
2018-07-18 21:14:56
5181
5
原创 [Spark应用依赖jar包的添加解决方案]
Spark应用依赖jar包添加无效的解决方案 在Spark应用中,我们发现,在${SPARK_HOME}\lib文件夹中添加jar包时并不起作用。那么,要如何使得我们编写的Sparky应用依赖的jar有效呢?有如下四种方案: 1.使用参数--jars 添加本地的第三方jar文件(运行spark-submit脚本的机器上),可以给定多个jar文件,中间用逗号隔开 例子: ...
2018-07-07 21:53:16
18802
4
原创 [Spark购物篮的关联规则实现]
购物篮分析(Market Basket Analysis,MBA)是一个商品交易中流行的数据挖掘技术,市场营销人员和电子商务人员经常用这个技术来揭示不同商品或商品组合之间的相似度。商品数据挖掘的目标,一般是从庞大的数据集合中提取有趣及有用的关联信息,例如数前千万商品或信用卡销售交易。购物篮分析可以帮助分析人员找出很有可能一起购买的商品,关联规则挖掘则会发现一个交易商品之间的相关性。然...
2018-07-07 21:29:19
5487
原创 [Hadoop合并小文件的两种解决方案]
在Hadoop的运行环境中,什么文件是小文件?在Hadoop的世界中,小文件是指文件大小远远小于HDFS块大小的文件。Hadoop2.0中,HDFS默认的块大小是128MB,所以,比如2MB,7MB或9MB的文件就认为是小文件。在Hadoop的环境中,块大小是可以通过参数配置的,这个参数由一个名为dfs.block.size定义。如果一个应用要处理一个超大的文件,可以通过这个参数设置更大更...
2018-07-03 21:50:28
28504
5
原创 [Spark中移动平均法的实现]
一、 基本概念 移动平均法是一种简单平滑预测技术,它的基本思想是:根据时间序列资料、逐项推移,依次计算包含一定项数的序时平均值,以反映短期趋势的方法。因此,当时间序列的数值由于受周期变动和随机波动的影响,起伏较大,不易显示出事件的发展趋势时,使用移动平均法可以消除这些因素的影响,显示出事件的发展方向与趋势(即趋势线),然后依趋势线分析预测序列的中短期趋势。 移动平均法的应用...
2018-06-24 21:28:19
11154
1
原创 [Spark的LeftOuterJoin操作]
在编写SQL语句时,大家都比较熟悉的LeftOuterJoinn来关联两个表之间的数据,从而查询到我们想要的结果。在Spark的数据操作中,同样也会经常使用LeftOuterJoin来关联两个数据集。那么,在Spark数据操作中主要有那几种数据集的LeftOuterJoin方法呢? 本文中操作LeftOuterJoin方法时,主要用到的数据为用户表数据和用户订单交易数据,使用Left...
2018-06-12 20:56:38
16773
原创 [Hadoop-HA高可用集群部署]
1 集群规划 以5台机器为例,linux用的是CentOS 6.5 x64的机器对集群部署进行规划,所有机器的用户名及密码均为hadoop。名称 主机名 安装软件 JPS PC1 cdh.hadoo.com Jdk/hadoop NameNode ZKFC Resourcemanager JobHistoryServer PC2 master2.hadoop.com ...
2018-06-10 15:22:21
9819
原创 [Spark的TopN算法实现]
一、TopN算法 MapRedce中的TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N次运算,这个结果是可以接受的并不会造成性能瓶颈。 MapRedce中的TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的。 本文将介绍三种TopN的算法: 1.唯一键的TopN算法,就是...
2018-06-09 22:35:54
19942
3
原创 [Spark的二次排序的实现]
二次排序原理 二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。二次排序技术 假设对应的Key = K有如下值: (K,V1), (K,V2),…,(K,Vn) 另外假设每个Vi是包含m个属性的一个元组,如下所示: (Ai1,Ai2,…,Aim)在这里我们希望按Ai1对归约器的元组的值...
2018-06-05 20:59:56
16784
1
原创 [使用SparkSQL操作DataFrame]
SparkSql 是一种处理结构化模型数据的Spark模块,它提供了一种叫做DataFrame抽象编程,它也可以作为分布式Sql查询引擎, SparkSql可以从已经安装的Hive服务中读取数据,也可以从RDBMS 数据库中读取数据。 在Spark2.0之后,引入了SparkSession新概念。SparkSession实质上是SQLContext和HiveContext的组合,所以...
2018-06-01 20:36:51
9403
原创 [Windows下eclipse调试hadoop环境配置]
Windows的hadoop环境配置 解压hadoop-2.5.0.zip到目录D:\ Program Files \ Java \ hadoop-2.5.0。 配置Hadoop的环境变量: HADOOP_HOME = d:\ PROGRAMFILES \的Java \ Hadoop的2.5.0 PATH =%HADOOP_HOME%\ bin中eclips...
2018-05-27 20:16:31
7140
原创 [Scala Shell脚本执行]
Scala语言来自于Scalable(可伸缩的),既可以写一些小的脚本,又可以写一写复杂的服务器端的程序。scala支持源文件解释执行,jar执行,各有利弊。本文主要介绍咋Linux系统中Scala的Shell脚本,Scala源文件,Scala的Jar执行方法。一、Shell脚本运行Scala 创建ScalaTest.sh文件,内容如下:#!/bin/shexec scala "...
2018-05-19 21:10:57
14527
1
原创 [Scala的协变和逆变]
Scala中协变和逆变主要作用是用来解决参数化类型的泛化问题。由于参数化类型的参数(参数类型)是可变的,当两个参数化类型的参数是继承关系(可泛化),那被参数化的类型是否也可以泛化呢?在Java中这种情况下是不可泛化的,然而Scala提供了三个选择,即协变、逆变和非变,解决了参数化类型的泛化问题。协变和逆变 在Scala语言中,协变和逆变到处可见。如List,Queue等属于协变协变...
2018-05-16 20:34:34
12041
原创 [Java设计模式之单例模式]
在Java程序中,要说用到的设计模式中,单例(Singleton)模式可能是使用最多的一种设计模式了。一些管理器和控制器常被设计成单例模式,在Spring中, 一个Component就只有一个实例在Java-Web中, 一个Servlet类只有一个实例。 Java中单例(Singleton)模式是一种使用广泛的设计模式,单例模式的主要作用是保证在Java应用程序中,某个类只有一个实例存在。单...
2018-05-15 20:28:40
13330
原创 [Scala隐式转换示例]
一、隐式转换 Scala编程语言中引入了一种叫做隐式类的新特性。隐式类指的是用implicit关键字修饰的类。在对应的作用域内,带有这个关键字的类的主构造函数可用于隐式转换。隐式转换是一项强大的程序语言功能,它不仅能够简化程序设计,也能够使程序具有很强的灵活性。掌握Scala语言隐式转换,了解其隐式转换的作用与原理是很有必要的,否则很难得以应手地处理日常开发中的问题。在Scala编程语言中,...
2018-05-13 22:35:00
15331
原创 [Scala高阶函数示例]
在Scala中,可以直接将某个函数作为参数传入其他的函数。带函数参数的函数由于是一个接受函数参数的函数,故被称为高阶函数(High-Order function)。/** * Scala高阶函数示例 */objectHighOrderFunction { /* * greeting就是高阶函数 * name:String类型的一个正常参数 * func:函数类型的一个参数,定义...
2018-05-13 09:23:18
11034
原创 [Hadoop完全分布式集群部署]
Hadoop完全分布式集群部署1 集群规划 以四台机器为例,linux用的是CentOS 6.5 x64的机器对集群部署进行规划,所有机器的用户名及密码均为hadoop。主机名 安装软件 JPS hdfs yarn HistoryServer cdh.hadoo.com Jdk/hadoop NameNode RecourceManager JobHistoryServe...
2018-05-12 14:34:55
12156
原创 [Hadoop性能调优]
一、 Hadoop概述 随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提...
2018-05-11 21:56:16
13124
原创 [Eclipse构建maven scala和java项目]
Eclipse构建maven scala项目一、安装环境操作系统:Windows 10Eclipse版本:JVM:1.8Scala版本:2.11.0二、插件安装2.1 安装eclipse scala插件从eclipse marketplace中安装scala插件 在选项卡[Search]中输入scala,安装Scala IDE 4.7.x,根据提示一次安装即可。 2.2 安装m2e-scala插...
2018-04-24 09:52:28
13254
原创 [阿里OSS存储对象之Bucket访问]
Bucket是OSS上的命名空间,权限控制、日志记录等高级功能的管理实体;Bucket名称在整个OSS服务中具有全局唯一性,且不能修改;存储在OSS上的每个Object必须都包含在某个Bucket中。一个应用,例如图片分享网站,可以对应一个或多个Bucket。一个用户最多可创建10个Bucket,但每个Bucket中存放的Object的数量和大小总和没有限制,用户不需要考虑数据的可扩...
2018-04-13 16:47:32
17109
RpcPost.jar
2020-05-30
Elasticsearch实战 in action中文版.pdf
2019-07-16
Elasticsearch技术解析与实战.pdf
2019-06-12
Js封装的ztree-combotree
2018-07-24
Storm分布式实时计算模式.pdf
2018-07-16
Kafka权威指南(完整版)
2018-06-21
Spark快速大数据分析.pdf
2018-06-08
Spark高级数据分析.pdf
2018-06-08
Hadoop权威指南+第3版+修订版.pdf
2018-06-07
HBase权威指南(中文版).pdf
2018-06-05
Scala编程完整版
2018-06-02
数据算法 Hadoop Spark大数据处理技巧
2018-06-01
SparkSQ操作DataFrame,合并DataFrame
2018-05-30
Java编写的PDF报表文件
2018-05-19
基于ListView构建虚拟化TreeListView
2018-05-17
使用虚拟化技术实现WPF的TreeView的数据展示
2018-05-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人