- 博客(52)
- 资源 (9)
- 收藏
- 关注
原创 spring_swagger:static docs(离线文档)
背景对于rest-ful API文档设计,一般都是springfox(底层是swagger)进行代码集成并且自动生成,文档分为在线和离线文档,在线文档一般是html的格式,并且能够进行mock,方便测试人员不用写test-case进行测试。springfox reference 提示已经不支持离线文档的自动生成,推荐使用使用swagger2markup+assicdoctor.以下介绍怎样...
2018-06-28 14:35:56
1608
原创 spark-基于kafka_struct_streaming的ETL案例
背景: 基于流的结构化处理,越来越成为ETL的重要处理手段,使用SQL处理流数据优点可以降低数据处理的编程难度,而且能够工程化的动态配置处理格式。基于struct_streaming处理pv的简单案例数据源:kafka的topic input_std1_npanther中 输入格式:json{ "event_siteid":"kf_3004", "event_...
2018-06-08 15:31:14
1844
2
原创 docker-修改container的port
最近启动容器的时候,忘记启用port接口。然后想在这个容器上直接修改映射端口。发现没有途径。 然后参考了以下stackoverflow 成功修改。
2018-05-25 17:17:20
3172
原创 docker-mac安装docker
在mac上安装有以下两种方式: 1. docker官网提供的docker for mac的dmg,按照步骤流程一步一步的进行。 2. 通过brew自定义安装,不是傻瓜式的,下面详细介绍。一、 安装docker 和docker-machine 如果没有安装brew,请依照brew官网进行自行安装。brew install dockerbrew install docker-ma...
2018-05-17 15:21:19
1763
原创 spark-基准测试
背景因成本影响,公司想从高价格的阿里云转到价格较低的金山云上,让我们做一下对金山云上自带的spark_on_yarn 进行压力测试。经过多方讨论,最终选择sparkbench+ambari的方案。方案将采用梯度测试法,对集群的磁盘I/0,网络I/O,内存使用率,cpu使用率四个纬度测试。 1.10亿条24个属性kmeans的向量数据创建、数据分析。 2.24亿条24个属性kme...
2018-04-27 18:48:15
2267
原创 数据仓库-模型
星形模型和雪花模型模型分为星形模型和雪花模型,模型内部包含事实表和纬度表事实表:表示一个事实,例如按照州、产品和月份划分的销售量和销售额存储的事实表。一个事实表是由键值例和度量值组成,键值例对应着纬度表的主键。 product state date doller number Mountain-100 WA January 7....
2018-04-25 18:30:58
391
原创 scala-闭包
闭包: def test1(x:Integer)=(y:Integer)=>{x+y} (x: Integer)Integer => Int test1(1) res1:Integer => Int = $$Lambda$1158/2016512706@77ce88c4等价于def test(x:Integer)(y:Integer):Integer={ ...
2018-03-19 13:37:48
334
原创 java-mac下多jdk版本切换
为了使用jshell工具,便在oracle官网下载了jdk9,但是 scala-2.12.4,还不支持jdk9,所以运行时候会报错。为了解决这个问题,想使用多版本切换。知识点:mac的os系统 是unix的变种,所以一些基础命令和linux是相同了,而使用jdk,只是java_home的环境变量不同而已,当然你也可以不设置环境变量,那么你使用jdk时候,就需要使用绝对路径。你临时设置可以使...
2018-03-18 17:50:50
708
1
原创 spark- rdd、dataset和dataframe的互操作(Interoperating)
最近写spark代码的时候总是把rdd转dataset或者dataframe,再此将转换的途径总结一下rdd转dataset第一种,使用隐式函数toDFimport spark.implicits._ //spark是你实例化的sparksession,rdd1.toDF()/或者 toDF("a","b","c") //a b c分别表示列名note: 如果...
2018-03-01 17:35:38
616
原创 git- config name /mail
修改本项目的用户名字和邮箱$ git config user.name '{user.name}'$ git config user.mail '{user.mail}'修改全局用户名字和邮箱$ git config --global user.name '{user.name}'git config --global user.mail '{user.mail}' 修改已...
2018-02-11 11:54:16
560
原创 spark-sql 方差和标准差
运行环境spark-shellval p=spark.read.json("file:///root/spark-2.1.1-bin-hadoop2.7/examples/src/main/resources/people.json")p.show方差和标准差 1. 求age平均值import spark.sqlval avgvule= sql("select avg(...
2018-02-10 17:19:56
8223
原创 docker-pub 国内镜像仓库
进行从store.docker.com拉取大的镜像特别慢,而且还时常断掉。所以准备还是用国内的仓库。 国内的仓库如下:Docker 官方中国区https://registry.docker-cn.com网易http://hub-mirror.c.163.comustchttps://docker.mirrors.ustc.edu.cn经测试网易是最快。下面是配置dock
2018-01-30 09:51:40
5564
原创 docker-docs
获取虚拟机使用openstack-web操作界面,创建虚拟机。version: ubuntu 16.04memory:8gvcpu:4 core安装docker 详见docker安装文档安装私人仓库 仓库文档公共仓库:store.docker.com docker pull registry:2docker run -d -p 5000:5000 {docker-nam
2018-01-29 16:15:35
296
原创 Spring-test-测试上传文件的restful api
被测试类: public ResponseEntity save(@RequestBody DataSink ds,@RequestParam("file") MultipartFile file){@RequestBody表示body的数据。 @RequestParam("file") 表示你上传的文件已经文件名字。测试类mvc.perform(MockMvcReq
2018-01-23 15:48:34
1836
原创 hbase-model-versions
cell定义:A {row, column, version} tuple exactly specifies a cell除了rowkey,column family,column quarifities,timestamp,还有就是versions(版本).versions概念:It’s possible to have an unbounded number of cel
2018-01-20 14:16:45
235
原创 hbase-tunning-hotspot
1. rowkey 和hotspot关系。1.1 regionRegions are the basic element of availability and distribution for tables, and are comprised of a Store per Column Family.region 是一个表的基本元素,具有可用性和分布性,是由每个列簇
2018-01-20 04:41:46
238
原创 HIVE-架构篇
hive架构的官方文档直接上架构图这张图很明显显示hive存在5个组件ui、driver、compiler、metrastore、ExecutionEngine。具体活动流程也比较清楚,一共9步。 这里主要以下两点: metastore(元数据)Metastore is an object store with a database or file backed store
2018-01-12 17:56:09
303
原创 spring-cloud 初识
1、从官方文档了解。 spring-cloudSpring Cloud provides tools for developers to quickly build some of the common patterns in distributed systems (e.g. configuration management, service discovery, circuit brea
2018-01-10 16:31:26
223
原创 kerberos-初识
kerberos的官方文档定义:Kerberos is a network authentication protocol. It is designed to provide strong authentication for client/server applications by using secret-key cryptographyKerberos是一个网络认证协议,
2018-01-09 20:16:56
231
原创 spark-structstreaming-结果数据存入hbase
前言本节描述通过spark-structstreaming将结果结果数据存入hbase正文object testWriteResultToHbase{def main(args:Array[String]){ val kafkaservers=args(0) val topic=args(1) val zookeeperservers=args(2) v
2018-01-05 17:54:52
2878
3
原创 Spark-StructStreaming-计算结果写入到文本文件
前言主要讲述 StructStreaming将计算结构写入到文本文件正文package org.sun.IndustryBigDataAnalyticsPartformimport org.apache.spark.sql.SparkSessionimport java.io._import org.apache.spark.sql.ForeachWriterimport
2018-01-05 13:40:13
1739
1
原创 spark +hive+hbase+hadoop
前言:hive:数据仓库 hbase:分布式nosql数据库 haoop:分布式文件系统 spark:分布式内存计算系统 这个四个结合(当然少不了zookeeper)简直完美。当然有完美就有不和谐, 各组件缺点如下: 1. hive的底层计算是mapreduce,计算太慢 2. hbase 是一个nosql数据库,对sql用户不友好。 3. spark计算结果是内存中,最终是要落地的
2017-12-29 20:33:07
589
原创 spring-boot-data-jpa
学习途径:官方文档和API jpa(Java Persistence API):wiki解释前言:不管是JPA还是JDBC都是基于orm模型的连接数据库驱动,数据库按照特征可以分为 embedded datasource和proudction datasourceembedded:derby、h2等proudction: mysql postgresql等spring-boot-data-j
2017-12-14 19:58:42
189
原创 spark算子-aggregate
spark:aggregate /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a neutral "zero value". This function can return a
2017-12-11 16:07:47
258
原创 yarn-日志聚合功能
在yarn集群上运行作业的时候,日志聚合是没有运行的。只有当整个作业完成的时候,才能将各个node上的日志上传到hadoop上。start aggeratekey : yarn.log-aggregation-enablevalue : truelog dirkey : yarn.nodemanager.remote-app-log-dirvalue : /var/hadoop/yarnkey
2017-11-28 17:05:48
2600
原创 yarn集群上完整spark作业生命周期管理
前言: spark的提交作业的原生态方式,使用spark-submit.sh脚本。使用此脚本有两个缺点: 1. spark支持提交到standalone、mesos、yarn上面。standalone和mesos是粗力度的资源调度器,yarn是细粒度。所以org.apache.spark.deploy.sparksubmit类只支持standalone和mesos的作业提交、停止、查询,并且提供
2017-11-22 20:23:12
435
原创 区块链初识
blockchain:A blockchain – originally block chain – is a continuously growing list of records, called blocks, which are linked and secured using cryptography. 维基百科的定义:区块链是一个持续正常的一系列记录(称为区块),这些区块是被使用cr
2017-11-17 21:45:56
350
原创 scala-high_order_function
前言scala中类中函数(与java类中的方法意义一样)是最高公民,可以和变量一样作为参数进行传递,传递的是函数的解析地址,java的方法是绑定在类中,编译时候,给方法赋予解析地址,这是不公开,但是scala却用trigger,相当于公开的解析地址。场景当函数被当作参数进行传递的时候的,同一个类中,使用这个声明好的函数是相当方便的,但是,我现在想使用其它类中的已经声明好的函数作为参数时候,怎么办呢?
2017-10-31 11:47:27
345
原创 jdb
你可以直接看jdk中jdb 的docs,或者官网上查看docsman jdb重要的关键知识可以从上面获取,这里只说一点。调试分本地调试和远程调试,其实不应该按照调试位置分,应该按照调试方式来分位直接调试和间接调试。 1. 直接调试:在同一个JVM中调试,直接使用jdb .class。 2. 间接调试:利用jvm,socket协议调试另一个jvm的程序。服务端: java -Xdebug -
2017-09-12 10:38:26
263
原创 HIVE-概述
The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage.
2017-09-08 17:58:46
284
原创 spark-schedule
作业的调度是spark一个关键组件。目的是保证作业能够准确的下发到各个数据node。 package.scala Spark’s scheduling components. This includes the org.apache.spark.scheduler.DAGScheduler and lower level org.apache.spark.scheduler.Task
2017-08-21 12:45:56
363
原创 概率论和数理统计
随机变量 X vs 随机事件 e->x e的概率分布函数:P(x)/F(x)(P(x)为离散,F(x)为连续)期望,其实就是均值 算法平均 : 表示
2017-08-10 21:05:03
363
原创 thread
java 按照顺序执行,不管开始到结束的路径有多少条。就像小王从A点到B点。如果我想让想小王去蛋糕店买一个蛋糕,那么小王会很顺利的完成,但是,我想让小王买蛋糕的时候,如果有卖西瓜的就买一个。小王就进了蛋糕店,这时候,一个卖西瓜的小贩刚好经过,小王就没有买的西瓜。说明如果完成一个任务的时候,需要多人协助完成,这就是线程的用处。一、thread(一)生命周期创建new状态 runableblo
2017-08-09 14:30:27
371
原创 maven debug
javamvn exec:exec -Dexec.executable="java" -Dexec.args="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=1044 test.JVMHook" http://www.mojohaus.org/exec-maven-plugin/usage.html
2017-08-07 09:40:15
484
原创 hook
javajava api1. public static Runtime getRuntime()Returns the runtime object associated with the current Java application. Most of the methods of class Runtime are instance methods and must be invoke
2017-08-03 10:41:54
311
原创 hive-error
hive metastores 连接mysql 权限问题org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version解决方案: 在安装mysql的client运行如下: mysql -u root -p mysql> GRANT ALL ON *.* to 'hive'@'192.168.209
2017-08-02 12:25:16
399
原创 高等数学
一 集合集合定义:建立在西方形式逻辑的基础上,形式逻辑的是一种思维的方式。 具有某种特定性质的事物的总体。 注:现实生活中,任何事物都可以“聚”合在一起,在逻辑上形成集合,可以有特质,也可以没有特质。 谈到集合,想到计算机的数据结构集合collection(详见scala和java的collection),数学中的的集合更抽象。表示符号:A={a1,a2,a3,*,an} ,这是结构表示发
2017-03-29 16:46:43
1443
《概率论与数理统计》浙大版(第四版)
2017-06-13
数据挖掘:概念与技术(第2章).pdf
2016-10-10
数据挖掘:概念与技术(第1章 引论).pdf
2016-10-10
maven实战3
2016-10-09
快学scala.pdf
2016-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人