- 博客(26)
- 资源 (21)
- 收藏
- 关注
原创 过拟合与欠拟合
概念之前,我们介绍过拟合的概念。拟合指的是构建的模型能够符合样本数据的特征。与拟合相关的两个概念是欠拟合与过拟合。欠拟合:模型过于简单,未能充分捕获样本数据的特征。表现为模型在训练集上的效果不好。 过拟合:模型过于复杂,过分捕获样本数据的特征,从而将样本数据中一些特殊特征当成了共性特征。表现为模型在训练集上的效果非常好,但是在未知数据上的表现效果不好。 解决方案如果产生欠拟合,可...
2019-07-18 10:12:46
901
原创 Spark ML关于模型保存,模型加载案例
package com.xy.data.modelimport org.apache.spark.SparkConfimport org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark....
2019-04-28 17:07:00
9113
3
原创 真正的完全图解Seq2Seq Attention模型
五分钟看懂seq2seq attention模型。本文通过图片,详细地画出了seq2seq+attention模型的全部流程,帮助小伙伴们无痛理解机器翻译等任务的重要模型。seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的...
2019-04-28 11:45:54
346
原创 图像风格迁移
所谓图像风格迁移,是指利用算法学习著名画作的风格,然后再把这种风格应用到另外一张图片上的技术。著名的国像处理应用Prisma是利用风格迁移技术,将普通用户的照片自动变换为具有艺术家的风格的图片。这篇文章会介绍这项技术背后的原理,此外,还会使用TensorFlow 实现一个快速风格迁移的应用。1 图像风格迁移的原理1.1 原始图像风格迁移的原理在学习原始的图像风格迁移之前,可以先回忆一下...
2019-04-28 11:43:45
2170
1
原创 numpy03-数学运算的函数
import numpy as npa=np.arange(9).reshape((3,3))print(a)#整体求和print(a.sum())#行相加print(a.sum(1))#列相加print(a.sum(0))#第一行相加print(a[0].sum())#求逆矩阵n1=np.random.randint(0,9,(2,2))print(np.l...
2018-06-26 12:45:53
178
原创 numpy02-索引和切片
import numpy as npa=np.random.randint(0,10,(6,4))print(a)#取第三行第二列print(a[2][1])#第一行到第三行print(a[:3])#取第三行的第二列print(a[2,1])#取第三行,第二行print(a[[2,1]])#取第四行,第一列到第三列print(a[3,:3])#取后两行,前三...
2018-06-26 12:44:09
172
原创 Mapreduce on Yarn运行流程
1.客户端请求提交一个MR任务2.resourcemanger返回提交程序资源的路径3.yarn客户端提交job资源4.通知MR提交完毕5.resourcemanger将请求封装成task6.启动MR的AppMaster7.AppMaster申请资源启动nodemanager...
2018-05-12 20:01:06
693
原创 hdfs联邦机制
联邦机制解决的是namenode单点压力过大(做的namenode负载均衡)通过采用多个namenode管理不同的目录树结构hdfs联邦机制配置 <property> <name>dfs.nameservices</name> <value>cluster1,cluster2</value> <...
2018-05-12 19:14:33
1679
原创 Hadoop 2.x中fsimage和edits合并实现
secondarynamenode作用:帮助namenode合并日志文件,减少namenode启动时间1.secondarynamenode通知namenode进行checkpoint.2.namenode切换日志文件3.secondarynamenode从namenode下载editslog和fsimage文件在内存中合并,生成新的fsimage文件4.将fsimage文件拷贝至namenode...
2018-05-12 19:07:30
519
原创 spark repartition和coalesce
repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区) 1、N小于M 一般情况下N个分区有数据...
2018-05-12 17:13:21
211
原创 CenterOS7安装mysql
yum install -y yum-utils device-mapper-persistent-data lvm2yum install docker-ce设置开机自启systemctl enable docker
2018-05-07 13:49:27
334
原创 HIVE动态分区实战
hive> set hive.exec.dynamic.partition.mode=nonstrict;关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。先看一个应用场景,源表t_lxw12...
2018-05-03 14:44:39
182
原创 CenterOS7下快速安装mysql
centos7下快速安装mysqlCentOS 7的yum源中貌似没有正常安装mysql时的mysql-sever文件,需要去官网上下载# wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm# rpm -ivh mysql-community-release-el7-5.noarch.rpm# yum ins...
2018-05-02 11:38:35
804
原创 Docker 中国官方镜像加速
通过 Docker 官方镜像加速,中国区用户能够快速访问最流行的 Docker 镜像。该镜像托管于中国大陆,本地用户现在将会享受到更快的下载速度和更强的稳定性,从而能够更敏捷地开发和交付 Docker 化应用。 ...
2018-04-30 15:05:16
925
原创 基于Spark UI性能优化与调试
Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式进行数据分析,利用spark ui做性能调整和优化。大体上会按照下面的思路进行讲解:怎么访问Spark UISparkUI能看到什么东西?job,stage,storage,environment,excuto...
2018-04-26 15:35:12
260
原创 Java8新特性之日期处理
简介伴随 lambda表达式、streams 以及一系列小优化,Java 8 推出了全新的日期时间API。Java处理日期、日历和时间的不足之处:将 java.util.Date 设定为可变类型,以及 SimpleDateFormat 的非线程安全使其应用非常受限。然后就在 java8 上面增加新的特性。全新API的众多好处之一就是,明确了日期时间概念,例如:瞬时(instant)、 长短(dur...
2018-04-24 10:46:28
387
原创 生产环境flume日志采集方案
Flume简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。名词介绍:Flume OG:Flume original generation,即Flume0.9x版本Flume NG:Flume next gen...
2018-04-16 10:13:38
9321
原创 spark配置参数详解
Spark配置参数说明 Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的conf/spark-env.sh脚本设置,例如IP地址、端口等信息日志配置:可以通过log4j.properties配置 Spark属性Spark属性控制大部分的应用程序设置,并且为每个应用程序分别配置它。这些属性可...
2018-04-13 18:01:52
301
原创 spark资源层面调优
num-executors 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。 Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的 各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话, 默认只会给你启动少量的Executor进程,此时你的Spark作业的运行...
2018-04-13 17:57:52
272
原创 Spark rdd算子
#如果通过并行化的方式创建rdd,如果不指定分区的数量,那么跟你的核数相关#如果通过读取hdfs里面的数据创建rdd,那么分区的数量跟输入切片的数量是一致的 #查询分区长度rdd4.partitions.length #已并行化的方式创建rddvalrdd1=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))valrdd1=sc.parallelize(List(...
2018-04-13 17:53:41
231
SeetaFace_detection,已经改好,可以直接运行
2018-07-19
kubernetes北京站培训
2018-04-27
在CentOS上安装kubernetes详细指南
2018-04-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人