- 博客(50)
- 资源 (4)
- 收藏
- 关注
原创 MR工作流程
MR工作流程文章目录MR工作流程JOB提交创建staging路径获取jobId上传jar包到集群计算切片,生成切片规划文件向Stag路径写job.XML提交YARN配置上下文状态转换MRAppMasterYARNChaildMAPTaskMapOutputBuffer 环形缓冲区ReducTaskcopyPhaseFetcher线程sortPhasereducePhase写文件JOB提交客户端提交Job.waitForCompletionJob.submitsetUseNewAPI()适配API
2022-03-05 17:58:59
2410
原创 hadoop put流程代码
hadoop fs -put xxxx解析命令FsShell类的main方法进入创建实例FsShell shell = newShellInstance();ToolRunner.run(shell, argv)进入FsShell的run方法先init方法,主要是commandFactory = new CommandFactory(getConf())Command instance = commandFactory.getInstance(cmd);instance.run(argv)
2021-08-03 19:53:25
416
原创 namenode启动流程
启动命令hadoop-daemon.sh start namenodehdfs.sh namenode) HADOOP_SUBCMD_SUPPORTDAEMONIZATION="true" HADOOP_CLASSNAME='org.apache.hadoop.hdfs.server.namenode.NameNode' hadoop_add_param HADOOP_OPTS hdfs.audit.logger "-Dhdfs.audit.logger=${HDF
2021-06-30 17:04:50
1507
原创 hadoop3编译源码问题
不知道网上一点问题没出的是怎么编译的,只能膜拜。1.convert-ms-winutils由于环境不是vs的c++编译环境1.用vs的Visual Studio x64 Win64 命令提示(2010) 编译2.在cmd上先执行如下图Error running javah command网上说的修改hadoop-hdfs工程的pom.xml javapath改成绝对路径,还是不行。后来看到一个帖子,试了下吧maven本地库删了,成功了找不到符号找不到类,进去发现真没有,然后进源码包,
2021-06-30 16:47:18
267
原创 org.apache.hadoop.hdfs.DataStreamer: Exception in createBlockOutputStream问题
2020-08-24 19:12:15,596 INFO [Thread-925] org.apache.hadoop.hdfs.DataStreamer: Exception in createBlockOutputStream blk_1090328244_16602678java.io.IOException: Broken pipeat sun.nio.ch.FileDispatcherImpl.write0(Native Method)at sun.nio.ch.SocketDispatch
2020-10-15 20:17:42
1922
原创 kafka
kafaka组件brokerkafka集群中包含一个或多个服务器,服务器节点为brokerbroker存储topic的数据。如果某topic有N个partition,集群有N个broker,那么每个broker存储该topic的一个partition。如果某topic有N个partition,集群有(N+M)个broker,那么其中有N个broker存储该topic的一个partitio...
2020-02-26 19:30:11
959
转载 关于图算法 & 图分析的基础知识概览
网址:https://learning.oreilly.com/library/view/graph-algorithms-/9781492060116/你肯定没有读...
2020-02-20 10:57:13
1269
原创 softmax交叉熵
多分类问题神经网络输出多个类型,每个类型需要判断正确的概率,这个时候logisticregression就不行了,我们就需要新的函数来解决这个问题,也就是softmax,称归一化指数函数。softmax公式δ(z)=expzi∑j=1mexpzj,i=1,...,m \delta(z) ={ {\exp^{z_i}}\over{ \sum_{j=1}^m \exp^{z_j}}},i=...
2019-12-26 19:57:16
202
原创 决策树基本概念
信息量I=log2mI=\log_2mI=log2m如果两队比赛,只有两个结果,m=2。I=1,信息量为1世界杯32支队伍,冠军的信息量I=log232=5I=\log_232=5I=log232=5上面公式有个前提,就是m情况产生的概率均等事件出现的概率越小,信息量越大。信息量的多少是与事件发生频繁程度大小(概率大小)恰好相反。H(Xi)=−logPH(X_i)=-\log...
2019-03-20 18:53:20
815
原创 hadoop3.1.1集群安装问题
这里不讲步骤,只讲遇到问题首先配置几个-site.xmlhadoop3端口号默认的改了Namenode 端口:50470 --> 987150070 --> 98708020 --> 9820Secondary NN 端口:50091 --> 986950090 --> 9868Datanode 端口:50020 --> 98675001...
2018-11-27 13:55:01
1183
原创 SVM
点到目标函数距离如图y=w⋅x+b=0y=w \cdot x +b =0y=w⋅x+b=0y1=w⋅x1+b=1y_1=w \cdot x_1 +b =1y1=w⋅x1+b=1 ①y2=w⋅x2+b=−1y_2=w \cdot x_2 +b =-1y2=w⋅x2+b=−1②两个点所在的决策边界距离d要尽量大。d=∥x1−x2∥cosθ\parallel x_1 - x_2 \p...
2018-09-25 19:14:10
216
原创 solr大批量数据导出
需求有100个core,每个core4000w数据量。把所有数据导出来。方案1.直接对每个core通过HttpSolrClient先取出总条数,然后通过每次分页读n行,直到读完,这个方案肯定不行,因为越到后面,读取速度越慢,不用想都要很长时间。方案2.深度分页通过游标,可以使分页速度很快。SolrQuery solrQuery = new SolrQuery();solrQuery...
2018-09-20 14:21:51
5915
4
原创 多元函数的极值
多元函数的极值定义z=f(x,y) (x,y)∈∈\inD,M0(x0,y0)∈D(M0是D的内点),U(M0,δ(域))⊂DM0(x0,y0)∈D(M0是D的内点),U(M0,δ(域))⊂DM_0(x_0,y_0)\in D(M_0是D的内点) ,U(M_0,\delta(域))\subset D若f(x0,y0x0,y0x_0,y_0)是函数z=f(x,y)在U(M0,δ)U(...
2018-08-18 09:59:26
27077
4
原创 BP推导
图符号aniaina_i^n推导向前传播第一层a(1)1=x1ja1(1)=x1ja_{1}^{(1)}=x_{1j}a(1)2=x2ja2(1)=x2ja_{2}^{(1)}=x_{2j}第二层z(2)1=a(1)1w(1)1+a(1)2w(1)3+b1=x1jw(1)1+x2jw(1)3+b1z1(2)=a1(1)w1(1)+a2(1)w3(1)+b1=x1...
2018-07-12 19:14:19
451
原创 mapreduce运行遇到的问题-1
1.ShuffleError: error in shuffle in fetcherError: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#1 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.ru...
2018-07-05 20:06:44
1585
2
原创 solr入数据报async exception during distributed update bad request错误
因为入库时候增加了索引,schema没有更新增加索引表。导致不一致
2018-06-28 09:39:54
1271
原创 logistic回归公式推导
假设函数h(θ)=11+e−θTXh(θ)=11+e−θTXh(\theta)={1\over{1+e^{-\theta^TX}}}为什么使用sigmod代价函数J(θ)=−1m∑i=1m[yilog(hθ(xi))+(1−yi)log(1−hθ(xi))]J(θ)=−1m∑i=1m[yilog(hθ(xi))+(1−yi)log(1−hθ(xi))]J(\theta)=-{1...
2018-06-05 21:03:33
857
原创 线性回归损失函数推导-最大似然
把统计看了一遍就是为了这里! 线性回归假设函数为 y=θTXy=θTXy=\theta^TX 之前是根据函数图像推导出损失函数为误差平方和,这次用统计学方法推导。 拟合数据,就是把误差减到最小 误差ϵ=y−θTXϵ=y−θTX\epsilon=y-\theta^TX。 假设误差服从正态分布,误差最小也就是期望为0。ϵϵ\epsilon~N(0,σ2σ2\sigma^2) 最大似然估计...
2018-05-28 20:01:18
2299
1
原创 统计-参数估计
参数估计在数理统计中,我们见到的总体X一般都是未知的。即便根据以往的经验和数据,知道X服从哪类分布,,其数字特征(数学期望,方差,矩)也是未知的。这些未知的数字特征以及含在总体X中的未知数称为未知参数未知参数\color{red}{未知参数}简称参数为了估计未知参数的真值或其所在区间,就要从总体X中抽取样本,然后用样本构造某种统计量,来估计未知参数或其范围。这种方法叫参数估计参...
2018-05-28 14:57:57
2794
原创 多元线性回归正规方程java代码
正规方程:A=(XXT)−1XTYA=(XXT)−1XTYA=(XX^T)^{-1}X^TY 之前已经证明过了。 用JAMA包做矩阵计算 结果自己造的数据矩阵不可逆。。。。。package com.zy.ml;import java.io.File;import java.io.IOException;import java.util.ArrayList;import java....
2018-05-23 16:42:55
2328
4
原创 多元线性回归批量梯度下降java代码
多元假 设函数 hθ(x)=θTX=θ0x0+θ1x1+...+θnxn,x0=1hθ(x)=θTX=θ0x0+θ1x1+...+θnxn,x0=1h_{\theta}(x)=\theta^TX=\theta_0x_0+\theta_1x_1+...+\theta_nx_n , x_0=1 多元代价函数 J(θ0,θ1,...,θn)=12m∑i=1m(hθ(xi)−yi)2J(θ0,...
2018-05-22 18:54:54
1021
2
原创 统计-样本及抽样分布
第六章 样本及抽样分布在概率中,我们所研究的随机变量的分布都是假设已知的。在数理统计中,我们研究的随机变量的分布是未知的,或者是不完全知道的。我们通过对随机变量进行大量重复、独立的观察,收集书记,然后对数据进行整理,分析,从而对所研究的随机变量的分布作出各种推断。随机样本总体与个体在数理统计中,我们把研究的对象的全体称为总体总体\color{red}{总体},总体中的每...
2018-04-21 19:22:14
1518
原创 md图片测试
/50=3.08...
2018-03-25 16:24:33
834
原创 统计-随机变量
随机变量定义设随机试验E的样本空间为S={e},若X=X(e)是定义在样本空间S的上的一个单值实函数,则称X=X(e)为随机变量 简单说,让每一个样本点e对应着唯一的实数X(e),便得到随机变量X=X(e)离散型随机变量若随机变量只可能取有限个或可数无限个值时连续型随机变量若随机变量只可能取一个区间中的所有实数时随机变量的概率随机变量X取某个值x的...
2018-03-03 14:29:30
5435
转载 梯度下降(Gradient Descent)小结
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂
2017-11-09 19:59:02
3542
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人