- 博客(16)
- 收藏
- 关注
原创 HBase集群开启后HMaster马上挂掉(16010web页面打不开)
但我chua的一下查看尝试了之后发现都是没问题,愁得我想着各种可能,甚至以为是因为我开起了高可用的原因(因为每次主节点马上挂掉后HMaster都会在备用节点开启),结果证明也不是这个原因。最开始发现问题是启动HBase集群后‘一切正常’但是却无法打开16010web页面,然后查看jps才发现刚打开的HBase集群的HMaster消失了。hbase-site.xml文件里设置的端口号和hadoop的etc/core-site.xml设置的端口号不一致的问题。一开始看到大佬们的都是。......
2022-08-26 22:44:25
3366
1
原创 VMware上安装centos7,可以ping虚拟机其他节点但不能ping外网怎么办
VMware上安装centos7,可以ping虚拟机其他节点但不能ping外网,检查配置都是对的,网上各种方法都没用,只好使用究极大招:
2022-08-21 14:53:41
2788
2
原创 Token
而HTTP是无状态的协议。token的意思是“令牌”,是用户身份的验证方式,最简单的token组成:uid(用户唯一的身份标识)、time(当前时间的时间戳)、sign(签名,由token的前几位+盐以哈希算法压缩成一定长的十六进制字符串,可以防止恶意第三方拼接token请求服务器)。· 数据存储大小不同:单个Cookie 保存的数据不能超过4K,一个站点最多保存20个Cookie ,Session对象没有对存储的数据量的限制,其中可以保存更为复杂的数据类型,根据服务器大小来定。...
2022-08-17 10:17:08
1596
原创 机器学习笔记(七)
先确定常数K,K即表示最终的聚类类别数(K个簇),首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离,使。
2022-07-20 20:40:08
465
原创 机器学习笔记(六)
LSTM全称是长短期记忆网络(long-shorttermmemorynetworks),是不那么容易发生梯度消失的,主要原因在于LSTM内部复杂的“门”(gates),LSTM通过它内部的“门”可以接下来更新的时候“记住”前几次训练的”残留记忆“(去除或增加信息到细胞状态)。蓝色的矩阵(输入图像)对粉色的矩阵(filter)进行矩阵内积计算并将三个内积运算的结果与偏置值b相加(比如上面图的计算(1*1+1*0)+(1*0+1*-1+2*0)+(2*0)+1=1=)......
2022-07-20 20:38:55
453
原创 机器学习笔记(五)
一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。一般来说,处理文本问题采用线性核,情况无法确定可以采用高斯核,同时还可以通过对一些核函数进行运算得到一个新的核函数。(HiddenMarkovModel,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。SVR是SVM的一种运用,大致上说,SVR就是要找出一个最佳的条状区域(对于非线性可分的情况,SVM可以选择一个合适的核函数k,通过。......
2022-07-20 20:35:47
342
原创 机器学习笔记(四)
随机森林是由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点。选择好特征后,就从根节点触发,对节点计算所有特征的熵,选择合适特征作为节点特征,根据该特征的不同取值建立子节点;特征选择的目的是选取能够对训练集分类的特征。决策树的构建是一种自上而下的归纳过程,用样本的属性作为节点,属性的取值作为分支的树形结构。.
2022-07-17 21:08:50
218
原创 机器学习笔记(三)
线性回归属于有监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数训练的好不好(即此函数是否足够拟合训练集数据),挑选出最好的函数(costfunction最小)即可。逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,最大的区别就在于它们的因变量不同,如果是连续的,就是多重线性回归;对比方差和协方差的公式可以看出两者很像,但方差的结果是大于等于0的,当等于0时,说明样本的x特征取值唯一,反应的样本的x特征的离散程度;......
2022-07-17 21:03:31
573
原创 机器学习笔记(二)
留出法直接将数据集划分为两个互斥的集合,2/3-4/5。划分原则:划分过程尽可能保持数据分布的一致性方法缺陷:训练集过大,更接近整个数据集,但是由于测试集较小,导致评估结果缺乏稳定性;测试集大了,偏离整个数据集,与根据数据集训练出的模型差距较大,缺乏保真性。交叉验证法将数据集划分为k个大小相似的互斥子集,每个子集轮流做测试集,其余做训练集,最终返回这k个训练结果的均值。优点:更稳定,更具准确定;缺单:时间复杂的较大自助法包含m个样本的数据集D,对D进行随机抽样构建D’(抽取m次),然后将抽到的数据对象
2022-07-12 22:22:09
2218
原创 机器学习笔记(一)
表示机器学习的数据是带标记的。通过大量带有标记的数据来训练机器,机器将预测结果与期望结果进行比对;之后根据比对结果来修改模型中的参数,再一次输出预测结果;然后将预测结果与期望结果进行比对,重复多次直至收敛,最终生成具有一定能够鲁棒性的模型来达到智能决策的能力。按照训练数据是否存在标签,将监督学习分为传统监督学习、非监督学习和半监督学习;按照标签是连续还是离散,将监督学习分为回归和分类。支持向量机、人工神经网络、深度神经网络分类(Classification)是将一些实例数据分到合适的类别中,它的预测结
2022-07-11 20:25:52
513
原创 Spark复习笔记
Spark是一个基于内存计算的大数据并行计算框架,是对MapReduce计算模型的扩展。应用层:Spark Streaming数据处理引擎:Spark Core资源管理层:YARN数据存储层:HDFSSpark Core是Spark生态系统的核心组件,是一个分布式大数据处理框架。Spark Core提供了多种资源调度管理Scala中使用Unit表示无返回值。定长数组长度不变,不能增删,只能修改某个位置的元素值,需要拥有相同的元素类型。下标从0开始。变长数组长度可变,可以增删toBuffer和toArr
2022-07-11 20:07:48
733
原创 【大数据存储复习笔记】
一致性(Consistency):在分布式系统的所有数据备份中,在同一时刻是否有相同的值。(等同于所有的节点访问同一份最新的数据副本)可用性(Available):在集群中的一部分节点故障后,集群整体是否还能相应客户端的读写请求。(对数据更新具有高可用性)分区容忍性(Partation tolerance):对通信的时限要求,系统如果不能在一定时限内达成数据一致性,就必须分区。CAwithoutP——放弃分区容忍性,例如:关系型数据库、LDAPCPwithoutA——放弃可用性,例如传统数据库的分布式事务,
2022-06-18 14:16:45
539
1
原创 软件测试复习笔记
IEEE Standard 729的定义:(1)从产品内部看,软件缺陷是软件产品开发或维护过程中所存在的错误、毛病等各种问题。(2)从外部看,软件缺陷是系统所需要实现的某种功能的失效或违背。其他来源的定义:规格说明书、系统设计结果、编程的代码造成软件缺陷的主要原因:1.技术问题(1)开发人员技术的限制,系统设计不能够全面考虑功能、性能和安全性的平衡。(2)刚开始采用新技术,解决和处理问题时不够成熟。(3)由于逻辑过于复杂,很难在第一次就将问题全部处理好。(4)系统结构设计不合理或算法不科学,造成系统
2022-06-12 23:26:07
277
原创 MapReduce源码阅读笔记
保存了集群运行过的历史Job信息数据。粒度较细的监控服务,能够分析集群中特点节点机器上哪个task异常,导致拖垮整个集群的运作效率。JobHistory用来记录已经finished的mapreduce运行日志,日志信息存放于HDFS目录中,默认情况下没有开启此功能,需要在mapred-site.xml、yarn-site.xml配置,并手动启动。MapReduce有三层调度模型,即Job——>Task——>TaskAttempt,并且:1、通常一个Job存在多个Task,这些Task总共有Map Task和
2022-06-03 21:00:12
221
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅