- 博客(14)
- 资源 (7)
- 问答 (1)
- 收藏
- 关注
原创 关于MongoDB的URL连接时用户名或密码中出现特殊字符问题
今天连接公司的线上MongoDB数据库时碰到一个有意思的问题,报错如下:java.lang.IllegalArgumentException: The connection string contains invalid user information. If the username or password contains a colon (:) or an at-sign (@) th
2017-10-13 18:19:10
17530
2
原创 Java对MongoDB的基础操做
import java.util.ArrayList;import java.util.regex.Pattern;import org.bson.Document;import com.mongodb.BasicDBObject; import com.mongodb.MongoClient;import com.mongodb.client.FindIterable;import
2017-09-28 12:04:06
370
原创 Java的split方法使用多种分隔符切分字符串
方法一:多个分隔符使用'|'分开,例如: String str = "abc;123,456?999|haha"; String[] strs=str.split(";|,"); for(String s : strs){ System.out.println(s); }输出:abc123456?999|haha方法二:
2017-09-27 15:01:42
23153
2
原创 Hadoop表连接问题
1、在Map阶段连接 适用情况,两个表连接,一个表非常大,一个表非常小,小的表可以放进内存中。使用分布式缓存DistributedCache,将小表缓存到每个Map节点上,连接时,扫描Map中的大表分块,判断是否存在和小表相同的键,如果存在,则进行连接。2、Reduce阶段连接 Map阶段,给每个键值对标注来源,例如来源于a表,标记后的数据为;来源于b表,表记为 R
2017-08-24 14:35:52
378
原创 Hadoop基本理论
1、什么是Hadoop?Hadoop是一个分布式系统。主要包含两个核心组件HDFS和MR。HDFS: 分布式存储系统,解决海量数据的存储问题。MR:分布式计算框架,解决海量数据的处理问题。在基础的HDFS和MR基础上,Hadoop生态圈又加入了其它的组件: Habse 非关系型的分布式数据库, Hive基于HDFS的数据仓库, Pig 一个基
2017-08-24 08:49:49
499
原创 记记关于tensorflow训练模型时出现损失函数为NAN问题
交叉熵损失函数输出NAN的问题:之前使用tensorflow训练模型,开始的一段迭代周期,模型的预测准确率一直在上升,徘徊一段时间后,准确率骤减,直至到随机猜测的水平,开始以为是模型出了问题,就修改了一下代码,记录训练过程中的误差,希望通过误差曲线,分析是否模型的问题。结果绘图出错,将损失数组输出看了一下,发现后期的损失值都是0。在网上查询,发现是损失函数的特性造成的,在交叉熵损失函数中,会计
2017-06-16 17:38:01
12531
1
原创 KMeans聚类算法
1、什么是聚类 所谓聚类就是将一组对象按照特征划分不为的小组,使得组内的差异性尽可能的小,组间的差异尽可能的大。例如,粗粒度的分类,按照学校实力,分为985、211高校,普通一本高校,二本高校,三本高校。如果再更加细的分类,一个学校里面会按照所修的课程差异性分为不同学院,不同专业,这些同学院的专业课相差较小,不同的学院的课程相差就很大了。2、聚类与分类的区别 分类算
2017-05-07 14:06:22
6507
1
原创 决策树算法
1、什么是决策树? 决策树是一种树形的判定结构,从根节点到每个叶节点是一个完整的判定路径。每个分支节点会对样本的某一个特征进行检测,将样本分配到子节点中,不同子节点对应着不同的特征取值。当一个预测样本进来时,从树根开始,检测样本的特征,按照取值传到对应子树中,在子树中进行同样的操作,这样一级一级最后到达叶子节点,次叶子节点的类标记或者取值则为最后的预测结果。 相当于使用数据的特
2017-05-03 15:03:03
590
原创 朴素贝叶斯算法
1、从贝叶斯到朴素贝叶斯 贝叶斯公式如下: 通过先验概率求后验概率 P(A)被称为先验概率,是已经给出的或者通过现有数据统计可以求出的,对A出现概率的一个大胆估计。P(B|A)/P(B)可以理解为一个实验,即满足某种现实状况,是对这个贝叶斯估计的一个修正因子。P(A|B)被称为后验概率,即满足某种事实条件的概率。 对应到机器学习...
2017-05-01 14:59:55
622
原创 Logistics回归
1.什么是Logistics?Logistics回归虽然后缀回归,但是不属于回归算法,而是分类算法。该算法通过在样本空间中寻找一个分类超平面,将正负样本分别分到互不相交的两个子空间中。2、算法公式推导数据准备:logistics算法需要使用数值型数据,对于标称型数据需要转换为数值型数据,为了加速收敛,通常会对原始数据进行标准化。它是对感知机算法的一种改良版,感知机算法的模型
2017-04-30 16:21:53
5486
2
原创 SVM算法
区别:将数据切分开的分离超平面存在无数个,一般的算法是随机选取其中的一个,同一个算法,运行多次,多次得到的结果可能会不一致。SVM算法追求寻找一个分离超平面能够将数据切分,同时这个分离超平面距离数据点中最近的点要尽可能远。而距离切分超平面的距离表示了分类的确信程度,寻找间隔最大的超平面即是以最大确信程度将所有数据分类。点到分离超平面的距离为:y=y1(W.X+b)定义超平面到数据集的距
2017-01-11 11:31:59
523
原创 k近邻算法及python实现
k近邻算法是机器学习中最简单的一种算法,简单粗暴,给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,把这K个实例中出现最多的类作为输入实例的类。对于初学者可能会好奇,这个最近邻是什么意思?例如调查一群人的信息,会对研究目标调查多个特征,例如人的头发长度、身高、年龄、体重、肤色,性别,对这些特征采用数值进行刻画。假设现在我们需要通过头发长度、身高、年龄、体重和肤色来判断
2016-12-19 18:01:06
2508
原创 机器学习实战学习笔记-决策树
1.决策树算法介绍: 决策树是一种监督学习算法,使用样本数据针对数据属性建立决策树模型,根据决策树对测试数据进行分类。2.决策树的特点: 决策树的计算法负责读不高,输出易于理解,但是可能会出现过度匹配的问题,适用于数值型和标称型数据。3.决策树的构造: 1. 采用递归的方式,在当前数据集上选择一个特征,针对该特征对数据集进行划分为几个
2016-08-22 18:46:14
528
原创 机器学习实战学习笔记-KNN算法
1.KNN算法介绍。KNN算法即k~近邻算法,通过计算测试数据与已知分类的样本数据集的相似度,选择相似度最高的前k条数据。统计k个数据中分类出现最高的分类,做为测试数据的分类。2.算法特点优点:精度高、对异常值不敏感 缺点:时间复杂度和空间复杂度高 适用数据:数据型和标称型下面的相似度计算采用欧式距离:两个n维向量想x(x1,x2,...,xn),y(y1,
2016-08-21 16:58:18
541
Logistics模拟数据
2017-04-30
knn算法测试数据
2016-12-19
C怎样检测一个浮点数是否为另一个浮点数的倍数
2014-02-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人