
机器学习
马超的博客
Stay Hungry, Stay Foolish
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于ONgDB图数据库实现组织机构相似性碰撞分析
基于ONgDB图数据库实现组织机构关系相似性碰撞分析 此部分实现是组织机构消歧任务的其中一部分,主要对于组织机构的相似性进行分析。主要针对组织机构的特有性数据进行图数据建模,实现关系节点的映射,然后从节点关系的关联方式进行分析。在此基础上还可以进一步优化分析方式,例如在计算相似度时加入对组织机构别名编辑距离的计算,综合杰卡尔德相似度与编辑距离的相似度计算结果。 一、数据模型 二、测试数据集 三、导入数据 四、运行计算 五、计算结果展示 ...原创 2020-05-16 16:56:11 · 1065 阅读 · 0 评论 -
Spark编程实例
【实例一】 分布式估算pi 假设正方形边长为x,则正方形面积为:x*x,圆的面积为:pi*(x/2)*(x/2),两者之比为:4/pi 随机产生位于正方形内的点x个,假设位于园中的有y个,则:pi=4*y/x 当x->无群大时,pi逼近真实值 object SparkPi{ //不要用继承,会有各种麻烦 def main(args:Array[String]){ //常规spa原创 2016-10-17 17:55:58 · 1768 阅读 · 1 评论 -
MLlib On Spark(机器学习算法)
简介:Spark包含一个提供常见的机器学习(ML)功能的程序库,叫做MLlib。它提供了很多种机器学习算法,包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。MLlib还提供了一些更底层的机器学习原语,包括一个通用的梯度下降优化算法。所有这些方法都被设计为可以在集群上轻松伸缩的架构。 MLlib的设计理念:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。Ml原创 2016-10-17 23:55:26 · 1783 阅读 · 0 评论 -
TensorFlow实现卷积神经网络(进阶)
此模型中如果使用100k个batch,并结合学习速率的decay(即每隔一段时间将学习速率下降一个比率),正确率可以高达86%。模型中需要训练的参数约为100万个,而预测时需要进行的四则运算总量在2000万次左右。所以这个卷积神经网络模型中,使用一些技巧。 (1)对weight进行L2的正则化。 (2)对图片进行翻转,随机剪切等数据增强,制造更多样本。 (3)在每个卷积-最大池化层后面使用LR原创 2017-03-19 17:50:47 · 6626 阅读 · 10 评论 -
KMeans聚类过程
KMeans聚类算法主要分为3个步骤: 1.第一步是为待聚类的点寻找聚类中心; 2.计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中心去; 3.计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心; 4.反复执行第二步、第三步,直到聚类中心不再进行大范围的移动或者聚类次数达到要求,整个聚类过程就停止了。原创 2017-04-10 16:48:51 · 1319 阅读 · 0 评论 -
人工智能与图数据库技术
增强AI上下文一、什么是人工智能一、上下文对于人工智能的重要性 本系列翻译文章原文链接地址【AI and Graph Technology: 4 Ways Graphs Add Context】 一、什么是人工智能 一、上下文对于人工智能的重要性 …待更新 ...翻译 2019-08-01 21:06:48 · 1105 阅读 · 1 评论