
机器学习
来一块提拉米苏
加油
展开
-
Tensorflow问题
Tensorflow问题1、Another metric with the same name already existsFile "/usr/local/python3/lib/python3.7/site-packages/keras/__init__.py", line 25, in <module> from keras import models File "/usr/local/python3/lib/python3.7/site-packages/keras/mo原创 2021-11-05 17:45:04 · 910 阅读 · 2 评论 -
Tensorflow On Spark (2021版)
之前网上的版本太老了,mnist_spark.py和mnist_data_setup.py测试文件的参数和位置,以及tensorflow-hadoop的版本(1.5)都更新了一、运行环境准备1、hadoop2.7:最好是HA2、spark on yarn:必须是yarn环境,否则不能执行训练,要求必须多台机器的集群配置好环境变量export JAVA_HOME=/usr/local/jdk8export HADOOP_HOME=/home/hadoop/service/hadoop2.7exp原创 2021-10-25 17:57:18 · 2032 阅读 · 0 评论 -
前向逐步回归
前向逐步回归1、也是解决和岭回归一样问题的算法。2、前向逐步回归属于一种贪心算法,即每一步都尽可能减少误差,一开始,所有的权重都是设为1,然后每一步所做的决策时对某个权重增加或减少一个很小的值。3、伪代码: 数据标准化,使其分布满足0均值和单位方差 在每轮迭代过程中: 设置当前最小的误差lowestError为正无穷 对每一个特征值: 增大或减少:原创 2017-08-02 15:50:02 · 2847 阅读 · 0 评论 -
PCA降维
PCA简化数据PCA简化数据引言基本概念过程原理重要的概率论和线性代数代码详解总结数据最下方没东西了引言不多说了,PCA就是用来降维操作的,将多维数据处理成维数比较少的数据,保留重要特征。基本概念PCA是主要成分分析(Principal component analysis, PCA)。 在PAC中数据从原来的坐标系转化到新的坐标系中,新的坐标系的选择是又数据本身决定的。第一个坐标轴的原创 2017-08-17 11:26:16 · 2108 阅读 · 1 评论 -
K-means聚类算法
K-means聚类算法1、K-means聚类算法有什么用2、聚类的概念3、K-means算法意思4、算法伪代码5、优缺点6、代码+结果7、优化8、数据 1、 用于分类,但与之前的分类算法又不同,之前是给定已经分好组的数据进行操作,对训练集分类,而现在的分类则是对一组未知的组别的数据进行分组,比如给你一些花,要求是将这些花分为4类,花的特征(花瓣数目,花瓣大原创 2017-07-26 17:27:04 · 640 阅读 · 0 评论 -
Adaboost算法
Adaboost算法原创 2017-08-12 15:09:00 · 643 阅读 · 0 评论 -
归一化处理
归一化概念优点方法1、对于给定的数据在一些的情况下往往会出现这样的问题:在不同评价往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间事物量纲影响,需要进行数据标准化处理,以解决数据指标之间的差异性,原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。2、优点:(1)、为后面处理数据更方便 (2)、保证程序运行时收敛快3、方法:(1)、new原创 2017-08-05 21:44:49 · 1125 阅读 · 0 评论 -
树回归
树回归1、什么是树回归2、优缺点3、树的构建4、树剪枝树回归: 线性回归模型需要拟合所有样本(局部加权线性回归除外),当数据拥有众多特征且特征间关系复杂时,构建全局模型就显得太难了。一种可行的方法是将数据集切分成很多份易建模的数据,然后利用线性回归技术建模。如果首次切分后仍难以拟合线性模型就继续切分,在这种切分模式下,树结构和回归法相当有用。 CART(Classification An原创 2017-08-05 21:52:47 · 287 阅读 · 0 评论 -
SVD简化数据
SVD简化数据SVD简化数据引言基础概念3种相关度以及基于相似度推荐代码基于SVD评分估计代码SVD应用代码总结0_5txt数据引言餐馆可分为很多类别,不同的专家对其分类可能有不同依据。实际中,我们可以忘掉专家,从数据着手,可对记录用户关于餐馆观点的数据进行处理,并从中提取出其背后的因素。这些因素可能会与餐馆的类别、烹饪时采用的某个特定配料,或其他任意对象一致。然后,可利用这些因素来估原创 2017-08-21 08:34:34 · 428 阅读 · 0 评论 -
Apriori算法进行关联分析
Apriori算法进行关联分析Apriori算法进行关联分析引言基本概念例子伪代码算法分析代码总结引言关联性在生活中经常被用到,例如超市的商品摆放,牙膏和牙刷放一起,针和线放一块,根据顾客的喜好和习惯尽可能的方便顾客;再例如大型游乐设施附近和儿童玩具、冰激凌、饮料在一起;再例如之前算法岭回归,就是解决复共线性的问题,复共线性就是有关联的特征项。Apriori算法就是用来解决这个问题的原创 2017-08-15 11:23:07 · 712 阅读 · 0 评论 -
scala语言基础学习
scala语言基础学习1、简介2、常用数据类型+变量3、修饰符4、函数5、字符串6、数组1、简单的介绍一下,scala语言和java语言比较相似,有java基础的比较好入手,和java相似的一些知识就不一一举例了。scala是一门多范式的编程语言,纯面向对象的语言,每个值都是对象,那么一定伴随着类、类的继承等等。安装配置即按即用,解压,配置路径,在cmd中就可以直接运行使用。运行形式有两种,脚本形式原创 2017-12-11 18:42:21 · 287 阅读 · 2 评论 -
阿里天池比赛报告的一点总结
阿里天池比赛报告 比赛题目: 在商场内精确的定位用户当前所在店铺,当用户在商场环境中打开手机的时候,存在定位信号不准、环境信息不全、店铺信息缺失、不同店铺空间距离太近等等挑战。出题方提供了2017年8月大概100家商场的详细数据,包括用户定位行为和商店等数据(已脱敏),要求通过对数据的分析处理来对下一个月做出预测。 已知信息,表一二: 应用工具: Pytho原创 2017-12-04 19:35:46 · 6406 阅读 · 11 评论 -
随机森林(python版)
随机森林随机森林使用背景1 随机森林定义2 随机森林优点3 随机森林应用范围随机森林方法理论介绍1 随机森林基本原理2 随机森林算法21 决策树22随机森林23 随机森林模型的注意点24随机森林实现过程随机森林应用1目标2 准备的数据集3R 源代码4 一些重要参数说明5预测结果随机森林1. 随机森林使用背景1.1 随机森林定义随机森林是一种比较新的机器学习模型。经典转载 2017-08-21 11:22:44 · 4048 阅读 · 0 评论 -
阿里天池赛后数据分析
赛后数据分析天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测大赛概况进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质。人工智能(AI)能够处理分析海量医疗健康数据,通过认知分析获取洞察,服务于政府、健康医疗机构、制药企业及患者,实现个性化,可以循证的智慧医疗,推动创新,实现价值。...原创 2018-03-05 20:23:45 · 1547 阅读 · 12 评论 -
SparkMLlib实现K-means
SparkMLlib实现K-means引言之前写过一篇关于kmeans的博客,里面详细的介绍了关于***K-means***的的详细描述,用python是实现的,并且在最后附带数据,了解更改关于K-means的内容详看https://blog.youkuaiyun.com/jklcl/article/details/76153430今天用scala语言中的spark,使用MLlib库来实现依赖&amp;lt...原创 2018-11-15 11:57:17 · 2611 阅读 · 0 评论 -
岭回归
岭回归1、 解决问题2、 原理3、 算法4、 实现代码5、 交叉验证1、 当数据的特征比样本点还要多怎么办?即:n>m。也就是说输入数据的矩阵不是满秩矩阵,非满秩矩阵求逆就会出现问题。——这是《机器学习实战》上的问题 除此之外,在其他大佬的博客和研究生论文到看到岭回归是主要解决复共线问题。 秩:将矩阵进行行列变换成梯形矩阵,不为0的行(列)的行(列)数称为矩原创 2017-08-02 15:20:04 · 2947 阅读 · 0 评论 -
层次聚类
Hierarchicalclustering 层次聚类《机器学习》—周志华1、什么是层次聚类2、层次聚类的距离运算方式3、伪代码4、代码+结果5、数据1、层次聚类是试图在不同层次对数据集进行划分,从而形成树形的聚类结构,数据集的划分可分为采用“自底向上”的聚类策略,也可采用“自顶向下”的分拆策略。说白了就是一开始就把所有的样例作为一个簇,然后计算分别计算两个簇的距离原创 2017-07-27 16:35:11 · 1431 阅读 · 2 评论 -
机器学习感悟2
在读了“从机器学习谈起”之后,对机器学习的认识又进了一步,之前对机器学习的认识是算法加数据,而现在对机器学习的认识是更广泛的,机器学习是通过算法对数据进行分析和处理得出重要的经验,在之后的一些应用中机器给出相对正确或合适的答案。 机器学习离不开大数据,数据对于机器来说相当于什么呢?举个例子,给朋友买礼物,问题来了,买什么好呢?这个时候我们还是发动自己的大脑,比如想起朋友之前一直唠叨的一件饰原创 2017-05-17 20:37:10 · 529 阅读 · 0 评论 -
较为简单的python学习
一、输出“Hello world!”print‘Hello world!’二、输入(1)、input() or val = input()(注意是数值类型)(2)、raw_input()//返回输入值,不进行运算【2】(3)、eval(raw_input())//进行处理【2】三、python的基本数据类型1、(1)、numberint,float,bool,c原创 2017-05-29 17:22:20 · 299 阅读 · 0 评论 -
python中的csv模块
最近学习机器学习遇到了csv这个包,怎么用呢,这成了一个疑问,从网上查了一下,简单的总结一下。什么是csv?csv文件格式是一种通用的电子表格和数据库导入导出格式。可以用来处理从csv文件中读入,读出一系列的数值或字典。csv的基本应用:先来做一个比较吧1、with open('C:\Users\l\Desktop\p.csv','r+') as fp: pri原创 2017-06-05 20:09:41 · 852 阅读 · 0 评论 -
支持向量机(一)
svm学习(1)支持向量机(Support Vector Machine),简称svm,属于监督学习模型,可以分析数据,识别模式,用于分类和回归分析。线性可分:支持向量机用于最大间隔的分割数据,这体现了对于分类的新方法,相对于knn更有效,更准确的将一个未知的点分到正确的地方。但是也面临着一些问题,首先svm处理的数据是线性可分的,就是可以通过一条线来划分界限,而svm就是来求这条分界原创 2017-06-16 20:53:53 · 607 阅读 · 0 评论 -
transform的使用
from sklearn.feature_extraction import DictVectorizerDictVectorizer和fit_transform的使用:v = DictVectorizer(sparse = False)#空白处为falseD = [{ 'F' : 'A' , 'B' : 'B' },{ 'F' : 'C' , 'B' : 'A' }原创 2017-06-08 20:33:09 · 1428 阅读 · 0 评论 -
决策树
一、决策树/判断树(decision tree)1、概念:决策树是一个类似于流程图的树结构:其中,每个内部节点表示在一个属性上的测试,每个分支表一个属性输出,而每个树叶节点代表类或类分布。树的最顶层是根结点。2、熵: H(X)=-(p1*logp1+p2*logp2+...+pn*logpn)3、算法: 信息获取量:Gain(A) = info(D)-infor_A(D)原创 2017-06-14 15:35:25 · 582 阅读 · 0 评论 -
Python随机数
随机种子random.seed(num)num为空时为真随机,num为一个固定数时是固定的随机普通随机import randomx = random.random()print x固定范围整数随机-->半开区间 [low, high)。import numpy as npnp.random.randint(end)默认范围0-endnp.rando原创 2017-06-15 18:09:52 · 421 阅读 · 0 评论 -
简单的线性回归
说到线性回归,都不陌生就不多讲了如图所示,这条线如何求出的,线的方程式为根据这两个公式求出方程带入即可展示一下用Python的简单应用:# coding=utf-8import numpy as np#numpy中有自带的求均值meandef fit(x, y): up = 0 down = 0; n = len(x)原创 2017-06-17 20:59:11 · 535 阅读 · 0 评论 -
局部加权回归
局部加权回归1、 解决的问题2、 原理3、 代码4、 数据 1、 线性回归的一个问题是有可能出现欠拟合现象,因为它求的是具有最小均方差的无偏估计,显而易见,如果模型欠拟合将不能取得最好的预测效果,所有有些方法运行在估计中引入一些误差。2、 常用的方法之一为局部加权线性回归,与KNN一样,这种算法每次预测均需要实现选取对应的数据子集,解除回归w,如下:原创 2017-07-31 21:07:42 · 598 阅读 · 0 评论 -
KNN-临近算法
邻近算法,或者说K最近邻(KNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个原创 2017-06-14 15:33:40 · 458 阅读 · 0 评论 -
logistic回归
logistic回归 一、logistic回归是用来干什么的?二、logistic回归的原理三、算法四、优化总结 一、用于二分类问题,比如分析一头牛犯病的可能性,犯病为1,不犯病为0,由犯病的概率来判断是否犯病;判断一封邮件是否是垃圾邮件;分析天气是否下雨。这些问题都是二分类问题。二、以上二分类问题用函数表示的话,因变量不是1就是0,那么用海维赛德函数(单位阶跳跃函原创 2017-07-24 14:48:13 · 408 阅读 · 0 评论 -
FP-growth算法高效发现频繁项集
FP-growth算法高效发现频繁项集FP-growth算法高效发现频繁项集引言基本概念构建FP树挖掘频繁项代码详解总结引言在关联分析中,频繁项集的挖掘最常用到的就是Apriori算法。Apriori算法是一种先产生候选项集再检验是否频繁的“产生-测试”的方法。这种方法有种弊端:当数据集很大的时候,需要不断扫描数据集造成运行效率很低。 而FP-Growth算法就很好地解决了这个问题。原创 2017-08-16 10:06:20 · 856 阅读 · 0 评论 -
交叉验证
交叉验证交叉验证原理1k-cv2k2-cv3loocv410-cv原理交叉验证(Cross validation),有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的转载 2017-08-02 10:25:39 · 438 阅读 · 0 评论 -
机器学习感悟1
机器学习是什么?这对于刚开始进行机器学习的我来说还是一个巨大的挑战。 机器学习是将是关于学习算法的设计分析和每个学科领域的应用,即算法+数据。提高生活中各方面的工作效率,甚至可以降低工作的失误,可以看出在未来的应用前景还是比较宽阔的。互联网搜索、生物特征识别、汽车自动驾驶、火星机器人等等。 机器学习经过了三个阶段,分别是推理期,知识期和学习期。推理期主要是说的逻辑推理,让机器有原创 2017-05-16 16:31:36 · 829 阅读 · 0 评论