
机器学习
文章平均质量分 85
AcceptedLin
ACC
展开
-
数据取对数的意义
数据取对数的意义平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:1. 缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。2. 取对数后,可以将乘法计算转换称加法计算。3. 某些情况下,在数据的整个值域中的在不同区间转载 2021-04-07 12:48:22 · 17452 阅读 · 0 评论 -
舆情分析(Public opinion analysis)开源汇总
舆情分析(Public opinion analysis)开源汇总前言舆情分析就是根据特定问题的需要,对针对这个问题的舆情进行深层次的思维加工和分析研究,得到相关结论的过程。 两大方法 1、内容分析法 内容分析法是一种对信息内容作客观系统的定量分析的专门方法,其目的是弄清或测验信息中本质性的事实和趋势。提示信息所含有的隐性情报内容,对事物发展做情报预测。 2、实证分析法 实证分析法是通过分析大量案例和...转载 2020-11-30 09:50:04 · 25106 阅读 · 0 评论 -
Stock Price Predict
Stock Price Predict相关1、https://blog.youkuaiyun.com/jerry81333/article/details/538327462、https://blog.youkuaiyun.com/buptgshengod/article/details/78880941...原创 2020-11-09 15:52:50 · 239 阅读 · 0 评论 -
二分类和多分类问题的评价指标总结
二分类和多分类问题的评价指标总结1、二分类评价指标准确率,精确率,召回率,F1-Score, AUC, ROC, P-R曲线1.1 准确率(Accuracy)评价分类问题的性能指标一般是分类准确率,即对于给定的数据,分类正确的样本数占总样本数的比例。注意:准确率这一指标在Unbalanced数据集上的表现很差,因为如果我们的正负样本数目差别很大,比如正样本100个,负样本9900个,那么直接把所有的样本都预测为负, 准确率为99%,...转载 2020-09-23 20:50:54 · 45461 阅读 · 0 评论 -
样本缺失值处理
样本缺失值处理在构建模型训练时,需要对数据进行清洗,最常见的一种操作:缺失值处理。当我们拿到一批数据的时候,往往都是“不干净”的,而缺失值是最常见也是最容易发现的。不同的缺失值处理方式对接下来的特征提取,建模等都有巨大影响。那么缺失值的处理是有一套流程的,我在这里总结总结:发现缺失值统计每个特征在所有个体中缺失的个数 / 缺失率,这一点是查找缺失的特征,pandas 中 count() 函数为不...转载 2020-09-22 17:16:56 · 4943 阅读 · 0 评论 -
XGBOOST 之稀疏数据的处理
XGBOOST 之稀疏数据的处理当数据及其稀疏的时候,不应该转换为numpy等形式,尤其是点击数据。商品成千上万,用户点击商品的种类只是其中的某一些类型,但是以此建立起来的点击矩阵的纬度却是庞大而冗余。解决方式1:将数据转化为libsvm存储的形式, 数据的第一列是label, 第二列之后的是特征label key1:value1 key2:value2 key3:value3XGBoost可以加载libsvm格式...转载 2020-09-22 17:05:11 · 10614 阅读 · 0 评论 -
XGBoost之数据准备
XGBoost之数据准备文章目录一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结由于其速度和性能,XGBoost是一种流行的梯度增强实现。在内部,XGBoost模型将所有问题表示为仅以数值作为输入的回归预测建模问题。如果您的数据是另一种形式的,则必须将其准备成预期的格式。读完这篇文章你就会知道:如何为分类编码字符串输出变量。如何使用onehot准备...转载 2020-09-22 16:55:55 · 40133 阅读 · 0 评论 -
Jaccard相似度
Jaccard相似度杰卡德系数(Jaccard Index),也称Jaccard相似系数(Jaccard similarity coefficient),用于比较有限样本集之间的相似性与差异性。如集合间的相似性、字符串相似性、目标检测的相似性、文档查重等。Jaccard系数的计算方式为:交集个数和并集个数的比值:相反地,Jaccard距离表示距离度量,用两个集合间不同样本比例来衡量:...转载 2020-08-27 11:05:24 · 7500 阅读 · 0 评论 -
特征选择-卡方检验用于特征选择
特征选择-卡方检验用于特征选择参考: https://blog.youkuaiyun.com/ldcadai/article/details/72854462转载 2020-08-09 13:19:51 · 350 阅读 · 0 评论 -
推荐-基于bandit的主题冷启动在线学习策略
什么是EE问题?又叫exploit-explore问题。exploit就是:对用户比较确定的兴趣,当然要利用开采迎合,好比说已经挣到的钱,当然要花;explore就是:光对着用户已知的兴趣使用,用户很快会腻,所以要不断探索用户新的兴趣才行,这就好比虽然有一点钱可以花了,但是还得继续搬砖挣钱,不然花完了就得喝西北风。转载 2020-06-19 20:48:57 · 454 阅读 · 0 评论 -
计算广告中主要模块、策略及其场景
计算广告中主要模块、策略及其场景本文将会讲述计算广告(主要是DSP)中的主要模块、用到的策略及其场景。笔者希望大家能和ta一样,在了解广告业务的同时,还能对策略的设计有一定了解,总结出一些通用的方法。本文分三个部分:功能和策略,主讲功能型产品和策略型产品的区别; 架构综述,主讲广告系统的流程、模块和技术架构; 算法和场景,主讲各个模块...转载 2020-05-05 21:10:58 · 387 阅读 · 0 评论 -
机器学习算法评价指标之group auc(gauc)
机器学习算法评价指标之group auc(gauc)在机器学习算法中,很多情况我们都是把auc当成最常用的一个评价指标,而auc反映整体样本间的排序能力,但是有时候auc这个指标可能并不能完全说明问题,有可能auc并不能真正反映模型的好坏,以CTR预估算法(推荐算法一般把这个作为一个很重要的指标)为例,把用户点击的样本当作正样本,没有点击的样本当作...转载 2020-02-10 14:10:51 · 460 阅读 · 0 评论 -
tensorflow训练使用GPU和CPU的不同指定方法
tensorflow训练使用GPU和CPU的不同指定方法1.tensorflow如何指定使用CPU跑,并指定使用的CPU个数cpu_num=10#指定使用的CPU个数config = tf.ConfigProto(device_count={"CPU": cpu_num}, inter_op_parallelism_threads =...转载 2020-01-25 16:41:45 · 1144 阅读 · 0 评论 -
Faiss cpu 版本安装
Faiss cpu 版本安装开发环境介绍centos 系统,64 位faiss 官方也是在64位系统测试的,因此不知道32位系统是否兼容。安装AnacondaAnaconda是 Python 的科学计算工具包。根据对 Python2 和 Python3 的支持,分为 Anaconda2 和 ...转载 2020-01-25 16:27:06 · 673 阅读 · 0 评论 -
faiss 学习笔记
faiss 学习笔记前言不同的索引方式是faiss的核心内容, 他们以不同的方式构建,基于不同的算法与数据结构. 选择合适的index来处理数据是使用faiss最基础的一步. 官方wiki上也有帮助你如何选择不同的 index, 参见Guidelines to choose an index这次来...转载 2019-12-20 20:06:23 · 6219 阅读 · 0 评论 -
Wide & Deep、DeepFM系列算法原理与优缺点对比
Wide & Deep、DeepFM系列算法原理与优缺点对比https://blog.youkuaiyun.com/ISMedal/article/details/100578354转载 2019-10-19 15:27:51 · 1644 阅读 · 0 评论 -
点击率预估方法总结
点击率预估方法总结点击率预估方法总结前言:最近一直在做帖子维度的CTR预估,尝试了好些方法,把一些经过和想法记录下来。C表示点击数,I表示展示数,p表示CTR1. 普通方法p=C/I直接使用帖子的点击数除以曝光数,存在的问题很明显:1. 可能有的帖子曝光数很少,甚至为 0,...转载 2019-10-19 15:16:27 · 41069 阅读 · 0 评论 -
回归模型的分析一
回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性转载 2017-03-20 10:56:13 · 12787 阅读 · 0 评论 -
回归模型的分析二
什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部转载 2017-03-20 10:57:09 · 2365 阅读 · 0 评论 -
Matlab 自带机器学习算法汇总
Matlab用于训练机器学习模型的函数主要分为三类:有监督学习无监督学习集成学习1.有监督学习类名方法名函数名说明线性回归多元线性回归fitlm具有多个预测变量的线性回归逐步回归ste转载 2017-03-20 11:00:48 · 11982 阅读 · 0 评论 -
matlab 常用集合相关的函数
Matlab常用的集合相关的函数如下: union(A,B) %求集合A和集合B的并集 intersect(A,B) %求集合A和集合B的交集 setdiff(A,B) %求集合A和集合B的差集,即A-B;亦可看成求取集合B关于全集A的补集。 unique(A)原创 2017-03-20 14:48:52 · 1264 阅读 · 0 评论 -
核方法以及核函数讲解
核方法的主要思想是基于这样一个假设:“在低维空间中不能线性分割的点集,通过转化为高维空间中的点集时,很有可能变为线性可分的” ,例如下图 左图的两类数据要想在一维空间上线性分开是不可能的,然而通过F(x)=(x-a)(x-b)把一维空间上的点转化为右图上的二维空间上,就是可以线性分割的了。然而,如果直接把低维度的数据转化到高维度的空间中,然后再去寻找线性分割平面,转载 2017-03-20 18:14:36 · 5123 阅读 · 0 评论 -
机器学习算法一
最小均方算法,即Least-Mean-Square,LMS。其提出受到感知机的启发,用的跟感知机一样的线性组合器。 无约束最优化问题LMS算法的目标就是找到一组权值向量,使其输出响应跟期望响应最接近。设立一个代价函数E(w),其对权值向量连续可微,用来描述输出响应跟期望响应的差距,也就是值越小越好。于是我们的目标就是酱紫: 找到一个最优的权值向量w∗,对于任何w都有转载 2017-03-15 15:02:25 · 796 阅读 · 0 评论 -
机器学习算法二
1. 决策树根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。2. 随机森林视频在源数据中随机选取数据,组成几个子集S 矩阵是源数据,有 1-N 条数据,A B C 是f转载 2017-03-15 15:07:07 · 254 阅读 · 0 评论 -
特征提取之PCA
PCA 算法也叫主成分分析(principal components analysis),主要是用于数据降维的。为什么要进行数据降维?因为实际情况中我们的训练数据会存在特征过多或者是特征累赘的问题,比如:PCA算法就是用来解决这种问题的,其核心思想就是将 n 维特征映射到 k 维上(k PCA原理关于为什么原创 2017-09-25 14:16:51 · 6041 阅读 · 0 评论 -
python tensorflow install
方法1(1)首先安装pip sudo apt-get install python-pip python-dev(2)利用pip安装tensorflowsudo pip install --upgrade https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.8.0-cp27-none-linu原创 2017-09-19 12:56:36 · 838 阅读 · 0 评论 -
Python 安装第三方库
1.Pip更新2.安装pandas,numpy,matplotlib,scipy,sudo apt-get install python-numpysudo apt-get install python-scipysudo apt-get install python-matplotlibsudo apt-get install python原创 2017-09-19 13:13:21 · 461 阅读 · 0 评论 -
Pytorch入门——安装
Pytorch目前支持的平台有Linux和OSX,在Pytorch官网上每种平台提供了conda、pip、source三种安装方式,同时也可以根据有无GPU进行cuda安装,在这里以ubuntu14.04进行安装学习。1. Anaconda安装配置 安装过程参考我之前的Anaconda+Tensorflow+Theano+Keras安装博客。 由于墙的问题,用conda安装Pyto转载 2017-09-19 13:28:39 · 475 阅读 · 0 评论 -
python IDE(集成开发环境)
大型程序开发必备:IDE(集成开发环境)虽然说在Terminal里就可以直接编程了,但我们总还是需要一个工具的,要不然要编一个大型程序几乎是不可能完成的事。这就是IDE出场的时候了。大家就会惊喜的发现,自己之前在C语言看过的熟悉的编程界面又回来了(当然它们很多都是收费的)。其实由于Python是开源的,理论上任何人足够厉害的人都能开发出针对它的IDE,而确实有很多人这样做了。牛人太多,他们转载 2017-09-19 13:39:03 · 668 阅读 · 0 评论 -
个性化推荐理论
个性化推荐理论1.推荐算法大致可以分为三类:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法。基于内容的推荐算法,原理是用户喜欢和自己关注过的Item在内容上类似的Item,比如你看了哈利波特I,基于内容的推荐算法发现哈利波特II-VI,与你以前观看的在内容上面(共有很多关键词)有很大关联性,就把后者推荐给你,这种方法可以避免Item的冷启动问题(冷启动:如果一个Item从没有被关翻译 2017-09-28 10:57:09 · 11267 阅读 · 0 评论 -
Python实现个性化推荐一
用Python构建你自己的推荐系统 现如今,网站用推荐系统为你提供个性化的体验,告诉你买啥,吃啥甚至你应该和谁交朋友。尽管每个人口味不同,但大体都适用这个套路。人们倾向于喜欢那些与自己喜欢的其他东西相似的东西,也倾向于与自己身边的人有相似的口味。推荐系统就尝试捕捉这一规律来帮助预测你也可能喜欢的其他东西。 为帮用户高效挑选商品,电子商务、社交媒体、视频和在线新闻平台已积极部署了转载 2017-09-28 11:02:29 · 5458 阅读 · 2 评论 -
Python实现个性化推荐二
Python实现个性化推荐二基于内容的推荐系统,正如你的朋友和同事预期的那样,会考虑商品的实际属性,比如商品描述,商品名,价格等等。如果你以前从没接触过推荐系统,然后现在有人拿枪指着你的头,强迫你在三十秒之内描述出来,你可能会描述这样一个基于内容的系统:呃,呃,我可能会给你看一大堆来自同一个厂家,并且拥有类似的说明的产品。你正在利...原创 2017-09-28 11:04:34 · 1585 阅读 · 1 评论 -
LARS算法
LARS算法的几何意义1. LARS算法简介 Efron于2004年发表在Annals of Statistics的文章LEAST ANGLE REGRESSION中提出LARS算法,其核心思想是提出一种新的solution path(求解路径),即在已经入选的变量中,寻找一个新的路径,使得在这个路径上前进时,当前残差与已入选变量的相关系数都是相同的,直到找出新的比当前残差相转载 2017-09-21 11:06:01 · 6314 阅读 · 0 评论 -
矩阵求导
维基百科上:http://en.wikipedia.org/wiki/Matrix_calculus , 根据Y与X的不同类型(实值,向量,矩阵),给出了具体的求导公式,以及一堆相关的公式。其实在实际的机器学习工作中,最常用到的就是实值函数y对向量X的求导,定义如下(其实就是y对向量X的每一个元素求导):实值函数对矩阵X求导也类似:转载 2017-10-17 19:36:14 · 1461 阅读 · 0 评论 -
梯度下降法的三种形式BGD、SGD以及MBGD
在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。 下面我们以线性回归算法来对三种梯度下降法进行比较。 一般线性回归函数的假设函数为:hθ=∑nj=0θjxj 对应的能量函数(损失函数)形式为:Jtrain(θ)=1/(2m)∑mi=1(hθ(x(i))−y(i))2 下...转载 2018-07-16 16:26:04 · 1532 阅读 · 0 评论 -
如何处理训练样本不均衡的问题
在分类中如何处理训练集中不平衡问题 在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答:原文标题:8 Tactics to Combat Imbalanced Classes in Your Machine Learning Datas...转载 2018-07-16 17:08:52 · 1191 阅读 · 0 评论 -
K-Means聚类原理及与EM关联
K-means聚类算法K-means聚类算法也是聚类算法中最简单的一种了,但是里面包含的思想却不一般。聚类属于无监督学习。在聚类问题中,给我们的训练样本是,每个,没有了y。K-means算法是将样本聚类成k个簇(cluster),具体算法描述如下:1、 随机选取k个聚类质心点(cluster centroids)为。2、 重复下面过程直到收敛 {对于每一个样例i,计算其应该...转载 2018-07-16 17:25:34 · 1557 阅读 · 0 评论 -
决策树__剪枝
首先剪枝(pruning)的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。决策树的剪枝策略最基本的有两种:预剪枝(pre-pruning)和后剪枝(post-pruning):预剪枝(pre-pruning):预剪枝就是在构造决策树的过程中,先对每个结点在划分前进行估计,若果当...转载 2018-07-18 10:19:57 · 2000 阅读 · 0 评论 -
决策树缺失值的处理
1. 连续值如何划分?离散化,二分法C4.5:Information Gain (Ratio) based Threshold t CART:遍历所有输入变量j 和切分点s,根据最小化平方误差准则选取;2. 是否能够处理Missing值? 如果能, 是如何处理的?不能处理: -- 插值法(Imputation): QUEST, CRUISE 替代法(Alternate/Surr...转载 2018-07-18 10:42:50 · 6593 阅读 · 0 评论 -
Regularization method for machine learning
Regularization method(正则化方法)OutlineOverview of RegularizationL0 regularizationL1 regularizationL2 regularizationElastic Net regularizationL2,1 regularizationModel exa...原创 2018-07-18 14:07:01 · 18737 阅读 · 0 评论