
机器学习
文章平均质量分 96
洞之蝉
真正想做的人总是什么也不说,扭头就去做了。
展开
-
自然语言处理学习路线图
有群友问了一个问题 感觉有一定的普遍性 在这里稍微整理了一下 分享给大家。Q:作为一个初学者,我想走nlp,请问该学哪些知识? 看什么书,学习路线怎么走之类的A:首先 你这个问题 知乎已经有了不少高价值的答案。https://www.zhihu.com/question/19895141 关于看什么书,学习路径,都有回答。 但是我想 你问“想走NLP”的意思应该是“以后...转载 2019-02-21 09:08:36 · 1211 阅读 · 0 评论 -
NLP资料汇总
一、神经网络与深度学习 复旦大学 邱锡鹏https://nndl.github.io/ 二、斯坦福 CS224d: Deep Learning for Natural Language Processing官网:http://web.stanford.edu/class/cs224n/index.html 视频:https://www.youtube.com/playlist?li...原创 2019-02-19 09:07:52 · 185 阅读 · 0 评论 -
【深度学习】1. 第六章 深度前馈网络 占坑,待完成~
【深度学习】1.第六章 深度前馈网络原创 2018-04-16 09:46:49 · 267 阅读 · 0 评论 -
error: unsupported option '-fopenmp' Mac安装xgboost
macOS安装: 1.安装 Homebrew 2.安装最新版本的gcc (gcc-6)brew install gcc --without-multilib 这步比较耗时,用了将近1小时。3.从git上下载源码cd进入你想要安装的目录,然后输入下面的代码。(我是直接在打开终端的目录)git clone --recursive https://github.c...转载 2018-07-26 12:39:28 · 4616 阅读 · 0 评论 -
【机器学习】模型融合方法概述
转自:https://zhuanlan.zhihu.com/p/25836678我理解的Kaggle比赛中提高成绩主要有3个地方特征工程调参模型融合 之前每次打比赛都只做了前两部分,最后的模型融合就是简单的加权平均,对于进阶的Stacking方法一直没尝试,这几天摸索了一下还是把Stacking方法给弄懂了。(本文重点讲解Stacking,Bagging和Boosting有很多权威的好教程,所...转载 2018-04-24 16:22:45 · 12466 阅读 · 0 评论 -
Python Pandas找到缺失值的位置
转自: https://blog.youkuaiyun.com/u012387178/article/details/52571725问题描述: python pandas判断缺失值一般采用 isnull(),然而生成的却是所有数据的true/false矩阵,对于庞大的数据dataframe,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺失数据的位置。首先对于存在缺失值的数据,如下所示import pa...转载 2018-04-24 16:07:52 · 5233 阅读 · 0 评论 -
from sklearn.grid_search import GridSearchCV This module was deprecated in version 0.18
环境:scikit-learn 0.18 , python3from sklearn.cross_validation import train_test_split from sklearn.grid_search import GridSearchCV 报出如下警告:from sklearn.grid_search import GridSearchCV /usr/lib/python3.4/...转载 2018-04-24 16:04:03 · 2912 阅读 · 0 评论 -
占坑,无内容【吴恩达深度学习】5. 序列模型
11原创 2018-04-12 14:50:11 · 251 阅读 · 0 评论 -
占坑,无内容【吴恩达深度学习】4. 卷积神经网络
11原创 2018-04-12 14:49:49 · 148 阅读 · 0 评论 -
占坑,无内容【吴恩达深度学习】3. 结构化机器学习项目
11原创 2018-04-12 14:49:30 · 232 阅读 · 0 评论 -
【吴恩达深度学习】占坑,无内容2. 改善深层神经网络:超参数调试,正则化以及优化
11原创 2018-04-12 14:49:03 · 219 阅读 · 0 评论 -
【吴恩达深度学习】1. 神经网络和深度学习
一 神经网络基础2.1 二分分类 1.图像RGB矩阵 64 x 64 x3 维的一个x向量 2. 构建神经网络时X为[x1,x2,x3....xm]一个R^nxm 2.8 计算图的导数计算 1.微积分链式法则 2. 反向传播 1.感觉是正向 需要一步一步计算才能算出j 2.反向的话,从后到前推导,比如某一个参数发生...原创 2018-04-12 14:48:10 · 235 阅读 · 0 评论 -
CTR预估中的贝叶斯平滑方法(二)参数估计和代码实现
1. 前言前面博客介绍了CTR预估中的贝叶斯平滑方法的原理http://www.cnblogs.com/bentuwuying/p/6389222.html。这篇博客主要是介绍如何对贝叶斯平滑的参数进行估计,以及具体的代码实现。首先,我们回顾一下前文中介绍的似然函数,也就是我们需要进行最大化的目标函数:下面我们就基于这个目标函数介绍怎样估计参数。 2. 参数估计的几种方法1. 矩估计矩估计在这里有...转载 2018-04-12 14:26:23 · 788 阅读 · 0 评论 -
One-Hot Encoding
一、One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。 在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。在机器学习任务中,对于这样的特征,通常我们需要对其进行特征数字化,如下面的例子:有如下三...转载 2018-04-12 14:22:48 · 129 阅读 · 0 评论 -
如何理解TensorFlow中的batch和minibatch
转自:http://hp.stuhome.net/index.php/2016/09/20/tensorflow_batch_minibatch/hp September 20, 2016 0在刚开始学习使用TF的过程中,我不是很理解什么是“batch”。也经常有人问,到底minibatch是干什么的?然而这是一个在TF中,或者说很多DL的框架中很常见的词。这个解释我觉得比较贴切也比较容易理解。引...转载 2018-04-12 14:20:56 · 571 阅读 · 0 评论 -
CTR相关的论文总结
原创 2018-04-12 14:11:04 · 731 阅读 · 0 评论 -
XGBoost:在Python中使用XGBoost
在Python中使用XGBoost下面将介绍XGBoost的Python模块,内容如下: * 编译及导入Python模块 * 数据接口 * 参数设置 * 训练模型l * 提前终止程序 * 预测A walk through python example for UCI Mushroom dataset is provided.安装首先安装XGBoost的C++版本,然后进入源文件的根目录下的 wra...转载 2018-04-20 14:59:27 · 1763 阅读 · 0 评论 -
sklearn 学习教程01
本文涉及到1. 模型持久化的两种方式2. 读入数据时对dtype进行转换3. 再次训练和更新参数4. 多分类和多标签拟合,如何将标签转换成二维数组等#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 18/3/27 上午11:48# @Author : cicada@hole# @File : ModueChooser....原创 2018-05-15 16:11:29 · 226 阅读 · 0 评论 -
自然语言处理技术(NLP)在推荐系统中的应用
作者:优快云云计算来源:优快云云计算2017-07-03 16:19:00个性化推荐是大数据时代不可或缺的技术,在电商、信息分发、计算广告、互联网金融等领域都起着重要的作用。具体来讲,个性化推荐在流量高效利用、信息高效分发、提升用户体验、长尾物品挖掘等方面均起着核心作用。在推荐系统中经常需要处理各种文本类数据,例如商品描述、新闻资讯、用户留言等等。具体来讲,我们需要使用文本数据完成...转载 2019-02-21 09:13:20 · 1419 阅读 · 0 评论 -
如何查阅自然语言处理(NLP)领域学术资料
作者:刘知远链接:https://www.zhihu.com/question/19895141/answer/24710071来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。曾经写过一篇小文,初学者如何查阅自然语言处理(NLP)领域学术资料_zibuyu_新浪博客,也许可以供你参考。 昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自...转载 2019-02-20 19:41:32 · 887 阅读 · 1 评论 -
机器学习总结之——Dummy Coding
1、哑变量的概念 在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(1=是,0=否),则回归系数β可以解释为:其他自变量不变的条件下,X=1(饮酒者)与X=0(不饮酒者)相比,所引起的因变量Y的平均变化量。 但是,当自变量X为多分类变量时,例如职业、学历、血型...转载 2018-12-08 12:34:25 · 1398 阅读 · 0 评论 -
CTR 预估模型的进化之路
转自:https://cloud.tencent.com/developer/article/1005416CTR 预估模型的进化之路在这篇文章中: 导语 0. 提纲 1. 背景 2. LR 海量高纬离散特征 (广点通精排) 2.1 正则化 2.2 离散化 2.3 特征组合 2.4 优缺点 3. GBDT 少量低纬连续特征 (Yahoo &...转载 2018-09-25 09:26:38 · 620 阅读 · 0 评论 -
用户画像总结
转自:https://blog.youkuaiyun.com/zzhhoubin/article/details/79727130 最近在工作之余,结合自己的理解和论坛上的一些帖子,整理了份用户画像的文章,个人觉得这篇文章在宏观上很好地描述了用户画像的主要内容。(文章内的图片来源于不同帖子,权当分享,侵删) 一、 什么是用户画像 用户画像是指根据用户的属性、用户偏好...转载 2018-09-09 15:48:56 · 3116 阅读 · 0 评论 -
矩阵求导
https://www.cnblogs.com/crackpotisback/p/5545708.html矩阵求导好像读书的时候都没学过,因为讲矩阵的课程上不讲求导,讲求导的课又不提矩阵。如果从事机器学习方面的工作,那就一定会遇到矩阵求导的东西。维基百科上:http://en.wikipedia.org/wiki/Matrix_calculus , 根据Y与X的不同类型(实值,向量,矩阵),给...转载 2018-08-24 00:31:47 · 2540 阅读 · 0 评论 -
美团DSP广告策略实践
前言近年来,在线广告在整个广告行业的比重越来越高。在线广告中实时竞价的广告由于其良好的转化效果,占有的比重逐年升高。DSP(Demand-Side Platform)[1]作为需求方平台,通过广告交易平台(AdExchange)[2]对每次曝光进行竞价尝试。对于AdExchange的每次竞价请求,DSP根据Cookie Mapping [3]或者设备信息,尝试把正在浏览媒体网站、App的用户映...转载 2018-08-20 17:45:35 · 1383 阅读 · 0 评论 -
广告引擎策略
2. 智能推荐引擎通过各种训练及机器学习,我们可以在竞价前(离线)对历史的广告请求、广告投放、点击后到站及转化等等大量历史数据,进行训练离线模型。当有广告曝光机会竞价请求,DSP被邀请参与竞价的时候,DSP方的智能推荐引擎根据广告请求的人群标签、浏览器、时间、地域、广告位尺寸等等多维度特征,并结合广告创意的特征,依据离线已事先训练好的,对不同特征效果预测的数据模型,预测该次广告展现可能产生的价...转载 2018-08-20 17:43:42 · 3354 阅读 · 0 评论 -
Log Loss和AUC
logloss和auc的区别:logloss主要是评估是否准确的,auc是用来评估是把正样本排到前面的能力,评估的方面不一样。 对预测的pctr,乘以一个倍数,auc是不变的,因为相互的排序关系没有变,但是logloss会变。...转载 2018-08-17 14:46:10 · 7830 阅读 · 0 评论 -
tensorflow变量初始化
tf.get_variable的初始化调用为:tf.get_variable(name, shape=None, initializer=None, dtype=tf.float32, trainable=True, collections=None)变量初始化的方法tf.constant_initializer(const):常量初始化函数tf.random_normal_init...转载 2018-08-14 14:10:29 · 1322 阅读 · 0 评论 -
【机器学习实战】15. 大数据与MapReduce 占坑,待完成
11原创 2018-04-12 14:08:10 · 188 阅读 · 0 评论 -
【机器学习实战】14. 使用SVD简化数据
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 18/4/16 下午3:01# @Author : cicada@hole# @File : sedRec.py# @Desc : svd singular value decomposition# 矩阵分解的一种类型# @Link ...原创 2018-04-11 16:50:02 · 177 阅读 · 0 评论 -
【机器学习实战】13.使用PCA来简化数据 占坑,待完成
11原创 2018-04-11 16:49:34 · 145 阅读 · 0 评论 -
通俗理解信息熵
转自:https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247483862&idx=1&sn=1b77aee222ccc1a0f39660d9e84bddb2&chksm=ebb43902dcc3b014451a3994bda9e0d42a743ced86bc24626ad4dd9a0ff2acff30de...转载 2018-03-06 17:26:19 · 296 阅读 · 0 评论 -
【西瓜书】——第八章 集成学习
原创 2018-03-13 00:40:34 · 589 阅读 · 0 评论 -
【统计学习方法】——第一章 统计学习方法概论
原创 2018-03-12 01:21:39 · 194 阅读 · 0 评论 -
pyplot.scatter函数介绍
转自:http://blog.youkuaiyun.com/u013634684/article/details/49646311最近开始学习python编程,遇到scatter函数,感觉里面的参数不知道什么意思于是查资料,最后总结如下:1、scatter函数原型2、其中散点的形状参数marker如下:3、其中颜色参数c如下:4、基本的使用方法如下:[python] view plain copy#导入必要的...转载 2018-03-01 16:27:11 · 2021 阅读 · 0 评论 -
ValueError: invalid literal for int() with base 10: 'largeDoses'
《机器学习实战》第二章k近邻算法中遇到的问题原因:datingTestSet.txt中最后一列标签是str,代码利用到的是int所以换成datingTestSet2.txt或者自己在代码中处理一下《机器学习实战》源码及文件下载地址:https://manning-content.s3.amazonaws.com/download/3/29c6e49-7df6-4909-ad1d-18640b3c8...原创 2018-03-01 16:12:47 · 1128 阅读 · 0 评论 -
【DeepLearning】——第三章 概率与信息论
原创 2018-03-14 18:13:04 · 261 阅读 · 0 评论 -
【sklearn】——1. 广义线性模型 Generalized Linear Models
1.线性回归Linear Regression#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 18/2/27 上午11:25# @Author : cicada@hole# @File : lineModel.py# @Desc : 第一节广义线性模型# @Link : http://scikit-l...原创 2018-02-27 15:26:39 · 279 阅读 · 0 评论 -
扇形弧长面积
弧长(弧度制)(角度制)面积(弧度制)(角度制)扇形的面积∝弧长:扇形面积的积分形式:(弧度制)周长扇形的周长由弧长和两个半径组成:(弧度制)弦长:(弧度制)...原创 2018-02-11 11:26:37 · 951 阅读 · 0 评论 -
三角函数公式及python画三角函数
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 18/2/11 上午11:34# @Site : # @File : pic.py# @Software: PyCharmimport numpy as npimport matplotlib.pyplot as pltx = np.linspace(...原创 2018-02-11 11:40:09 · 12291 阅读 · 0 评论