
机器学习
文章平均质量分 96
linxid
现阿里巴巴算法工程师,原华为诺亚方舟实验室高级算法工程师,专注人工智能算法研究
展开
-
推荐系统面试100问(一)-Wide&Deep
1. FM定义:考虑了两个互异的特征向量之间的相互关系;y^=w0+∑i=1nwixi+∑i=1n−1∑i=i+1nwi,jxixj\hat{y}= w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+\sum_{i=1}^{n-1} \sum_{i=i+1}^{n} w_{i, j} x_{i} x_{j}y^=w0+i=1∑nwixi+i=1∑n−1i=i+1...原创 2020-03-24 11:38:35 · 3886 阅读 · 1 评论 -
《推荐系统实践-项亮》读书笔记
文章目录第一章 好的推荐系统1.1 什么是推荐系统:1.2 个性化推荐系统的应用:第二章 利用用户行为数据2.1 用户行为数据简介:2.2 用户行为分析:2.3 实验设计和算法评测2.4 基于邻域的算法:基于用户的协同过滤算法:基于物品的协同过滤算法-ItemCF:UserCF VS ItemCF:2.5 隐语义模型(LFM):2.6 基于图的模型:第三章 推荐系统冷启动问题3.1冷启动简介:3....原创 2020-03-02 14:39:28 · 1393 阅读 · 0 评论 -
可解释性机器学习:从入门到实战
机器学习的巨大成功导致AI应用的爆炸式增长。 研究人员已经将AI用于了各种任务。 不断持续的进步有望产生一个自主系统,它能够感知,学习,做出决策和采取独立行动。 但是,这些系统如果无法向人类解释为何作出这样的决策,那么它们的有效性将会受到限制。如果用户要理解,信任和有效管理新兴的人工智能”合作伙伴“,那么可解释的AI将至关重要。原创 2019-12-18 19:28:23 · 12624 阅读 · 2 评论 -
keras学习笔记(二):实现f1_score(多分类、二分类)
首先容易谷歌到的两种方法:1. 构造metricsfrom keras import backend as Kdef f1(y_true, y_pred): def recall(y_true, y_pred): """Recall metric. Only computes a batch-wise average of recall.原创 2018-09-27 08:59:14 · 23291 阅读 · 13 评论 -
A Sensitivity Analysis of Convolutional Neural Networks for Sentence:论文解读
针对文本分类问题,作者在这篇论文里,详细讲解了如何对神经网络进行调参。论文主要内容如下。1.论文背景CNN已经广泛应用于文本分类任务中,但是训练模型需要精通模型结构,以及如何进行调参,包括filer的大小,正则化参数等等。而且模型的性能对参数非常敏感。这篇论文主要研究的是,单层神经网络调参。因为对于很多问题,单层CNN已经足够应对。作者最后给出了关于调参的实际建议。2. Baseline模型...原创 2018-09-29 21:39:25 · 1383 阅读 · 0 评论 -
情感分析:几乎包括你需要知道的所有(二)
情感分析是从书面或口头语言中,对特定主题,理解观点的自动过程。在世界上,我们每天生成2.5QB字节的数据,情感分析已成为理解这些数据的关键工具。 这使得公司能够获得关键的见解,并自动化各种流程。但是,它是如何实现的呢?有哪些不同的方法? 它需要注意什么,限制是什么? 你如何在业务中使用情感分析?接下来,您将找到这些问题的答案,以及您需要了解的,关于情感分析的所有内容。 无论你是经验丰富的...翻译 2018-10-28 21:35:24 · 26574 阅读 · 3 评论 -
AiChallenger比赛记录之样本不均衡
如何处理样本不均衡1.1 选择合适的评价指标:不要采用准确率(Accuracy);主流评估方法包括:ROC,Precision-Recall curve,F1;1.2若样本极度不均衡,可作为异常检测问题处理;数据挖掘中常见的『异常检测』算法有哪些?1.3 欠采样/过采样:一般操作就是,对于样本比较多的类别进行欠采样,对样本比较少的类别进行过采样。但是对于多分类问题,会比较麻烦,而...原创 2018-11-07 11:25:17 · 1844 阅读 · 0 评论 -
SVD+PCA+LDA+LSA/LSI+NMF
参考资料:[1] 一文详解LDA主题模型[2] LDA(Latent Dirichlet Allocation)主题模型[3] LDA-math-汇总 LDA数学八卦原创 2019-04-15 08:36:49 · 1211 阅读 · 0 评论 -
Andrew Ng-深度学习-第二门课-week2(优化算法)
从GD出发梳理优化算法的演变和各个优化算法的优缺点。1.梯度下降:1.1 批量梯度下降()参考资料:1. 梯度下降优化算法综述-中文版2. An overview of gradient descent optimization algorithms3. 第二周:优化算法 (Optimization algorithms)Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框...原创 2019-08-21 08:37:48 · 277 阅读 · 0 评论 -
Andrew Ng-深度学习-第二门课-week3(归一化)
1. 调参流程:参数重要性:学习率α\alphaα > (hidden units/batch_size) > 学习率衰减因子/网络层数 > β1(0.9),β2(0.999),ϵ(10−8)\beta_1(0.9), \beta_2(0.999),\epsilon(10^{-8})β1(0.9),β2(0.999),ϵ(10−8)随机调参要比网格调参效果更好。合理选...原创 2019-08-21 22:32:16 · 439 阅读 · 0 评论 -
KDD-cup 2019比赛总结
1.赛题介绍:比赛要求参与者使用从百度地图收集的历史用户行为数据和一组用户属性数据来推荐合适的交通方式。查询记录:查询记录代表百度地图上用户的一条路线搜索。每个查询记录都由会话ID、配置文件ID、时间戳、原始点的坐标、目的地的坐标组成。例如,[387056,234590,“2018-11-01 15:15:36”,(116.30,40.05),(116.35,39.99)]表示用户在2018...原创 2019-11-04 20:11:35 · 4345 阅读 · 5 评论 -
常用损失函数和评价指标总结
1. 损失函数:2.评价指标:2.1 回归问题:1. MSE: 均方误差(Mean Square Error),范围 [0,+∞)[0,+∞)[0,+∞)MSE=1n∑i=1n(y^i−yi)2M S E=\frac{1}{n} \sum_{i=1}^{n}\left(\hat{y}_{i}-y_{i}\right)^{2}MSE=n1i=1∑n(y^i−yi)22. RM...原创 2019-09-24 22:21:56 · 11436 阅读 · 1 评论 -
AI Challenger 细粒度用户评论情感分析 (baseline 0.62)
比赛官网:https://challenger.ai/competition/fsauor2018关于情感分析的详细介绍,请参阅我的前一篇文章:https://zhuanlan.zhihu.com/p/44580856先给大家提供一个baseline,线上大概0.62,还可以继续调参。多跑几次,简单融合可以继续提分。代码很简单,使用GPU运行快,修改文件路径既可很快复现。1.运行环境:系...原创 2018-09-18 21:42:24 · 16789 阅读 · 70 评论 -
keras学习笔记(一):30分钟掌握keras
Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择Keras:简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性)支持CNN和RNN,或二者的结合无缝CPU和GPU切换。我们从三个问题出发,实现keras的快速入门...原创 2018-08-28 22:15:09 · 3943 阅读 · 0 评论 -
《机器学习实战》—— KNN(K近邻算法)
《机器学习实战》可以说是学习ML的必备书籍,连载本书中的重点算法。重点在算法和思想,避免涉及数学和理论推导。 由于现在已经有现成的库,不管是Sklearn还是keras,所以算法基本不需要我们自己去写,调用库就可以,但是必须要知道如何要去调参,也就是每个算法涉及到的参数,如何调整,能效果更好。1.基本概念:k近邻作为监督学习的入门算法,是数据分析不可缺少的一部分。 适用情况:对于一...原创 2018-02-06 16:18:56 · 1279 阅读 · 0 评论 -
TensorFlow零基础入门教程(一)
TensorFlow入门(一) Github主页:https://linxid.github.io/ 知乎:https://www.zhihu.com/people/dong-wen-hui-90/activities 优快云:https://blog.youkuaiyun.com/linxid1.计算图首先解释什么是计算图,了解TensorFlow的计算模型.和我们常见的程序...原创 2018-04-17 13:01:10 · 9624 阅读 · 3 评论 -
从头到尾理解树模型(二):GBDT
看上图,首先对集成学习有一个宏观的认识。三种基本的集成方法:Bagging、Boosting和Stacking。分别产生了Random Forest(随机森林),AdaBoost和GBDT。1. 集成学习(Ensemble Learning)集成学习是指将多个基学习器(弱学习器)结合来完成学习任务。通过模型集成,一般会获得比单个基学习器更好的效果。集成学习的原则是 “好而不同”。根据...原创 2018-04-30 08:37:14 · 1699 阅读 · 0 评论 -
从头到尾理解树模型(三):XGBoost及面试常见问题
Github主页:https://linxid.github.io/知乎:https://zhuanlan.zhihu.com/p/35775368优快云:https://blog.youkuaiyun.com/linxid/article/details/79973258XGBoost在GBDT的基础上进行了改进,效果得到了明显的提升。一大不同是显式的引入了正则化项,用来约束决策树的复...原创 2018-04-30 08:52:34 · 3162 阅读 · 0 评论 -
TensorFlow零基础入门教程(二)之谷歌官方教程
内容转自谷歌机器学习速成课程其实内容有一定难度,不适合入门资料,同样的内容可以讲的很简单,需要一定的知识储备。使用 TensorFlow 的基本步骤学习目标:学习基本的 TensorFlow 概念在 TensorFlow 中使用 LinearRegressor 类并基于单个输入特征预测各城市街区的房屋价值中位数使用均方根误差 (RMSE) 评估模型预测的准确率通过调整模型的超参数提...翻译 2018-05-08 20:29:09 · 1978 阅读 · 0 评论 -
xlearn安装与实战
一、Introduction机器学习中的又一个利器,广泛用于Kaggle或类似的数据比赛。 xlearn的优势:1.通用性好,包括主流的算法(lr, fm, ffm 等),用户不用再切换于不同软件之间2.性能好,测试 xLearn 可以比 libfm 快13倍,比 libffm 和 liblinear 快5倍3.易用性和灵活性,xLearn 提供简单的 python 接口...原创 2018-05-20 15:21:20 · 12540 阅读 · 14 评论 -
XGBoost、LightGBM参数讲解及实战
XGBoost一、API详解xgboost.XGBClassifier1.1 参数1.1.1 通用参数:booster=’gbtree’ 使用的提升数的种类 gbtree, gblinear or dartsilent=True: 训练过程中是否打印日志n_jobs=1: 并行运行的多线程数1.1.2 提升树参数learning_rat...原创 2018-06-23 17:09:13 · 17619 阅读 · 0 评论 -
从结构到性能,一文概述XGBoost、Light GBM和CatBoost的同与不同
尽管近年来神经网络复兴并大为流行,但是 boosting 算法在训练样本量有限、所需训练时间较短、 缺乏调参知识等场景依然有其不可或缺的优势。本文从算法结构差异、每个算法的分类变量时的处理、 算法在数据集上的实现等多个方面对 3 种代表性的 boosting 算法 CatBoost、Light GBM 和 XGBoost 进行了对比;虽然本文结论依据于特定的数据集,但通常...翻译 2018-06-17 15:26:40 · 5633 阅读 · 2 评论 -
推荐系统-资源整理
一、综合性文章1.推荐算法不够精准?让知识图谱来解决 2.一文读懂推荐系统知识体系(附学习资料) 3.计算广告中常用模型的相关资料整理 4.常见计算广告点击率(CTR)预估算法总结 5.互联网广告综述之点击率特征工程二、计算广告CTR预估系列:计算广告CTR预估系列(一)–DeepFM理论 计算广告CTR预估系列(二)–DeepFM实践 计算广告CTR预估系列(三)–F...原创 2018-06-25 11:23:14 · 1165 阅读 · 1 评论 -
CatBoost参数解释和实战
据开发者所说超越Lightgbm和XGBoost的又一个神器,不过具体性能,还要看在比赛中的表现了。 整理一下里面简单的教程和参数介绍,很多参数不是那种重要,只解释部分重要的参数,训练时需要重点考虑的。Quick startCatBoostClassifierimport numpy as npimport catboost as cbtrain_data = ...原创 2018-06-18 13:41:03 · 55223 阅读 · 8 评论 -
自动化机器学习(AutoML)之自动贝叶斯调参
一、手把手教你Python实现自动贝叶斯调整超参数【导读】机器学习中,调参是一项繁琐但至关重要的任务,因为它很大程度上影响了算法的性能。手动调参十分耗时,网格和随机搜索不需要人力,但需要很长的运行时间。因此,诞生了许多自动调整超参数的方法。贝叶斯优化是一种用模型找到函数最小值方法,已经应用于机器学习问题中的超参数搜索,这种方法性能好,同时比随机搜索省时。此外,现在有许多Python库可以实现贝...翻译 2018-07-24 17:38:58 · 28618 阅读 · 3 评论 -
从头到尾理解树模型(一):决策树
Github主页:https://linxid.github.io/ 知乎:https://zhuanlan.zhihu.com/p/35775368 优快云:https://blog.youkuaiyun.com/linxid/article/details/79973258XGBoost和LightGBM已经成为Kaggle,天池等比赛和数据研究,必用的算法。这篇文章,从决策树出发,一步...原创 2018-02-27 21:46:32 · 1527 阅读 · 1 评论