
人工智能
文章平均质量分 95
linxid
现阿里巴巴算法工程师,原华为诺亚方舟实验室高级算法工程师,专注人工智能算法研究
展开
-
《推荐系统实践-项亮》读书笔记
文章目录第一章 好的推荐系统1.1 什么是推荐系统:1.2 个性化推荐系统的应用:第二章 利用用户行为数据2.1 用户行为数据简介:2.2 用户行为分析:2.3 实验设计和算法评测2.4 基于邻域的算法:基于用户的协同过滤算法:基于物品的协同过滤算法-ItemCF:UserCF VS ItemCF:2.5 隐语义模型(LFM):2.6 基于图的模型:第三章 推荐系统冷启动问题3.1冷启动简介:3....原创 2020-03-02 14:39:28 · 1393 阅读 · 0 评论 -
情感分析:几乎包括你需要知道的所有(二)
情感分析是从书面或口头语言中,对特定主题,理解观点的自动过程。在世界上,我们每天生成2.5QB字节的数据,情感分析已成为理解这些数据的关键工具。 这使得公司能够获得关键的见解,并自动化各种流程。但是,它是如何实现的呢?有哪些不同的方法? 它需要注意什么,限制是什么? 你如何在业务中使用情感分析?接下来,您将找到这些问题的答案,以及您需要了解的,关于情感分析的所有内容。 无论你是经验丰富的...翻译 2018-10-28 21:35:24 · 26574 阅读 · 3 评论 -
keras学习笔记(二):实现f1_score(多分类、二分类)
首先容易谷歌到的两种方法:1. 构造metricsfrom keras import backend as Kdef f1(y_true, y_pred): def recall(y_true, y_pred): """Recall metric. Only computes a batch-wise average of recall.原创 2018-09-27 08:59:14 · 23291 阅读 · 13 评论 -
AiChallenger比赛记录之样本不均衡
如何处理样本不均衡1.1 选择合适的评价指标:不要采用准确率(Accuracy);主流评估方法包括:ROC,Precision-Recall curve,F1;1.2若样本极度不均衡,可作为异常检测问题处理;数据挖掘中常见的『异常检测』算法有哪些?1.3 欠采样/过采样:一般操作就是,对于样本比较多的类别进行欠采样,对样本比较少的类别进行过采样。但是对于多分类问题,会比较麻烦,而...原创 2018-11-07 11:25:17 · 1844 阅读 · 0 评论 -
AI环境配置(二):安装TensorFlow、Keras、Pytorch-GPU最新版
1. TensorFlow-GPU版配置1.1 安装环境与版本:系统:Ubuntu 16.04TensorFlow版本:1.12 GPU版CUDA版本:9.0cuDNN版本:7.3Anaconda版本:4.5.4(没更新,问题不大)1.2参考资料:[1] https://www.jianshu.com/p/2df89a75fabd[2] https://blog.csdn....原创 2018-11-11 17:17:44 · 8733 阅读 · 0 评论 -
CNN、Capsule详解
参考资料:[1] 从传统神经网络的角度解读Geoffrey Hinton的Capsule模型[2] Dynamic Routing Between Capsules[3] 终于,Geoffrey Hinton那篇备受关注的Capsule论文公开了[4] 看完这篇,别说你还不懂Hinton大神的胶囊网络[5] 吴恩达deeplearning之CNN—卷积神经网络入门[6] 斯坦福CS23...原创 2018-11-18 20:56:55 · 1183 阅读 · 0 评论 -
keras学习笔记(三):模型复现
由于模型在构造的时候会引入大量的随机参数,所以神经网络有个非常重要的一个问题就是模型无法复现。在模型的训练过程中,我们需要保证特定模型的性能是不变的。以确定性能的变化是来自模型还是数据集的变化,或者仅仅是一些新的随机样本点带来的结果。下面的代码片段解决模型复现的问题,针对 Python 3 环境,以TensorFlow作为keras的后端。import numpy as npimport te...原创 2019-01-01 16:25:15 · 3692 阅读 · 0 评论 -
NLP预训练模型-Transformer:从原理到实战
[1]AllenNLP 使用教程[[2]]原创 2019-01-18 08:47:54 · 7343 阅读 · 5 评论 -
Keras学习笔记(四):MaxPooling1D和GlobalMaxPooling1D的区别
区别:1.GlobalMaxPooling1D:在steps维度(也就是第二维)对整个数据求最大值。比如说输入数据维度是[10, 4, 10],那么进过全局池化后,输出数据的维度则变成[10, 10]。2.MaxPooling1D:也是在steps维度(也就是第二维)求最大值。但是限制每一步的池化的大小。 比如,输入数据维度是[10, 4, 10],池化层大小pooling_size=...原创 2019-01-13 17:29:49 · 43607 阅读 · 6 评论 -
keras学习笔记(五):TimeDistributed详解+实战
本文是对[2]的翻译和整理,对简单的部分进行了删减,难懂的部分进行了又一次的讲解。RNN、LSTM、GRU模型是我们常用并且效果非常好的模型,在众多的NLP任务中都可以看到他的身影。但有一层TimeDistributed,使用起来有些难度,尤其对初学者而言。接下来,说明TimeDistributed包装器的原理以及如何使用。内容概览:TimeDistributed层序列学习Problem...原创 2019-01-14 08:58:05 · 9533 阅读 · 9 评论 -
paper list
2019年1月:原创 2019-02-01 15:40:50 · 1388 阅读 · 0 评论 -
keras学习笔记(六):实现CLR和Focal Loss
参考资料:[1] Focal Loss for Dense Object Detection[2] focal-loss-keras[3] Cyclical Learning Rate (CLR)原创 2019-01-22 19:45:56 · 2208 阅读 · 1 评论 -
Kaggle-Quora Insincere Questions Classification-Solution
Quora Insincere Questions Classification寒假期间参加了Kaggle的一个比赛-QIQC,作为第一个认真参加的Kaggle比赛,最后这个结果实属幸运,感谢啸宇哥和 W^2e的帮助,现在简单记录下比赛中学到的东西。1. 数据预处理数据预处理是这类任务非常重要的一个环节。由于数据是直接爬取,所以数据是非常脏的,首先就要进行数据预处理。数据预处理的另一个作用就...原创 2019-02-15 20:05:19 · 1686 阅读 · 0 评论 -
声音(音乐)分类综述
[1] 手把手教你打造一个曲风分类机器人[2] 怎样用深度学习发现一首歌属于哪个流派?[3] Finding the genre of a song with Deep Learning — A.I. Odyssey part. 1[4] 私人定制——使用深度学习Keras和TensorFlow打造一款音乐推荐系统[5] Building a Music Recommender with ...原创 2019-02-21 17:19:18 · 13000 阅读 · 1 评论 -
词向量之word2vec及Tensorflow实现
Word2Vec已经几乎成为NLP任务中,肯定会用到的模型,当然现在我们有了更新的Elmo和Bert,但是Word2Vec作为基本的词向量,仍然需要弄明白。1. 词的Onehot表示:当我们处理文本的时候,我们首先需要将这些文本进行表示,以前大家常用的就是onehot编码。首先对整个文档建立一个字典,每个字/词和索引一一对应。对于文档中的一句话,比如,“可爱的你喜欢吃面包。”。我们就可以根据词...原创 2019-03-13 22:53:24 · 1559 阅读 · 0 评论 -
Andrew Ng-深度学习-第二门课-week2(优化算法)
从GD出发梳理优化算法的演变和各个优化算法的优缺点。1.梯度下降:1.1 批量梯度下降()参考资料:1. 梯度下降优化算法综述-中文版2. An overview of gradient descent optimization algorithms3. 第二周:优化算法 (Optimization algorithms)Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框...原创 2019-08-21 08:37:48 · 277 阅读 · 0 评论 -
Andrew Ng-深度学习-第二门课-week3(归一化)
1. 调参流程:参数重要性:学习率α\alphaα > (hidden units/batch_size) > 学习率衰减因子/网络层数 > β1(0.9),β2(0.999),ϵ(10−8)\beta_1(0.9), \beta_2(0.999),\epsilon(10^{-8})β1(0.9),β2(0.999),ϵ(10−8)随机调参要比网格调参效果更好。合理选...原创 2019-08-21 22:32:16 · 439 阅读 · 0 评论 -
A Sensitivity Analysis of Convolutional Neural Networks for Sentence:论文解读
针对文本分类问题,作者在这篇论文里,详细讲解了如何对神经网络进行调参。论文主要内容如下。1.论文背景CNN已经广泛应用于文本分类任务中,但是训练模型需要精通模型结构,以及如何进行调参,包括filer的大小,正则化参数等等。而且模型的性能对参数非常敏感。这篇论文主要研究的是,单层神经网络调参。因为对于很多问题,单层CNN已经足够应对。作者最后给出了关于调参的实际建议。2. Baseline模型...原创 2018-09-29 21:39:25 · 1383 阅读 · 0 评论 -
自动化机器学习(AutoML)之自动贝叶斯调参
一、手把手教你Python实现自动贝叶斯调整超参数【导读】机器学习中,调参是一项繁琐但至关重要的任务,因为它很大程度上影响了算法的性能。手动调参十分耗时,网格和随机搜索不需要人力,但需要很长的运行时间。因此,诞生了许多自动调整超参数的方法。贝叶斯优化是一种用模型找到函数最小值方法,已经应用于机器学习问题中的超参数搜索,这种方法性能好,同时比随机搜索省时。此外,现在有许多Python库可以实现贝...翻译 2018-07-24 17:38:58 · 28618 阅读 · 3 评论 -
情感分析:几乎包括你需要知道的所有(一)
1.情感分析教程:有一份几乎为所有人准备的情感分析教程,包括程序员,非程序员,营销人员,数据分析师,代理人,销售人员等等。 在本节中,我们将分享各种各样的教程,以便您可以找到适合自己的情绪分析。1.1 为程序员准备的情感分析教程:对于那些对代码和API很熟悉的人,您可以快速找到各种分步指南和资源。 Python是关于数据分析,机器学习和NLP(包括情感分析)教程的最常用编程语言,但...翻译 2018-09-14 22:19:13 · 29269 阅读 · 19 评论 -
北大AI公开课 第一讲
人工智能的发展挑战第一部分:AI对人类的影响有多大重大事件回顾:Alpha Go以4:1战胜李世石,Master60局不败,CMU德州扑克大赛,大获全胜。两类比赛的不同:围棋属于完全信息的博弈,德州扑克属于非完全信息的博弈。 自然图像分类项目,李飞飞教授的ImageNet。计算机对图像的分类准确度实现从75%到96%的跨越,人类为95%。人脸识别的进步,13年非原创 2017-05-19 09:27:25 · 2032 阅读 · 0 评论 -
北大AI公开课 第三讲 人工智能驱动的金融生活服务
本次主讲:漆远,蚂蚁金服VP,首席科学家以杭州为例,分析AI所带来的变化智能城市生活服务:电影买票,订机票泰国旅游,购买地铁票,免押金入住酒店。所有的便利化都是依托于场景,所以AI离不开场景。人们在享受各种服务的同时,产生了海量的数据,通过这些数据,对人进行多维度刻画,对社会更好的理解,产生更有价值的服务。 AI的垂直应用场景(领域): 金融生活的技术元素:原创 2017-06-17 18:23:02 · 1028 阅读 · 0 评论 -
北大AI公开课 第四讲:吴甘沙 无智能不驾驶
主讲人:吴甘沙 驭势科技创始人&CEO,智能驾驶,有多少个AI可以重来。为什么要做智能驾驶:(经得起数次考验的问题值得去做) 城市中存在的一系列问题:交通事故,堵车,违规驾驶等问题。 三数据:停车难,96%的时间是停车的;35%的航程来找停车位;15%的土地是停车位。 存在的这些问题,导致了中国上下班浪费时间严重。限行等各种解决方案不能从根本上解决问原创 2017-06-17 18:26:49 · 663 阅读 · 0 评论 -
Kaggle竞赛-Titanic泰坦尼克
——————————————————————————————————-在博主的原有基础上修改了部分错误,Jupyter Notebook实现。 代码链接:http://download.youkuaiyun.com/download/linxid/10230873——————————————————————————————-转载:http://blog.youkuaiyun.com/han_xiaoyang转载 2018-01-30 10:07:17 · 1460 阅读 · 0 评论 -
10分钟入门pandas(二)
第一部分:http://blog.youkuaiyun.com/linxid/article/details/79249874 接上次介绍的内容,继续介绍pandas入门。1. 合并1.1 concatpandas提供各种方便的工具,以便方便的将Series、Dataframe、Panel对象和各种集合,根据索引和相关的代数合并在一起,通过merge或join类型操作符。 列索引相同,...原创 2018-02-08 21:35:44 · 556 阅读 · 0 评论 -
10分钟入门pandas(一)
知乎专栏:https://zhuanlan.zhihu.com/p/33576513pandas库,是一个很重要的python库,这里对pandas进行简短的介绍,主要用于入门。对于详细内容,还是查看详细的文档。 参考网址:http://pandas.pydata.org/pandas-docs/stable/10min.html#此引用库,为默认情况import pandas a原创 2018-02-03 22:03:28 · 849 阅读 · 0 评论 -
《机器学习实战》—— KNN(K近邻算法)
《机器学习实战》可以说是学习ML的必备书籍,连载本书中的重点算法。重点在算法和思想,避免涉及数学和理论推导。 由于现在已经有现成的库,不管是Sklearn还是keras,所以算法基本不需要我们自己去写,调用库就可以,但是必须要知道如何要去调参,也就是每个算法涉及到的参数,如何调整,能效果更好。1.基本概念:k近邻作为监督学习的入门算法,是数据分析不可缺少的一部分。 适用情况:对于一...原创 2018-02-06 16:18:56 · 1279 阅读 · 0 评论 -
TensorFlow零基础入门教程(一)
TensorFlow入门(一) Github主页:https://linxid.github.io/ 知乎:https://www.zhihu.com/people/dong-wen-hui-90/activities 优快云:https://blog.youkuaiyun.com/linxid1.计算图首先解释什么是计算图,了解TensorFlow的计算模型.和我们常见的程序...原创 2018-04-17 13:01:10 · 9624 阅读 · 3 评论 -
从头到尾理解树模型(二):GBDT
看上图,首先对集成学习有一个宏观的认识。三种基本的集成方法:Bagging、Boosting和Stacking。分别产生了Random Forest(随机森林),AdaBoost和GBDT。1. 集成学习(Ensemble Learning)集成学习是指将多个基学习器(弱学习器)结合来完成学习任务。通过模型集成,一般会获得比单个基学习器更好的效果。集成学习的原则是 “好而不同”。根据...原创 2018-04-30 08:37:14 · 1699 阅读 · 0 评论 -
从头到尾理解树模型(三):XGBoost及面试常见问题
Github主页:https://linxid.github.io/知乎:https://zhuanlan.zhihu.com/p/35775368优快云:https://blog.youkuaiyun.com/linxid/article/details/79973258XGBoost在GBDT的基础上进行了改进,效果得到了明显的提升。一大不同是显式的引入了正则化项,用来约束决策树的复...原创 2018-04-30 08:52:34 · 3162 阅读 · 0 评论 -
TensorFlow零基础入门教程(二)之谷歌官方教程
内容转自谷歌机器学习速成课程其实内容有一定难度,不适合入门资料,同样的内容可以讲的很简单,需要一定的知识储备。使用 TensorFlow 的基本步骤学习目标:学习基本的 TensorFlow 概念在 TensorFlow 中使用 LinearRegressor 类并基于单个输入特征预测各城市街区的房屋价值中位数使用均方根误差 (RMSE) 评估模型预测的准确率通过调整模型的超参数提...翻译 2018-05-08 20:29:09 · 1978 阅读 · 0 评论 -
从结构到性能,一文概述XGBoost、Light GBM和CatBoost的同与不同
尽管近年来神经网络复兴并大为流行,但是 boosting 算法在训练样本量有限、所需训练时间较短、 缺乏调参知识等场景依然有其不可或缺的优势。本文从算法结构差异、每个算法的分类变量时的处理、 算法在数据集上的实现等多个方面对 3 种代表性的 boosting 算法 CatBoost、Light GBM 和 XGBoost 进行了对比;虽然本文结论依据于特定的数据集,但通常...翻译 2018-06-17 15:26:40 · 5633 阅读 · 2 评论 -
推荐系统-资源整理
一、综合性文章1.推荐算法不够精准?让知识图谱来解决 2.一文读懂推荐系统知识体系(附学习资料) 3.计算广告中常用模型的相关资料整理 4.常见计算广告点击率(CTR)预估算法总结 5.互联网广告综述之点击率特征工程二、计算广告CTR预估系列:计算广告CTR预估系列(一)–DeepFM理论 计算广告CTR预估系列(二)–DeepFM实践 计算广告CTR预估系列(三)–F...原创 2018-06-25 11:23:14 · 1165 阅读 · 1 评论 -
CatBoost参数解释和实战
据开发者所说超越Lightgbm和XGBoost的又一个神器,不过具体性能,还要看在比赛中的表现了。 整理一下里面简单的教程和参数介绍,很多参数不是那种重要,只解释部分重要的参数,训练时需要重点考虑的。Quick startCatBoostClassifierimport numpy as npimport catboost as cbtrain_data = ...原创 2018-06-18 13:41:03 · 55223 阅读 · 8 评论 -
TensorFlow零基础入门教程(三)——图像处理
图像作为一个像素矩阵,TensorFlow提供了多个函数用于图像处理。TensorFlow的图像处理部分和OpenCV不同,主要服务于深度学习。比如图像的旋转不变性等等。在功能上肯定不如OpenCV丰富。1、图像编码处理虽然图片就是一个三维矩阵,但是所有的图片存储时都会被压缩,也就是编码和解码的过程。所以我们从一张图像得到三维矩阵,首先需要解码。import matplotli...原创 2018-06-10 21:39:16 · 2555 阅读 · 1 评论 -
keras学习笔记(一):30分钟掌握keras
Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择Keras:简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性)支持CNN和RNN,或二者的结合无缝CPU和GPU切换。我们从三个问题出发,实现keras的快速入门...原创 2018-08-28 22:15:09 · 3943 阅读 · 0 评论 -
AI Challenger 细粒度用户评论情感分析 (baseline 0.62)
比赛官网:https://challenger.ai/competition/fsauor2018关于情感分析的详细介绍,请参阅我的前一篇文章:https://zhuanlan.zhihu.com/p/44580856先给大家提供一个baseline,线上大概0.62,还可以继续调参。多跑几次,简单融合可以继续提分。代码很简单,使用GPU运行快,修改文件路径既可很快复现。1.运行环境:系...原创 2018-09-18 21:42:24 · 16789 阅读 · 70 评论 -
北大AI公开课 第二讲 嵌入式人工智能
本次主讲:余凯,地平线创始人兼CEO。 Conmputing Science的转变:从过去讲computing到现在关注data science。 三要素推动发展该行业的发展:big data;big model;big computing。所有计算开始从pc到移动设备的聚合趋势,聚合到云计算、数据中心。 提出个人对产业向前发展的思考,嵌入式人工原创 2017-05-24 10:14:09 · 3938 阅读 · 0 评论