
机器学习
文章平均质量分 81
lrhaowx
腾讯数据分析师,有过数据挖掘竞赛冠亚季军,与大家分享自己的学习经验&机器学习&深度学习&数据竞赛等干货
展开
-
小贝万文长字带你详谈Transformer
transformerGoogle 在 2017 年提出了基于注意力机制的网络结构 Transformer,进一步在机器翻译效果上取得显著提升。Transformer 结构的核心创新点在于提出了多头自注意力机制(multi-head self-attention),一方面通过自注意力将句中相隔任意长度的词距离缩减为常量,另一方面通过多头结构捕捉到不同子空间的语义信息,因此可以更好地完成对长难句的编码和解码。由于 Transformer 完全基于前馈神经网络,缺少了像卷积神经网络和循...原创 2021-03-28 22:12:57 · 536 阅读 · 0 评论 -
【小贝出品】定制你的对话机器人 - 基于RASA搭建
【小贝出品】定制你的对话机器人 - 基于RASA搭建源代码 Hands on Setting Up Develop EnvironmentOpen Custom Connector MoreConcept 工程上的处理 Tracker Store Event Broker Model Storage Chitchat and FAQs Asignment 自己的机器人,并且使用active serve去实现对话机器人天气查询功能 RASA W...原创 2021-03-21 20:44:03 · 2114 阅读 · 0 评论 -
强化学习教程(四):从PDG到DDPG的原理及tf代码实现详解
强化学习教程(四):从PDG到DDPG的原理及tf代码实现详解原创 lrhao 公众号:ChallengeHub收录于话题#强化学习教程前言在前面强化学习教程(三)中介绍了基于策略「PG」算法,相比较DQN算法,PG是一种学习连续行为控制策略的方法,通过概率分布分布函数π,来表示每一步的最优策略,在每一步根据该概率分布进行action采样,获取当前最佳的action取值,即:生成action的过程,本质是一个随机过程,最后学习到的策略,也是一个随机策略(stochastic polic)。原创 2021-03-14 11:47:01 · 1362 阅读 · 0 评论 -
“梧桐杯”中国移动大数据应用创新大赛-智慧城市赛道baseline0.827(纯代码+详细注释)
“梧桐杯”中国移动大数据应用创新大赛-智慧城市赛道baseline0.827(纯代码+详细注释)公众号:ChallengeHub原创枵央01 前言感谢作者「枵央」开源,为国内的开源精神点赞,本次赛题开源的特征较少,采用xgb、rf模型融合,具体开源内容见开源方案(附有详细代码注释)。02 赛题链接https://js.dclab.run/v2/cmptDetail.html?id=46403 竞赛奖项 复赛: 所有获奖选手颁发证书与奖...原创 2021-03-07 13:31:04 · 2198 阅读 · 3 评论 -
浅谈Single-Pass算法
浅谈Single-Pass算法原创 致Great ,公众号: ChallengeHubSingle-Pass算法又称单通道法或单遍法,是流式数据聚类的经典方法。对于依次到达的数据流,该方法按输入顺序每次处理一个数据,依据当前数据与已有类的匹配度大小,将该数据判为已有类或者创建一个新的数据类,实现流式数据的增量和动态聚类,适合对流数据进行挖掘,而且算法的时间效率高;不足之处主要表现在该方法具有输入次序依赖特性,即对于同一聚类对象按不同的次序输入,会出现不同的聚类结果。01. Single-Pass算法基原创 2021-02-28 10:50:58 · 4168 阅读 · 0 评论 -
浅谈K-Fold Target Encoding
浅谈K-Fold Target Encoding原创 致Great ,公众号: ChallengeHub1.Target Encoding概念单热编码,标签编码,频率编码,目标编码等是非常常见的技巧,通常在特征工程中使用以提高模型在数据集预测的准确性。不同的特征工程技巧可以从不同角度来丰富特征。当数据中,某些分类变量的不数量不是很多时,独热编码(One Hot encoder)或伪编码(Dummy Encoder)是一种不错的方法。但是,当要数据中分类变量的数量增加时,它可能会失效,因为这种编码方原创 2021-02-27 22:50:38 · 3352 阅读 · 3 评论 -
DeepTables表格数据的深度学习工具包
表格数据深度学习框架-DeepTables原创 致Great 公众号: ChallengeHub官方链接:https://github.com/DataCanvasIO/DeepTables简介MLP(也称为全连接神经网络)已被证明在学习分布表示方面效率低下。事实证明,感知器层的“Add”操作在探索乘法特征交互时性能较差。在大多数情况下,必须进行手动特征工程,并且这项工作需要广泛的领域知识并且非常繁琐。如何在神经网络中有效地学习功能交互成为最重要的问题。目前为止,业界已经提出了各种模型来进行CT原创 2021-02-27 22:42:14 · 757 阅读 · 0 评论 -
【干货】pandas相关工具包
【干货】pandas相关工具包原创 致Great ,公众号:ChallengeHub1 Pandas 介绍Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据(panel dat原创 2021-02-27 22:32:04 · 717 阅读 · 0 评论 -
【数据挖掘算法竞赛】山东省-公积金贷款逾期预测TOP8 baseline523
【数据挖掘算法竞赛】山东山东省-公积金贷款逾期预测TOP8 baseline523原创 lrhao ,公众号: ChallengeHub赛题链接http://data.sd.gov.cn/cmpt/cmptDetail.html?id=26赛题背景维持和发展信用关系,是保护社会经济秩序的重要前提。随着金融市场的发展,信贷业务日益增多,金融机构迫切需要了解信贷主体的信息情况,对信贷资产的安全性、信贷主体的偿债能力给与科学评价,最大限度地防范贷款逾期风险。赛题数据评价指标本次比赛成绩排名根据测原创 2021-02-27 22:02:03 · 1321 阅读 · 0 评论 -
目标编码的技巧-Soothing 和 Hierarchical Bayesian
目标编码的技巧-Soothing 和 Hierarchical Bayesian**原创 致Great 公众号:ChallengeHub **本文简单介绍两种目标编码方式,大家有兴趣的可以参考原文链接进行理解与尝试使用,祝大家取得好成绩~Target encoding with smoothingdef add_noise(series, noise_level): return series * (1 + noise_level * np.random.randn(len(series)原创 2021-02-27 21:51:49 · 1651 阅读 · 2 评论 -
CCF复赛 docker踩坑记 为明年踩坑做准备
CCF复赛 docker踩坑记 为明年踩坑做准备原创 致Great 公众号:ChallengeHub1 docker安装篇下面以Ubuntu系统讲解docker安装,其他系统可以参考安装 Docker1.1 卸载旧版本旧版本的 Docker 称为 docker 或者 docker-engine,使用以下命令卸载旧版本:$ sudo apt-get remove docker \ docker-engine \ docker.io1原创 2021-02-27 21:42:24 · 226 阅读 · 0 评论 -
**一份半监督学习的指南-伪标签学习**
一份半监督学习的指南-伪标签学习原创 致Great ChallengeHub1 引言在ML中,有3种机器学习方法-监督学习、无监督学习和强化学习技术。 我们所知道的监督学习是指数据带有标签的情况, 无监督学习是仅存在数据而没有标签的情况,强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步“强化”这种策略,以期继续取得较好的结果。想象一下这样一种情况,在训练中,标记数据的数量更少,而未标记数据的数量更多。 一种称为半监督学习( [Semi-Superv原创 2021-02-27 21:14:18 · 277 阅读 · 0 评论