
DM
今天学习了嘛
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DM 顶会论文
【转自】雷锋网 JournalsACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://...转载 2018-11-13 22:28:13 · 1500 阅读 · 0 评论 -
ALI-本地生活-数据研发实习一面
记录一下 数据研发实习 技术面一面内容先自我介绍,然后对着简历让我介绍了自己的做过的一个项目,我在其中的角色;然后问一些算法原理问题:1. 看你提到了VGG的网络结构,请描述CNN由哪些元件构成?他们分别有什么作用?卷积神经网络(CNN)由输入层、卷积层、激活函数、池化层、全连接层组成卷积层 激活函数 池化层 全联接层2. 你了解的激活函数有哪些?他们分别有什么特...原创 2019-04-28 15:09:11 · 377 阅读 · 0 评论 -
聚类方法之 HDBSCAN —— 层次DBSCAN 的原理分析
HDBSCANHDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)是由Campello,Moulavi和Sander开发的聚类算法。 它通过将DBSCAN转换为分层聚类算法来扩展DBSCAN,然后基于聚类稳定性,使用了提取平面聚类地技术。和传统DBSCAN最大的不同之处在于,HDB...翻译 2019-05-09 10:44:10 · 39274 阅读 · 15 评论 -
ALI-数据研发-四面
1. 如何评估机器学习算法的性能指标?分类问题精确率精确率(precision)是指模型预测为真,实际也为真的样本数量占模型预测所有为真的样本数量的比例。举例来说明,比如警察要抓小偷,抓了 10 个人,其中有 6 个人是小偷,那么精确率就是 6/10 = 0.6。召回率召回率(recall)有时候也叫查全率,是指模型预测为真,实际也为真的样本数量占实际所有为真的样本数量的...原创 2019-05-24 17:28:25 · 279 阅读 · 0 评论 -
pySpark API 使用过程中出现 “ImportError: No module named 'py4j'“错误
首先确认 ~/.bashrc 里面有:export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATHexport PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH 2. 进入 $SPARK_HOME/python/lib/ 里面看一看py4j 的版本号和你...原创 2019-06-07 00:43:42 · 4902 阅读 · 0 评论 -
决策树与神经网络方法的应用场景总结
“最近在实验室项目的研究中,客户需要对比在决策场景中决策树与神经网络的对比,在查阅资料过程中,发现这篇发布于微博的文章写的很好,与大家一块分享”这个问题可以从几个维度来分析。但先要说明决策树就是决策树,随机森林和xgboost的性能提升主要是来自于集成学习。所以,我们扩展一下题目把对比延伸到:单棵决策树,如比较常见的C4.5等 以决策树为基模型的集成学习算法(Ensemble Tr...转载 2019-07-01 16:13:31 · 11433 阅读 · 1 评论 -
Xgboost的原理以及基于python的代码实现
阿里的面试以及DeeCamp的面试中,均问了关于xgboost的原理以及和gdbt等其他数据挖掘方法的对比。原创 2019-07-03 21:29:09 · 1847 阅读 · 0 评论 -
MYSQL 学习笔记
INNER JOIN 关键字在表中存在至少一个匹配时返回行,如果 "Persons" 中的行在 "Orders" 中没有匹配,就不会列出这些行。LEFT JOIN 关键字会从左表 (Persons) 那里返回所有的行,即使在右表 (Orders) 中没有匹配的行。UNION 内部的 SELECT 语句必须拥有相同数量的列。列也必须拥有相似的数据类型。同时,每条 SELECT 语...原创 2019-07-29 10:20:38 · 154 阅读 · 0 评论