
数据挖掘算法
文章平均质量分 61
青瑟只鸟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2015年机器学习/数据挖掘面试总结
2015年机器学习/数据挖掘面试总结 明年硕士毕业,今年开始找工作。在北方呆的太久,想回湿润的南方。 第一站(3月份),阿里数据挖掘实习生面试。个人觉得,阿里的面试是最人性化的,几乎不需要提前准备什么。不需要刷题,不需要死记硬背一些概念。他们看重的是你的项目经历和解决实际问题的能力。每一场面试都不难,但是面试的次数是我所知道的公司中最多的。面试的题目有:1)自我原创 2015-08-31 13:42:34 · 4509 阅读 · 1 评论 -
半监督学习漫谈
半监督学习漫谈 机器学习主要分三种形式,监督学习、非监督学习、半监督学习。最常见的是监督学习中的分类问题。监督学习的训练样本都含有“label”,非监督学习的训练样本中都不含“label”,半监督学习介于监督学习和非监督学习之间。在半监督学习领域,半监督分类问题是最受欢迎的,比如蛋白质搜索引擎中的后处理过程就常常采用半监督学习框架进行过滤。 在监督学习中,因为训练集原创 2015-08-31 23:04:53 · 1241 阅读 · 0 评论 -
EM算法 实例讲解
第一次接触EM算法,是在完成半隐马尔科夫算法大作业时。我先在网上下载了两份Baum-Welch算法的代码,通过复制粘贴,修修补补,用java实现了HMM算法(应用是韦小宝掷两种骰子的问题)。然后,参考有关半隐马尔科夫算法的论文,照着论文中的公式修改隐马尔科夫算法,完成了大作业。现在回想起来,就隐隐约约记得有一大堆公式。最近,我看到一篇很好的文章,对EM算法的计算有了进一步的了解,文章链接为http原创 2015-07-05 17:41:42 · 31255 阅读 · 6 评论 -
网易游戏2016校园招聘数据挖掘研究员在线笔试题和答案
刚做完网易在线笔试题,感触最深的地方是,虽然题目形式和ACM题目相似,但是内容更偏向于实际应用。总共有四个题目,第一个题目属于字符串匹配类型,难度较低,第二个题目是模拟SQL语句的输出,第三个题目是KNN算法,第四个题目是贝叶斯算法。题目偏基础,算法思想很容易想到,但如果平常从来没写过这类算法,再加上代码能力不是很强的话,写起来还是有点吃力的。下面是第一题,第三题,第四题的答案。题目1原创 2015-09-13 19:32:44 · 7147 阅读 · 1 评论 -
你可能不知道的一些机器学习事儿
你可能不知道的一些机器学习事儿 最近零零碎碎地看了很多机器学习方法的东西,增长了不少新知识。有很多小技巧虽然不会出现在教科书中,但它们真的很实用。(1)随机森林模型不适合用稀疏特征。(2)测试集必须使用与训练集相同的方法进行预处理。(3)L1正则(特征选择)最小样本数目m与特征n呈log关系,m = O(log n) ; L2正则(旋转不变)最小样本原创 2015-08-31 20:44:52 · 1151 阅读 · 0 评论 -
机器学习漫谈
机器学习漫谈 数据挖掘/机器学习项目一般包括四个关键部分,分别是,数据分析,特征工程,建立模型,验证。1 数据分析 从广义上讲,数据分析包括数据收集,数据处理,数据清洗,探究性数据分析,建模和算法设计,数据可视化等等[1]。从狭义上讲,数据分析指的是探究性数据分析(EDA)。 所谓探索性数据分析(ExploratoryD原创 2015-08-12 19:13:18 · 2984 阅读 · 0 评论