
Machine Learning
文章平均质量分 85
nemoyy
这个作者很懒,什么都没留下…
展开
-
【特征工程】为什么我要记录我学习特征工程的过程
坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。确实在实践过程中,数据处理和特征选择占据了整个项目大部分的时间,模型和算法就那么几个,训练的时候往上套就行。比如说Kaggle的入门比赛Titanic问题,要求对各种特征及其间关系有深刻的理解,合理的处理数据,模型预测效果才够好。xgboost是个非常强大的工具,但我简单的特征工程之后xgboost预测的效果还没有只用性别...原创 2018-03-03 11:04:43 · 448 阅读 · 0 评论 -
样本不均衡问题
今天看到有人分享的一个CV方面的面试问题:从网上爬来的200W图片数据集和公司自己积累的10W图片数据集,怎么分训练集,测试集?这个问题我之前在deeplearning.ai学习过,还有一点印象,这里引用大树先生的笔记,:方法一:将两组数据合并到一起,总共得到210万张图片样本。将这些样本随机分配到训练、开发、测试集中。好处:三个集合中的数据均来自于同一分布;坏处:我们设立开发集的目的是瞄准目标,...原创 2018-03-13 22:37:13 · 845 阅读 · 0 评论 -
【特征工程】Chap3 Text Data: Flatten, Filtering, Chunking
本章介绍文本的特种工程。从最简单的 bag-of-words开始。下一章会介绍tf-idf。Bag of X: Turning Natural Text into Flat Vectors简单而好理解的特征虽然不一定得到最精确的模型,但从简单开始,只有到必须的时候才增加复杂性确实是好主意。bag-of-words,一个词数统计的列表,虽然找不到文本中特殊的词,但可以发现那些多次出现的词。这对解决文...原创 2018-05-02 01:37:00 · 687 阅读 · 0 评论 -
[特征工程]Chap4. 特征缩放:TF-IDF
本章通过BOW 到tf-idf的变化,讨论 feature scaling 的效果.TF-IDF: BOW的变种tf-idf可以说就是BOW基础上的变种, 全称: term frequency- inverse document frequency ,中文: 词频-逆文件频率.BOW记录文件中的词频, 明显的问题就是会强调一些没意义的词, 如英文中的 'the' 'and' 'it' 等等词频会很...原创 2018-05-04 03:31:36 · 987 阅读 · 0 评论 -
随机森林 OOB理解
一个大小为N的数据集.1.有一个问题是, 对于随机森林的每一棵CART树是怎么训练的, 如何划分训练集测试集?Bootstrap, 对数据集随机有放回抽样N次作为一棵CART树的训练集.根据概率论,可知数据集中有大约1/3的数据是没有被选取的(称为Out of bag),所以就是这没被选取的部分作为小树的测试集.2. 接下来的问题是, 怎么测试随机森林的性能, 测试集是什么?留坑....原创 2018-05-15 09:18:11 · 17434 阅读 · 0 评论 -
word2vec: 理解nnlm, cbow, skip-gram
word2vec 论文笔记1 word rep怎么表示词的意思? 传统的想法有查字典. 近义词,缺点:主观,费人力, 难记算相似性 one-hot 缺点:维度灾难,正交,无法计算similarity. 那么,通过借鉴近义词,学习将similarity编码到词向量中去.1.1 one-hotn-gram language model见我之前写的csdn Blog: 1...原创 2018-06-07 01:50:10 · 7056 阅读 · 2 评论 -
对抗样本:知其然,知其所以然
聪明汉斯的故事 在二十世纪初的德国,有一匹名叫汉斯的马非常有名。在主人威廉•冯•奥斯滕的训练下,聪明的汉斯经过了一段时间的训练,掌握了简单的数学运算。当奥斯滕问汉斯“一加一等于几”的时候,它会用蹄子在地上“嗒,嗒,嗒”的敲出答案。围观的群众看到汉斯能够正确的回答各种数学题,都感到惊讶和神奇。同时,人们也疑惑,汉斯是否真的通过训练学会了过去人们认为动物做不到的事情。在一系列的调查中,人们发现,如果...原创 2018-07-15 13:36:08 · 26795 阅读 · 6 评论 -
对抗样本的一些参考文章和笔记
本文记录了自己准备写一篇介绍对抗样本的科普文章是在YouTube看Ian Goodfellow的一些视频资料学习做的笔记,以及在研究对抗样本(主要)和GAN时看到的技术博客的链接。笔记是随意记的。资料收集博士答辩在Ian博士答辩时总结到’Generative models useful for missing value problems’ in 2014. 和非监督学习....原创 2018-07-15 13:38:00 · 2308 阅读 · 0 评论 -
论文阅读:node2vec: Scalable Feature Learning for Networks
node2vec: Scalable Feature Learning for Networks摘要基于网络中节点和边的预测任务中的特征工程总是很麻烦的。虽然表示学习的自动学习特征已经有很大的帮助,但现有的特征学习方式无法对网络中连接模式的多样性进行足够的捕捉。node2vec是本论文提出的一种对网络中的节点学习连续特征表达的框架。通过将节点映射到maximizes the lik...原创 2018-08-19 21:52:53 · 13616 阅读 · 3 评论