机器学习实战
文章平均质量分 82
xiayto
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习案例--回归分析
目录1、最小二乘法 1.1 原理推导1.2 代码样例2、SKlearn 2.1 代码样例2.2 多项式扩展2.3 正则化2.4 逻辑回归和多酚类1、最小二乘法解1.1 算法原理回归算法推导 根据中心极限定理,误差服从正态分布,将误差带入之后用极大似然估计,取对数得到目标函数,目标函数是最小二乘的形式,求导得出的解是: θ=(XTX)−1XTYθ=(XTX)−1...原创 2018-03-31 11:03:20 · 1861 阅读 · 0 评论 -
机器学习实战--决策树
分类决策树APIclass sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_sta原创 2018-04-02 02:04:28 · 197 阅读 · 0 评论 -
数据挖掘--常用的回归模型调参总结
一、XBGoost调参步骤:1、设定一个稍大的学习率(0.1),利用xgboost里的cv方法去确定一个合适的迭代次数(也就是树的个数)2、根据参数的重要性,分别对参数进行调参,利用GridSearchCV,先进行大范围粗调再小范围精调,参数重要性排序:max_depth和min_child_weightgammasubsample和colsample_bytreere...原创 2018-04-21 14:27:00 · 6477 阅读 · 0 评论 -
在中文大语料库上训练word2vector
目录:1、词向量的作用2、词向量的训练方法3、gensim实现大语料库的word2vec1、词向量的作用传统使用one-hot表示一个词,用multi-hot表示一个文档。这样做主要的问题是: 1)维度大,独热向量稀疏。 2)损失语义信息,每个词用一个维度进行编号,词之间的余弦相似度都为0word embedding的优势: 1)分布式的表示(distribution...原创 2018-07-25 22:02:47 · 4462 阅读 · 1 评论 -
深度文本匹配发展总结
1、背景介绍文本匹配是自然语言处理中的一个核心问题,很多自然语言处理的任务都可以抽象成文本匹配问题,例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。2、数据集介绍论文中经常用到的数据集:SNLI:570K条人工标注的英文句子对...原创 2018-07-28 02:39:15 · 12991 阅读 · 2 评论
分享