- 博客(6)
- 收藏
- 关注
转载 结合Scikit-learn介绍几种常用的特征选择方法
此文系转载,原文地址:http://chaoslog.com/te-zheng-xuan-ze.html特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解
2015-08-26 19:33:29
5701
转载 从线性模型到广义线性模型(2)——参数估计、假设检验
本文系转载,原文链接:http://cos.name/2011/01/how-does-glm-generalize-lm-fit-and-test/1.GLM参数估计——极大似然法为了理论上简化,这里把GLM的分布限定在指数分布族。事实上,实际应用中使用最多的分布就是指数分布族,所以这样的简化可以节省很多理论上的冗长论述,也不会限制实际应用。如前文如述,指数分布族的概率密度函
2015-08-26 16:57:28
6705
转载 从线性模型到广义线性模型(一):模型假设篇
本文系转载,原文链接:http://cos.name/2011/01/how-does-glm-generalize-lm-assumption/在统计学里,对特定变量之间的关系进行建模、分析最常用的手段之一就是回归分析。回归分析的输出变量通常记做Y,也称为因变量(dependent)、响应变量(response)、被解释变量(explained)、被预测变量(predicted)、从属变
2015-08-26 16:54:18
2990
转载 python正则表达式笔记
这篇文章为转帖,原文地址为:http://blog.youkuaiyun.com/whycadi/article/details/20110461. Python正则式的基本用法1.1基本规则1.2重复1.2.1最小匹配与精确匹配1.3前向界定与后向界定1.4组的基本知识2. re模块的基本函数2.1使用compile加速2.2 match和search2.3 finditer2.4 字符串的修改与替换3.
2015-08-21 21:12:25
508
原创 抓取京东评论数据
京东,淘宝等的评论数据貌似无法直接在源代码中查看,那么如何找到对应的评论数据的源代码文件呢?这里要用到chrome浏览器的审查元素功能,以京东为例,点开一个评论页面, 然后在chrome中选择network的script,此时如果script中有内容先清空。然后在京东的评论页面中点击下一页,这时chrome会捕捉到执行的脚本内容,会显示在script中,如图:然后具体哪个对应的评论的源代码文件,可
2015-08-19 22:37:55
4267
原创 时间序列相似性搜索总结
对时序相似性搜索进行了总结,时序相似性搜索主要包括时序数据呈现技术以及时序数据相似性测量。这篇博文是对读过的论文的总结,对时序数据相似性搜索的过程梳理出一个框架。
2015-08-17 21:58:10
20665
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人