
数据挖掘
根号四等于二
根号四二不二
展开
-
BeautifulSoup4 解析器的说明
1. 最基本的有三种解析器。 默认为 html.parser。 官方文档推荐lxml(解析速度快,但遇到 </html> 则终止,无法解析其后内容,与 urlopen 配合使用可解决,但仍存在解析不完全的情况)。 官方文档推荐html5lib(解析最全,但速度极慢,大约是 lxml 解析速度的 4 到 5 倍)。 2 ...原创 2020-04-11 21:15:45 · 359 阅读 · 0 评论 -
FP_growth算法
FP_growth算法是韩家炜老师在2000年提出的关联分析算法,该算法和Apriori算法最大的不同有两点:第一,不产生候选集,第二,只需要两次遍历数据库,大大提高了效率,用31646条测试记录,最小支持度是2%,用Apriori算法要半个小时但是用FP_growth算法只要6分钟就可以了,效率非常明显。它的核心是FP_tree,一种树型数据结构,特点是尽量把相同元素用一个节点表示,这样就大大减转载 2016-05-31 13:54:27 · 648 阅读 · 0 评论 -
利用数据挖掘工具weka进行管理规则挖掘
前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利用数据挖掘工具weka进行管理规则挖掘。 weka数据集格式arff arff标准数据集简介 weka的数据文件后缀为arff(Attribute-Relation File Format,即属性关系转载 2016-06-01 17:05:15 · 1007 阅读 · 0 评论