
Python与数据挖掘算法
文章平均质量分 85
用Python去实践学习各种机器学习算法
Python忠实粉丝
这个作者很懒,什么都没留下…
展开
-
聚类算法1-Kmeans
“物以类聚,人以群分”,聚类是一种日常生活中常见的现象。所谓类,其实就是相似元素的结合。那么问题来了:如何判断元素之间是否相似?我们常常说,相似就是相近,即需要有合理的距离的度量方法来决定是否相似。而如果元素本身的属性非常多,从不同的属性去看元素之间的相似性,可能有不同的结果。聚类分析属于分类学,以前人们往往是依赖经验和专业知识来实现分类。聚类分析有多种算法,可以作为其他分析算法的预处理。挑战在于高维空间中的稀疏数据,可能存在不平衡、高度偏斜的数据情况。在常见的六大聚类算法_从未完美过的博客-CSD原创 2021-11-28 16:44:47 · 843 阅读 · 0 评论 -
Python 旅程开启
开始学习Python,并记录原创 2017-07-16 06:50:57 · 339 阅读 · 0 评论 -
时间序列与非时间序列的异常检测
非时间序列:序列对应的事件发生的时间无明确先后顺序关系时间序列:序列事件的发生要考虑先后顺序关系相对来说,非时间序列的异常检测就是散点的检测,只需要使用距离度量进行聚类、分类等操作,发现事件中的离群点即可。而时间序列的异常检测需要考虑各事件之间的先后逻辑关系、递推关系,不能拘于对单点的挖掘。...原创 2018-04-28 10:51:23 · 2145 阅读 · 1 评论 -
关于Python3的中文编码问题
在做切词实验的时候,用jieba模块,相信很多人都已经熟悉。但是中文切词的编码问题的困扰你遇到了吗?python3中的decode常常报错,Windows操作系统环境下,jieba切词默认时gbk编码。这里,要注意,在输入和输出文件打开时用codecs去打开,说明是utf-8编码,一切问题就解决了import codecs。。。fin = codecs.open(inputFile, 'r',en...原创 2018-05-23 14:13:23 · 928 阅读 · 0 评论