
python数据分析与挖掘
文章平均质量分 83
小胖子小胖子
这个作者很懒,什么都没留下…
展开
-
python数据分析与挖掘学习笔记(2)-淘宝商品数据清洗及预处理
这一节开始就正式开始啦~~这一部分主要是针对淘宝的部分商品数据进行预处理。1. 读取商品源数据这里拿到的数据是sql数据,因此需要使用mysql。首先我们安装好mysql,可以直接通过指令安装:> sudo apt-get install mysql-server> apt-get install mysql-client> sudo apt-get install原创 2017-01-09 13:45:57 · 5920 阅读 · 1 评论 -
python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part1
这一节主要是对小说文本数据的挖掘项目。文本挖掘的一个重要的应用是进行站点的个性化推荐。将用户感兴趣的信息推送给对应的用户,可以更好地发挥该信息的价值。比如,我们常常会在浏览网页的时候看到相关的广告是我们感兴趣的,新闻推送的是我们感兴趣的文章,阅读小说推荐的是我们想看的小说,逛淘宝的时候也会发现有一部分猜你喜欢,推荐的是你多半感兴趣的商品,等等。这都是文本挖掘以及相关信息挖掘的技术实原创 2017-01-10 12:52:42 · 5662 阅读 · 0 评论 -
python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part2
接上一节。 注:本文的所有路径都才用的是相对路径,读者请自行换成自己的绝对路径,保证文件可读取。要进行文本挖掘,需要引入gensim这个工具包,需要用到其中的语料库,模型,相似度等包。from gensim import corpora, models, similarities # corpora语料库import jiebafrom collections import def原创 2017-01-10 14:19:25 · 2618 阅读 · 1 评论 -
python数据分析与挖掘学习笔记(5)-公司客户价值判断分析与聚类算法
这一节是使用聚类算法来对公司客户价值进行判断和分析。提到聚类算法,大家应该都会想到是K-means。这是比较简单和经典的一种聚类算法。k-means聚类算法的原理比较简单,实现也容易,可以直接调用python的sklearn包中封装好的函数实现。这部分主要记录如何将聚类算法与显示案例应用联系起来判断和分析。对于这个项目的实现,在已知客户相关数据的情况下,需要发掘出忠实客户数原创 2017-02-09 14:23:22 · 3327 阅读 · 2 评论 -
python数据分析与挖掘学习笔记(6)-电商网站数据分析及商品自动推荐实战与关联规则算法
这一节主要涉及到的数据挖掘算法是关联规则及Apriori算法。由此展开电商网站数据分析模型的构建和电商网站商品自动推荐的实现,并扩展到协同过滤算法。关联规则最有名的故事就是啤酒与尿布的故事,非常有效地说明了关联规则在知识发现和数据挖掘中起的作用和意义。其中有几个专用词的概念:支持度:A与B的支持度Support(A->B)表示为P(A and B)。支持度揭示了A与B同时出现的概率原创 2017-02-09 16:21:57 · 7022 阅读 · 1 评论 -
python数据分析与挖掘学习笔记(7)-交通路标自动识别实战与神经网络算法
这一节主要涉及神经网络算法,由此展开交通路标自动识别的应用。交通路标的自动识别其实就是一个分类问题。对于分类问题,我们有很多的方法来实现,比如KNN,贝叶斯等。关键点在于图片转文本。本节采用人工神经网络算法来进行识别。人工神经网络(Artificial Neural Network)是简称神经网络(NN),是基于生物学中神经网络的基本原理,在理解和抽象了人脑结构和外界刺激响应机制后,以网络原创 2017-02-10 15:58:52 · 6575 阅读 · 3 评论 -
python数据分析与挖掘学习笔记(4)-垃圾邮件自动识别
这是第四节的内容,主要为垃圾邮件自动识别与分类算法。简单来说,对于垃圾邮件的预测实际上就是一个分类问题,要实现垃圾邮件的预测,我们可以对垃圾邮件进行特征提取,然后进行分类实现。具体来说:1. 对邮件进行切词2. 构造词典3. 转为稀疏向量4. 实现贝叶斯算法5. 通过贝叶斯算法训练数据6. 通过贝叶斯算法测试数据贝叶斯算法的原理就是,对于已知类别,通过特征计算该原创 2017-02-08 17:22:42 · 7378 阅读 · 1 评论