
《Python数据分析与挖掘实战》
文章平均质量分 80
微电子学与固体电子学-俞驰
如切如磋,如琢如磨,臻于至善。
展开
-
《python数据分析与挖掘实战》第八章详解
代码来自书上,进行了一定修改,确保运行没有error挖掘的总体思路:首先癌症有不同的发展期不同发展期的癌症有不同的症型这些症状都处于不同的严重程度。因此收集病人样本930条。数据挖掘流程:一(对应代码1)、每人的6种症型(症状名字的代号是A~F,分别对应data.xls中的各种症型)都处于不同的严重程度,每种症型按照严重程度高低,聚类为四个区间,并分别得到各个区间的数量。每个区间取名字例如:A1~A4由于每个病人都有六种症状的不同区间,因此每个病人都可以由一个6维矢量原创 2021-07-09 15:19:55 · 916 阅读 · 0 评论 -
Python处理小学体育中的跑步计时数据并统计得分
附录:五十米评分表:男生 女生 得分 10.2 11 100 10.3 11.1 95 10.4 11.2 90 10.5 11.5 85 10.6 11.8 80 10.8 12 78 11 12.2 76 11.2 12.4 74 11.4 12.6 72 11.6 12.8 70 11.8 ...原创 2020-11-10 14:16:33 · 1180 阅读 · 0 评论 -
基于numpy的多项式拟合预测人口数值
代码如下:#-*- encoding:utf-8 -*-import sysreload(sys)sys.setdefaultencodingfrom sklearn import linear_modelimport numpy as npimport pandas as pd #读取数据并创建数据表,名称为cost_and_clickyear_population=p...转载 2018-04-25 14:40:10 · 2737 阅读 · 0 评论 -
基于FPGrowth挖掘算法的乳腺癌中医症型关联规则挖掘
挖掘的总体思路:首先癌症有不同的发展期不同发展期的癌症有不同的症型这些症型都处于不同的严重程度。因此收集病人样本930条,最终挖掘目标是:找出这些严重程度不同的症型和癌症发展阶段(我们知道癌症有初期,中期,晚期等)之间的关系(也就是找到症状与疾病之间的关联规则)数据来自书籍《Python数据分析与挖掘实战》的第8章书籍《Python数据分析与原创 2018-01-14 23:03:58 · 2362 阅读 · 9 评论 -
mammary cancer关联规则挖掘详解
代码来自书上,进行了一定修改,确保运行没有error挖掘的总体思路:首先癌症有不同的发展期不同发展期的癌症有不同的症型这些症状都处于不同的严重程度。因此收集病人样本930条。数据挖掘流程:一(对应代码1)、每人的6种症型(症状名字的代号是A~F,分别对应下面data.xls中的各种症型)都处于不同的严重程度,每种症型按照严重程度高低,聚类为四个区间,并分别得到各转载 2017-05-08 21:18:36 · 2162 阅读 · 0 评论 -
基于基站定位数据的商圈分析代码详细解释
这一章的代码注意,作者只在windows下面运行过,没有在linux下面运行过第一个代码是为了看下数据的稳定程度,代码中主要关注点是那个离差标准化#-*- coding: utf-8 -*-#数据标准化到[0,1]import pandas as pd#参数初始化filename = '../data/business_circle.xls' #原始数据文件standa转载 2017-06-13 17:32:10 · 4933 阅读 · 2 评论 -
电商产品评论数据情感分析代码详解
本章代码建议在linux下面运行下面代码的意思是从评论数据中抽取品牌是美的的数据(15-1)#-*- coding: utf-8 -*-import pandas as pdinputfile = '../data/huizong.csv' #评论汇总文件outputfile = '../data/meidi_jd.txt' #评论提取后保存路径data =转载 2017-06-16 17:49:32 · 11746 阅读 · 3 评论 -
家用电器用户行为分析与事件识别代码详解+修改后运行无误的代码
运行环境:ubuntu16.04 64位pycharm python3.5.2相关软件列表:cycler (0.10.0)graphviz (0.7.1)h5py (2.7.0)Keras (2.0.4)matplotlib (2.0.2)numpy (1.12.1)pandas (0.20.1)pip (8.1.1)protobuf (3.3.0)原创 2017-05-22 11:20:22 · 4036 阅读 · 3 评论 -
基于水色图像的水质评价
需要安装mkl版本的numpy ,不然会报错from . import _iterative ImportError: DLL load failed: #-*- coding: utf-8 -*-import pandas as pdinputfile = '../data/moment.csv' #数据文件outputfile1 = '../tmp/cm_tra原创 2017-05-20 21:15:01 · 1782 阅读 · 0 评论 -
ValueError: No engine for filetype: 'csv'解决与书本7-2代码改写
经过人指点,解决了一个问题使用数据集air_data.csv为了程序运行需要,仅给出一部分数据集MEMBER_NOFFP_DATEFIRST_FLIGHT_DATEGENDERFFP_TIERWORK_CITYWORK_PROVINCEWORK_COUNTRYAGELOA原创 2017-05-10 00:17:14 · 27107 阅读 · 3 评论 -
电影推荐系统代码详细解释
先说句不太好听的:电影推荐这种东西,除非是在电商或者大公司类的等相关的公司工作,或者学习研究需要,否则这种代码就不要看了,浪费时间。道理很简单,一般小公司就那么可怜巴巴的一小堆客户,手指头数的过来的产品种类,推荐个啥?公司用不到,也就没必要学。各种书籍中,凡是涉及推荐系统,除非你目标的公司是做这种岗位的,否则请直接跳过。注:代码不是我写的,我只是尽可能多的做了注释,所以这...转载 2017-05-18 13:17:26 · 14173 阅读 · 4 评论 -
5-5 用TSNE进行数据降维并展示聚类结果
Python3.5下Pycharm中使用Ipython运行K-means.py(数据集在文末附录中)#使用K-Means算法聚类消费行为特征数据import pandas as pd#参数初始化if __name__ == '__main__': inputfile = './consumption_data.xls' #销量及其他属性数据 outputfile = '....转载 2017-05-04 22:27:06 · 27201 阅读 · 21 评论 -
5-1 逻辑回归代码(含warning解释)
#-*- coding: utf-8 -*-#逻辑回归 自动建模import pandas as pd#参数初始化filename = '../data/bankloan.xls'data = pd.read_excel(filename)x = data.iloc[:,:8].as_matrix()y = data.iloc[:,8].as_matrix()转载 2017-05-03 23:01:11 · 3091 阅读 · 10 评论 -
4-3 数据离散化(无error版本)
#-*- coding: utf-8 -*-#数据规范化import pandas as pdif __name__=="__main__": datafile = '../data/discretization_data.xls' #参数初始化 data = pd.read_excel(datafile) #读取数据 data = data[u'肝气郁结证型系数'].copy(转载 2017-05-03 22:29:32 · 1350 阅读 · 2 评论 -
5-8 离散点检测(改进版无error)
#-*- coding: utf-8 -*-#使用K-Means算法聚类消费行为特征数据import numpy as npimport pandas as pdif __name__=='__main__':#参数初始化 inputfile = '../data/consumption_data.xls' #销量及其他属性数据 k = 3 #聚类的类别 thresh...转载 2017-05-03 21:44:47 · 2072 阅读 · 2 评论 -
5-2 决策树算法预测销量高低代码
#-*- coding: utf-8 -*-import pandas as pdinputfile = '../data/sales_data.xls'data = pd.read_excel(inputfile, index_col = u'序号')data[data == u'好'] = 1data[data == u'是'] = 1data[data == u'高'] =转载 2017-04-30 14:48:59 · 3425 阅读 · 0 评论 -
5-3 神经网络算法预测销量高低(改进版,消除了一些warning)
#-*- coding: utf-8 -*-import pandas as pdimport osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'inputfile = '../data/sales_data.xls'data = pd.read_excel(inputfile, index_col = u'序号')data[data == u'好转载 2017-05-01 17:38:53 · 3529 阅读 · 2 评论