
Python数据分析与数据挖掘
基于python的数据分析与数据挖掘技术分享
小琳ai
300字以内
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pandas to_excel IllegalCharacterError异常处理
当dataframe存为excel时,报错openpyxl.utils.exceptions.IllegalCharacterError说明你的数据集中存在着特殊字符。定义如下的函数 来对文本数据进行处理,apply在可能出现特殊字符的列上,即可正产生成excel。还能定位出异常数据。def get_IllegalCharacter(value): # 定义文本编码 与 输入、输出文本编码保持一致 encoding = 'utf-8' if value is None:原创 2021-09-01 16:40:40 · 2815 阅读 · 0 评论 -
python处理换行符
当前我的场景是数据中存在大量样本,内容差异仅在于换行符,导致去重的时候,两者都被保留了下来,非我所愿。几经测试,对于pandas的dataframe,可以使用下面的方式去除换行符df = df.replace(’\n’,’’, regex=True)一般情况下的文本也是可以如此处理...原创 2021-08-31 17:28:17 · 865 阅读 · 0 评论 -
pandas 保持excel的null值原有输入
当我们在使用pandas读取excel的时候往往会碰到各种形式的null值,pandas往往默认会将null值(比如空字符串,null,NULL等等)读取为nan,这个符号在dataframe中就是专门用来表示null值的。那么要想保持excel的原有内容,我们在此需要设置下参数。keep_default_napd.read_excel(file, keep_default_na=False)将这个参数置为false之后,就能正常读取excel了,展示的内容就是你excel打开看到的内容。..原创 2021-08-30 14:43:09 · 1151 阅读 · 0 评论 -
anaconda 安装包报错 代理设置
anaconda安装报错的原因有很多种:**1.代理原因:**指定代理方法为修改c盘相应用户下的 .condarc文件proxy_servers: http: http://username:password@proxy.huawei.com:8080 https: http://username:password@proxy.huawei.com:8080ssl_verify: false一般只需设置以上内容即可此外,由于国外的网站可能存在访问较慢的情况,可以修改镜像源:con原创 2021-05-14 11:42:02 · 1757 阅读 · 0 评论 -
数据预处理 Python主要数据预处理函数
interpolate包含了大量的插值函数unique去除数据中的重复元素isnull/notnull判断元素是否空值random用于生成服从特定分布的随机矩阵PCA对指标变量矩阵进行主成分分析...原创 2018-11-27 14:29:08 · 764 阅读 · 0 评论 -
数据预处理(2)数据集成 和 数据变换 数据规约
数据集成数据挖掘的过程中往往需要的数据分布在不同的数据库,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。实体识别同名异义名字相同但实际代表的含义不同异名同义名字不同但代表的意思相同单位不统一冗余属性识别相同的属性出现多次同一属性命名不一致导致重复数据变换1. 简单函数变换2. 规范化最小最大规范化值与最小值的差 再除以极差得...原创 2018-11-27 14:24:44 · 6696 阅读 · 0 评论 -
数据预处理(1)数据清洗
数据预处理的内容主要包括数据清洗,数据集成,数据变换和数据规约。数据清洗数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,帅选掉与挖掘主题无关的数据,处理缺失值、异常值等。缺失值处理缺失值处理的方法可分为三类:删除记录、数据插补和不处理。常用的数据 插补方法有:均值中位数众数插补使用固定值插补使用最近临插补回归方法 建立拟合模型预测缺失的属性值插值法 利用已知...原创 2018-11-27 13:44:34 · 2618 阅读 · 0 评论 -
数据探索(3)Python主要数据探索函数
Python中用于数据探索的库主要是Pandas(数据分析)和Matplotlib(数据可视化)。数据探索函数可大致分为统计特征函数和统计作图函数。Pandas的主要统计特征函数。sum() 列总和mean() 平均数var() 方差std() 标准差corr()Spearman相关系数矩阵cov()协方差矩阵skew()偏度(3阶矩阵)Kurt()峰度(4阶矩阵)...原创 2018-11-27 10:47:24 · 387 阅读 · 0 评论 -
数据探索(2)数据特征分析
数据特征分析分布分析1.定量数据的分布分析对于定量变量而言,选择组数和组宽是做频率分布分析时最主要的问题,一般按照以下步骤进行。1)求极差2)决定组距和组数3)决定分店4)列出频率分布表5)绘制频率分布直方图遵循以下原则:1)各组之间必须相互排斥2)各组必须包含所有数据3)各组的组宽最好相等2.定性数据的分布分析对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和...原创 2018-11-27 10:32:31 · 1124 阅读 · 0 评论 -
数据探索(1)数据质量分析
数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括如下内容:缺失值异常值不一致的值重复的值以及包含特殊符号的数据缺失值分析数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失。(1)缺失值产生的原因1)有些信息暂时无法获取,或者获取信息的代价太大2)有些信息被遗漏...原创 2018-11-27 10:02:25 · 2050 阅读 · 0 评论 -
python数据分析工具
Numpy提供数组支持Scipy提供矩阵支持Matplotlib数据可视化工具、作图库pandas数据分析和探索工具Scikit-Learn支持回归、分类、聚类等的强大的机器学习库StatsModels统计建模和计量经济学,包括描述统计、统计模型估计和判断Keras深度学习库,用于建立神经网络以及深度学习模型...原创 2018-11-26 17:48:56 · 333 阅读 · 0 评论 -
Python使用入门
运行方式一般两种方式:客户端执行python3使用Jupyter编码建议安装anaconda,方便包管理使用#来添加注释使用‘’’‘’’来添加多行注释脚本中有中文还要在文件头注明字符编码# -*- coding: utf-8 -*python严格遵循缩进基本命令判断if 条件1: 语句2elseif 条件3: 语句4else: 语句5...原创 2018-11-26 17:41:58 · 200 阅读 · 0 评论 -
Python数据挖掘过程
数据挖掘的建模过程定义挖掘目标明确系统完成后想要达成什么样的效果。我们需要分析应用领域,了解相关领域的情况,熟悉背景知识,弄清用户需求。数据取样从业务系统中抽取一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性。衡量取样数据质量的标准如下:1)资料完整无缺,各类指标项齐全。2)数据准确无误,反映的都是正常(而不是异常)状态下的水平。数据探索...原创 2018-11-26 16:51:19 · 1818 阅读 · 0 评论