
python数据挖掘从零开始
妖白
0 0 -
展开
-
python3怎么筛选excel中特定的行(行中的值满足某个条件/行中的值属于某个集合)
做数据分析的时候通常我们并不是对真个excel文件进行操作,换言之,每一列都是一个特征,我们需要针对分析。遇到这类问题的时候,我们通常想得到一列中所有符合条件的数据,挑出来,然后组成一个单独的文件进行分析。比如一列中我们希望找到所有大于100的所有行,又比如 我们希望得到一列中包含某个特定字母的所有行,那么我们应该怎么办呢,这里就说一下。 在这之前我们先介绍一个pandas里面一个函数 loc...原创 2018-05-04 16:03:25 · 51500 阅读 · 14 评论 -
怎么用python提取数据中的特征(特征工程都包括哪些部分)
文章载:http://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Fi...转载 2018-05-06 11:09:53 · 21048 阅读 · 1 评论 -
python3中关于选定一天的日期和选定一段时间的日期操作
在所有的日期中找某天的数据我们先看这个数据我们想要取众多日期的一天 那么简单的借用一下pd.read_csv中的参数就可以了重点我们要了解一下这几个参数: parse_dates = ['time3'], index_col = ['time3']parse_dates :把选取的这一列解析...原创 2018-05-14 16:11:11 · 3775 阅读 · 0 评论 -
python3关于groupby函数最简单的介绍和理解
首先我们先来看下网上最经典的解释即对不同列进行在分类,标准是 先拆分 在组合(如果有操作比如sum则可以进行操作)什么意思呢 。就是我们读取文件不是有很多列吗,如果我按列就行分类,那么先把选取列一样的挑出来然后在进行操作。具体的看下下面一个例子这里我们的列名省略了 其实是df_part_1.columns = ['user_id','item_id','behavior_type','item_c...原创 2018-05-14 16:42:36 · 9088 阅读 · 0 评论 -
python3中的drop_duplicates函数(对数据进行去重处理)
我们知道这个函数是去重处理函数 ,单列进行处理比较好理解但是如果多列进行处理具体啥意思呢?用上述数据表示:简单理解 如果df_part_1.drop_duplicates(['user_id','behavior_type'], 'last')这句话的意思就是 这两列元素一样的话 就相当于重复(只看这两类 其他列重复不重复没有一点关系) 重复了我们就要去重,对吧。那么既然重复这么多 我们最后还是...原创 2018-05-14 16:54:02 · 30935 阅读 · 1 评论 -
ppython3 关于agg函数的用法(一般与groupby函数连用)
为了了解agg这个函数 我们先以下数据集作为研究对象 (截图的一部分)agg:这里一般都与groupby函数作为比较 pandas引入了agg函数,它提供基于列的聚合操作。而groupby可以看做是基于行,或者说index的聚合操作通过这里介绍我们可以交接 groupby函数是基于行操作的 而agg是基于列操作的这个说可能太抽象,什么是行操作 什么是列操作呢最简单的理解就是 基于行操作 我可以进行...原创 2018-05-15 15:34:31 · 54746 阅读 · 1 评论 -
数据挖掘笔记1
1 datetime.strptime函数用法 ----字符串转日期格式使用格式为datetime.strptime(date_string, format),其中date_string 就是要转成日期的字符串,format 根据date_string 不同而不同.最常见(dates, '%Y-%m-%d %H') 年月日时 格式应该与dates一样。2 pd.read_csv(data_file...原创 2018-06-14 08:46:05 · 182 阅读 · 0 评论 -
python3关于groupby常用函数的讲解 agg函数 apply函数(详细见上一博客)
这里排列几个例子 就一目了然了 这里是原始的数据import pandas as pdimport numpy as np#1754884 record,1053282 with coupon_id,9738 coupon. date_received:20160101~20160615,date:20160101~20160630, 539438 users, 8415 merchants ...原创 2018-07-04 20:48:24 · 8357 阅读 · 0 评论 -
关于数据挖掘中遇到时间数据怎么划分集合-提取不同时间数据(多种情况汇总)
数据挖掘中 往往都会遇到时间序列问题,很多比赛或者项目都要对时间进行分组。但是面对众多保存类型,怎么才能避免数据类型错误,提取到想要的时间块呢,现在针对多种情况说一下。我们来看这个数据中time项。是一个时间序列 如果我们想把他分开,接下来应该import pandas as pdpath_df=r'C:\Users\yang\Desktop\shijian1.csv'df=pd.read_...原创 2018-07-07 16:34:12 · 3209 阅读 · 0 评论