数据分析
leewe7
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
numpy中的lstsq(最小二乘法)函数
Numpy中的最小二乘法原创 2023-03-07 09:49:50 · 1310 阅读 · 0 评论 -
模型验证处理
模型验证过程原创 2022-12-30 18:02:05 · 206 阅读 · 0 评论 -
鸢尾花数据集-数据分析
from sklearn import datasetsimport pandas as pdimport matplotlib.pyplot as pltimport numpy as np# 获取鸢尾花数据集lris_df = datasets.load_iris()# 输入特征lris_df.data# 目标特征lris_df.targetdata_DF = pd.DataFrame(lris_df.data)target_DF = pd.DataFrame(lris_d原创 2020-10-16 18:21:41 · 1624 阅读 · 1 评论 -
特征工程之OneHot独热编码
如果有离散特征,如[‘Arsenal’,‘ManCity’,‘Liverpool’],将它们转换为数字表示更好[0,1,2]即使转化为数字表示后,上述数据也不能直接用在很多的分类器中。因为,分类器数据往往是连续的、有序的。但是,按照我们上述的表示,数字并不是有序的,而是随机分配的。使用OneHot就可以解决此类问题其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。例如拥有六个状态的属性独热编码为:000001,000010,000100原创 2020-10-12 10:57:47 · 475 阅读 · 0 评论 -
数据处理之缺失值填充-Python实现
import pandas as pdimport numpy as nptest_dict = {'id':[1,2,3,4,5,6], 'counts':[1,2,None,1,4,5], 'amounts':[54,49,None,52,None,50] }test_df = pd.DataFrame(test_dict)#指定值填充test_df['counts'] = test_df['counts'].fillna(12)#均值填充原创 2020-10-10 18:19:20 · 639 阅读 · 0 评论 -
数据处理之标准化-python代码示例
本文使用python实现max-max和z-score两种标准化方法import pandas as pdimport numpy as nptest_dict = {'id':[1,2,3,4,5,6], 'num':[1,2,1,1,4,5], 'total':[54,49,51,52,51,50] }test_df = pd.DataFrame(test_dict)# min-max标准化归一方法def minMaxScale(data):原创 2020-10-10 17:23:28 · 3535 阅读 · 0 评论 -
数据分析方法归结
数据管理输入 — 文件输入、HIVE表输入、kafka输入、关系数据库输入等输出 — 文件输出、HIVE表输出、kafka输出、关系数据库输出等数据处理行 — 数据过滤、随机抽样、数据不平衡处理列 — 设置角色、重命名、属性过滤、缺失值删除、随机数/ID生成、缺失值填充、属性类型变换高级 — 数据标准化、分类汇总、RFM、异常值检测数据融合数据连接、数据追加、数据拆分特征工程数据交叉、属性生成、特征编码、主成分分析、因子分析、分箱、变量选择、高级特征交叉、WOE编码、原创 2020-10-10 14:26:28 · 251 阅读 · 0 评论 -
数据处理之随机抽样-Python实现
有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。随机抽样,是指随机从数据中,按照一定的行数或者比例抽取数据。 python代码示例import numpy as npimport pandas as pdtest_dict = {'id':[1,2,3,4,5,6], 'name':['Alice','Bob','Kaka','Raul','Fabregas','Grace'] }test_df = pd.DataFr.原创 2020-10-09 18:27:56 · 2084 阅读 · 0 评论 -
python中文关键词提取
from pyspark.conf import SparkConffrom pyspark.sql import SparkSessionimport numpy as npimport pandas as pdfrom datetime import datetimefrom datetime import datefrom datetime import timedeltafrom gensim import corpora,models,similaritiesfrom collec原创 2020-09-27 16:49:38 · 651 阅读 · 0 评论
分享