
数据分析
文章平均质量分 62
强仔fight
使我有洛阳二顷田,焉能配六国相印
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
流量检测学习与snort工具使用记录
流量检测相关内容学习记录原创 2022-08-26 14:50:03 · 718 阅读 · 1 评论 -
CDA题库学习记录
CDA题库学习记录原创 2022-08-22 10:06:14 · 1811 阅读 · 0 评论 -
数据分析与挖掘2
数据探索:对样本数据的结构和规律进行分析的过程(数据质量分析 / 数据特征分析)。1.数据质量分析的主要任务是检查原始数据中是否存在脏数据。缺失值分析:记录的缺失/记录中某个字段信息的缺失缺失值的处理:删除存在缺失值的记录/对可能值进行插补/不处理异常值分析:①简单统计量分析data.describe() #查看数据基本情况②3theta原则如果数据服从正态分布,在3 原...原创 2019-10-22 23:55:26 · 350 阅读 · 0 评论 -
数据分析与挖掘1
流程:数据获取-》探索分析与可视化-》预处理理论-》分析建模-》模型评估数据获取手段-1.数据仓库数据库面向业务存储,仓库面向主题存储数据库针对应用(OLTP),仓库针对分析(OLAP)数据库组织规范,仓库冗余大2.监测与抓取Python常用工具urllib,urllib2,requests,scrapy3.填写,埋点,日志用户填写信息APP或网页埋点(特定流程的信息记录点...原创 2019-08-21 17:50:38 · 3516 阅读 · 1 评论 -
机器学习实战笔记
数据预处理常做的操作:–数据映射—>data[col_name == 原值 ,col_name]=映射值–获取列名列表—>col_names = data.columns.tolist()–预览数据情况—>data.head() 默认访问前5行–去掉一些无关列—>todrop=[’’,’’] data.drop(todrop,axis=1)–同等重...原创 2020-02-24 16:58:33 · 753 阅读 · 0 评论 -
数据分析7数据聚合与分组操作
1.GroupBy机制分离操作是在数据对象的特定轴上进行的。DataFrame可以在它的行方向(axis=0)或列方向(axis=1)进行分组。假设要根据key1标签计算data1列的均值:grouped = df['data1'].groupby( df['key1'] )...原创 2019-03-28 21:29:47 · 334 阅读 · 0 评论 -
数据分析5数据清洗与准备
pandas使用浮点值NaN(not a number)来表示缺失值。称NaN为容易检测到的标识值:①过滤缺失值可以使用pandas.isnull和布尔值索引手动地过滤缺失值,但dropna在过滤缺失值时是非常有用的。在series上使用dropna,它会返回Series中所有的非空数据及其索引值。...原创 2019-03-26 23:21:29 · 365 阅读 · 0 评论 -
数据分析4csv文件的处理
f1 = open(r'D:\hhh.csv', 'r')f2 = open(r'D:\111.csv','w')ttt = f1.readline()ttt = ttt.strip()ttt = ttt.split(',')print(ttt)for row in f1: row = row.strip() row_list = row.split(',') ...原创 2019-03-04 17:06:56 · 661 阅读 · 0 评论 -
数据分析2pandas及其基本操作
1.Seriesimport pandas as pds=pd.Series([1,2,3,4,5])s.values //获取s的值s.index //获取s的索引属性s=pd.Series([20,21,22],index=['H','S','W'])s['H']s.loc['H']s.iloc[0] ...原创 2019-02-26 20:27:38 · 426 阅读 · 0 评论 -
数据分析3matplotlib的安装以及绘图实例
1.条形图import matplotlib.pyplot as pltplt.style.use('ggplot')customers=['a','b','c','d','e']customers_index=range(len(customers))sale_amounts=[127,90,201,111,232]fig = plt.figure()ax1 = fig.add_s...原创 2019-03-01 21:06:35 · 368 阅读 · 0 评论 -
数据分析1numpy及其基本操作
导入numpy包import numpy as npa = np.random.random([3,3])使用numpy包 用时少使用numpy包的情况:import timenumpy_array=np.array([1,2,3][2,1,3])start=time.time()arr*arrend=time.time()print(end-start)使用loop循环...原创 2019-02-25 16:08:15 · 498 阅读 · 0 评论