
数据分析
ysq96
还想更厉害
展开
-
【学习】评价指标理解
目录ROC曲线AUCKS曲线P-R曲线准确率(precision)召回率(recall)F1系列ROC曲线ROC的全称是Receiver Operating Characteristic Curve,中文名字叫“受试者工作特征曲线”,顾名思义,其主要的分析方法就是画这条特征曲线。ROC曲线的横轴是FPR(假阳性率、误诊率)、纵轴是TPR(真阳性率、灵敏度)。这条曲线代表的是在不同的阈值下,FPR和TPR的一个变化曲线,通常,我们希望FPR尽可能的小,而TPR尽可.原创 2020-07-07 15:14:48 · 1115 阅读 · 0 评论 -
【数据分析】数据预处理
4.1 数据清洗数据清洗主要是删除原始数据集中的无关数据、重复数据、平滑噪声数据、筛选掉与挖掘主题无关的数据,处理缺失值、异常值等4.1.1 缺失值处理删除记录、数据插补、不处理插补方法:均值/中位数/众数插补使用固定值最近邻插补回归方法插值法:拉格朗日插值法、牛顿插值法、hermite插值法、分段插值、样条插值法4.1.2 异常值处理删除含有异常值的记录视为缺...原创 2020-04-19 21:49:24 · 364 阅读 · 0 评论 -
【数据分析】数据探索
参考书《Python数据分析与挖掘实战》3.1 数据质量分析数据质量分析主要任务是检查原始数据中是否存在脏数据,脏数据主要包括:缺失值,异常值,不一致的值,重复数据以及含有特殊符号(#、*等)的数据3.1.1 缺失值分析产生的原因:有些数据暂时无法获取,或者获取的代价过大被遗漏掉属性值不存在(一个儿童的固定收入、一个未婚者的配偶姓名)带来的影响:数据挖掘建模将...原创 2020-04-18 19:20:58 · 353 阅读 · 0 评论 -
【用数据讲故事读书会】5章读书笔记
第五章 像设计师一样思考5.1可供性可供性是设计的固有属性,使得产品的使用方式显而易见突出重要的内容消除干扰建立清晰的信息层次5.1.1突出重要的内容粗体、斜体和下划线:可用于标题、标签、说明以及短语,用以区分元素。大小写和字体:适用于标题、标签和关键词颜色:在少量使用时是一种有效的突出内容的方法,并且通常能够与其他突出技巧(粗体)配合反色元素:能够有效吸引注意,但对涉及有一定的干扰字号:是另一种...原创 2018-04-13 21:55:12 · 293 阅读 · 0 评论 -
【菜鸟系列读书会】1-2章读书笔记(工具篇)
1.1最容易上手的数据库1.1.1数据库那些事儿向数据库中添加新数据纪录,例如增加用户注册信息编辑数据库中的现有数据,例如修改某个用户信息删除数据库中信息记录,例如删除失去时效性的数据,以释放存储空间以不同方式组织和查看数据,例如对数据进行查询、处理与分析①Access数据库优势:操作界面友好、易操作,Access查询处理可直接生成相应的SQL语句不足:数据库过大时、记录数过多时,性能会变差,ac...原创 2018-04-07 10:39:21 · 158 阅读 · 0 评论 -
【用数据讲故事读书会】4章读书笔记
第四章 聚焦受众的视线4.1用脑阅读4.2记忆微解密三类记忆很重要:形象记忆、短期记忆、长期记忆4.2.1形象记忆非常迅速4.2.2短期记忆具有局限性4.2.3长期记忆长期记忆是视觉记忆和言语记忆的集合,图像能够帮助我们快速回忆起长期言语记忆中的信息4.3前注意属性能够引导视线让受众不知不觉地看到我们期望展现的内容前注意属性可以快速引导受众的注意力到你希望的地方,建立信息的视觉层次4.4文字中的前...原创 2018-04-12 10:57:13 · 255 阅读 · 0 评论 -
【菜鸟系列读书会】7-8章读书笔记(入门篇)
7.1别让图标犯错7.1.1让图表“五脏俱全”标题图例单位脚注资料来源7.1.2要注意的条条框框避免生出无意义的图表不要把图表撑破只选对的,不选复杂的一句话标题,讲短语变成句子注意事项饼图:①要按照时钟表盘的刻度,把数据从12点钟的位置开始排列,最重要的成分紧靠12点钟的位置②数据项不要太多,保持在5项以内③不要使用爆炸式“饼图分离”④饼图不要使用图例⑤尽量不使用标签连线⑥尽量不使用3D效果⑦当扇...原创 2018-04-05 10:58:23 · 195 阅读 · 0 评论 -
【菜鸟系列读书会】5-6章读书笔记(入门篇)
5.1数据分析方法现状分析:对比原因分析:细分预测分析:预测5.1.1对比分析法定义:指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。特点是:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少分类:①静态比较:在同一时间条件下对不同总体指标的比较,横向比较②动态比较:在同一总体条件下对不同时期指标数值的比较,...原创 2018-04-04 14:48:48 · 333 阅读 · 0 评论 -
【菜鸟系列读书会】3-4章读书笔记(入门篇)
3.1理解数据3.1.1字段与记录我们把表中的每一行叫做一个“记录”,每一个记录包含这行中的所有信息,就像在通讯录数据库中某个人全部的信息,但记录在数据库中并没有专门的记录名,常常用它所在的行数表示这是第几个记录。字段是比记录更小的单位,字段集合组成记录,每个字段描述文献的某一特征,即数据项,并有唯一的供计算机识别的字段标识符。3.1.2数据类型字符型数据数值型数据3.1.3数据表一维表、二维表:...原创 2018-04-03 20:43:33 · 290 阅读 · 0 评论 -
【菜鸟系列读书会】1-2章读书笔记(入门篇)
1.1数据分析用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。1.2数据分析分类描述性数据分析:初级数据分析探索性数据分析:侧重于在数据之中发现新的特征验证性数据分析:侧重于验证已有假设的真伪证明1.3数据分析作用现状分析原因分析预测分析1.4分析六部曲明确分析目的和思路数据收集数据处理数据分析数据展现报告撰写1.5常用指标和...原创 2018-04-03 17:36:35 · 287 阅读 · 0 评论 -
【用数据讲故事读书会】3章读书笔记
第3章 杂乱是你的敌人3.1 认知负荷最小化受众感知到的认知负荷,最大化数据的墨水比3.2杂乱让图形显得不必要的复杂3.3视觉认知的格式塔原则3.3.1临近原则我们倾向于认为物理上临近的物体属于同一个物体。3.3.2相似原则拥有相似颜色、形状、大小或者方向的物体会被视作相关或从属于一个群体3.3.3包围原则我们会认为物理上包围在一起的物体从属于同一个群体3.3.4闭合原则指人们希望事情能够简化并符...原创 2018-04-10 17:09:14 · 398 阅读 · 0 评论 -
【用数据讲故事读书会】7章读书笔记
第七章 讲故事的课程7.1故事的魔力好的故事会吸引你的注意,唤起情感上的共鸣7.1.1戏剧中的故事三段式结构:铺垫、冲突、紧张7.1.2故事与电影我们可以用故事以超越事实的方式让受众从情感上参与7.1.3故事与写作寻找你关心的主题不要乱说保持简单敢于删减发自内心按规矩说话心怀读者保持简单、坚决裁剪、保持真实,为受众而沟通7.2构建故事7.2.1开头介绍情节,为受众建立情境。设定:故事发生在何时何地...原创 2018-04-15 13:29:19 · 400 阅读 · 0 评论 -
【用数据讲故事读书会】2章读书笔记
选择有效的图表2.1简单文本只有一两项数据需要分享,直接使用数据本身只用数字(尽可能突出)和一些辅助性文字2.2表格适合与一群受众沟通让设计融入背景,让数据占据核心地位不要让厚重的边框和阴影与数据争夺受众的注意力,使用窄边框或者空白来区分表格的元素特例:热力图 用颜色饱和度将表格细节和视觉暗示的使用结合起来2.3图表经常使用的图形可分为四类:点图、线图、条形图、面积图2.4点图散点图在展示两件事的...原创 2018-04-09 10:52:05 · 254 阅读 · 0 评论 -
【用数据讲故事读书会】1章读书笔记
第一章 上下文的重要性1.1探索性分析和解释性分析探索性分析:理解数据并找出其中值得关注或分享给他人的精华解释性分析:花时间将数据抽象为受众能够消化的信息1.2对象、内容和方式你在和谁沟通?你希望受众了解哪些内容或者做什么?如何用数据表达自己的观点?1.3对象1.3.1你的受众细分受众,识别决策者1.3.2你自己考虑与受众的关系,以及你期望他们如何看待你1.4内容1.4.1行为你需要受众了解或者做...原创 2018-04-08 11:00:22 · 467 阅读 · 0 评论