
数据分析
shifanfashi
这个作者很懒,什么都没留下…
展开
-
2020-09-06
CREATE TABLE TestScores(student_id INTEGER, subject VARCHAR(32) , score INTEGER, PRIMARY KEY(student_id, subject));INSERT INTO TestScores VALUES(100, '数学',100);INSERT INTO TestScores VALUES(100, '语文',80);INSERT INTO TestScores VALUES(100,原创 2020-09-06 17:59:08 · 437 阅读 · 0 评论 -
SQL之全外连接
全外连接是能够从这样两张内容不一致的表里,获取全部的信息。例如有两张表class-A和class-B,想得到C的结果。class-Aidname1张三2李四3美术院class-Bidname1张三2李四4经管院CidA_nameB_name1张三张三2李四李四3美术院4经管院SELECT COALESCE(A.id, B.id) AS id,原创 2020-09-01 20:50:58 · 5979 阅读 · 0 评论 -
中国K12在线教育用户消费行为报告
一、背景阐述研究目的在线教育尤其是K12赛道在过去几年得以快速发展,但头部品牌的渗透率增长幅度尤其是在三四线城市一直不容乐观。而在2020年初,受新冠疫情影响,在线教育几乎深入全民适龄家庭:数据统计,全国两亿多中小学生完成触网学习,这使得K12在线教育接触并渗透到了中国更广泛的地区和家庭。面对不同的K12在线教育品牌以及行业内不同的教学模式,家长用户和学生用户的选择标准逐渐“严苛”。二、中国K12在线教育市场概况2.1 K12在线教育定义区别于传统教育的面对面教学形式,在线教育是以互联网为传原创 2020-07-29 22:27:24 · 5471 阅读 · 0 评论 -
作业帮&小猿搜题竞品分析报告
竞品分析:一、体验环境设备型号:华为荣耀V9操作系统:EMUI 9.1.0体验时间:2020.7.2作业帮:12.12.2小猿搜题:10.8.0二、行业分析1. 市场背景目前国家选拔人才的主要方式是各类招录考试,因此对于学历制阶段的学生来说达到升学标准是实现国家选拔人才的主要途径,虽然升学的路径多重多样,但对于K12阶段的学生来说,通过中考,高考仍然是主要方式。当下的在线教育产品按照年龄段大致可以分为少儿培训、K12及成人培训,而在这其中,K12教育市场规模一直保持稳步增长,究竟是什原创 2020-07-03 18:03:18 · 7953 阅读 · 0 评论 -
作业帮产品分析
作业帮产品分析本文将从如下方面分析:行业分析竞品分析用户价值分析商业价值分析产品迭代分析产品结构分析运营分析总结一、行业分析目前国家选拔人才的主要方式是各类招录考试,因此对于学历制阶段的学生来说达到升学标准是实现国家选拔人才的主要途径,虽然升学的路径多重多样,但对于K12阶段的学生来说,通过中考,高考仍然是主要方式。疫情期间,线下课程全部停摆,“停课不停学”的号召使在线教育领域得到了全国上下的共同关注。当下的在线教育产品按照年龄段大致可以分为少儿培训、K12及成人培训,而在这其原创 2020-07-02 15:24:39 · 11782 阅读 · 0 评论 -
数据分析常用名词解释
数据分析常用的术语解释。按照以下三类进行汇总。1、互联网常用名词解释2、统计学名词解释3、数据分析名词解释一、互联网常用名词解释1、PV(Page View)页面浏览量指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。2、UV(...原创 2020-01-09 09:13:32 · 6020 阅读 · 0 评论 -
数据预处理
预处理数预处理数据的方法总结(使用sklearn-preprocessing)当我们拿到一批原始的数据首先要明确有多少特征,哪些是连续的,哪些是类别的。 检查有没有缺失值,对确实的特征选择恰当方式进行弥补,使数据完整。 对连续的数值型特征进行标准化,使得均值为0,方差为1。 对类别型的特征进行one-hot编码。 将需要转换成类别型数据的连续型数据进行二值化。 为防止过拟合或者其他...转载 2020-01-06 15:30:50 · 575 阅读 · 0 评论 -
SQL各关键字执行顺序(MySQL)
SQL各个关键字的执行顺序:(8)SELECT(9)DISTINCT <select_list> (1)FROM <left_table>(3)<join_type> JOIN <right_table>(2)ON <join_condition>(4)WHERE <where_condition>(5)GRO...原创 2019-12-19 15:52:00 · 368 阅读 · 0 评论 -
python pandas解决数据中含有空格转换数据类型的问题to_numeric
在人工采集数据时,经常有可能把空值和空格混在一起,一般也注意不到在本来为空的单元格里加入了空格。这就给做数据处理的人带来了麻烦,因为空值和空格都是代表的无数据,而pandas中Series的方法notnull()会把有空格的数据也纳入进来,这样就不能完整地得到我们想要的数据了,这里给出一个简单的方法处理该问题。方法1:既然我们认为空值和空格都代表无数据,那么可以先得到这两种情况下的布尔数组。这...转载 2019-12-13 10:59:33 · 3371 阅读 · 0 评论 -
数据分析:附录B 更多关于IPython的内容
第2章中,我们学习了IPython shell和Jupyter notebook的基础。本章中,我们会探索IPython更深层次的功能,可以从控制台或在jupyter使用。B.1 使用命令历史Ipython维护了一个位于磁盘的小型数据库,用于保存执行的每条指令。它的用途有:只用最少的输入,就能搜索、补全和执行先前运行过的指令;在不同session间保存命令历史;将日志输入/输出历史到一...转载 2019-10-14 17:50:18 · 261 阅读 · 0 评论 -
数据分析:附录A NumPy高级运用
在这篇附录中,我会深入NumPy库的数组计算。这会包括ndarray更内部的细节,和更高级的数组操作和算法。本章包括了一些杂乱的章节,不需要仔细研究。A.1 ndarray对象的内部机理NumPy的ndarray提供了一种将同质数据块(可以是连续或跨越)解释为多维数组对象的方式。正如你之前所看到的那样,数据类型(dtype)决定了数据的解释方式,比如浮点数、整数、布尔值等。ndarray如...转载 2019-10-14 17:49:19 · 280 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第十四章
本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。案例数据集可以在Github仓库找到,见第一章。#14.1 来自Bitly的USA.gov数据2011年,URL缩短服务Bitly跟美国政府网站USA.gov合作,提供了一份从生成.g...转载 2019-10-12 09:17:12 · 1530 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第十三章
本书中,我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间,这本书的重点在于掌握这些功能。开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决,比如普通的最小二乘回归,其它问题可能需要复杂的机器学习方法。幸运的是,Python已经成为了运用这些分析方法的语言之一,因此读完此书,你可以探索许多工具。本章中,我会回顾一些pandas的特...转载 2019-10-12 09:16:14 · 565 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第十二章
前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。12.1 分类数据这一节介绍的是pandas的分类类型。我会向你展示通过使用它,提高性能和内存的使用率。我还会介绍一些在统计和机器学习中使用分类数据的工具。背景和目的表中的一列通常会有重复的包含不同值的小集合的情...转载 2019-10-12 09:15:24 · 203 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第十一章
时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每月出现一次)。时间序列也可以是不定期的,没有固定的时间单位或单位之间的偏移量。时间序列数据的意义取决于具体的应用场景,...转载 2019-10-12 09:13:47 · 490 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第十章
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL(Structured Query Language,结构化查询语言)能够如此流行的原因之一就是其能够方便...转载 2019-10-12 09:12:22 · 711 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第九章
信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib(http://matplotlib.org/)和基于它的库。matplotlib是一个用于创建出版质量图表的桌面...转载 2019-10-12 09:10:52 · 830 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第二章
第2章 Python语法基础,IPython和Jupyter Notebooks当我在2011年和2012年写作本书的第一版时,可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题:我们现在使用的库,比如pandas、scikit-learn和statsmodels,那时相对来说并不成熟。2017年,数据科学、数据分析和机器学习的资源已经很多,原来通用的科学计算拓展到了计算机科学...转载 2019-10-12 09:05:38 · 983 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第三章
本章讨论Python的内置功能,这些功能本书会用到很多。虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的。我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后,会学习Python的文件对象,以及如何与本地硬盘交互。3.1 数据结构和序列Python的数据结...转载 2019-10-12 09:05:59 · 1061 阅读 · 1 评论 -
利用python进行数据分析(第二版)_第四章
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下:ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及...转载 2019-10-12 09:06:18 · 1349 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第五章
pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。虽然pandas采用了大量的NumPy编码风...转载 2019-10-12 09:06:35 · 1018 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第六章
访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。6.1 读写文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结,其中read_csv...转载 2019-10-12 09:06:50 · 478 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第七章
在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是,pandas和内置的Python标准库提供了一组高级的、灵活的、快速...转载 2019-10-12 09:07:05 · 593 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第八章
在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应用。8.1 层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)...转载 2019-10-12 09:07:20 · 392 阅读 · 0 评论 -
利用python进行数据分析(第二版)_第一章
第1章 准备工作1.1 本书的内容本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析的工具。这就是数据分析要用到的Python编程。什么样的数据?当书中出现“数据”时,究竟指的是什么...转载 2019-10-12 09:05:10 · 667 阅读 · 0 评论