
数据分析
文章平均质量分 62
滴滴答答要努力
坚持就是胜利
展开
-
数据分析师必须知道的知识锦囊
如今,身处互联网时代的我们每个人每时每刻都会在网络中产生很多的行为痕迹,这些行为痕迹在各大互联网公司的后台就形成了大数据,这大数据其实是放错位置的财富,以前人们没有意识到这是一个发财的商机,现在有关大数据的职业如雨后春笋般出现在我们的视线中,数据分析师这个职业就是其中之一。熟谙一切数据分析技术方法的分析者会比其他人技高一筹:他们知道如何处理所有的数据材料,如何将原始数据转变成推进现实工作的妙策,如...原创 2018-02-13 01:17:05 · 440 阅读 · 0 评论 -
NumPy的知识要点
NumPy的介绍NumPy是Numerical Python的缩写高性能科学计算和数据分析的基础包ndarray,多维数组(矩阵),具有矢量计算能力,快速、节省空间矩阵运算,无需循环,可完成类似Matlab的矢量计算线性代数、随机数生成常用import numpy as np注:在jupyter notebook中进行示例。ndarray,N维数据对象(矩阵) 所有元素...原创 2018-02-26 00:45:16 · 510 阅读 · 0 评论 -
Hive学习笔记(五)向表中装载数据
1.向管理表中装载数据 再次强调,Hive没有行级别的数据插入、数据更新和删除操作。LOAD DATA LOCAL INPATH '${env:HOME}/california-employees'OVERWRITE INTO TABLE employeesPARTITION (country = 'US', state = 'CA');如果分区目录不存在的话,这个命令会先创建...原创 2018-01-11 12:34:45 · 2356 阅读 · 0 评论 -
Hive学习笔记(四)与表有关的HiveQL语句
1.创建表: 详细见我之前的博客: http://blog.youkuaiyun.com/qq_22499377/article/details/79020768 2.展示在数据库mydb的表有两种方式:use mydb;show tables;或者show tables in mydb;如果有很多的表,可以使用正则表达式来过滤出所需要的表名:show tables L...原创 2018-01-10 20:50:01 · 736 阅读 · 0 评论 -
Hive学习笔记(三)与数据库有关的HiveQL语句
1.创建数据库:CREATE DATABASE mydb;如果数据库mydb已经存在的话,那么将会抛出一个错误信息。使用如下语句可以避免这种情况下抛出错误信息:CREATE DATABASE IF NOT EXISTS mydb; 当我们创建数据库mydb时,Hive会对应地创建一个目录/user/hive/warehouse/mydb.db。值得注意的是,数据库defau...原创 2018-01-10 11:23:26 · 528 阅读 · 0 评论 -
Hive学习笔记(二)HiveQL和MySQL的区别
HiveQL和MySQL的区别: HiveQL是Hive查询语言,Hive可能与MySQL的方言最接近,但是两者还是存在显著性差异的。Hive不支持行级插入操作、更新操作和删除操作。Hive也不支持事务。Hive增加了在Hadoop背景下的可以提供更高性能的扩展,以及一些个性化的扩展,甚至还增加了一些外部程序。本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。...原创 2018-01-10 11:15:52 · 3193 阅读 · 0 评论 -
Hive学习笔记(一)集合数据类型和文本文件数据编码
集合数据类型集合数据类型分为STRUCT,MAP,ARRAY三种。 下面一个例子用于演示如何使用这些数据类型,这是一张虚构的人力资源应用程序的中的员工表:CREATE TABLE employees ( name STRING COMMENT 'Employee name', salary FLOAT COMMENT 'Employee salary', su...原创 2018-01-10 10:38:49 · 929 阅读 · 0 评论 -
Python常用的数据分析工具入门: pandas入门
数据分析绝对绕不过的三个包是numpy、scipy和pandas。numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。scipy是基于numpy的科学计算包,包括统计、线性代数等工具。pandas是基于numpy的数据分析工具,能更方便的操作大型数据集。 下面主要介绍numpy和pandas。 这次示例我们用jupyter notebook。当电脑安装上Anac...原创 2018-01-26 21:33:30 · 810 阅读 · 0 评论 -
用pandas进行数据分析实战
转载自http://mp.weixin.qq.com/s?__biz=MjM5NjEyMDI2MQ==&mid=2455947430&idx=1&sn=11da6ff57dbaeae9343e822ac8a2f3a7&chksm=b1787b0c860ff21a2568234ea1b5a1bf86c91c2b96ef876863f5dc11ad7de27510107...转载 2018-01-30 17:29:47 · 11708 阅读 · 3 评论 -
Python常用的可视化工具入门:Matplotlib入门
用于创建出版质量图表的绘图工具库目的是为Python构建一个Matlab式的绘图接口import matplotlib.pyplot as plt,pyplot模块包含了常用的matplotlib API函数figure Matplotlib的图像均位于figure对象中 创建figure,plt.figure() 示例: Subplot fig.add_subplot(...原创 2018-02-27 18:44:41 · 696 阅读 · 1 评论 -
python数据结构
Python的数据结构简单而强大。想要成为一名合格的数据分析师,对Python的数据结构一定要熟练于心。 Python的数据结构主要有元组,列表,字典和集合,下面针对必要的知识点介绍一下。一.元组(tuple) 元组是一种一维的、定长的、不可变的Python对象序列。 1.创建 元组的创建有两种:其一是用括号()直接赋值,赋一组以逗号隔开的值;其二是调用tuple,用第二种方法可以使任...原创 2018-07-03 14:34:08 · 2670 阅读 · 0 评论