- 博客(21)
- 资源 (1)
- 收藏
- 关注
原创 SQL分组函数和聚合函数的几点说明
1 分组聚合的原因SQL中分组函数和聚合函数之前的文章已经介绍过,单说这两个函数有可能比较好理解,分组函数就是group by,聚合函数就是COUNT、MAX、MIN、AVG、SUM。拿上图中的数据进行解释,假设按照product_type这个字段进行分组,分组之后结果如下图。SELECT product_type from productgroup by product_type从图中可以看出被分为了三组,分别为厨房用具、衣服和办公用品,就相当于对product_type这个字段进行了去重,
2020-11-29 18:13:20
1161
原创 一文带你了解数据仓库HIVE的安装过程
HIVE是一个数据仓库,该仓库基于hadoop框架,可以将存在hdfs上的结构化数据文件映射为一张数据库表。HIVE可以使用类SQL语句来处理结构化数据(查询数据),也即是把结构化数据当成一张类mysql中的表,采用SQL语句查询。结构化数据即行数据,可以用二维表结构来表现的数据;非结构化数据即不能二维表结构来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息。Hive 的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapRed
2020-11-07 20:40:57
278
原创 SQL高阶(窗口函数)
窗口函数窗口函数也称为OLAP(Online Analytical Processing)函数,意思是对数据库数据进行实时分析处理,窗口函数在Oracle和SQL Server中也被称为分析函数,窗口函数语法如下<窗口函数> OVER ([PARTITION BY <列清单>] ORDER BY <排序用列清单> [框架])语法中<>中的内容不可省略,[]中的内容可以省略。即PARTIION BY和框架可以省略,ORDER BY 不
2020-11-05 00:03:28
784
原创 一文带你了解HDFS的shell命令
1 准备知识HDFS:hadoop集群分布式文件系统,用来存储海量数据。HDFS采用分而治之的设计思想,将文件切分为文件块进行存储,存储数据的节点为datanode,存储这些数据具体存放位置的节点为namenode。HDFS的架构为一主多从,即namenode为主,datanade为从。本文主要介绍HDFS的shell命令,即如何通过命令行对HDFS进行操作。首先附上官网链接,HDFS Commands Guide。介绍HDFS之前,需要了解一下命令行的格式,找个例子讲一下。hadoop fs [g
2020-11-01 19:23:10
476
原创 阿里云搭建hadoop集群补充
1 阿里云服务器选配首先附上官网链接:阿里云官网点击上边链接,注册后登陆官网,选择产品选项,然后选择云服务器ECS,就进入云服务器ECS购买界面。进入云服务ECS购买界面,点击立即购买,在界面中分为一键购买和自定义购买,如何对配置没有概念,感觉太麻烦,推荐使用一键购买。本文以一键购买为例,主要是从以下几个方面进行选购:地域及可用性实例规格镜像网络类型(公网带宽)购买数量(购买时长)地域及可用性:选择离自己比较近的地域,如我在上海,选择华东2(上海),搭建hadoop集群的时候,购买
2020-10-28 15:06:49
550
原创 三台阿里云服务器搭建Hadoop3集群
1 前言在讲述Hadoop集群搭建之前,首先要了解Hadoop和集群两个名词,Hadoop是由Apache基金会开发的分布式系统基础架构,简单理解就是大数据技术应用的基础。集群可以理解为多台装有hadoop的服务器。搭建Hadoop集群的目的就是为了管理多台服务器,使多台服务器之间能够协调工作。本文选择了3台阿里云服务器。从下图中可以对整个大数据架构有了大体的了解。Hadoop主要有HDFS(分布式文件存储系统)、Yarn(集群资源管理与调度)和MapReduce(分布式计算框架)组成。Hadoop集
2020-09-21 21:36:29
2959
5
原创 数据分析-SQL进阶之路
1 前言SQL进阶主要介绍谓词、CASE表达式、嵌套子查询、连接(以列为单位对表进行连接)和UNION运算(表为单位)。SQL进阶在如下两个表web_city和city_nation上操作。web_citywebsitecityGoogle硅谷淘宝杭州亚马逊硅谷腾讯深圳NULL深圳city_nation。citynation硅谷美国杭州中国北京中国2 SQL进阶2.1 谓词LIKE介
2020-09-13 17:15:53
268
原创 数据分析-SQL函数
1 前言SQL函数主要介绍内建函数,其实跟Excel中的内建函数类似,后续Python中也是类似。有时候学习语言,真的没有那么难,都是相通的,难点在于如何去应用。这个没有捷径,就是应该去实践,多看多写自然就学会了。SQL函数分为数学函数、字符函数、日期函数和聚合函数(聚合函数一般结合GROUP BY子句 )。介绍函数之前,先介绍一下SQL的算数运算符:算数运算符加(+)、减(-)、乘(*)、除(/)、取余(%)比较运算符等于(=)、大于(>)、大于等于(>=)、小于(<
2020-08-30 00:38:55
361
原创 数据分析-SQL基础
1 前言数据库(DB)是按照数据结构存储数据的仓库,数据库管理系统(DBMS)是操纵和管理数据库的一套软件,可分为关系型的数据库管理系统和非关系型的数据库管理系统。数据库管理系统采用结构化查询语言(SQL)来管理数据库。结构化查询语言按照功能分类,可分为数据定义语言(DDL)、数据操纵语言(DML)、数据查询语言(DQL)、事务控制语言(TCL)、数据控制语言(DCL)。SQL语句不区分大小写,语句最后的分号(;)代表运行结束。2 SQL语言2.1 DDL(数据定义语言)创建数据库、表(c
2020-08-27 23:42:58
328
原创 数据分析-Excel透视表
1 前言数据透视表是从数据背后找到联系,将杂乱的数据转化为有价值的信息,是一种对数据进行交互式汇总和分析的工具。其可以通过简单的拖拉拽操作,实现复杂数据的分类汇总。数据透视表是数据分析师比较常用的操作。如下这张表是我从网上找的车辆保养数据,有5个字段,分别为车牌号、保养时间、保养里程、保养金额和保养类型。每行数据代表每辆车的车牌号为多少,在哪个时间进行保养,该车辆的保养里程是多少,此次保养的金额是多少,以及保养类型是什么。下边以这张表演示透视表的使用教程。2 基本操作前边说了透视表是分类汇总的作用
2020-08-17 00:06:39
1414
1
原创 数据分析-Excel图表
1 前言Excel中图表大约有十多种,每种图表类型按照显示形式又可分为若干个子类型。如柱状图可以分为标准柱状图、堆积柱状图、和百分比堆积柱状图。Excel图表也是数据可视化的一种,了解Excel的基本图表类型,对于以后其他工具的学习及使用有非常大的作用。2 图表类型2.1 柱状图柱状图展示多个分类的数据变化和同类别各变量之间的比较情况,多适用于以行或列的形式排列的数据。横坐标为维度,纵坐标为指标。2.2 条形图条形图类似柱状图,相当于把横轴和纵轴进行了倒置,也适用于工作表中以行或列的形式拍列
2020-08-15 18:31:13
1472
原创 数据分析-Excel函数
1 引言Excel是数据分析师的基础入门工具,在日常工作过程中,用好Excel函数可以节省很多时间,起到事半功倍的效果。介绍函数之前,需要强调几个概念:相对引用、绝对引用和混合引用相对引用简单的说就是在横向竖向复制含有公式单元格,会发生变化,单元格输入 =A1,填充的时候就变为=A2、=A3、=B1、=C1等等。绝对引用简答的说就是在横向竖向复制含有公式单元格,不会发生变化。单元格输入 =$A$1,填充的时候不会改变,始终为A1的内容。混合引用分为行绝对列相对和行相对列绝对。单元格输入 =A
2020-08-12 00:00:13
525
原创 数据分析-Excel基础操作
Excel是数据分析人员的基础工具,Excel的功能也是非常强大,比如说制作报表、小工具开发、游戏制作,数据计算等等。所以说学好Excel,对自己的工作也是非常有帮助的。认识ExcelExcel界面主要分为标题栏、快速访问工具栏、功能区、名称框、编辑栏、工作表区等。标题栏显示Exce的名称;快速访问工具栏显示常用的操作,如保存(快捷键 Ctrl +S)、撤销;功能区包含Excel的各种操作指令;名称框为单元格的显示名称,如A1、A2;编辑栏为单元格的内容编辑区,可以编辑文字,公式等。整个Excel为工
2020-08-05 23:19:37
1140
原创 Python环境搭建及IDE安装
前言人生苦短,我用Python,Python作为一门高级语言,拥有很多优点。比如说代码简单易懂、开发效率高、第三方库强大等。当然Python并不是完美的,相对于java、C++这些语言来说,其运行速度较慢、不支持多线程。语言的应用也取决于领域,在人工智能、数据挖掘、图像处理和科学计算等领域,Python使用情况比较多。Ubuntu系统和Mac系统自带Python,Ubuntu系统为Python2.7和Ubuntu3.5,Mac系统为Python2.7。另外安装Python环境的原...
2020-07-26 14:37:35
557
原创 MySQL及可视化IDE安装及配置
前言SQL是访问和处理数据库的语言,英文全称为Structured Query Language。数据库有MySQL、MariaDB、MongoDB、SQL Server等,这些数据库为操作型数据库,面向应用。本文选择MySQL数据库作为SQL的操作平台,理由是开源,易用、比较成熟。数据库安装之后,最好安装可视化操作工具,理由是容易理解,好操作。数据库可视化的工具有DBeaver、Navicat、MySQL-Front等,本文选择Navicatpremium作为MySQL的可视化操作平台。...
2020-07-26 14:33:21
1751
1
原创 ubuntu14.04下安装pytorch(无GPU版)
ubuntu14.04下安装pytorch(无GPU版)一 环境配置 1 python2.7 或者 python3 2 官网下载相应版本 http://pytorch.org/ 我下载是torch-0.3.0.post4-cp27-cp27mu-linux_x86_64.whl 3.0版本 python2.7 3 选择pip安装就行 不要用conda安装 没有翻墙4 pip insta...
2018-03-13 15:44:29
1086
转载 CUDNN版本太低出错+编译PSPNet用Cuda-8.0出现错误。
#解决办法:1.将./include/caffe/util/cudnn.hpp 换成最新版的caffe里的cudnn的实现,即相应的cudnn.hpp.将./include/caffe/layers里的,所有以cudnn开头的文件,例如cudnn_conv_layer.hpp。 都替换成最新版的caffe里的相应的同名文件。3.将./src/caffe/layer里的,所有
2017-10-27 16:03:46
678
1
转载 运行python提示no module named sklearn
安装支持部分:在terminal里面直接输入以下命令,这个命令会安装sklearn所需要的依赖,主要包括 scipy, numpy一些主流依赖。sudo apt-get install build-essential python-dev python-numpy python-setuptools python-scipy libatlas-dev libatlas3-base 1.1 强烈推
2017-10-15 19:28:57
24908
转载 编译 pycaffe时报错:fatal error: numpy/arrayobject.h没有那个文件或目录
解决方法命令行输入进pythonimport numpy as np np.get_include() 得到:/usr/local/lib/python2.7/dist-packages/numpy/core/include在Makefile.config找到PYTHON_INCLUDE,发现有点不同:PYTHON_INCLUDE := /usr/include/python2.7 \
2017-10-10 18:53:08
2191
原创 生成LMDB遇到的问题
问题1 最开始生成的两个lmdb文件上有个×,看属性大小是0字节,chown -R 用户名 /home/用户名/caffe/examples/myfile 得到了root权限后,两个文件就变成可操作的了,再看属性就都有字节了
2017-10-03 10:28:19
1029
原创 Caffe GPU版 安装配置
Caffe GPU版 安装配置caffe是一个深度学习框架,由贾杨清博士开发。本文主要从如下几点介绍:硬件环境系统:Ubuntu14.04 主显: Gallium 独显: GeForce GTX TITAN XP Intel E5-2620 V4 16软件环境cuda8.0 cudnn V5 caffe1 cuda8.0安装1.1 检查自己的电脑是否具备
2017-09-19 20:58:21
630
markdown工具.zip
2020-08-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人