
大数据
我能想到的
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop环境搭建
目录 1. jdk1.8安装,环境变量配置 2. 配置hostname 3. 设置ip和hostname的映射关系 4. 设置ssh免密码登录 5. hadoop下载地址(百度搜索cdh5) 6. 解压hadoop到~/app目录,并且配置环境变量 7. 修改hdfs配置文件 8. HDFS格式化 9. 启动HDFS 10. YARN配置 11. 启动yarn 1. jdk...原创 2019-03-14 16:00:26 · 240 阅读 · 0 评论 -
大数据开发环境搭建2:Apache Hive环境搭建(centos7)
一、前提条件 1. 先搭建hadoop环境,具体参考Apache Hive环境搭建 二、mysql安装(rpm方式安装,可以使用yum方式安装,更加智能,会自动安装依赖) 1. 卸载mariadb rpm -qa | grep mariadb rpm -e --nodeps mariadb-libs-5.5.60-1.el7_5.x86_64 2. 解压 tar -axvf ...原创 2019-08-07 17:56:58 · 246 阅读 · 0 评论 -
大数据环境搭建3:Apache Sqoop环境搭建
1. 下载sqoop安装包 下载地址http://mirror.bit.edu.cn/apache/sqoop/1.4.7/ 2. 上传sqoop安装包,并安装 解压安装 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ../app 3. 配置环境变量 (1) vi /etc/profile export SQOOP_HOME=/h...原创 2019-08-08 17:35:26 · 460 阅读 · 1 评论 -
使用hql验证身份证号码的合法性
一、身份证号码的组成规则 (1)第1、2位数字表示:所在省份的代码; (2)第3、4位数字表示:所在城市的代码; (3)第5、6位数字表示:所在区县的代码; (4)第7、8、9、10位代表出生年; (5)第11位、12位表示:出生月; (6)第13位、14位表示:出生日; (7)第15、16位表示:同年同月同日同地区出生的顺序; (8)第17位表示性别:奇数表示男性,偶数表示女性; (9)...原创 2019-07-31 14:32:10 · 522 阅读 · 0 评论 -
大数据环境搭建1:apache hadoop环境搭建(centos7)
1. 集群规划 2. 修改主机名(三台机器) 3. 设置ip地址 (如果有图形界面,可以直接通过图形界面进行设置,三台机器) 4. 配置主机名映射(三台机器) 5. 关闭防火墙和selinux(三台机器) 6. 安装jdk(略) 7. 拍摄快照,方便日后重新搭建环境 8. 配置ssh免密码登录 9. 下载apache hadoop2.7.7 10. 解压安装had...原创 2019-07-18 15:24:15 · 531 阅读 · 0 评论 -
scala编程入门3:Map与Tupple
package com.cs.testscala import scala.collection.mutable import scala.collection.mutable._ import scala.util.Sorting._ object TestScala { def main(args: Array[String]): Unit = { // map与分为可变的m...原创 2019-07-14 23:28:29 · 322 阅读 · 0 评论 -
scala编程入门2:数组
一、 scala中的数组 1. scala中的数组有两种,Array和ArrayBuffer,Array是定长数组,ArrayBuffer是变长数组。 2. Array的使用如下: //1. 定义数组最简洁的方式 val arr1 = Array(1,2,3,4) val arr2 = Array("hello", "world") //2. 也可以这么定义...原创 2019-07-13 19:10:46 · 297 阅读 · 0 评论 -
idea安装scala插件
1. 查看自己的idea版本号,点击help -> about 2. 查看版本号 3. 在这个网址下载与idea版本对应的scala插件,注意需要与idea版本对应,否则安装不了。 https://plugins.jetbrains.com/plugin/1347-scala/versions 4. 安装scala插件 (1)在菜单栏点击file -> Setting...原创 2019-07-13 17:25:12 · 2434 阅读 · 0 评论 -
spark学习笔记3(使用spark Sql进行离线数据分析项目数据的可视化、yarn运行、优化)
八、数据可视化 1. Echarts (百度)的使用 2. 前面统计的结果存放在 Mysql 中,需要使用 Echarts展示出来 3. 使用 Echarts (详见百度官网) (1) 从官网下载 echarts.min.js (2) 在 html 的头部引入echarts.min.js (3) 在官网复制需要的图形的脚本文件并进行相应的修改 4.使用 idea 创建 web 项...原创 2019-03-13 11:29:59 · 1440 阅读 · 0 评论 -
spark学习笔记1
一、开发sql程序 (1) new sql context) (2) val data = sql context.read ("joon").load (jsonfilepath) //返回的是张表 (3)data.show() //可以直接使用show查看数据 (4) 上传至服务器 (5) 提交作业 spark.submit --class --master -jars filep...原创 2019-03-12 17:24:19 · 266 阅读 · 0 评论 -
spark学习笔记2(使用spark Sql进行离线数据分析项目)
网站日志分析实战.项目 一、 用户行为日志概述 1. 用户访问、浏览、搜索、点击等行为都会被记录在网站的服务器上。 2. 用户的访问信息主要包括如下内容: (1)系统属性。(操作系统、浏览器) (2)点击的 url, 从什么 url 跳转过来 (3) 用户的sessionI...原创 2019-03-12 21:56:58 · 4526 阅读 · 0 评论 -
spark环境搭建
1. spark源码编译 (1)地址https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-sources.tgz 2. 编译 参考官网http://spark.apache.org/docs/latest/building-spark.html 3. 执行下面的命令进行编译 ./dev/make-distri...原创 2019-03-14 17:27:06 · 186 阅读 · 0 评论 -
电商数仓项目系列一:数据仓库简介
一、数仓定义 数据仓库顾名思义就是存储数据的仓库,不同于业务数据库用作业务支撑,数据仓库是分析系统最核心的组成部分,使用这些数据为我们的报表分析(各种销售指标),广告推广(在什么地方、什么渠道投放广告),app、网站优化(商品如何展示,排列),个性化推荐等服务领域提供数据支持。既然是数据仓库,那么数据仓库的数据从哪里来?在数据仓库中怎么存储?如何将源数据存储到数仓中,这些数据将来有什么用?下面分...原创 2019-09-10 14:03:31 · 4727 阅读 · 0 评论