
Spark
你家宝宝
自2018年接触到Java,至今。
展开
-
淘宝双11大数据分析(Spark 分析篇)
文章目录前言test.csv 和 train.csv 数据预处理test.csv 文件的处理train.csv 文件的处理Spark 处理数据执行环境上传文件到HDFSMySQL 的准备工作启动 Spark Shell支持向量机SVM分类器预测回头客输出结果到 mysql 中mysql 确认数据已经存储进去前言阅读前请参考:淘宝双11大数据分析(环境篇)淘宝双11大数据分析(数据准备篇)...原创 2020-02-27 14:22:28 · 9896 阅读 · 8 评论 -
淘宝双11大数据分析(数据准备篇)
文章目录前言数据内容分析`user_log.csv`文件内容含义`train.csv` 和 `test.csv` 文件内容含义数据上传到Linux系统并解压数据集的预处理文件信息截取导入数据到Hive中确认 Hadoop 服务已启动上传数据文件在 Hive 上创建数据表前言阅读前,请先查看前篇:淘宝双11大数据分析(环境篇)数据下载地址:百度云下载另:为求方便行事,我这里的用户全是 roo...原创 2020-02-26 12:45:40 · 10674 阅读 · 6 评论 -
淘宝双11大数据分析(环境篇)
案例分析前言通过本案例,你可以:熟悉在 Linux 系统中安装 Hadoop 集群、安装 Mysql 数据库,安装 Sqoop 数据迁移工具,安装 Spark ,安装 Hive 数据仓库。在 HDFS 分布式文件系统中创建文件夹、上传文件。在 Hive 中建立表,使用 Hive 对 HDFS 中的文件进行操作,使用 HQL 进行业务查询。使用 Sqoop 将 Hive 中的数据迁移到...原创 2020-02-26 10:35:14 · 7983 阅读 · 4 评论 -
Linux 安装 Spark (单机版)
前言首先需要安装好 JDK 和 Hadoop 。参考:Linux 安装 JDK(图文教程)Hadoop 集群搭建详细步骤下载与解压官网下载解压:在 Linux 目录 /usr/spark 下进行解压:使用命令tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz 即可。配置环境变量[root@centos2020 spark]# vim /etc/pr...原创 2020-02-26 10:20:26 · 1902 阅读 · 0 评论 -
Spark TopN 算法的实现
https://blog.youkuaiyun.com/luofazha2012/article/details/80636858转载 2020-02-12 17:45:00 · 293 阅读 · 0 评论 -
Spark Streaming 自定义数据源之 WordCount
实现监控某个端口号,获取该端口号内容。package org.feng.streamimport java.io.{BufferedReader, InputStreamReader}import java.net.Socketimport java.nio.charset.StandardCharsetsimport org.apache.spark.internal.Loggin...原创 2020-02-12 16:30:19 · 1453 阅读 · 2 评论 -
Spark 时间窗口的 worldcount 在 windows 环境下运行
环境监听端口(参考博客时,直接翻到最下边):C:\Users\Feng>nc -l -p 12345hello world helloworld world worldhellhellllllll ll llll ll oo结果展示:-------------------------------------------Time: 1581494862000 ms-...原创 2020-02-12 16:14:36 · 326 阅读 · 0 评论 -
Spark Streaming 生产数据到 Kafka(windows 环境下)
环境介绍本文是在 windows 环境下的一次练习。Jdk 版本, 1.8zookeeper,3.4.14kafka 版本,2.11-2.3.1使用语言:javapom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...原创 2020-02-12 16:02:30 · 414 阅读 · 0 评论 -
Spark 练习之 Spark SQL 与数据源
Spark 练习之 Spark SQL 与数据源练习内容:使用Spark SQL加载JSON文件并展示数据使用Spark SQL加载Hive表数据并展示使用Spark SQL JDBC数据源连接到MySQL数据,加载并保存数据使用Spark SQL加载并保存Avro数据本文内容参考于: Spark SQL 官网 和 本人博客:Spark SQL 之数据源读取 JSON 文件pe...原创 2020-02-10 19:14:38 · 396 阅读 · 1 评论 -
Spark 练习之疫情分析
Spark SQL 练习之疫情分析2020 年,春节假期期间,国内因疫情事件影响巨大!众志成城,抗击疫情!(衷心希望,形势能够好转)现在,将使用的 Spark SQL 的功能,分析一组数据!假设疫情数据有:人员信息 (civic_info.csv)票务信息(ticket_info.csv)分析任务如下:任务序号任务描述1湖北籍人员信息2武汉疫区人员...原创 2020-02-09 16:08:48 · 1348 阅读 · 0 评论 -
Spark SQL之数据源
前言本篇文章来源于官方文档。Spark SQL 通过 DataFrame 接口支持操作各种数据源。一个 DataFrame 能够通过使用关系转换和创建临时视图来操作数据。当你使用临时视图注册一个 DataFrame 时,你可以在这数据上运行 SQL 查询。注意,本文中的完整代码和所需的资源文件如下【官方案例】SQLDataSourceExample.scala资源文件通用的读取、保存函...翻译 2020-02-07 17:01:46 · 1116 阅读 · 0 评论 -
Spark SQL入门
1、什么是Spark SQL?1.1 定义Spark SQL的官网官方定义:Spark SQL is Apache Spark’s module for working with structured data.中文意思是,Spark SQL 是 Spark 用来处理结构化数据的一个模块。它提供了2个编程抽象,DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。与基...翻译 2020-02-05 15:24:49 · 364 阅读 · 0 评论 -
Spark 读写 Hbase(Windows环境)
1、环境表和表空间提前准备好(可参考:https://blog.youkuaiyun.com/FBB360JAVA/article/details/103963765);使用 IDEA 安装 scala 插件添加依赖2、依赖和jar文件2.1 pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http:/...原创 2020-01-14 14:35:33 · 381 阅读 · 0 评论