- 博客(5)
- 收藏
- 关注
原创 初识Kafka及实践
大数据学习笔记05 初识Kafka及实践 Kafka是一种高吞吐量的分布式订阅消息系统,这里我们将Kafka作为数据源,让Kafka产生数据发送给Spark Streaming应用程序,Spark Streaming应用程序再对接收到的数据进行实时处理,从而完成一个典型的流计算过程。 实验步骤如下: 第一个终端启动zookeeper ./bin/zookeeper-server-start.sh config/zookeeper.properties 第二个终端启动kafka bin/kafka-
2022-05-12 15:48:24
470
原创 Spark Streaming编程实践
大数据学习笔记04 Spark Streaming编程实践 在pyspark中创建文件流 首先在系统中打开第一个终端(记作数据源终端),命令如下: $ cd /usr/local/spark/mycode $ mkdir streaming $ cd streaming $ mkdir logfile $ cd logfile 其次在系统中打开第二个终端(记作流计算终端) 启动进入pyspark后,输入如下命令: >>> from pyspark import SparkContext
2022-05-12 15:44:19
787
原创 Spark SQL基本操作
大数据学习笔记03 Spark SQL基本操作 将下列json数据复制到你的ubuntu系统/usr/local/spark下,并保存命名为employee.json { "id":1 ,"name":" Ella","age":36 } { "id":2,"name":"Bob","age":29 } { "id":3 ,"name":"Jack","age":29 } { "id":4 ,"name":"Jim","age":28 } { "id":5 ,"name":"Damon" } { "id
2022-05-09 20:59:11
3331
原创 Pyspark交互式编程
大数据学习笔记02 Pyspark交互式编程 有该数据集Data01.txt 该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Jim,DataBase,90 Jim,Algorithm,60...... 根据给定的数据集,在pyspark中通过编程来完成以下内容: 该系总共有多少学生; (提前启动好pyspark) lines = sc.textFile("file:///usr/local/spark/sparksqld
2022-05-09 20:25:50
4582
2
原创 HDFS常用操作
大数据学习笔记01 学习林子雨大数据教材的一些笔记 HDFS常用操作 启动Hadoop,在HDFS中创建用户目录“/user/hadoop”;$ cd /usr/local/hadoop $ ./sbin/start-dfs.sh $ jps 在Linux系统的本地文件系统的“/usr/local/spark/mycode”目录下新建一个文本文件Word.txt$ cd /usr/local/spark $ mkdir mycode $ touch Word.txt || $vim Word.t
2022-05-09 20:24:21
7588
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅