- 博客(5)
- 收藏
- 关注
原创 初识Kafka及实践
大数据学习笔记05初识Kafka及实践Kafka是一种高吞吐量的分布式订阅消息系统,这里我们将Kafka作为数据源,让Kafka产生数据发送给Spark Streaming应用程序,Spark Streaming应用程序再对接收到的数据进行实时处理,从而完成一个典型的流计算过程。实验步骤如下:第一个终端启动zookeeper./bin/zookeeper-server-start.sh config/zookeeper.properties第二个终端启动kafkabin/kafka-
2022-05-12 15:48:24
439
原创 Spark Streaming编程实践
大数据学习笔记04Spark Streaming编程实践在pyspark中创建文件流首先在系统中打开第一个终端(记作数据源终端),命令如下:$ cd /usr/local/spark/mycode$ mkdir streaming$ cd streaming$ mkdir logfile$ cd logfile其次在系统中打开第二个终端(记作流计算终端)启动进入pyspark后,输入如下命令:>>> from pyspark import SparkContext
2022-05-12 15:44:19
727
原创 Spark SQL基本操作
大数据学习笔记03Spark SQL基本操作将下列json数据复制到你的ubuntu系统/usr/local/spark下,并保存命名为employee.json{ "id":1 ,"name":" Ella","age":36 }{ "id":2,"name":"Bob","age":29 }{ "id":3 ,"name":"Jack","age":29 }{ "id":4 ,"name":"Jim","age":28 }{ "id":5 ,"name":"Damon" }{ "id
2022-05-09 20:59:11
3221
原创 Pyspark交互式编程
大数据学习笔记02Pyspark交互式编程有该数据集Data01.txt 该数据集包含了某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Jim,DataBase,90Jim,Algorithm,60......根据给定的数据集,在pyspark中通过编程来完成以下内容:该系总共有多少学生; (提前启动好pyspark)lines = sc.textFile("file:///usr/local/spark/sparksqld
2022-05-09 20:25:50
4418
2
原创 HDFS常用操作
大数据学习笔记01学习林子雨大数据教材的一些笔记HDFS常用操作启动Hadoop,在HDFS中创建用户目录“/user/hadoop”;$ cd /usr/local/hadoop$ ./sbin/start-dfs.sh$ jps在Linux系统的本地文件系统的“/usr/local/spark/mycode”目录下新建一个文本文件Word.txt$ cd /usr/local/spark$ mkdir mycode$ touch Word.txt || $vim Word.t
2022-05-09 20:24:21
7412
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人