[Spark][Python]Wordcount 例子

最新推荐文章于 2024-07-03 15:06:34 发布

H_MZ

最新推荐文章于 2024-07-03 15:06:34 发布

阅读量170

点赞数

文章标签： python 大数据

本文通过一个具体的例子展示了如何利用Apache Spark对文本文件进行处理，包括读取文件、拆分单词、统计词频等步骤。通过对这些过程的详细解析，为读者提供了理解和应用Spark进行大数据处理的基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[training@localhost ~]$ hdfs dfs -cat cats.txt

The cat on the mat
The aardvark sat on the sofa
[training@localhost ~]$

mydata001=sc.textFile('cats.txt')

mydata002=mydata001.flatMap(lambda line: line.split(" "))

In [12]: mydata002.take(1)
Out[12]: [u'The']

In [13]: mydata002.take(2)
Out[13]: [u'The', u'cat']

mydata003=mydata002.map(lambda word : (word,1))

In [10]: mydata003.take(1)
Out[10]: [(u'The', 1)]

In [11]: mydata003.take(2)
Out[11]: [(u'The', 1), (u'cat', 1)]

mydata004 = mydata003.reduceByKey(lambda x,y : x+y)

In [15]: mydata004.take(1)
Out[15]: [(u'on', 2)]

In [16]: mydata004.take(2)
Out[16]: [(u'on', 2), (u'mat', 1)]

In [17]: mydata004.take(3)
Out[17]: [(u'on', 2), (u'mat', 1), (u'sofa', 1)]

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

H_MZ

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python开发Spark应用之Wordcount词频统计

Jooey_Zhong

10-23

8062

待我学有所成，结发与蕊可好。@夏瑾墨一个早上只做了一点微小的工作，很忏愧。但是发现Spark这玩意还是蛮有意思的。下面给大家介绍一下如何用python跑一遍Wordcount的词频统计的示例程序。#在pyspark模块中引入SparkContext和SparkConf类 #在operator模块中导入add类 from pyspark import SparkContext, SparkConf

spark编程基础python版实验报告_Spark2.1.0+入门：RDD编程(Python版)

weixin_39525865的博客

12-15

1194

通过前面几章的介绍，我们已经了解了Spark的运行架构和RDD设计与运行原理，并介绍了RDD操作的两种类型：转换操作和行动操作。同时，我们前面通过一个简单的WordCount实例，也大概介绍了RDD的几种简单操作。现在我们介绍更多关于RDD编程的内容。Spark中针对RDD的操作包括创建RDD、RDD转换操作和RDD行动操作。RDD创建RDD可以通过两种方式创建：* 第一种：读取一个外部数据集。比...

参与评论您还未登录，请先登录后发表或查看评论

学习随笔 --SparkStreaming WordCount Python实现

bai7785的博客

08-29

270

# -*- coding:utf-8 -*- from pyspark import SparkContext from pyspark.streaming import StreamingContext # StreamingContext 流功能的主要入口点 # 创建一个具有两个执行线程的本地StreamingContext，批处理间隔为1秒 #SparkStrea...

spark-streaming的wordcount程序(python 累加)

大鹰的天空

01-04

1156

代码：''' spark-streaming wordcount程序 author:殷雄 ''' import os import sys os.environ['SPARK_HOME'] = "/opt/spark-2.2.0-bin-hadoop2.7" sys.path.append("/opt/spark-2.2.0-bin-hadoop2.7/python")try: from p

spark 2.2.0 wordcount python版

豆筱豆的博客

01-11

423

import os import sys os.environ['SPARK_HOME'] = '/opt/spark' sys.path.append("/opt/spark/python") from pyspark import SparkContext from pyspark import SparkConf sc = SparkContext("spark://node0:7077"

使用Pyspark编写wordcount程序

weixin_30443075的博客

01-21

267

# Word count on manuscript using PySpark # import regex moduleimport re# import add from operator modulefrom operator import add # read input filefile_in = sc.textFile('/home/an/Documents/A00_Docume...

Python Spark WordCount

shilaike2的博客

05-21

1998

1.map与flatMap 的区别; 使用map产生的 list 是分层的，第一层是 List 文件文本的第一行，第二层是 List 每一行内英文单词，而 flatMap 有平铺的意思，产生的 List 会去掉分层，文件读取textFile = sc.textFile('dir/目录')Word 分散，偏平化stringRDD= textFile.flatMap(lambda line: li...

Spark集群WordCount实战：从IDEA开发到HDFS数据处理

- **安装Scala**: Spark的API多数是用Scala编写的，虽然可以使用Java、Python等其他语言进行开发，但使用Scala会更加便捷。因此，建议在开发Spark程序之前安装Scala。 - **安装SBT**: Scala Build Tool（SBT）是...

Spark-SQL-Python编程

dlphay的博客

08-11

1116

使用Pycharm来实现Spark-SQL。 from pyspark import Row from pyspark.sql import SparkSession from pyspark.sql.types import StructField, StringType, StructType if __name__ == "__main__": spark = SparkSes...

18 | Word Count：从零开始运行你的第一个Spark应用

最新发布

qq_37756660的博客

07-03

872

今天我们来从零开始运行第一个 Spark 应用。我们先来回顾一下模块三的学习路径。首先，我们由浅入深地学习了 Spark 的基本数据结构 RDD，了解了它这样设计的原因，以及它所支持的 API。之后，我们又学习了 Spark SQL 的 DataSet/DataFrame API，了解到它不仅提供类似于 SQL query 的接口，大大提高了开发者的工作效率，还集成了 Catalyst 优化器，可以提升程序的性能。这些 API 应对的都是批处理的场景。

Spark 程序 WordCount实现 Scala、Python

Tomorrow never comes

03-03

401

单词统计程序Scala实现---idea 安装scala插件创建maven项目，引入scala sdkpom.xml<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/...

Spark学习实例(Python)：单词统计 Word Count

厚积薄发

07-16

5148

我们从学习一门新语言如C、Java、Python等基本都是从"Hello World"开始的，而这里的WordCount类似于"Hello World"，该实例的功能是统计各个单词出现的次数，比如随意给你一份政府报告找出政府工作重点内容，那么就可以通过单词统计来完成，排除掉那些语气词(啊、的、是等等)出现词的频率越高代表着政府越重视。本文是基于Pyhon的Spark Local来进行，因此需要...

Spark下使用python写wordCount

TURING.DT

11-18

5139

安装spark就省略了，网上很多方法。 test-data.txt文件 a b c aaa bbb ccc a b c c b a vi wordcount.py #!/usr/bin/env python #-*-conding:utf-8-*- import logging from operator import add from pyspark impor

在spark下用pyhton写worldCount

vs412237401的博客

07-04

6696

worldCount是经典的mapreduce程序环境：linux+spark1.6.2+pycharm 相关文档如下：http://spark.apache.org/docs/1.6.2/api/python/pyspark.html 准备工作：先安装java,maven等环境，下载最新的spark安装文件解压到/data/work/spark-1.6.2目录（我下载的安装文件为spar

spark实现wordCount(scala、python）

Victor_Monkey的博客

09-18

942

本文环境spark1.6，java1.8, scala 2.1.6, python 2.7 Spark是大家非常熟悉的大数据处理框架，虽然在公司已经使用了很久，但是没有深入的了解过Spark的底层代码原理，大家都清楚，Spark是由scala开发实现的，为了深入了解Spark，学习scala是必不可少的，在这里简单的写一下三种语言调用Spark接口的方式，实现wordCount功能。 Scal...

Spark中WordCount示例

weixin_34267123的博客

04-06

500

2019独角兽企业重金招聘Python工程师标准>>> ...

python+spark小实例

chengxuyuanyonghu的专栏

01-30

1024

%pyspark#查询认证用户import sys#import MySQLdbimport mysql.connectorimport pandas as pdimport datetimeimport timeoptmap = { 'dbuser' : 'haoren', 'dbpass' : 'G4d', ...

spark实现詞频分析WordCount(python)

Handoking的博客【学无止境】

07-18

1802

spark的安装配置见上一篇博文。 1.在spark的home目录下新建文件夹 /usr/local/spark/mycode/wordcount #分别建mycode与wordcount 2.在wordcount中新建程序test.py以及需要分析的文件word.txt 如word.txt内容为： When you are old and grey and full of slee...

Spark及HDFS环境下使用python的wordcount实例

lpty的博客

01-24

5739

一前言本文基于hadoop及spark完全分布式环境，详情查看以下文章： 1 Hadoop环境 2 spark环境二实例代码默认存放路径：/usr/local/work 1.在HDFS上已经存放了文档，上传方式在我另一篇文章中有，这里就不贴出来了 2.wordcount.py from pyspark import SparkContext inputFil