[Spark应用]-- 使用spark的dataframe实现单词统计

最新推荐文章于 2024-07-13 00:08:49 发布

oo寻梦in记

最新推荐文章于 2024-07-13 00:08:49 发布

阅读量3.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： Apache Spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/high2011/article/details/51517735

Apache Spark 专栏收录该内容

137 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Spark的DataFrame API进行单词统计。通过处理文本文件内容，利用DataFrame的算子进行数据操作，最终得到每个单词出现的次数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、文件内容

world
hello
www
cassie
wwwhello
www
lisi
world
cassie
hello

二、操作类

package com.day.scala.sql


import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.DataTypes
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.StructField
/**
 * scala sql版本的单词统计
 */
object WordCount {
  def main(args:Array[String]):Unit={
    //获取context
    val sc=new SparkContext(new Spark

了解本专栏