Spark学习中,遇到了无法使用partitionBy()方法的问题

本文探讨了在Spark中使用partitionBy()方法时遇到的问题及其解决办法。通过一个具体示例,作者展示了如何确保RDD数据结构正确以支持该方法的应用,并解释了partitionBy()作为PairRDDFunctions的一部分,仅适用于键值对类型的RDD。

Spark学习中,遇到了无法使用partitionBy()方法的问题,idea无提示,显示没有此方法,

解决过程,

    val rdd3 = rdd2.map(t => {
      val url = t._1
      val host = new URL(url).getHost
      (host, (url, t._2))
    })

其中 (host, (url, t._2))被我写成了(host, url, t._2),而partitionBy()是PairRDDFunctions的方法,只适用于【k,v】类型的rdd

/**
 * Extra functions available on RDDs of (key, value) pairs through an implicit conversion.
 */
class PairRDDFunctions[K, V](self: RDD[(K, V)])
    (implicit kt: ClassTag[K], vt: ClassTag[V], ord: Ordering[K] = null)
  extends Logging with Serializable {
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值