31. Spark 读取mongo 使用withPipeline的用法：

最新推荐文章于 2022-07-04 01:51:00 发布

元元的李树

最新推荐文章于 2022-07-04 01:51:00 发布

阅读量1.3k

点赞数

文章标签： Spark

本文链接：https://blog.youkuaiyun.com/qq0719/article/details/103005399

版权

31.

Spark 读取mongo 使用withPipeline的用法：

在工作中遇到过需要从一个公司列表中找出mongo中存在的公司信息。参考Mongo语法 $in可支持这个用法

https://docs.mongodb.com/manual/reference/operator/query/in/

需要配合spark的.withPipeline来使用。

https://docs.mongodb.com/spark-connector/current/scala/aggregation/

pipeline需要给出的条件是字符串，所以需要对一些字段转换成字符串即可

【 scala 的 mkstring 用法 https://blog.youkuaiyun.com/lan12334321234/article/details/84882002】

下面贴出关键的代码。

#dataFrame都只有公司名
val addCompanyNameArray = entryCompanyNameDF.except(stgCompanyNameDF).map(r => r.getString(0)).collect.toArray

#将公司Array转为字符串
// 将Array转换成String 
var addCompanyNameStr = addCompanyNameArray.mkString("\"", "\",\"", "\"")  

#读取Mongo的过程不做赘述
#下面 withPipeline 配合 $in来使用

val df = sc.loadFromMongoDB(readconf).withPipeline(Seq(Document.parse("{ $match: { 'name' : {$in : [" + addCompanyNameStr + "]} } }"))).toDF(schema)

此贴来自汇总贴的子问题，只是为了方便查询。

总贴请看置顶帖：

pyspark及Spark报错问题汇总及某些函数用法。

https://blog.youkuaiyun.com/qq0719/article/details/86003435

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

元元的李树

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

MongoDB聚合查询 Pipeline 和 MapReduce

m0_46690280的博客

08-12

2127

MongoDB聚合查询MongoDB聚合查询什么是聚合查询MongoDB的聚合查询聚合管道方法聚合流程详细流程聚合语法常用聚合管道$count MongoDB聚合查询什么是聚合查询聚合操作主要用于处理数据并返回计算结果。聚合操作将来自多个文档的值组合在一起，按条件分组后，再进行一系列操作（如求和、平均值、最大值、最小值）以返回单个结3果。 MongoDB的聚合查询聚合是MongoDB的高级查询语言，它允许我们通过转化合并由多个文档的数据来生成新的在单个文档里不存在的文档信息。MongoDB中聚合(ag

Mongodb 学习笔记（8）记一次利用PipeLine的复杂统计语句

大O的博客

07-05

872

数据源结构如下： { "_id": ObjectId("5d134888480fb40d91b36814"), "labeler_label_result": { "boxes": [{ "label_id": "test", "area": 2785.185185185186 }, { "label_id": "test", "area": 9449.38...

参与评论您还未登录，请先登录后发表或查看评论

spark+mongodb + quartz

changyuan101的博客

11-21

3931

由于业务数据量大，使用普通查询统计已不能满足需求，所以使用spark+mongodb进行聚合统计，两种方案 1使用quartz调度spark，定时进行业务数据统计 2使用crontab调度spark，定时进行业务数据统计为了便于管理最终使用方案1 quartz调度代码这里就不展示了，只写spark+mongodb调用 1 引入maven依赖 o

spark PIPELINE使用

u013571243的专栏

05-22

3286

ML中的pipeline估计是参考了py的Scipy等把 1.PIPELINE的主要部分就是 val pipeline = new Pipeline() .setStages(Array(tokenizer, hashingTF, lr)) // Fit the pipeline to training documents. val model = pipeline.fit(tr

pyspark链接mongodb数据操作

u010955999的博客

12-25

4318

如何导入数据数据可能有各种格式，虽然常见的是HDFS，但是因为在Python爬虫中数据库用的比较多的是MongoDB，所以这里会重点说说如何用spark导入MongoDB中的数据。当然，首先你需要在自己电脑上安装spark环境，简单说下，在这里下载spark，同时需要配置好JAVA，Scala环境。这里建议使用Jupyter notebook，会比较方便，在环境变量中这样设置 PY...

org.mongodb.spark:mongo-spark-connector_2.11:1.1.0

11-30

mongodb-spark官方连接器，运行spark-submit --packages org.mongodb.spark:mongo-spark-connector_2.11:1.1.0可以自动下载，国内网络不容易下载成功，解压后保存到~/.ivy2目录下即可。

【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource

01-20

File /home/cisco/spark-mongo-test.py, line 7, in df = spark.read.format(com.mongodb.spark.sql.DefaultSource).load() File /home/cisco/spark-2.2.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/sql/...

spark读mongo

Cazzzz的博客

11-20

689

spark读取mongo数据（python）使用mongo官方提供的spark connector可以很方便的让spark读写mongo中的数据。示例： from pyspark.sql import SparkSession from pyspark import SparkConf if __name__=='__main__': myconf = SparkConf() ...

mongoSpark:MongoSpark是一个基于Maven的Java项目，它显示了使用Mongodb Hadoop Connector将Spark与MongoDb集成。最初，它不包含任何大数据分析，但在不久的将来将包含

05-14

MongoSpark是一个基于Maven的Java项目，它显示了使用Mongodb Hadoop Connector将Spark与MongoDb集成。最初，它不包含任何bigData分析，但将在不久的将来包含。最初，该项目仅将一个馆藏的所有文档复制到另一个...

Java spark Caused by: java.lang.ClassNotFoundException: mongo.DefaultSource

最新发布

12-13

确保你使用的MongoDB Spark连接器的版本与你的Spark版本兼容。版本不兼容也可能导致类找不到的问题。 3. **类路径问题**：确保所有的依赖库都已经正确地包含在运行时的类路径中。如果你是通过命令行运行Spark...

mongodb的java测试用例

linyu19872008的专栏

02-11

224

mongodb java驱动包下载：https://github.com/mongodb/mongo-java-driver/downloads 本测试用例包括：查询数据库、查询聚类集合、查询数据、添加数据、添加多条数据、删除数据、修改数据操作，更多操作请使用者以此类推。完整工程下载地址：http://download.csdn.net/detail/linyu198720...

Spark机器学习管道 - Pipeline

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

07-04

1378

掌握使用Spark机器学习管道创建小型机器学习工作流。1、构建一个机器学习管道，应用LogisticRegression算法，预测一行文本中是否出现了”spark”这个单词。Spark ML有一个名为Pipeline的类，它被设计用来管理一系列的阶段，每一个阶段都由PipelineStage来表示。一个PipelineStage既可以是transformer，也可以是estimator。抽象Pipeline是一种estimator。管道以指定的顺序连接多个transformers和estimators，形成

spark与MogoDB不得不说的故事

我见青山多妩媚，料青山见我应如是

10-25

1797

一.背景 spark2.x Scala 2.11.x 截取pom.xml <dependencies> <dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-connector_2.11</artifactId> <v...

MongoDB + Spark: 完整的大数据解决方案

u010385646的专栏

09-30

1万+

原文链接 Spark介绍按照官方的定义，Spark 是一个通用，快速，适用于大规模数据的处理引擎。通用性：我们可以使用Spark SQL来执行常规分析， Spark Streaming 来流数据处理，以及用Mlib来执行机器学习等。Java，python，scala及R语言的支持也是其通用性的表现之一。快速：这个可能是Spark成功的最初原因之一，主要归功于其基于

初识pipeline

weixin_30256901的博客

06-15

527

1、pipeline的产生从一个现象说起，有一家咖啡吧生意特别好，每天来的客人络绎不绝，客人A来到柜台，客人B紧随其后，客人C排在客人B后面，客人D排在客人C后面，客人E排在客人D后面，一直排到店面门外。老板和三个员工首先为客人A准备食物：员工甲拿了一个干净的盘子，然后员工乙在盘子里装上薯条，员工丙再在盘子里放上豌豆，老板最后配上一杯饮料，完成对客人A的服务，送走客人A，下一位客人B开...

学习MongoDB 十二： MongoDB聚合（Aggregation Pipeline基础篇-下）（四）