
spark
yayun_kg
这个作者很懒,什么都没留下…
展开
-
MongoDB on SparkSql的读取和写入操作(Python版本)
MongoDB on SparkSql的读取和写入操作(Python版本)1.1 读取mongodb数据python方式需要使用pyspark 或者 spark-submit的方式进行提交。下面pyspark启动的方式:1.1.1 使用pyspark启动命令行本地安装的spark版本为2.3.1,如果是其他版本需要修改版本号和scala的版本号pyspark --packages org.mongodb.spark:mongo-spark-connector_2.11:2.3.11.1.2 在转载 2020-06-24 23:25:51 · 626 阅读 · 0 评论 -
spark分布式集群部署的配置文件记录和代码运行
spark.eventLog.enabled truespark.eventLog.dir hdfs://bigdata01:8020/spark-logsexport SPARK_HISTORY_OPTS="-Dspark.history.ui.port=68080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://bigdata01:8020/.原创 2020-05-08 18:41:10 · 290 阅读 · 0 评论 -
当Spark遇上TensorFlow分布式深度学习框架原理和实践
1.spark的核心抽象:RDD为什么要做RDD这样的抽象呢?主要是因为它的一致性、高效并行、容错机制,RDD屏蔽了分布式的复杂性,使开发程序时简单如写单机程序。RDD也提供了一些操作,如transform和action,通过对RDD操作业务的封装以及计算逻辑,我们就会形成一个大的DAG计算图(参考下图右)。2.spark的大数据生态:这部分是讲spark的数据生态,包括它支持的组件库、...转载 2020-04-08 14:09:22 · 2394 阅读 · 0 评论 -
Spark结合图数据库Neo4j设计和架构
大数据分布式技术结合图库Neo4J项目,由于Neo4j采用单节点,性能存在以下问题:. 插入速率随着图库数据增加而减少,成反比相关。. 对前端页面查询点边关系,测试一条数据耗时10s以上。所以重新设计架构,采用分布式中间件来取代单节点式Neo4j部分功能。经测试,几套架构尚可满足Spark离线处理和实时计算需求。Coding Introducedef getDriver(): Drive...转载 2020-03-07 21:57:45 · 1209 阅读 · 0 评论 -
neo4j与spark 的结合
spark 是用来 做 图计算的,Graphx,其实 spark 和Neo4j 有交叉点,在图论算法上都可以用上使用 neo4j 和 spark 结合1.首先 如果你的neo4j 是需要账号密码登录的话,你就应该 在项目中配置一下,两三种方式import org.apache.spark.rdd.RDDimport org.apache.spark.sql.{SQLContext, Spa...原创 2020-03-07 20:24:38 · 2513 阅读 · 0 评论