
大数据
yayun_kg
这个作者很懒,什么都没留下…
展开
-
MongoDB on SparkSql的读取和写入操作(Python版本)
MongoDB on SparkSql的读取和写入操作(Python版本) 1.1 读取mongodb数据 python方式需要使用pyspark 或者 spark-submit的方式进行提交。 下面pyspark启动的方式: 1.1.1 使用pyspark启动命令行 本地安装的spark版本为2.3.1,如果是其他版本需要修改版本号和scala的版本号 pyspark --packages org.mongodb.spark:mongo-spark-connector_2.11:2.3.1 1.1.2 在转载 2020-06-24 23:25:51 · 626 阅读 · 0 评论 -
Flink知识梳理
原创 2020-06-06 11:23:55 · 293 阅读 · 0 评论 -
spark分布式集群部署的配置文件记录和代码运行
spark.eventLog.enabled true spark.eventLog.dir hdfs://bigdata01:8020/spark-logs export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=68080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://bigdata01:8020/.原创 2020-05-08 18:41:10 · 290 阅读 · 0 评论 -
hbase分布式集群部署与配置
1,下载版本,本次我下载的版本是 hbase-0.98.6-cdh5.3.0.tar 分布式规划图: 配置信息: 接下来 就是 实际的配置: 进入 conf目录:原创 2020-05-06 09:51:20 · 194 阅读 · 0 评论 -
大数据提取数据深度学习三元组关系抽取大规模知识图谱数据流设
从大数据里面提取数据,进入深度学习框架,提取关系三元组。做大规模知识图谱数据流设计如下图: 比较详细讲述 g’yu原创 2020-04-01 15:36:31 · 1555 阅读 · 0 评论