
大数据
文章平均质量分 64
akenseren
这个作者很懒,什么都没留下…
展开
-
Spark--Yarn分布式部署模式
Spark--Yarn分布式部署模式Yarn分布式部署模式1、安装(1)集群规划 hadoop102 hadoop103 hadoop104 Spark NodeManager ResourceManager NodeManager NameNode NodeManager DataNode DataNode DataNode (2)安装把安装包上传...原创 2021-04-07 23:53:19 · 394 阅读 · 0 评论 -
idea对spark程序进行远程提交和调试
第一部分 远程提交本文以WordCount程序来实现idea对spark程序进行远程提交和调试环境 利用虚拟机搭建拥有3台主机的spark集群 hadoop102 hadoop103 hadoop104 IntelliJ IDEA 2020.3.2 (Ultimate Edition) 背景知识若要把 Spark SQL 连接到一个部署好的 Hive 上,你必须把 hive-site.xml 复制到 Spark的配置文件目录中($SPARK_HOME/c原创 2021-04-07 14:50:43 · 1400 阅读 · 1 评论 -
Spark 配置连接hive 元数据库
Spark 配置连接hive 元数据库第一步 安装Hive和Spark(略)第二步 配置 Metastore 到 MySql原因是, Metastore 默认存储在自带的 derby 数据库中,推荐使用 MySQL 存储 Metastore;2.1 驱动拷贝上传并解压 mysql-connector-java-5.1.27.tar.gz 驱动包 到 hive/lib/ 目录下[root@hadoop102 mysql-libs]# tar -zxvf mysql-c..原创 2021-04-07 14:26:02 · 5640 阅读 · 0 评论 -
一致性Hash原理与实现
一致性Hash原理与实现原文写的很好,这里只粘贴MurMurHash算法代码。具体实现算法接口类# IHashServicepublic interface IHashService { Long hash(String key);}算法接口实现类public class HashService implements IHashService { /** * MurMurHash算法,性能高,碰撞率低 * * @param ke转载 2021-03-30 20:04:47 · 150 阅读 · 0 评论 -
中文文本数据集
1. 中文任务基准测评原创 2020-05-21 14:35:01 · 1087 阅读 · 0 评论 -
Hive UDF根据经纬度获取百度POI数据
Hive UDF根据经纬度获取百度POI数据有关百度poi资料:零基础掌握百度地图兴趣点获取POI爬虫(python语言爬取)(基础篇)import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import org.a...原创 2020-04-19 21:22:27 · 782 阅读 · 0 评论 -
用PMML实现机器学习模型的跨平台上线
参考:用PMML实现机器学习模型的跨平台上线 目标:在Spark环境下训练机器学习模型,并在Java环境下进行推测 过程1:在Spark环境下训练机器学习模型,导出训练模型为PMML文件 Code:import java.io.Fileimport javax.xml.transform.stream.StreamResultimport org.apache.lo...原创 2020-04-19 19:40:55 · 493 阅读 · 0 评论 -
资料整理
Spark相关知识:1.spark机器学习算法研究和源码分析2.大数据相关:1.白话大数据与机器学习2.我是码农原创 2020-03-05 09:36:58 · 187 阅读 · 0 评论 -
大数据机器学习模型跨平台上线
资料:1.用PMML实现机器学习模型的跨平台上线2.tensorflow机器学习模型的跨平台上线3.在Java Web中使用Spark MLlib训练的模型4.跨平台机器学习模型交互–PMML简述5.PMML model export - RDD-based API6.spark-ML基础7.SparkML GBDT&RF算法使用示例8.Spark ML离线...原创 2020-01-06 20:22:44 · 283 阅读 · 0 评论 -
机器学习模型持久化
博客资料汇总:(1)Apache Spark 2.0预览: 机器学习模型持久化(2)AI 开发者看过来,主流移动端深度学习框架大盘点(3)联合学习之安卓实现(4)TensorFlow Lite调研(5)Tensorflow 模型转 tflite ,在安卓端使用(6)移动端深度学习(7)模型压缩总览联合学习:(1)Google 研究 | 联合学习:...原创 2019-12-21 09:41:59 · 384 阅读 · 0 评论