
大数据
manbufenglin
技术兴趣:大数据技术、技术架构、JAVA、数据库开发,C#(Asp.NET)等;
展开
-
spark 算法应用——朴素贝叶斯(JAVA NaiveBayes)
public static void run(String[] args) { SparkSession sparkSession = null; Dataset<RowDataRecord> dsTemp = null; try { sparkSession = SparkSession .builder() .appName("JavaN.原创 2021-02-05 10:32:56 · 606 阅读 · 0 评论 -
hive中 map字段的查询问题
在进行hive sql查询map字段值时报错:NoViableAltException(314@[225:12: ( KW_OVER ws= window_specification )?]) 仔细分析报错原因后再检查sql发现,sql中使用了关键字values,修改字段别名vals或使用上撇号引起来即可解决。hive (sparktest)> select name,size(family) size,family['father'] father,family['sister'] .原创 2020-12-15 17:38:20 · 1020 阅读 · 0 评论 -
Zookeeper 集群4字命令白名单 stat is not executed because it is not in the whitelist.
今天搭建Hbase集群过程中,在页面http://hadoop01:16010/zk.jsp发现zk 通讯统计节(Quorum Server Statistics)存在提示stat is not executed because it is not in the whitelist.解决思路:[root@hadoop01 bigdata]# echo conf|nc hadoop01 2181conf is not executed because it is not in the whit..原创 2020-05-29 11:25:52 · 5863 阅读 · 2 评论 -
Hadoop与Hbase 版本兼容(官网)
Hbase与JDK兼容问题:Hadoop 与 Hbase 版本兼容问题:打对号的 兼容。http://hbase.apache.org/book.html#replication Hadoop Pre-2.6.1 and JDK 1.8 Kerberos When using pre-2.6.1 Hadoop versions and JDK 1.8 in a Kerberos environment, HBase server can fail and ...原创 2020-05-28 12:00:01 · 3695 阅读 · 2 评论 -
springboot项目在spark yarn 集群上部署运行
需求: 项目采用springboot开发,用于实现历史数据的统计分析及算法计算,通过spark-yarn运行跑出结果。环境:JDK:1.8操作系统:centos 7.6大数据架构:Hadoop -Yarn-HA;spark 、hive 集群模型项目预期效果:./spark-submit --master yarn-client --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_..原创 2020-05-20 10:18:55 · 2755 阅读 · 4 评论 -
spark DataSet和DataFrame join 关联多列操作
spark在进行两个dataFrame join时,关联条件为多列时,我们可以这样做:JAVA:Dataset<Row> resultTemp = user_prefer_ds4 //字段列进行关联时,左连接,关联字段(userId==myUserId && itemId==myItemId) ....原创 2019-12-30 10:19:58 · 7558 阅读 · 0 评论 -
JAVA-List to Map
现在记录其中一种实现方式:Map<String, String> item_id2title_map = item_conf_df.select("movieId", "title").collectAsList().stream() .collect(Collectors.toMap(row -> row.get(0).toString()...原创 2019-12-30 09:23:55 · 186 阅读 · 0 评论 -
XGBoost:参数解释
XGBoost参数在运行XGboost之前,必须设置三种类型成熟:general parameters,booster parameters和task parameters:General parameters:参数控制在提升(boosting)过程中使用哪种booster,常用的booster有树模型(tree)和线性模型(linear model)。 Booster paramete...转载 2019-09-11 16:16:38 · 167 阅读 · 0 评论 -
springboot项目:spark 2 操作es6+
本文介绍springboot下 spark2 操作es6.1、环境springboot 2.1.3.RELEASEes: elasticsearch 6.4.3spark : 2.4.3scala: 2.11.12本人MAC本相关环境变量配置如下:JAVA_HOME="/Library/Java/JavaVirtualMachines/jdk1.8.0_152.jdk...原创 2019-08-12 18:45:33 · 658 阅读 · 0 评论 -
Centos7.6 搭建es docker脚本
一份Centos7.6 搭建elasticsearch6.4.3 docker脚本:1、docker脚本docker run -itd --name bigdataES \ --restart=always \ --net=host \ -e "discovery.type=single-node" \ -p 9202:9200 \ -p 9300:9300 \ --ul...原创 2019-08-12 13:20:07 · 197 阅读 · 0 评论 -
hive 连接数据库mysql配置问题
[root@c167 conf]# hivewhich: no hbase in (/bin:/usr/bin:/usr/local/rvm/gems/ruby-2.3.8/bin:/usr/local/rvm/gems/ruby-2.3.8@global/bin:/usr/local/rvm/rubies/ruby-2.3.8/bin:/usr/local/sbin:/usr/local/b...原创 2019-06-18 10:44:27 · 644 阅读 · 0 评论