
大数据
喝粥也会胖的唐僧
这个作者很懒,什么都没留下…
展开
-
最简单的spark MLlib进行随机森林
上一篇文章讲到了docker玩转Hadoop这里想使用spark MLlib进行集群的机器学习spark的准备1.拉取镜像docker pull singularities/spark2.新建docker-compose.yml文件version: "2"services: master: image: singularities/spark command: start-spark master hostname: master po..原创 2020-08-26 16:16:02 · 1413 阅读 · 0 评论 -
最简单的方式玩转Hadoop集群
Hadoop作为大数据不可必备的载体和工具,今天就来玩一下,绝对超级简单,不会你搭建环境首先简单介绍 一下概念:Hadoop主要分为三个部分:hdfs:这是Hadoop专门用来存文件的,所有的文件 都是储存在这个上面 mapreduce:这个是Hadoop的计算引擎,光有了数据,我们肯定还得计算,不然大数据光存数据也没意义,不过现在基本上不用这个进行开发,取而代之的是hive,当然还有很多计算引擎,比如spark yarm:Hadoop的任务调度的工具了解这些以后,我们知道其实现在的Had原创 2020-08-26 10:51:26 · 734 阅读 · 0 评论 -
print "phoenix_class_path:"
在之前搭建好的平台安装好Ancona,准备做AI相关的工作,但是发现利用Phoenix-sqline.py启动Phoenix报错print "phoenix_class_path:"只是因为Phoenix不支持python3的缘故,而Ancona3默认是python3解决方式要么直接卸了Ancona,要么让python和python3共存第一个很简单,这里有篇详细的:http...原创 2019-10-18 11:10:14 · 746 阅读 · 0 评论 -
echarts的使用
echarts作为可视化的一个插件,很好用,是一个常用的大数据可视化插件echarts作为可视化的插件,使用起来简单,类似于jQuery(1)引入<script src="/jquery/echarts.min.js"></script>(2)初始化echarts.init(3).setOption(option);整体得jsp如下:&l...原创 2019-08-03 11:52:57 · 515 阅读 · 0 评论 -
impala:AnalysisException Syntax error
在impala-shell中use database出错:[mr2:21000] > use int;Query: use intERROR: AnalysisException: Syntax error in line 1:use int ^Encountered: INTEGERExpected: DEFAULT, IDENTIFIERCAUSED BY: ...原创 2019-08-05 10:11:34 · 9563 阅读 · 0 评论 -
clickhouse安装(centos6.5)
官方提供的clickhouse是鸟版图和Debian版的Linux,但是我们真实生产基本上都是用的centos,看了很多所谓网上的安装centos攻略都是失败的,可能是自己用的centos版本太低的缘故(6.5),反正就是各种报错,主要都是一些依赖的错误,当然那些依赖可以解决但是很麻烦的。最后还是在官方文档找到的链接(https://github.com/Altinity/clickhous...原创 2019-08-08 12:20:23 · 1465 阅读 · 0 评论 -
shell批量从hadoop导入数据入hive
#!/bin/bash##先定义日期变量day=`date --date="$1" +%Y-%m-%d`##显示日期echo $day##使用一个文件来存放表名(这里是放在tables文件里的)table=hive/tables##如果原先就存在这个sql文件就删去rm -rf ./hive_load.sql##设置加载之前预设置,database里面是sql,比如这里是放的u...原创 2019-08-06 11:22:08 · 973 阅读 · 0 评论 -
clickhouse的jdbc的使用(单机版)
首先需要启动clickhouse服务,这里面有一个坑,如果使用默认的启动,会出现外网根本访问不了服务的情况。就像这样:我擦,默认是只监听了本地的服务,你使用本地是可以访问:但是使用外网那是绝对访问不了的(因为我保证自己是关了防火墙和开放了端口的,还是没有屁用),官方给我们留的坑,这里需要改配置文件:vi /etc/clickhouse-server/config.x...原创 2019-08-08 16:22:13 · 10337 阅读 · 1 评论 -
waterdrop启动报错
我使用的是spark单机版和waterdrop的单机版,但是在启动的时候报错了:[root@localhost waterdrop-1.3.8]# ./bin/start-waterdrop.sh --master local[4] --deploy-mode client --config ./config/streaming.conf[INFO] spark conf: --conf...原创 2019-08-09 10:55:52 · 3364 阅读 · 0 评论 -
DB::Exception: Bad get: has UInt64, requested String
呵呵,真的太坑了,使用clickhouse在建分布式表的时候报错了:node03 :) CREATE TABLE ontime_all AS ontime_local_2 ENGINE = Distributed(cluster-1, h2, ontime_local_2, '100');CREATE TABLE ontime_all AS ontime_local_2ENGINE =...原创 2019-08-14 17:42:15 · 2823 阅读 · 0 评论 -
oozie的webUI页面打不开
在cdh上面配置好的oozie默认是打不开oozie web UI的点击后出现这样的:因为缺依赖,所以打不开找到cdh的依赖的路径:/opt/cloudera/parcels/CDH/lib/oozie/libext我们还可以看到libext其实真正的路径在/var/lib/oozie也就是虽然找其中一个路径将依赖拷贝进去,然后解压即可依赖的下载如下:...原创 2019-08-15 10:33:18 · 1592 阅读 · 0 评论 -
利用waterdrop将hdfs里的数据快速迁移到clickhouse中(单机版)
启动waterdrop:./bin/start-waterdrop.sh --master local[4] --deploy-mode client --config ./config/streaming.conf注:这里面的local[4]中的是代表本机线程个数,这个是自己确定,这里为4个线程;后面的配置文件也是自己进行选择,上面是为了做流式计算,故而streaming.conf...原创 2019-08-15 13:55:31 · 3369 阅读 · 0 评论 -
clickhouse集群安装
clickhouse集群的安装方式很多,这里采取的是简单方便的yum安装的方式进行的。一、工具的准备1、clustershell首先需要安装集群管理的工具,便于的安装的时候一次性就安装好,而不用每台机器都去安装一遍,这个工具就是clustershellyum install -y clustershell待安装成功编辑配置文件vi /etc/clustershel...原创 2019-08-15 14:12:19 · 2845 阅读 · 0 评论 -
Plugin 'Scala' is incompatible with this installation
在idea中使用下载好的插件,进行本地安装时,报错了:问题的原因在于版本不匹配,什么意思呢,我们来看看这是下载的本地插件:因为自己以为最新的就是最好,结果,其实自己的idea里面需要的不是2.20的那个版本,其实是需要的1.9的版本于是去官网重新下载对应的版本然后安装即可安装好后是没法用的,还需要设置lib去网上下载Scala 的sdk进行解压,在这里进行进...原创 2019-08-21 11:09:38 · 1013 阅读 · 0 评论 -
对于维度建模的理解
维度建模,比起传统的数仓结构,简单明了,扩展性和耦合性也有所提高。维度建模主要就是围绕着维度表与事实表而进行的。维度建模就是引入了了这两个表。维度和事实我的理解是不需要抠细节,不需要过分的强调哪一张表是维度表哪一张表是事实表,维度表在设计的时候主要就是为了扩展事实,在有的时候不同的事实可能会让其他的事实表跟着变成了维度表,我的理解是维度表是围绕着某一个事实表而服务的,在这个过程有可能会让其他...原创 2019-08-03 08:27:25 · 3157 阅读 · 0 评论 -
对checkpoint()的理解
在sparkStreaming中,引入了checkpoint()机制,究竟是干嘛用的? 我们试想一下作为一个流式计算系统,通俗来说就是流水线,既然是流水线,万一中间出现什么故障该怎么办?可靠性怎么能够保证。亦或者对于流水线来说,之前的流水对下一个流水肯定是会影响的,如果不设置checkpoint,那么计算肯定不会考虑到之前的历史数据对其的影响,鉴于这两种考虑,sparkStreami...原创 2019-07-12 09:41:27 · 14729 阅读 · 0 评论 -
运行MapReduce使出错
运行上传在HDFS上的文件,出现错误:19/03/05 22:16:58 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable19/03/05 22:16:59 INFO client....原创 2019-03-04 21:04:04 · 557 阅读 · 0 评论 -
hadoop卡在这一动不动
结果如下:19/03/05 22:19:20 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable19/03/05 22:19:21 INFO client.RMProxy: Conne...原创 2019-03-05 23:02:49 · 1142 阅读 · 0 评论 -
Error: Could not find or load main class resourcemanager
之前启动都没有问题,今天启动报错了[root@hadoop001 hadoop-2.7.1]# sbin/hadoop-daemon.sh start resourcemanagerstarting resourcemanager, logging to /opt/software/hadoop-2.7.1/logs/hadoop-root-resourcemanager-hadoop00...原创 2019-03-07 21:37:47 · 4305 阅读 · 4 评论 -
datanode running as process 1282. Stop it first
启动DataNode出错,之前用的好好的,今天开机就出错不知道是不是因为之前留下的,但是按理来说关了机不会出现这样的情况于是只能将所有的进程给关掉stop-all.sh之后依次输入yes密码此时输入jps,连jps进程都是没有显示的依次重启namenode,DataNode没了错误[root@hadoop001 hadoop-2.7.1]# jps1904 D...原创 2019-03-23 10:02:09 · 4499 阅读 · 0 评论 -
nodemanager running as process 2461. Stop it first.
启动nodemanager出错解决:kill 2461sbin/yarn-daemon.sh start resourcemanagersbin/yarn-daemon.sh start nodemanagerkill 2461的时候resourcemanager也会被kill掉,所以会再启动一下如果不幸已经启动了nodemanager,因为以为只杀死了nodemana...原创 2019-03-23 10:21:05 · 15046 阅读 · 1 评论 -
切换hive的默认数据库derby为MySQL
derby是apache开发的基于java的文件型数据库,使用起来并不好用,很多限制但是hive是支持MySQL的,所有替换掉:首先要在Linux上安装好MySQL然后配置一下MySQL的位置在hive文件目录下的conf/[root@localhost conf]# lsbeeline-log4j.properties.template hive-env.sh.temp...原创 2019-04-01 11:47:35 · 1831 阅读 · 0 评论 -
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
修改数据库derby为MySQL后,建表出错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore DB connections, we don't support retries at the ...原创 2019-04-01 15:57:31 · 6067 阅读 · 0 评论 -
kafka高可用分析
kafka作为大数据中常用的消息队列,除了其吞吐量高外,当然高可用更是保障数据可靠性的保证,作为载体的topic,在物理内部其实是由很多歌partition组成,也就是topic也是分片了的,这是高吞吐率的保证。每个partition又由多个segment组成,这是出于便于管理消息,因为若是按照partition作为基本单位的话,那么以后对消息的增删是个很大的问题。示意图如下:...原创 2019-07-13 12:07:14 · 583 阅读 · 0 评论 -
js埋点
一、定义 js埋点指的是在应用服务器中的每一个页面中都嵌入一段js脚本,使用户在访问页面时 自动触发js,收集用户访问行为日志,并提交到日志服务器。二、统计指标 进行js埋点的目的是为了获取并统计网站时刻的访问信息,主要的需要的指标如下(当然不限于下面的指标):(1)pv(点击量)(2)uv(独立访客数)伪代码:if(从cookie里获取的co_id==””)...原创 2019-06-28 21:25:32 · 6649 阅读 · 0 评论 -
don't run elasticsearch as root
运行elasticsearch出现:[root@hadoop001 elasticsearch-2.3.1]# bin/elasticsearch -d[root@hadoop001 elasticsearch-2.3.1]# Exception in thread "main" java.lang.RuntimeException: don't run elasticsearch as...原创 2019-07-14 14:07:26 · 434 阅读 · 0 评论 -
parquet文件在spark中的读取
parquet文件本质是json文件的压缩版,这样不仅大幅度减少了其大小,而且是压缩过的,比较安全一点,spark的安装包里面提供了一个例子,在这个路径下有一个parquet文件:spark-2.0.1-bin-hadoop2.7/examples/src/main/resources我们可以查看一下:[root@hadoop001 resources]# cat users.par...原创 2019-07-11 14:15:20 · 2593 阅读 · 0 评论 -
sparkSQL中的.where里面的“=”的使用
我们必须要使用===而不是=或者==我们来看一个例子:假如这么一个表,我们想进行条件查询+---+-----+---+----+-------+| id| name|age|addr| salary|+---+-----+---+----+-------+| 1|zhang| 49| bj|10000|| 2| wang| 34| sh| 1000|| 3| ...原创 2019-07-11 15:51:36 · 5837 阅读 · 0 评论 -
_COPYING_ could only be replicated to 0 nodes instead of minReplication (=1).
使用HDFS上传文件出错:19/03/04 04:50:42 WARN hdfs.DFSClient: DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException): File /user/atguigu/input/wc.input._COPYING_ could only be repl...原创 2019-03-03 21:04:35 · 1176 阅读 · 0 评论