
岁月云——大数据杂烩
文章平均质量分 75
hadoop、hbase、hive、hue、es、kafka、flume、spark等大数据技术的大杂烩,在我们公司是从零开始起步,数据达千万,跟BAT等公司有大的差距,在这个摸索过程,分享一些经验
warrah
岁月会计云
展开
-
python脚本将mysql数据写入doris
你可以看到varchar在doris中变成了4倍,utf8mb4 编码(这是 MySQL 默认推荐的 UTF-8 实现,支持完整的 Unicode 字符集,包括表情符号等),flink采取了最坏的保守策略。扩展后,数据写入正常了,于是我又验证了,反复执行,看看有没有问题。结果在doris中出现了两条数据。但实际写入,报下面的错误,看来错误原因应该是mysql的字节与doris的字节计算不一样。这个就是搞技术最麻烦的地方,提示的异常,有没有具体信息,根本就不知道原因是啥,要猜。连接的FE,数据写入时正常的,原创 2025-03-01 15:32:15 · 363 阅读 · 0 评论 -
superset
开源的BI工具还是选择apache的superset,2021年的是用过davince,结果2023年就不维护了,dataart也是一样的到2023年也没人维护了,dataease国产的人家也要吃饭,社区版也有限制。因而选择用python开发的superset成了唯一的选择了。原创 2025-02-23 12:11:58 · 419 阅读 · 0 评论 -
flink-cdc同步数据到doris中
此时任务可以正常执行了,数据也可以正常过来了。可以看到下面,要获取acc的全部表,但是有一些是做了分表,需合并到其中doris的一张表里面,这个规则是有效的,开始。从下面的yml脚本可以看到,并没有doris中创建eayc_user表,应该是flink-cdc自动创建的。如果mysql的表没有主键,则报下面的错误,这个时候就需要修正原mysql表数据。默认也是1,我也改成了8,启动之后,没有报下面的错误,但是之前执行的任务没有了。默认为1,slot不够,就报下面的错误,因为是16C32G,于是我改成了8,原创 2025-02-19 19:58:44 · 818 阅读 · 0 评论 -
doris集群
开发doris的团队厉害,这个百度工程师确实也干了一些实事,不像领导层只会跑火车。原创 2025-02-09 14:01:53 · 458 阅读 · 0 评论 -
kettle数据迁移从oracle到mysql
1 kettle安装及运行 kettle官网下载地址,下载完毕后大概有800多m 下载完毕后,直接解压,双击Spoon.bat进行运行。 如果在你的电脑上启动之后,没有进入下面的页面,那么就换台机器。修改 Spoon.bat中java内存参数不一定好使。if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS...原创 2018-05-05 16:39:14 · 16169 阅读 · 8 评论 -
mahout基于物品的推荐
《Mahout实战》中对样本规模有一定的推荐建议 机器不能完成人类所有的思维和决策,但在特定条件下,机器可以模仿人的决策,高效地进行分类。 分类算法基于样例学习,但它们并不能取代人的判断,很大程度上是因为他们需要精心准备一批正确决策的样本,故基于机器的分类是一种有监督的学习形式。 构建分类器的大部分精力会花在设计并提取有用的特征上。 待续中。。。...原创 2018-04-26 10:54:44 · 467 阅读 · 0 评论 -
mahout基于用户的推荐
《Mahout实战》第四章基于用户的推荐算法如下:for每个其他用户w 计算用户u和用户w的相似度s 按相似度排序后,将位置靠前的用户作为邻域nfor(n中用户有偏好,而u中用户无偏好的)每个物品i for(n中用户对i有偏好的)每个其他用户v 计算用户u和用户v的相似度n 按权重s将v和i的偏好并入平均值1 简单推荐引擎的评估 下面代码来自...原创 2018-04-25 10:18:06 · 2466 阅读 · 0 评论 -
Mahout初探
mahout官网,执行下面命令,详细安装过程可参考Mahout介绍、安装与应用案例 tar -xzvf apache-mahout-distribution-0.13.0.tar.gz ln -s apache-mahout-distribution-0.13.0 mahout修改profile环境变量export MAHOUT_HOME=/home/hadoop/appli...原创 2018-04-17 11:27:23 · 802 阅读 · 1 评论 -
hue与hbase
1 启动hbase thrift server 执行命令nohup hbase thrift start &netstat -nl | grep 90902 操作hbase 这里如果通过hue操作hbase,添加数据,中文就会出现异常,但直接编辑却没有问题。 api error:'unicode' object has no attribute 'keys'原创 2018-01-18 11:26:28 · 2162 阅读 · 1 评论 -
EndOfStreamException: Unable to read additional data from client sessionid 0x0, likely client has cl
今天在hbase中执行下面的命令disable 'iw:test06'alter 'iw:test06',NAME=>'i',COMPRESSION=>'SNAPPY'count 'iw:test06'提示下面的异常信息2018-01-15 10:49:20,660 [myid:2] - INFO [NIOServerCxn.Factory:0.0.0.0/0.0.0.0原创 2018-01-15 15:13:41 · 34540 阅读 · 4 评论 -
hue和hive
Could not connect to localhost:8038 (code THRIFTTRANSPORT): TTransportException('Could not connect to localhost:8038',)原创 2018-01-18 16:23:09 · 1746 阅读 · 0 评论 -
kylin与hive视图
1 去掉hive表中无意的列create external table dim_jd_brand(rowkey string,brand_id string,brand_name string,category_id string, category_name string) stored by'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping" =原创 2020-12-02 19:25:05 · 1201 阅读 · 0 评论 -
org.apache.hive.service.cli.HiveSQLException: Error running query: java.lang.OutOfMemoryError: PermG
在hive中执行count时,报下面的错误2018-01-19T14:22:01,035 ERROR [HiveServer2-Background-Pool: Thread-67] ql.Driver: FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. PermG原创 2018-01-19 15:22:44 · 6611 阅读 · 0 评论 -
bug宝典Linux篇 MongoVue无法看到Collection
执行mongo --version,查看mongodb的版本 我使用MongoVue连接Mongodb的时候,mongodb的大纲有,但是进入db中却看不到Collections 网上的解决办法大部分是将MongoDb降级,例如mongoVUE 连接MongoDB3.2不能正常显示collection的问题 这不是我想要的,从网上的资料MongoDB存储引擎性能测试可以看到WiredT原创 2017-02-28 15:35:12 · 913 阅读 · 0 评论 -
第7.1.4 mongodb4.x增加分片
使用过elasticsearch的人应该都知道,es的动态分片很强大,看看下图,数据、备份节点管理由es自己完成我在第7.1.1Spring操作mongodb之mongodb4.x集群搭建中参考了MongoDB4.0.2分片+副本集集群搭建,莫非mongodb的分片必须手工指定吗?先看看10分钟完成MongoDB的容量规划及硬件配置按照一主、一从、一仲裁的模式,每次新增节点岂不是3的倍数?...原创 2019-04-15 15:00:30 · 823 阅读 · 0 评论 -
kafka相关操作及问题汇总
1. kafka查看队列的消费情况 可以通过kafka-mamager来跟进。 2 kafka常用命令#启动kafkacd /usr/hadoop/application/kafka/bin./kafka-server-start.sh -daemon ../config/server.properties#创建Topic./kafka-topics.sh --create -...原创 2017-12-27 10:53:57 · 11704 阅读 · 0 评论 -
org.apache.hadoop.hbase.DoNotRetryIOException: Compression algorithm 'snappy' previously failed test
执行命令create 'iw:test11',{NAME=>'i',VERSIONS=>1,COMPRESSION=>'SNAPPY'} hbase提示下面的异常2018-01-16 14:07:43,308 INFO [RS_OPEN_REGION-dashuju172:16020-0] coordination.ZkOpenRegionCoordination: Opening o原创 2018-01-16 14:42:56 · 6702 阅读 · 2 评论 -
hbase跨机房同步
两边hbase版本均是1.1.4,通过vpn实现两个hbase集群之间的数据同步hbase通过命令看数据,太繁琐,可以hbaseclient参考 HBase备份还原OpenTSDB数据之Snapshot1 创建快照hbase shellsnapshot 'your_table_snapshot',’your_table'2 在另一个集群中快照中恢复数据执行命令可以查看快照清单[r...原创 2019-09-26 11:48:38 · 1033 阅读 · 0 评论 -
hbase问题及操作汇总
Lars George著的《HBase 权威指南》中HBase存储数据的设计,有两种方式,一种是高表,一种是宽表。由于HBase是按行分片,所以高表设计更有优势。 1 ERROR: Can’t get master address from ZooKeeper; znode data == null 可以参考解决思路1,不过还有一种原因,就是hbase服务没起来。 2 hbase命名空间操作原创 2017-12-20 08:47:33 · 882 阅读 · 0 评论 -
flume写入hdfs文件碎片化的问题
上图可以看到hdfs的块大小是128M,但是实际文件却很小,这种方法肯定有问题。 查看flume的配置agent1.sinks.sink1.type=hdfs agent1.sinks.sink1.channel=channel1 agent1.sinks.sink1.hdfs.path=hdfs://dashuju174:9000/flume/%{application}/%{dir}/原创 2017-12-14 11:22:57 · 2851 阅读 · 0 评论 -
单个flume agent实践上线后宕机过程记录
一 单节点flume部署 1 hadoop准备 在hdfs中创建flume目录,并将flume目录的权限分配给flume用户 hdfs dfs -mkdir flume hdfs dfs -chown -R flume:flume /flume 2 flume-env.sh 进入${FLUME_HOME}/confcp flume-env.sh.template flume-env.原创 2017-03-03 10:50:34 · 4085 阅读 · 1 评论 -
elasticsearch7.4.2和es8
windows下运行elasticsearch7.4.2出现了一些问题,修改elasticsearch-env.bat,elasticsearch7.x依赖jdk11,我们现在主流使用的还是jdk1.8future versions of Elasticsearch will require Java 11; your Java version from [D:\Program Files\Java\jdk1.8.0_51\jre] does not meet this requirement最终的原创 2021-10-18 19:36:15 · 959 阅读 · 0 评论 -
第1.9章 elasticsearch Nodes hot_threads
Nodes hot_threads,根据官方描述_nodes/hot_threads获取集群中每个节点当前热线程,我执行后的返回的结果信息很长,那么该怎么解读呢?很容易推理出,hot_threads在哪里,那么哪里就是性能优化的地方。185上面并没有热的线程与下图top监控的指标是吻合的。::: {bwhs185}{0l0BABnLTfKt4NBEI8uuUA}{V0Ycx2FaS_OUM9...原创 2019-04-19 15:46:25 · 2837 阅读 · 0 评论 -
基于redis的坐席调度-会话断线
Redis2.6以后引入对lua的支持,再结合spring data redis,我们就可以使用redis做更多的事情。 以下是我设计的客服和客户断开连接的业务逻辑,不做文字描述。如果大家发现有缺陷的地方,可以一起来讨论分析。 --[[会话断线 入参: seatId:坐席id 返回值: code:返回值 数据结构: str原创 2016-09-01 13:32:22 · 1174 阅读 · 0 评论 -
redis安装及配置
redis官网下载地址, 1 redis单机版本安装 上传redis-3.0.7.tar.gz到application目录下mkdir -p /applicationcd /applicationtar xzvf redis-3.0.7.tar.gzcd redis-3.0.7 make MALLOC=jemallocmake PREFIX=/application/redis-3.0原创 2016-09-05 13:49:27 · 522 阅读 · 0 评论 -
spring data redis配置
首先要搞清楚redis、Jedis、spring data redis的区别。Redis是基于key-value的非关系型数据库,由ANSI C编写;Jedis是redis官方推出的JAVA操作redis的SDK;Spring Date Redis则是由Spring官方推出方便操作Redis的SDK,它是基于Jedis,但是使用起来更为方便。 1 pom.xml<properties>原创 2016-08-26 14:11:18 · 1445 阅读 · 0 评论 -
bug宝典 hadoop篇 org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = Connec
采用hue删除hbase中的表之后,hbase中的表都不见了。执行hbase shell,出现下面的异常:2017-02-20 14:40:31,246 ERROR [main] zookeeper.ZooKeeperWatcher: hconnection-0x504ceb560x0, quorum=localhost:2181, baseZNode=/hbase Received unexpec原创 2017-02-20 14:58:17 · 6318 阅读 · 0 评论 -
hue安装与配置
hue-3.12.0官方下载地址 hue安装与部署 hue安装与部署官方说明 上面是其他人写配置,我这里就不用赘述,另外我实际操作过程中做一些补充groupadd hueuseradd -g hue huepasswd hadoop # 设置hadoop的密码,姑且默认为000000chown -R hue:hue hue-3.12.01 hadoop依赖配置2 hue原创 2017-02-22 14:27:04 · 3971 阅读 · 0 评论 -
bug宝典 hadoop篇 /hadoop/hdfs/data is in an inconsistent state: file VERSION has cTime missing.
原本2个datanode,现在只看到了一个 从下图也可以看到只有一个live nodes,但是也没有dead node啊。 检查进程, 缺少DataNode[hadoop@dashuju172 ~]$ jps48099 Main53456 NodeManager48363 Jps48185 Main54200 HRegionServer53264 QuorumPeerMain原创 2017-02-20 13:40:08 · 1605 阅读 · 0 评论 -
编译生成hadoop-native-Libraries的问题
按照在hadoop2.X集群中安装压缩工具snappy(主要用于hbase)执行mvn package -DskipTests -Pdist,native -Dtar -Dsnappy.lib=/usr/local/lib -Dbundle.snappy[INFO] Apache Hadoop Main ................................. SUCCESS [原创 2017-12-28 10:58:45 · 1067 阅读 · 0 评论 -
hadoop datanode running as process 16774. Stop it first.
我有一台机器173,这是一台虚拟机,某一天这台虚拟机所在的物理机器内存条出现问题,导致机器宕机,于是换了内存后,我在173上执行命令start-dfs.sh,提示下面的异常Starting namenodes on [dashuju174]dashuju174: namenode running as process 8363. Stop it first.The authenticity of原创 2018-01-11 15:40:10 · 17725 阅读 · 1 评论 -
第2.2.3章 hadoop的管理
这个章节的名字套用的是《Hadoop权威指南》第10章的名称,按图索骥,实地看看hadoop里面有什么。1 名称节点新格式化的namenode目录结构如下:# dfs.namenode.name.dir在hdfs-site.xml中配置了路径# 这里跟书上不一样,没有 fstime目录${dfs.namenode.name.dir}/current/VERSION edits fsima...原创 2019-07-11 15:33:41 · 492 阅读 · 0 评论 -
sqoop1.4.6相关操作及问题汇总
1 sqoop环境准备 sqoop官网推荐使用稳定的1.4.6,之前在csdn误操作把之前写的删除掉了,现在重新补上 1.1 安装tar -zxvf sqoop-1.4.6.tar.gzln -s sqoop-1.4.6 sqoop文件可以从sqoop-1.4.6.tar.gz下载 1.2 环境变量export SQOOP_HOME=/home/hadoop/appli原创 2018-01-10 14:08:35 · 385 阅读 · 0 评论 -
bug宝典hadoop篇 org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <
注意重新格式化后会出现这个问题 2016-08-18 16:16:21,467 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /home/hadoop/platform/hadoop/hdfs/data/in_use.lock acquired by nodename 13157@dashuju173 2016-08-18原创 2017-02-20 15:51:36 · 2844 阅读 · 0 评论 -
elasticsearch聚合查询
es 聚合复杂应用的实际运营,项目中实际用到的原创 2023-02-08 19:02:12 · 487 阅读 · 0 评论 -
部署es7.4.2及远程迁移数据、开机启动
1 创建es用户groupadd esuseradd -g es espasswd es# 密码# 创建es的目录mkdir -p /etc/elasticsearch2 安装es7.4.2# 传文件scp elasticsearch-7.4.2-linux-x86_64.tar.gz elasticsearch-analysis-ik-7.4.2.zip elasticsearch-analysis-pinyin-7.4.2.zip root@10.101.3.182:/etc/ela原创 2022-05-17 13:07:18 · 987 阅读 · 0 评论 -
ambari关闭kerberos
Ambari+HDP集群关闭kerberos认证后遇到的问题先关闭kerberos。有一台机器关掉有问题,Traceback (most recent call last): File "/var/lib/ambari-agent/cache/stacks/HDP/3.0/services/SPARK2/package/scripts/job_history_server.py", line 102, in <module> JobHistoryServer().execut原创 2021-07-09 20:20:57 · 1329 阅读 · 2 评论 -
yarn-ats
进入到zookeeper查看是否有/atsv2-hbase-secure/meta-region-server文件su - zookeeperkinit -kt /etc/security/keytabs/zk.service.keytab zookeeper/bg6.whty.com.cn@HADOOP.WHTYsh /usr/hdp/3.1.0.0-78/zookeeper/bin/zkCli.sh -server bg6.whty.com.cn:2181查看zookeeper的目录结构,可以原创 2021-02-03 19:22:16 · 3561 阅读 · 0 评论 -
vsftpd和nfs搭建
1 先部署nfs爬虫的机器磁盘不是很大,大数据的机器硬盘比较大,下来的文件就不能放在爬虫的机器上,而需要存储在大数据的硬盘上,于是在大磁盘的机器上搭建nfs主节点,爬虫节点的机器将磁盘mount过去就可以,不会占用爬虫机器的磁盘空间。参考如何运用nfs让客户端轻松使用服务端共享出来的磁盘Centos7安装配置NFS服务和挂载# 在所有节点中执行yum install nfs-utils -y# 在nfs主节点中执行(nfs 服务器侧),rpcbind 可以不装,因为nfs-utils会将rp原创 2021-02-03 19:01:17 · 486 阅读 · 0 评论 -
开启kerberos后hbase连接
开启kerberos之后,hbase连接就没有之前那么顺利。下面的异常说明没有创建hbase-test_data,在服务器上创建,并在ranger中赋予它hbase访问权限即可2021-01-26 19:03:38,899 INFO [pool-2-thread-3] thrift2.ThriftServer: Effective user: hbase-test_data2021-01-26 19:03:38,899 ERROR [pool-2-thread-3] server.TThreadPo原创 2021-01-30 08:35:55 · 494 阅读 · 0 评论