- 博客(77)
- 资源 (7)
- 收藏
- 关注
原创 OCR识别PDF扫描件
哪种OCR软件或程序接口可以将"扫描件PDF", 使用OCR识别成可复制文字, 并且不改变排版;让一个800M的文件变成可复制的几十兆文件。# OCR识别PDF。
2024-01-10 09:11:09
469
原创 SQL(使用Hive或其他sql解决)
源数据表结构:room_id(直播间ID)、user_id(上麦用户ID)、start_time(用户上麦开始时间)、end_time(用户上 麦结束时间)该表记录的是每个用户在每个直播间每次上下麦的时间段目标数据表结构:room_id(直播间ID)、start_time(用户上麦开始时间)、end_time(用户上麦结束时间)、 user_cnt(该时间段内上麦人数) 该表需要记录每个直播间每次人员变动的情况...
2022-06-22 15:22:52
550
原创 英语中常用的时态有哪几种?
✤ 时态的定义时态就是表示一个动作发生的时间和所处的状态时:动作发生的时刻态:动作在某个时刻的样子时态=时间x状态✤ 时间的定义英语时态中把时间分为四类:过去(past)、 过去将来(past future)、现在(now)和将来(future)因为过去将来中将来的时间范畴难以界定,所以我们以过去、现在、将来三类时间为主✤ 状态的定义状态指的是在某个时刻该动作所处的状态。英语时态中把状态分为四类:一般态、进行态、完成态和完成进行态将四类时间和四类状态组合,可得
2022-05-25 05:06:31
3275
原创 Macbook Pro M1 2021款, 使用 Parallels Desktop 安装centos7问题
Macbook Pro M1 2021款, 使用 Parallels Desktop 安装centos7问题问题描述Macbook Pro M1 2021款 使用 Parallels Desktop 安装centos7, 点击install centos 7没反应, 有什么解决办法用 Parallels Desktop 安装centos7参考博客在m1芯片的MacBook上安装centos遇到的问题 | 点击Install CentOS Linux 8后没反应, 无限循环 | 安装centos7也是
2022-01-28 17:24:13
8017
24
原创 Container是NodeManager虚拟出来的容器, 用来运行task任务的, 调优维度是 memory+vcore
Container是nodemanager虚拟出来的容器,用来运行task任务的,调优维度是memory+vcore如何优化Container参数??假设128G,16个物理core的服务器1、装完Centos,消耗内存1G2、系统预留15%-20%内存(大概26G,其中包含Centos系统占用的1G内存),用来防止全部使用导致系统夯住和oom机制,或者给未来部署组件预留点空间。3、假设该服务器上只有DataNode,NodeManager节点,余下内存128G-26G=102G1)DataNod
2021-07-06 15:03:06
727
原创 CDH-CM资源下载
CDH官网下载安装包链接失效由于现在CDH官方需要订阅付费才能下载相关CDH/CM等资源 , 收录了以下几个版本的资源.CDH-CM资源下载CDH6.3.2链接: https://pan.baidu.com/s/1A31KCThDTiZzqdDUHtka4g 提取码: 4avcCDH6.3.1链接: https://pan.baidu.com/s/1pA_rxBRrxjtcPK89f4TT4A 提取码: ibm4CDH5.16.2链接: https://pan.baidu.co
2021-05-19 17:24:15
711
原创 Sublime text 添加到鼠标右键功能
D:\\AppFiles\\SublimeText3\\sublime_text.exe (这个为SublimeText3的安装路径) Edit with SublimeText3 是提示文字 桌面新建 sublime_addright.reg 文件, 编辑后双击打开就OKWindows Registry Editor Version 5.00[HKEY_CLASSES_ROOT\*\shell\SublimeText3]@="Edit with SublimeText3""Icon"="D:
2021-02-23 10:48:22
288
原创 Hive和MySQL中自然周保持一致的方法
跨年周:如果一周中某几天在前一年,而剩下几天在后一年,那么这周是哪一年的周? Hive中:weekofyear(string date)返回值为 int 从周一到周日为一个完整的周若一周7天中,有4天及以上在某年,那么这一周就作为这一年的周。在hive中需要获取 yyyyww 这样的年周时,采用case when方式生成-- 返回形式: yyyywwselect case when weekofyear('2021-01-01') < 10 and month...
2021-02-01 10:51:55
903
原创 拉链表的设计
表结构创建-- 增量更新表drop table if exists test.joy_activation_update;create external table if not exists test.joy_activation_update ( joy_id int COMMENT '用户id', create_date string COMMENT '创建日期', update_date string COMMENT '更新日期', content_describe str...
2021-01-29 16:23:29
542
原创 Sublime 代码格式化调整快捷键
快捷键调整 自定义快捷键 [ // 自定义快捷键后, 顺便把Default中的属性注释掉, 不然两个Default与User中定义的快捷键都会生效 { "keys": ["alt+j"], "command": "find_under_expand" }, // IDEA: alt+j, 向下选中内容文字信息 { "keys": ["ctrl+d"], "command": "duplicate_line" }, // IDEA: ctrl+d, 向下复制上一行内容
2021-01-28 15:29:00
3275
原创 设置 Sublime Text3 编码格式为utf-8
最近改用sublime编辑器,我下载了一个汉化版的。在sublime写代码显示的中文是正常的(在sublime编辑器打开没问题,估计是之前加了安装包: Ctrl+Shift+P → Package Control: Install Package →ConvertToUTF8但是在浏览器打开中文就出现乱码。以下是我的解决方法:在打开的文件中输入 "default_encoding": "UTF-8", 进去到这里的时候还是不行然后重载了一下就搞定了(下图).
2021-01-19 14:19:18
1647
原创 MySQL中DATE_FORMAT() 函数对日期格式化参数与JAVA中各种日期表示字母对比
MySQL 中使用 DATE_FORMAT() 函数对日期格式化项目中的统计报表作的很多,需求中有按周、月统计数据的。查看了Mysql的API,发现Date_format是格式化日期的,看了Date_format()的具体说明后就用这个函数按周统计,sql大致如下:select DATE_FORMAT(check_date ,'%X-%V') dates ,avg(weight)/10000 weight from ho_body where user_id=295 and.
2021-01-19 10:54:02
1109
原创 不用补丁,Sublime Text 3 本身设置中文方法
不用补丁,Sublime Text 3 本身设置中文方法1.不需要下载任何补丁,简单几步设置成中文版2. 操作版本:Sublime Text 3 , Build 3176工具/原料 电脑 Sublime Text 3 调出 Package Control 官网下载,并安装好, 刚安装好的是没有Package Control选项 找到Tools->Install Package Control选项,即可调出Package Cont...
2021-01-18 18:55:31
260
原创 基于Druid编写JDBC连接池
JDBC连接池package com.bigdata.util;import com.alibaba.druid.pool.DruidDataSourceFactory;import javax.sql.DataSource;import java.io.InputStream;import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQL
2021-01-07 17:03:44
350
1
原创 查询每日近7日的用户数
需求: 查询每日近7日的用户数说明:每日近7日的用户数 意思是" 每天的日期往前推7日(如: 时间区间为 create_date between date_sub('2020-12-15', 7) and '2020-12-15' ) "那我网友有好的方法, 求教?搜索到的信息: 思路如下1. 借助 size(ccollect_set() over(partition by xxx))-- 获取每日近7日的用户数select regdate ,size(colle...
2020-12-15 17:33:12
433
1
原创 Davinci安装部署
Davinci安装参考博客: https://www.jianshu.com/p/e10586beb29fDavinci 源代码github地址:https://github.com/edp963/davinci二次开发完全可以参考Davinci 的使用手册的文档说明介绍比较详细,这里只说几个注意点。安装1 环境准备JDK 1.8(或更高版本) MySql5.5(或更高版本) Mail Server phantomjs或chrome(需同时安装chromedriver,清注意..
2020-11-03 10:41:22
6237
4
原创 Maxwell启动停止脚本
Maxwell启动停止脚本 进入 maxwell/bin 直接运行下面的内容, 生成脚本 #! /bin/bash## description: maxwell## File : maxwell## Description: Starts and stops the maxwell server#source /etc/rc.d/init.d/functionssource /etc/profilecd $(cd "$(dirname "$0")"; pwd...
2020-10-28 16:00:27
2237
原创 ELK 启动/停止脚本
Elasticsearch启动停止脚本 进入 elasticsearch/bin 直接运行下面的内容, 生成脚本 tee ./server.sh <<-'EOF'#! /bin/bashcd $(cd "$(dirname "$0")"; pwd)/../ES_HOME=$PWDAPP_NAME=ElasticsearchPIDFILE=$ES_HOME/bin/elasticsearch-server.pid#echo "elasticsearch-server .
2020-10-21 11:24:55
514
原创 spark.read.textFile读取.tar.gz文件数据问题
spark.read.textFile()读取.tar.gz文件数据问题从官网的描述中spark.textFile方法是可以读取压缩文件.tar.gz. 当我测试的时候发现文件从一个文件读取到另外一个文件的时候,spark会在值中加入“文件名 000 ustar root root”放到下个读取文件的第一个行。我想问一下是我写的有问题还是本来就是这样?如果是如何避免。...
2020-10-15 16:57:23
1547
原创 Spark读写HBase之使用Spark自带的API以及使用Bulk Load将大量数据导入HBase
参考博客: https://www.jianshu.com/p/b6c5a5ba30af遇到的问题:1. java.lang.ClassCastException: scala.collection.immutable.$colon$colon cannot be cast to org.apache.hadoop.hbase.Cell20/08/06 10:31:20 ERROR Utils: Aborting taskjava.lang.ClassCastException: scala
2020-08-06 18:46:31
1060
原创 CDH安装Tez 0.8.5
CDH安装Tez 0.8.51.1前置环境1)安装JDK2)安装Maven下载安装包:apache-maven-3.5.4-bin.tar.gz解压:tar -zxvf apache-maven-3.5.4-bin.tar.gz -C /usr/local/software/maven配置:[joy@hadoop002 dev_env]$ vim /etc/profileexport MAVEN_HOME=/usr/local/software/maven/apache-ma
2020-06-16 14:00:10
805
2
原创 CDH5.16搭建Kylin和Dashboard功能开启
CDH5.16环境下搭建Kylin2.6.6注意事项: 从 v2.6.1 开始, Kylin 不再包含 Spark 二进制包,需要单独下载1.软件版本介绍:CDH5.16.2Kylin: 2.6.62. CDH版本kylin2.6.6下载软件https://archive.apache.org/dist/kylin/apache-kylin-2.6.6/apache-kylin-2.6.6-bin-cdh57.tar.gz3. 创建目录mkdir /opt/dev_env/
2020-06-10 12:00:41
725
5
原创 StreamSets的简单使用
StreamSets的简单使用环境: StreamSets 3.14.0 kudu1.7.0-cdh5.16.21. 创建一个directory2kudu的Pipline2. 在Pipline流程中添加Directory作为源并配置基础信息添加: Directory添加配置信息:1)读取文件的路径2)文件类型预览模式:预览效果: 3. 在Pipline流程中添加Kudu并配置基础信息配置Kudu的M...
2020-06-01 18:32:28
1162
2
原创 Spark2中操作HBase的异常org.apache.hadoop.hbase.HTableDescriptor.addFamily
Spark2中操作HBase的异常org.apache.hadoop.hbase.HTableDescriptor.addFamily... org.apache.hadoop.hbase.HTableDescriptor.addFamily(Lorg/apache/hadoop/hbase/HColumnDescriptor;)Lorg/apache/hadoop/hbase/HTabl...
2020-04-30 15:50:57
523
原创 CDH中Kafka配置问题
在CHD5.16.2中安装KAFKA-2.1.1-1.2.1.1.p0.18, 环境配置结束后测试kafka是否搭建成功遇到以下问题:1. kafka创建生产者后用消费者消费时--bootstrap-server 与--zookeeper的区别在控制台上消费者命令不能--bootstrap-server这种形式, 是kafka配置有问题吗? 求赐教kafka-topics \...
2020-04-13 11:49:14
694
2
原创 HBase常见错误整理
HBase常见错误:1.向Hbase插入时,报错java.lang.IllegalArgumentException: KeyValue size too large的解决办法2020-04-08 09:34:38,120 ERROR [main] ExecReducer: org.apache.hadoop.hive.ql.metadata.HiveException: Hive R...
2020-04-08 10:12:27
1078
原创 scalac: Error: org.jetbrains.jps.incremental.scala.remote.ServerException java.lang.StackOverflow...
scalac: Error: org.jetbrains.jps.incremental.scala.remote.ServerException java.lang.StackOverflow...在写一个大数据项目的时候,用的 json schema 嵌套了很多层,使用了很多字段。编译的时候就爆出了这个堆栈溢出:scalac: Error: org.jetbrains.jps.inc...
2020-03-16 10:30:31
1789
原创 JSONArray转多行JSON
先通过explode把原数据变成n行数据,然后再用get_json_object去解析select ss.json_colfrom ( select split(regexp_replace(regexp_extract('需要解析的jsonArray', '^\\[(.+)\\]$',1) ,'\\}\\,\\{', '\\}\\|\\|\\{'...
2020-03-05 17:07:59
932
1
原创 HiveServer2自定义身份验证
============Hive的beeline权限配置============1)HDFS修改core-site.xml配置搜索 core-site.xmlcore-site.xml 的群集范围高级配置代码段(安全阀)添加<property> <name>hadoop.proxyuser.hadoop.hosts</name> ...
2020-02-20 16:05:28
1255
原创 Spark写入hdfs 用csv格式并使用自定义分隔符
解决办法:pom文件加:spark是1.6.0spark-csv_2.10注意scala的版本与之对应<!--spark on hive 写入csv格式文件--><dependency> <groupId>com.databricks</groupId> <artifactId>spark-csv_2.10...
2019-11-07 09:30:58
4027
原创 Hive优化
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict; 默认值:strict 描述:strict是避免全分区字段是...
2019-09-03 15:43:55
236
原创 MySQL中创建日期维度表
MySQL中创建日期维度表:CREATE TABLE `dim_day` ( `DAY_ID` varchar(10) NOT NULL, `DAY_SHORT_DESC` varchar(14) DEFAULT NULL, `DAY_LONG_DESC` varchar(100) DEFAULT NULL, `WEEK_DESC` varchar(20) DEFAUL...
2019-08-06 14:15:15
1596
1
原创 IDEA中EnableAuto-Import如何取消
自动设置在idea中创建maven工程后会有pom.xml文件,但在每次修改完pom文件并保存的时候,经常会在idea的右下角提示“Maven projects need to be imported”,同时在该文字的下面一行有两个选项供选择:"Import Changes"和“Enable Auto-Import”。入下图所示:其实大部...
2019-07-24 10:44:04
2485
3
原创 SQL中distinct去重多个字段,利用窗口函数解决去重多个字段问题
distinct去重多个字段,其他字段不去重,一起输出例如:select AA, BB, CC from tableName;要求是对AA,BB这两个字段都去重,CC是不需要去重的,最后一起输出求解!!!...
2019-05-31 09:45:15
29663
10
原创 CBoard修改折线图颜色
修改: src\main\webapp\org\cboard\service\chart\chartLineService.jsseries: series_data.map(function (item) { item.label = { normal: { /** 每个折线图和柱形图上都显示数字设置为true,不显示设置为false *...
2019-05-10 14:06:55
604
原创 关于CBoard中文查询条件不能正常显示问题?
但是将SQL代码放到查询框里去查询并不是SQL代码问题,通过Debug后只知道是通过PrepareStatement后,中文参数全部变成了?(问号),在网上搜了好久,看见几个方案,最后发现是自己的编码问题,通过纠结的几个小时,最终解决。方案如下:一、将MYSQL编码设置为 utf8_unicode_ci二、将连接字符串设置成jdbc:mysql://loca...
2019-05-09 11:36:59
688
原创 CBorad BI工具的指标出,数据类型汇总出问题, 其他看板没问题
有哪位大牛知道这里为什么会变成这样,求救, 怎么做才能不聚合这个, 或者添加这个功能, 数据是已经聚合好的,只做这个展示就好了
2019-04-26 19:19:51
530
原创 如何在Windows上安装 PhoenixGo
如何在Windows上安装 PhoenixGo1)目前 PhoenixGo 仅支持在 Win7 及以上的 64 位系统运行。请先按如下操作确认自己的电脑是否符合要求:在桌面找到”我的电脑”(此电脑)点击右键,属性,查看弹出的系统信息。2)在 https://github.com/Tencent/PhoenixGo(https://github.com/Tencent/Phoeni...
2019-04-23 10:46:57
885
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人