- 博客(172)
- 收藏
- 关注
原创 007_centos使用paddlepaddle报错ImportError: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.20‘ not found
在import paddle时报错 ImportError: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.20' not found (required by /home/anaconda38/lib/python3.8/site-packages/paddle/fluid/libpaddle.so)3. 选择版本相同或更高的一个 libstdc++.so,查看其中是否存在GLIBCXX_3.4.20。2. 查看其他位置是否存在libstdc++.so。
2023-07-28 13:23:43
2225
1
原创 linux部署Python项目,并解决依赖自定义模块报错问题
背景:windows中使用pycharm完成python项目,需在linux部署。
2022-08-08 09:50:38
1019
转载 RPM命令的--nodeps 和--force参数解释
1.--nodeps就是安装时不检查依赖关系,比如你这个rpm需要A,但是你没装A,这样你的包就装不上,用了--nodeps你就能装上了。2.--force就是强制安装,比如你装过这个rpm的版本1,如果你想装这个rpm的版本2,就需要用--force强制安装。转载自RPM命令的--nodeps 和--force参数解释_xufengzhu的博客-优快云博客_nodeps...
2022-05-30 15:12:49
5935
1
原创 Linux离线环境安装bzip2
1.下载离线安装包 bzip2-1.0.6-13.el7.x86_64.rpm http://mirror.centos.org/centos/7/os/x86_64/Packages/bzip2-1.0.6-13.el7.x86_64.rpm 2. 上传文件到离线的Linux系统上3.执行命令 rpm -ivh bzip2-1.0.6-13.el7.x86_64.rpm4.执行bzip2 --help测试安装成功...
2022-05-27 13:57:45
4769
2
原创 sqoop的安装和导入数据到hdfs和hive
一、Sqoop 安装1. 下载sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2. 通过sftp 从本地传到Linux3. 解压 tar -xzvfsqoop-1.4.7.bin__hadoop-2.6.0.tar.gz4. 配置/etc/profileexport SQOOP_HOME=/usr/local/sqoop-1.4.7export PATH=$PATH:$SQOOP_HOME/bin5. 配置sqoop环境cd/home/hadoop/...
2020-10-11 22:31:03
479
原创 Hive SQL执行mapreduce任务卡在Kill Command
执行 select sid,count(*) as cn from student group by sid;任务一直卡住如下:2020-10-11T14:00:31,407 INFO [main] exec.Task: Kill Command = /usr/local/hadoop-2.7.6/bin/hadoop job -kill job_1602395744321_0002 我的集群部署出错的地方在于hadoop的slaves文件中只配置了2个datanode,而...
2020-10-11 14:52:12
2265
原创 Hive的安装配置
操作系统centOS 6.5Hadoop版本:hadoop 2.7.6JDK版本:JDK 1.8ant版本:ant 1.10.5mysql版本:mysql 5.7一、安装准备1. 从官网下载解压hive的bin压缩文件 , 此处使用的是hive-2.1.1版本2. 通过ftp传输到linux系统,使用tar -xzvf apache-hive-2.1.1-bi...
2020-10-11 14:37:39
455
原创 Flink学习22---window和Time(五)WaterMark延迟触发任务机制
此处举例说明WaterMark可能更容易理解,以EventTimeTumblingWindow为例:如果设置窗口时间大小是10秒,窗口的边界可以是10000-19999;WaterMark延迟2秒,那么当EventTime为21999的数据来到时,会触发计算EventTime为21999之前的所有EventTime在10000-19999之间的数据。即,真实要计算的时间窗口不变,部分迟到的数据会被纳入这个窗口一起计算。如果是多并行的source,则每个分区中都要满足上述条件,才会触发计算
2020-07-14 01:43:10
650
原创 Flink学习21---window和Time(四)会话窗口SessionWindow
输入样例数据如下,SessionWinow会把1588510000-1588515000划分为一个窗口,1588526100-1588535000作为第二个窗口,然后分别对每个窗口中的数据进行计算。package flink.review.datastream.E_Window;import com.demo.flink.countWindow.CountWindow;import com.demo.flink.timeWindow.SessionWindow;import o.
2020-07-13 00:12:26
700
原创 Flink学习20---window和Time(三)TimeTumblingWindw时间滚动窗口
如下代码中,时间滚动窗口的大小是10秒,可知,1588490000至1588499999为一个窗口,本例测试数据可分为两个窗口,输出结果如下。import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.api.java.tuple.Tuple3;import org.apache.fl...
2020-07-12 22:40:28
771
转载 Flink学习19---window和Time(二)Time与watermarks详解
当我们在使用Flink的时候,避免不了要和时间(time)、水位线(watermarks)打交道,理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义?Flink是如何处理乱序事件的?什么是水位线?水位线是如何生成的?水位线的传播方式是什么?让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一,在 Flink 中 Time 可以分为三种:Event-Time,Processing-Time 以及 Ingestion-Time,如下图所
2020-07-12 21:48:01
629
1
转载 Flink学习18---window和Time(一)window全面解析
Flink认为Batch是Streaming的一个特例,window就是用来对一个无限的流设置一个有限的集合,从而在有界的数据集上进行操作的一种机制。一、Window简介1.Window根据类型可分为两种: (1) Tumbling Window: 滚动窗口,窗口内数据没有重叠;(2)Sliding Window: 滑动窗口,窗口内数据有重叠。可以根据Time,Count或者自定义划分Window,每种划分又可以分别对应滚动和滑动。2. TimeWindow 根据时间对数...
2020-07-12 21:47:47
2138
1
原创 Flink学习17---容错机制(七)深入理解KeyedState,使用keyedState实现累加功能
直接上代码如下:import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.
2020-07-12 18:20:54
581
原创 Flink学习16---容错机制(六)深入理解OperatorState,自定义实现ExactlyOnce多并行Source
FlinkKafkaConsumer内部实现了ExactlyOnce,如果使用自定义多并行Source,也可以借助Operator实现ExactlyOnce。import org.apache.flink.api.common.state.ListState;import org.apache.flink.api.common.state.ListStateDescriptor;import org.apache.flink.api.common.typeinfo.Types;import.
2020-07-12 17:49:59
915
原创 Flink学习15---容错机制(五)checkpoints保存报错 Could not flush and close the file system output stream to hdfs
在保存checkpints的时候,可能会出现保存失败的情况。我遇到的报错如下:Could not flush and close the file system output stream to hdfs:....could only be replicated to 0 nodes instead of minReplication (=1). There are 2 datanode(s) running and no node(s) are excluded in this operation
2020-07-11 01:28:25
1484
原创 Flink学习14---容错机制(四)StateBackend和SavePoint的使用
1. 设置StateBackend 模式,此处以保存到hdfs为例在flink-conf.yaml中设置 state.backend为filesystem;设置state.backend.fs.checkpointdir 即checkpoints的保存路径。也可在程序中指定checkpoints的保存路径。env.setStateBackend(new FsStateBackend("hdfs://192.168.***.***:9000/flink/checkpoints"));注
2020-07-11 01:20:07
1318
原创 Flink学习13---容错机制(三)KeyedState和OperatorState认识
现结合Kafka数据源,利用KeyedState实现累加功能,通过OperatorState记录已读取数据偏移量,并在重启启动时能接着上次的累加次数和偏移量继续计算。
2020-07-09 23:22:02
466
原创 Flink学习12---容错机制(二)重启策略实例
示例代码如下:1. 首先要开启checkpointing, 如 env.enableCheckpointing(5000);2. 选择一种重启策略//固定间隔重启:最多重启五次,重启间隔2000毫秒 env.setRestartStrategy(RestartStrategies.fixedDelayRestart(5,2000));//失败率:failureRate是每个测量时间间隔最大失败次数//第二个参数failureInterval失败率测量的时间间隔; //第..
2020-07-08 00:45:03
585
原创 Flink学习11---容错机制(一)State,CheckPoint 及重启策略简介
Flink的流计算是带状态的计算,为例更好的容错,引入了State和CheckPoint。一、简介1. State一般指一个具体的Task/Operator的状态,State数据默认保持在Java的堆内存中。2. CheckPoint (可以理解为CheckPoint是把State数据持久化存储了),则表示了一个Flink Job在一个特定时刻的一份全局状态快照(可以设置快照生成周期),即包含了所有Task/Operator的状态。# 此处的Task是Flink中执行的基本单位,也有的地方叫
2020-07-08 00:44:19
852
1
原创 Flink学习10---DataStream之Sink简介及RichSinkFunction
功能就是负责把 Flink 处理后的数据输出到外部系统中。一、Flink针对DataStream提供了大量的已经实现的数据下沉(sink)方式,具体有:1. writeAsText(): 将元素以字符串形式逐行写入,这些字符串通过调用每个元素的toString()方法来获取。2. print() / printToErr(): 打印每个元素的toString()方法的值到标准输出或者标准错误输出流中。3. 自定义输出:addSink可以实现把数据输出到第三方存储介质中。Flink通过内置
2020-07-05 23:30:08
7114
1
原创 Flink学习9---DataStream之功能更丰富的Transformation算子RichMapFunction
Flink还提供了功能更丰富的Transformation实现接口。RichFuction除了提供原来MapFuction的方法之外,还提供open, close, getRuntimeContext 和setRuntimeContext方法,这些功能可用于参数化函数(传递参数),创建和完成本地状态,访问广播变量以及访问运行时信息以及有关迭代中的信息。import org.apache.flink.api.common.functions.FilterFunction;import org.
2020-07-05 17:54:38
2055
原创 Flink学习8---DataStream之Transformation算子简介
一、Flink针对DataStream提供了大量的已经实现的算子。1. map: 输入一个元素,返回一个元素,中间可以进行清洗转换等操作。2.FlatMap: 压平,即将嵌套集合转换并平铺成非嵌套集合,可以根据业务需求返回0个、一个或者多个元素。3. Filter: 过滤函数,对传入的数据进行判断,符合条件的数据才会被留下。4.KeyBy: 根据指定的Key进行分组,Key相同的数据会进入同一个分区。用法: (1)DataStream.keyBy("key")指定对象中的具体key字段.
2020-07-05 15:53:14
728
原创 Flink学习6---DataStream之DataSource API (五)RichParallelSourceFunction自定义多并行DataSource
自定义多并行DataSource必须继承 RichParallelSourceFunction 类,并重写run()和cancel()方法。import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.functions.source.RichParallelSourceFunction;import java.io.RandomAccessFile;// 这里的泛型Tuple2是该sou
2020-07-05 14:46:08
1522
原创 Flink学习7---DataStream之DataSource API (六)不同数据源及容错性总结
1. Flink提供的这些数据源接口的容错性保证如下表。DataSource 语义保证 备注 File Exactly-once Collection Exactly-once Socket At-most-once Kafka Exactly-once 需要使用0.10及以上版本 2. Flink可通过内置的Connector连接器,提供对应的Source支持连接器 是否提供Source支持 是
2020-07-05 12:27:10
671
原创 Flink学习5---DataStream之DataSource API (四)addSource用法
addSource可以实现读取第三方数据源的数据。1. 此处以读取kafka数据为例 (kafka集群安装参考https://blog.youkuaiyun.com/zhuzuwei/article/details/107136796)import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.api.datastream.DataStreamSource;im.
2020-07-05 12:15:16
6180
1
转载 kafka集群的安装和启动
Kafka版本:kafka_2.12-2.1.1.tgz jdk版本:JDK1.8以上版本号解释:Scala版本号:2.12 Kafka版本号:2.1.1Kafka集群安装步骤:1.下载安装包 wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.1.1/kafka_2.12-2.1.1.tgz2.解压缩 tar -zxvf kafka_2.12-2.1.1 -C /usr/local (-C ...
2020-07-05 11:53:38
1066
原创 Flink学习5---DataStream之DataSource API (三)基于集合的fromCollection
fromCollection 可直接从集合中读取数据作为流,由于集合是有界的,所以该数据流有界,读完之后程序会自动退出。是非并行的DataSource,主要用于测试。import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import java.util.Array
2020-07-04 00:58:20
3106
原创 Flink学习4---DataStream之DataSource API (二)基于文件的readTextFile
readTextFile 接口可读取指定文本文件,遵循TextInputFormat逐行读取规则并返回。(在TextInputFormat中,文本文件中的每一行都是一条记录。 值是行的内容,而Key是行的字节偏移量。)import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;pu
2020-07-04 00:50:17
2148
原创 Flink学习3---DataStream之DataSource API (一)基于Socket的SocketTextStream
Flink中非并行的Source包括socketTextStream、fromElements、fromCollection 等,主要用于测试程序。1. socketTextStream 可以从socke端口读取数据流,示例如下:import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironmen
2020-07-03 22:51:47
3350
原创 Flink学习2---flink的standalone模式集群安装
Standalone集群模式是Flink自带的,此处仅供学习使用,真正的生产环境还是使用on yarn模式较多。安装步骤如下:(以1.9.1版本为例)1. 下载flink安装包,地址:https://flink.apache.org/downloads.html2. 上传到linux服务器上后解压,并将flink-shaded-hadoop-2-uber-2.7.5-9.0.jar拷贝到flink解压包中的Lib目录下。3. 修改conf目录下的配置文件flink-conf.yaml配置
2020-07-03 22:08:30
3320
原创 Flink学习1---flink简介
基于多易教育的flink入门教程:https://www.bilibili.com/video/BV1ZJ411S7Pm?p=11
2020-07-03 22:08:13
583
原创 连接cenOS上的redis
1. redis的关闭和重启1.1 使用ps-ef|grep-iredis 查询redis-server是否在运行 找到对应的进程kill掉即可1.2./redis-server命令重启redis数据库2. 进入redis交互界面./redis-cli输入 auth password,如果密码正确会返回ok2.1. 如果报错(error) ERR Client sent AUTH, but no password is set,说明没有配置密码,可以进c...
2020-06-07 19:08:01
228
原创 centOS6安装redis
以安装3.2.9版本为例1. 从网上下载安装文件 redis-3.2.9.tar.gz网址:http://download.redis.io/releases/ ,其中包含了很多历史版本2.通过sftp上传到centOS6.53.解压 tar -xzvfredis-3.2.9.tar.gz 得到redis-3.2.9文件夹4. 进入redis-3.2.9文件夹内,执行make5. 执行make test5.1 安装8.6.3:依次执行以下步骤wget...
2020-06-07 18:59:08
550
原创 centos上zookeeper分布式安装部署
1. 在官网下载zookeeper安装文件,本文安装的版本是3.4.5http://archive.apache.org/dist/zookeeper/2. 下载完成后通过ftp上传到虚拟机,再解压tar -xzvf zookeeper-3.4.5.tar.gz3. 将解压后的文件移动到指定目录中4. 配置相关文件(1) 配置zoo.cfgcp -a zoo_sam...
2020-03-22 23:58:06
473
1
原创 centOS7安装mysql及填坑过程
一、安装过程1.安装相关依赖yum -y install make gcc-c++ cmake bison-devel ncurses-devel2.从搜狐镜像获取源码 wget http://mirrors.sohu.com/mysql/MySQL-5.7/mysql-boost-5.7.24.tar.gz tar xvf mysql-boost-5.7.24.ta...
2019-11-23 12:54:15
438
原创 Java中使用ExecutorService和Future对任务运行时间进行限制
详情见实例代码public class CheckTimeOut { public static void main(String[] args) { int threadNum = 5; int timeOut = 6; // 获取线程池 ExecutorService es = Executors.newFixedThreadPool(threadNum); ...
2019-07-25 23:47:21
2363
原创 Java客户端操作HDFS
1. 在Eclipse或者IDEA中新建Maven项目2.设置pom.xml文件,添加hadoop-comm、hadoop-hdfs和jdk.tools依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artif...
2018-09-03 10:56:10
824
原创 寻找丑数Java实现
题目:把只包含因子2、3和5的数称作丑数(Ugly Number)。例如6、8都是丑数,但14不是,因为它包含因子7。 习惯上我们把1当做是第一个丑数。求按从小到大的顺序的第N个丑数。 丑数即:可分解为质数的乘积,且质数只能是2,3或5。 Java实现代码如下:public class CheckUglyNumber{ public static void main(Str...
2018-08-25 20:51:51
1060
原创 使用JDBC连接hiveserver2
1. 先在linux中启动hiveserver2命令:hive --service hiverserver2 2. 使用Eclipse创建java项目,并在项目中导入以下jar包(可在hadoop/share/lib和hive/lib中找)3. Hive的JDVC客户端操作步骤 4. Java代码(1) JDBCUtilsimport java.sql.C...
2018-08-19 16:38:30
6539
原创 使用sqoop将Hive中的数据导出到mysql及异常Job failed as tasks failed.
1. 使用以下语句尝试从Hive中导出数据到mysql/sqoop export --connect jdbc:mysql://***.***.***.***./companyinfo --username root --password password -m 1 --table testsqoop --export-dir /user/hive/warehouse/testsqoop --...
2018-08-19 16:27:41
4306
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人