
BigData
哭着改bug
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
gzip简单使用
gzip [-cdtv#] 文件名-c 将输出写到标准输出上,并保留原有文件。 -d 将压缩文件解压。 -t 测试,检查压缩文件是否完整。-v 对每一个压缩和解压的文件,显示文件名和压缩比。 -# -9 或--best表示最高压缩方法(高压缩比)。系统缺省值为 6备注:默认gzip 会删除源文件,并生成xx.gz文件,如果需要保留源文件的话可以使用:gzip -c xxx文...原创 2020-01-14 18:44:37 · 828 阅读 · 0 评论 -
Wget基本用法:
Wget基本用法:从网上下载单个文件wget http://www.freehao123.com/file.iso2) 下载一个文件,但以不同的名字存为本地文件wget –output-document=filename.html freehao123.com3) 下载一个文件,存到指定的目录wget –directory-prefix=folder/subfolder freeh...原创 2020-01-14 15:05:12 · 777 阅读 · 0 评论 -
Sudo参数
Sudosudo,以其他用户身份执行一个命令。選項全表-A, --askpass 使用一个辅助程序以提示密码。-b, --background 在后台运行命令。-C, --close-from=num 关闭所有大于等于num的文件描述。-E, --preserve-env 运行命令时保存用户环境。-e, --edit 编辑文件而非运行一个命令。-g, --group=group 以...原创 2020-01-14 15:02:53 · 1993 阅读 · 0 评论 -
sqoop数据迁移案例
Mysql —> Hive简单的数据导出sqoop import \--connect \jdbc:mysql:localhost:3306/库名 \--username \root \--password-file \/tmp/.mysql_test_password \--table \member_cards \--driver \'com.mysql.jdb...原创 2019-12-27 11:18:12 · 454 阅读 · 0 评论 -
sqoop学习笔记
一、概述Sqoop是一款开源的数据导入导出工具,可以将传统的关系型数据库导出至HDFS,也可以将HDFS中的数据导出至关系型数据库。官网: http://sqoop.apache.org/原理:在Hadoop生态体系中,计算基本依赖于MR,那么Sqoop也是如此,Sqoop就是将Sqoop语句翻译成MR程序,来实现一个数据导入和导出的操作。那就不难理解到Sqoop就是一个对于InpuFo...原创 2019-12-18 23:14:13 · 212 阅读 · 0 评论 -
HBase学习笔记
一、概述Hbase全称为Hadoop Database(基于HDFS的数据库),设计来源Google 的bigtable,Hbase 仿照 bigtable设计基于HDFS上的一款数据库。1.1 CAP原则CAP原则又称之为CAP原理,指的是在分布式系统当中,一致性©、可用性(a)、分区容错性§,三者不可兼得HBase 是保证CP§分区容错性:大多数分布式系统都分布在多个子网络。每个...原创 2019-11-27 21:13:14 · 270 阅读 · 0 评论 -
Flink学习笔记
Apache Flink概述Flink是构建在Data Stream之上一款有状态计算框架。由于该款框架出现的较晚2014.12月发布,通常被人们认为是第3代流计算框架。第一代:MapReduce 2006年 批 磁盘 M->R 矢量 | 2014.9 Storm诞生 流 延迟低/吞吐小第二代:Spark RDD 2014.2 批 内存 DAG (若干Stage) | 使用mic...原创 2019-11-24 19:19:22 · 1385 阅读 · 0 评论 -
MapReduce Shuffle原理分析
MapReduce ShuffleShuffle简介 shuffle的本意是洗牌,把一组有规则的数据打乱成无规则的数据。而在MR中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则数据按指定规则打乱“打乱”成具有一定规则的数据,以便reduce端接收处理。 在shuffle之前,也就是在map阶段,MapReduce会对要处理的数据进行分片(split)操作,为每一个分片分配一...原创 2019-11-24 18:09:24 · 469 阅读 · 0 评论 -
Hadoop生态系统(简述)
Hadoop生态系统(简述)HDFS:作为Hadoop生态系统中数据的存储方案(文件系统)。MapReduce:Hadoop中分布式计算框架,对海量数据做并行分析计算。Hbase:基于HDFS的列式存储的NOSQL。Hive:是一款SQL解释引擎,能够将SQL语句翻译成MR代码。Flume:分布式的日至采集系统,用于收集海量日志数据,保存至存储系统。kafka:消息队列,实现分布式应用...原创 2019-11-22 09:32:53 · 3106 阅读 · 0 评论 -
Redis中哨兵模式的简单理解
Redis中哨兵模式的简单理解1.概述哨兵模式是一种特殊模式,首先Redis提供了哨兵命令,哨兵是一个独立的进程,它会独立运行。其原理是** 哨兵通过发送命令等待Redis服务器响应,从而监控运行的多个Redis实例 **。哨兵的作用:1.通过发送命令,让Redis服务器返回监控其运行状态,包括主服务器和从服务器。2.当哨兵检测到master宕机,会自动将slave切换为master,...原创 2019-11-12 22:26:34 · 3428 阅读 · 0 评论 -
Flume调优机制
Flume调优机制调节Flume的配置参数1.Source(1)增加source组件的数量,可以增大source读取数据的能力(2)batchSize参数决定Source一次批量传输到Channel的event数量;将参数batchSize的值调大,可以调高Source搬运event的能力。2.Channel(1)type选择memory时Channel性能最好,但是容错不行,一旦Fl...原创 2019-11-12 21:59:16 · 425 阅读 · 0 评论 -
yum安装提示 “没有可用安装包”
解决办法:当在Linux系统中使用yum安装软件时提示 “没有可用软件包”时,代表在linux系统yum源中已经没有对应的安装包了,这时,我们需要安装EPEL。 EPEL(Extra Packages for Enterprise Linux),企业版Linux额外包,RHEL分布非标准包的社区类库。安装如下:yum没有找到对应依赖包,更新epel第三方软件库,运行命令:yum ...原创 2019-11-04 19:00:20 · 3552 阅读 · 0 评论 -
yum命令使用报错,ping找不到域名等问题
Centos7中的网卡配置问题(ping,yum等需要外网的都不能使用)解决办法:如果你配置的是双网卡,删掉动态获取的网卡文件/etc/syscofig/network-script/ifcofig-ens37(或ens*),静态网卡正常配置即可。...原创 2019-11-04 17:28:57 · 372 阅读 · 0 评论 -
Idea启动报错
Scala插件可能会导致Idea启动报错解决方案; 只要清空windows上c:\Users\<username>\.IntelliJIdea11\config\plugins\这个目录,然后 重启即可原创 2019-11-02 14:42:58 · 603 阅读 · 0 评论 -
Spark集群运行时的运行依赖问题解决方案之一
Spark集群运行时的运行依赖问题解决方案之一运行时,使用包含第三方依赖的spark应用jar包 spark-day2-1.0-SNAPSHOT-jar-with-dependencies.jar <!-- maven 打包插件 打原始jar包 第三方依赖打入jar包中--> <plugins> <plugin> <artifactId>...原创 2019-10-31 22:07:04 · 637 阅读 · 0 评论