
大数据
文章平均质量分 66
奔跑de五花肉
这个作者很懒,什么都没留下…
展开
-
rundeck 警告邮件QQ邮箱设置
现在最常使用微信、QQ,所以警告邮件设置为QQ邮箱文章目录开启邮箱SMTPcentos配置安装mailx服务(可以发带附件邮件)编辑配置文件打开POP3/SMTP/IMAP功能测试rundeck 调用开启邮箱SMTP进入邮箱设置,验证后获得y邮箱授权码 centos配置安装mailx服务(可以发带附件邮件)安装yum -y install mailx测试是否安装成功...原创 2019-11-29 12:00:55 · 1239 阅读 · 0 评论 -
rundeck 警告邮件设置 postfix问题:Job for postfix.service failed because the control process exited with err
Job for postfix.service failed because the control process exited with error code. See “systemctl status postfix.service” and “journalctl -xe” for details.这是因为防火墙或者配置文件导致,无法启动的邮件服务!!首先关闭防火墙!修...原创 2019-11-28 12:13:40 · 1125 阅读 · 0 评论 -
定时任务crontab 详解
文章目录服务管理常用选项说明系统的定时任务如何实现每秒执行方法一方法二服务管理$ systemctl status crond # 查看服务状态$ sudo systemctl start crond # 启动服务$ sudo systemctl stop crond # 停止服务根据cron的日志实时查看执行情况$ sudo tail -f /var/log/cro 【注意-f...原创 2019-11-22 12:48:14 · 359 阅读 · 0 评论 -
集群报警 :Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10
Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10。当前设置为 30。使用 sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf,以在重启后保存该设置。您可以继续进行安装,但 Cloudera Manager 可能会报告您的主机由于交换而运行状况不良。以下主机将受到影响问题:Centos 7 下安装CDH,群...原创 2019-11-18 20:35:34 · 2611 阅读 · 0 评论 -
若泽数据学员 整理面试题
第一份面试题:1、自我介绍2、画出你们的大数据架构,然后针对架构提问,如何做到精准一次、小文件规避等https://blog.youkuaiyun.com/zhikanjiani/article/details/89284488参考第一个mapreduce离线处理项目,为什么你们选择mapreduce或者spark;不要把东西落到具体的业务上去,应该提升到通用的流程上去,是处理日志的还是处理...原创 2019-11-14 12:03:33 · 379 阅读 · 0 评论 -
CentOS 中 is not in the sudoers file 解决方法
【涉及权限问题】当在终端执行sudo命令时,系统提示“hadoop is not in the sudoers file”:其实就是没有权限进行sudo,解决方法如下(这里用户名是fbz):1.切换到超级用户:$ su2.打开/etc/sudoers文件:$vim /etc/sudoers3.修改文件内容: 找到“root ALL=(ALL) ALL”...原创 2019-11-14 11:58:24 · 607 阅读 · 0 评论 -
sparkSQL常用用法
1)、----CAST和CONVERT的用法SQL中的cast和convert都是用来将一种数据类型的表达式转换为另一种数据类型的表达式。CAST和CONVERT提供相似的功能,只是语法不同。在时间转化中一般用到convert,因为它比cast多加了一个style,可以转化成不同时间的格式。使用 CAST:CAST ( expression AS data_type )使用 CONVE...原创 2019-10-29 15:43:58 · 1862 阅读 · 0 评论 -
在maven项目中scala和java 混编 问题
1.需要添加scala 相关maven配置:<properties> <scala.version>2.10.1</scala.version> <slf4j.version>1.7.7</slf4j.version> <scala.maven.version>2.1...原创 2019-10-17 16:47:11 · 283 阅读 · 0 评论 -
OPPO数据中台之基石:基于Flink SQL构建实数据仓库
本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor。本文主要内容如下:OPPO 实时数仓的演进思路; 基于 Flink SQL 的扩展工作; 构建实时数仓的应用案例; 未来工作的思考和展望。一.OPPO 实时数仓的演进思路1.1.OPP...原创 2019-09-25 16:45:32 · 232 阅读 · 0 评论 -
比拼Kafka,大数据分析新秀Pulsar到底好在哪
在用户选择一个消息系统时,消息模型是用户首先考虑的事情。消息模型应涵盖以下 3 个方面:消息消费——如何发送和消费消息;消息确认(ack)——如何确认消息;消息保存——消息保留多长时间,触发消息删除的原因以及怎样删除;消息消费模型在实时流式架构中,消息传递可以分为两类:队列(Queue)和流(Stream)。队列(Queue)模型队列模型主要是采用无序或者共...原创 2019-09-17 15:45:11 · 308 阅读 · 0 评论 -
Hive SQL 运行状态监控---HiveSQLMonitor
引言 目前数据平台使用Hadoop构建,为了方便数据分析师的工作,使用Hive对Hadoop MapReduce任务进行封装,我们面对的不再是一个个的MR任务,而是一条条的SQL语句。数据平台内部通过类似JDBC的接口与HiveServer进行交互,仅仅能够感知到一条SQL的开始与结束,而中间的这个过程通常是漫长的(两个因素:数据量、SQL复杂度),某些场景下用户需要了解这条SQL语...转载 2019-01-23 20:34:36 · 518 阅读 · 0 评论 -
Scala 学习之 for 循环- yield 学习
我们先看下scala的 for循环骚操作:scala> for (i <- 1 to 3; j <-1 to 3 if i!=j ) println(s"i=$i,j=$j,i+j=${i+j}") i=1,j=2,i+j=3 i=1,j=3,i+j=4 i=2,j=1,i+...原创 2019-01-05 21:44:26 · 351 阅读 · 0 评论 -
缓存数据库redis经典剖析
因为redis的基本操作及多种数据结构的支持比较的简洁易懂,故在此文不作赘述,本文主要解析一下redis面试常见问题应答。目录 1、redis介绍 2、redis重要说明 1、redis介绍 1.1 redis是什么 Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value内存型数据库。 1.2 redis主要特点 支持数据的持久...原创 2018-07-29 23:21:46 · 170 阅读 · 0 评论 -
Spark读取结构化数据
读取结构化数据Spark可以从本地CSV,HDFS以及Hive读取结构化数据,直接解析为DataFrame,进行后续分析。读取本地CSV需要指定一些选项,比如留header,比如指定delimiter值,用,或者\t或者其他。import org.apache.spark.sql.{DataFrame, SparkSession}object ReadCSV { val ...原创 2018-08-04 22:25:29 · 1066 阅读 · 0 评论 -
命令行工具:文件目录操作
改变目录cd path/to/dir:到指定目录 cd ..:到父目录 cd -:到上次所在目录 cd:到home目录 cd ~/path/to/dir:到home目录下指定文件夹 cd /path/to/dir:到root目录下指定文件夹文件操作touch test.txt:新建文件test.txt rm test.txt:删除文件text.txt cp /path...原创 2018-08-04 22:35:42 · 817 阅读 · 0 评论 -
Kafka简介、基本原理、执行流程与使用场景
一、简介Apache Kafka是分布式发布-订阅消息系统,在 kafka官网上对 kafka 的定义:一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开发,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。几种分布式系统消息系统的对比:推荐相关文章:各消息队...转载 2018-07-31 17:30:16 · 147 阅读 · 0 评论 -
使用开源项目根据IP解析出城市信息的工具类编译
使用github上已有的开源项目 1)git clone https://github.com/wzhe06/ipdatabase.git 2)编译下载的项目:mvn clean package -DskipTests 3)安装jar包到自己的maven仓库 mvn install:install-file -Dfile=/Users/rocky/source/ipdatabase/tar...原创 2018-08-05 23:04:22 · 265 阅读 · 0 评论 -
Sqoop最佳实践
一、什么是SqoopSqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduce天生的特性保证了并行化和高容错率,而且相比Kettle等传统ETL工具,任务跑在Hadoop集群上,减少了ETL服务器资源的使用情况。在特定场景下,抽取过程会有很大的性能提升...原创 2018-09-08 01:43:44 · 848 阅读 · 1 评论 -
MapReduce 执行流程总结
一、在我们提交完MR程序之后,MR程序会先后经历map,reduce阶段,下面我们详细的来解析一下各个阶段 1 map阶段,在这个阶段主要分如下的几个步骤read,map,collect,溢写,combine阶段 (1) 在read阶段,maptask会调用用户自定义的RecordReader方法,在splitInput中解析出一个个的key-value对 ...原创 2018-09-23 00:13:06 · 485 阅读 · 0 评论 -
Scala学习之sorted,sortWith,sortBy源码及用法
scala的集合中提供了三种排序的方式:sorted,sortWith,sortBy。那么这三种方式有什么不同呢。下面我们结合源码来分析一下1.sorted先来看看scala中sorted的源码。 def sorted[B >: A](implicit ord: Ordering[B]): Repr = { val len = this.length val ...原创 2019-01-05 14:08:06 · 1656 阅读 · 1 评论 -
Oracle 查看历史SQL执行记录
--个人最常用的方法--oracle 监控,可以查看执行过的SQL语句SELECT SQL_TEXT, LAST_ACTIVE_TIME,SQL_FULLTEXT FROM v$sql ORDER BY LAST_ACTIVE_TIME DESC--另外 PL/SQL Developer中Ctrl+E可以重新调出历史SQL记录,历史记录文件默认保存在 AppData\Roam...原创 2019-01-10 23:40:23 · 46570 阅读 · 1 评论 -
sql分段处理删除大量数据
最近在QQ群里面,有人问起如何使用分段处理,竟然忘记如何操作,当时只是COPY一本书里的内容,只记得大致的步骤,先重新温习,以便记忆:实现功能:1.分段处理2.拆分操作3.批量绑定--摘自《Oracle 数据库性能优化》CREATE OR REPLACE PROCEDURE del_hubel_SSF_forallas type ridArray is table of...转载 2018-07-16 18:34:22 · 1753 阅读 · 0 评论