技术交流
zz0548
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Shell下获取系统时间及转换为时间戳的方法
获取当前时间,取到小时currTime=`date "+%Y%m%d %H"`转换为时间戳currTimestamp=`date -d "$currTime" +%s`获取今天时期:`date +%Y%m%d` 或 `date +%F` 或 $(date +%y%m%d) 获取昨天时期:`date -d yesterday +%Y%m%d` 获取前天日期转载 2015-07-26 14:45:23 · 1377 阅读 · 0 评论 -
NTP服务同步时间
sever conf配置# For more information about this file, see the man pages# ntp.conf(5), ntp_acc(5), ntp_auth(5), ntp_clock(5), ntp_misc(5), ntp_mon(5). driftfile /var/lib/ntp/drift # Permi原创 2017-01-07 18:11:12 · 655 阅读 · 0 评论 -
《Spark 官方文档》硬件配置
spark-1.6.0 [原文地址]硬件配置Spark开发者们常常被问到的一个问题就是:如何为Spark配置硬件。我们通常会给出以下的建议,但具体的硬件配置还依赖于实际的使用情况。 存储系统因为绝大多数Spark作业都很可能是从外部存储系统加载输入数据(如:HDFS或者HBase),所以最好把Spark部署在离这些存储比较近的地方。建议如下:只要转载 2016-08-15 09:44:09 · 589 阅读 · 0 评论 -
starting to launch local task to process map join maximum memory =1029701632 的原因
错误日志如下这是由于join的时候,其中一个表(左表或者右表)没有数据或者数据很小导致的原创 2016-07-19 14:47:09 · 4941 阅读 · 1 评论 -
诊断Java代码中常见的数据库性能热点问题
当我在帮助一些开发者或架构师分析及优化Java应用程序的性能时,关键往往不在于对个别方法进行微调,以节省一或两微秒的执行时间。虽然对某些软件来说,微秒级的优化确实非常重要,但我认为这并非着眼点所在。我在2015年间对数百个应用进行了分析,发现多数性能与可伸缩性问题都来源于糟糕的架构决策、框架的错误配置、错误的数据库访问模式、过量的日志记录,以及由于内存过度消耗而导致的垃圾回收所带来的影响。转载 2016-06-07 10:30:39 · 1885 阅读 · 0 评论 -
FSDataInputStream
前言在本文档中,你将了解到如何用Java接口读写Hadoop分布式系统中的文件,以及编码的转换等问题。其中有些细节,在你不知道的时候,是非常容易出错的。 这边读写文件分以下三种情况:1. 在非Map Reduce过程中读写分布式文件系统中的文件比如说,你想自己遍历一个文件,想截断一个文件,都属于这种方式。一般该过程发生在run函数中,程序员处理Map Reduce产生的中间转载 2016-06-05 15:18:18 · 6176 阅读 · 0 评论 -
Scrapy爬虫 - 获取知乎用户数据
安装Scrapy爬虫框架关于如何安装Python以及Scrapy框架,这里不做介绍,请自行网上搜索。初始化安装好Scrapy后,执行 scrapy startproject myspider接下来你会看到 myspider 文件夹,目录结构如下:scrapy.cfgmyspideritems.pypipelines.pysettings.py__in转载 2016-05-21 15:31:14 · 1983 阅读 · 0 评论 -
java.io.IOException: Type mismatch in key from map:解决方法
执行MR程序的时候发生异常:java.lang.Exception: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.LongWritable日志如下:2016-05-09 21:33:28,871 IN原创 2016-05-09 21:58:46 · 8694 阅读 · 1 评论 -
从0开始搭建一个微服务的持续交付系统
本文介绍了如何利用开源软件快速搭建一套微服务的持续交付系统。本文假设的环境是Linux操作系统,用到的软件包括Git、Jenkins、Salt、ZooKeeper、Apache等。开始之前,我先简单介绍下持续交付和微服务的概念,以便大家更好的理解本文的精华。什么是持续交付?我们先举个物流的例子,现在各大电商都非常重视物流的自动化建设,在实现包括运输、装卸、包装、分拣、识别等作业过程的设备和转载 2016-06-07 14:37:59 · 2254 阅读 · 0 评论 -
hadoop中MapReduce多种join实现实例分析
一、概述 对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并转载 2016-05-11 15:33:15 · 484 阅读 · 0 评论 -
MapReduce设置Map和Reduce函数,但是map输出结果后,reduce没有输出,也没有报错
主要原因是reduce输入的格式和map输出的格式不一致,请注意查看格式匹配!原创 2016-05-10 11:07:15 · 5204 阅读 · 0 评论 -
hive报错FAILED: NullPointerException null原因
hsql语句错误,请检查hive sql 语句原创 2015-09-05 15:46:11 · 11941 阅读 · 0 评论 -
shell ,sed命令用变量替换字符串,单引号改为双引号
file=/tmp/test.sqlSQL=`sed "s/HIVE_SCHEMA/${HIVE_DATABASE}/" $file`echo "SQL=$SQL"原创 2015-08-18 11:12:18 · 2951 阅读 · 0 评论 -
Windows 使用Eclipse配置连接hadoop,编译运行MapReduce --本地调试WordCount
1.准备工作操作系统:windows 10 开发工具:eclipse 4.5java虚拟机 :jdk-8u91-windows-x64.exehadoop版本:hadoop-2.6.4.tar.gzhadoop-eclipse插件:hadoop-eclipse-plugin-2.6.0.jar2. 安装过程2.1 jdk安装略2.2 hadoop安装解压 h原创 2016-05-04 10:47:20 · 6206 阅读 · 1 评论
分享