- 博客(6)
- 资源 (6)
- 收藏
- 关注
转载 hive 优化
转载地址:http://sishuok.com/forum/blogPost/list/0/6229.html第一部分:Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点Hadoop框架的特性•不怕数据大,怕数据倾斜•jobs数比较多的作业运行效率相对比较低,比如即
2014-02-23 21:59:22
498
原创 sed 用法总结
sed是一个非交互式的流编辑器。所谓非交互式,是指使用sed只能在命令行下输入编辑命令来编辑文本,然后在屏幕上查看输出;而所谓流编辑器,是指sed每次只从文件(或输入)读入一行,然后对该行进行指定的处理,并将结果输出到屏幕(除非取消了屏幕输出又没有显式地使用打印命令),接着读入下一行。整个文件像流水一样被逐行处理然后逐行输出。sed不是在原输入上直接进行处理的,而是先将读入的行放到
2014-01-24 18:06:02
3505
原创 shell中引号的作用
引号包含双引号,单引号,反引号,反斜杠作用如下:[search@dbl-vm-211-13 algorithm]$ echo $$24782[search@dbl-vm-211-13 algorithm]$ echo '$$' //单引号把特殊符号给转义了$$[search@dbl-vm-211-13 algorithm]$ echo "$$"24782[s
2014-01-23 19:19:27
636
原创 awk 使用方法小结
操作文件netstat.txt格式如下:[search@CJ-0140 ~]$ head netstat.txt Active Internet connections (w/o servers)Proto Recv-Q Send-Q Local Address Foreign Address State tcp
2014-01-23 17:37:39
992
原创 python 调试备忘录
日志没错,就是日志。再多强调在你的应用里保留足量的日志的重要性也不为过。你应当对重要的内容打日志。如果你的日志打的足够好的话,单看日志你就能发现问题所在。那样可以节省你大量的时间。如果一直以来你都在代码里乱用 print 语句,马上停下来。换用logging.debug。以后你还可以继续复用,或是全部停用等等。 跟踪有时更好的办法是看执行了哪些语句。你可以使用一些IDE的调试器
2013-11-08 16:59:39
609
原创 c++容易被忽视的细节序列 (一)
1.std::size_t numDigits(int number)函数返回类型被定义为std::size_t ,这表示size_t是被定义在std命名空间之内。std几乎是所有c++标准程序库元素的栖身之处。另外size_t只是一个typedef,是c++计算个数时用的不带正负号类型(unsigned),例如char* -base 字符串内的字符个数,stl容器内元素的个数。它也是
2013-11-05 21:50:28
437
2010年10月最新ORACLE OCP培训教程
2010-12-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅