
大数据处理
文章平均质量分 57
leo_weile
这个作者很懒,什么都没留下…
展开
-
词表匹配工具FlashText
1、安装pip install flashtext2、使用示例提取文本中字典涉及的关键词并将多个词归一化为某个关键词from flashtext import KeywordProcessorkeyword_processor = KeywordProcessor()# keyword_processor.add_keyword(<unclean name>, <standardised name>)keyword_processor.add_keyword原创 2021-08-06 11:43:15 · 899 阅读 · 0 评论 -
PipeMapRed.waitOutputThreads(): subprocess failed with code 1 报错的解决方法
我在写MapReduce程序时,在本地运行使用cat file.data | python mapper.py | sort k1,1 | python reducer.py >result.data进行测试时,程序可以输出正确结果,程序运行正常,但是在编写shell脚本提交在hadoop集群进行运算时,出现了"PipeMapRed.waitOutputThreads(): s...原创 2018-03-21 17:20:07 · 8635 阅读 · 2 评论 -
PipeMapRed.waitOutputThreads(): subprocess failed with code X 报错的解决方法
使用python写MapReduce程序在执行过程中出现了如下报错,几乎全部是由python脚本的问题造成的。遇到这种情况,解决方法可能会有很多,我提供一种自己一直使用的方法。具体方法:通过拉取MapReduce程序的执行日志,拖取日志的命令是:yarn logs -applicationId application_1519803790630_21764 > excuse.log...原创 2018-04-02 18:15:30 · 2292 阅读 · 0 评论 -
大数据学习之分布式文件系统(HDFS)
1、HDFS数据读写的基本单元是什么?快是数据读写的基本单元,默认快大小是64MB,不过如果一个文件的大小小于一个一个块大小,它并不占用整个数据块的空间。2、块的大小为什么设计上要明显大于普通文件系统?HDFS在快的大小设计上明显要大于普通文件系统,原因是为了最小化寻址开销,HDFS的寻址开销不仅包括磁盘寻道开销,还包括数据块的定位开销,因此以块为单位读写数据,可以把磁盘寻道时间分摊到...原创 2019-05-15 10:10:20 · 679 阅读 · 0 评论 -
hive 常见字符串函数
字符串函数在hive中经常使用,本篇博客将记录一些常用的字符串函数(持续更新)1、字符串分割函数:split语法: split(string str, string regex)返回值: array说明: 按照 pat 字符串分割str,会返回分割后的字符串数组举例:hive>select split("hadoop_spark_hive","_") from st...原创 2019-07-01 10:58:10 · 3723 阅读 · 0 评论