pig分析日志脚本（1）统计行数和单词个数wordcount

最新推荐文章于 2025-07-18 09:20:24 发布

最新推荐文章于 2025-07-18 09:20:24 发布 · 274 阅读

本文提供了一个使用Apache Pig进行数据统计的教程，包括如何统计特定目录下文件的行数及单词出现频率。通过示例展示了Pig Latin语言的基本用法。

--统计数据的行数

cd hdfs:///

A = LOAD '/logdata/2012*/*/nohup_*' AS (name:chararray) ;

B = GROUP A BY name;

C = FOREACH B GENERATE group, COUNT(A);

D = ORDER C BY ($1);

E = FILTER D BY $1 > 200;

dump E;

--统计单词的个数

A = LOAD'/logdata/20130131/*/*' AS (line: chararray) ;

B = foreach Agenerate flatten(TOKENIZE((chararray)$0)) as word;

C = group B by word;

D = foreach Cgenerate COUNT(B), group;

E = ORDER D BY ($0);

F = FILTER E BY $0> 200;

DUMP F;

参考资料：

http://salsahpc.indiana.edu/ScienceCloud/pig_word_count_tutorial.htm

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_14608

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据基础期末复习

雪雪

01-03

7239

1. 大数据概念、大数据的性质、大数据技术概述、大数据应用趋势与应用实例大数据5V，结构化非结构化半结构化数据，大数据处理过程图1-5，大数据的技术特征。答：Volume（大体量）：即可从数百TB到数十数百PB、甚至EB规模。 Variety（多样性）：即大数据包括各种格式和形态的数据。 Velocity（时效性）：即很多大数据需要在一定的时间限度下得到及时处理。 Veracity...

大数据期末复习题目汇总

热门推荐

qq_44949838的博客

04-22

1万+

大数据期末复习题目汇总

参与评论您还未登录，请先登录后发表或查看评论

[pig] 统计行数和单词个数wordcount

贞正

11-11

3603

原文链接： http://blog.youkuaiyun.com/hijk139/article/details/8560131 统计行数和单词个数wordcount --统计数据的行数 cd hdfs:/// A = LOAD '/logdata/2012*/*/nohup_*' AS (name:chararray) ; B = GROUP A BY name; C =

pig 次数统计和列传行

韩王-信

09-29

1019

b= foreach a generate TOKENIZE(line) as word; ({(air),(2013),(us),(eu),(20)}) ({(air),(2013),(us),(eu),(30)}) ({(air),(2012),(us),(eu),(40)}) ({(hotel),(2013),(us),(eu),(20)}) ({(hotel),(2013

pig脚本记录，对于pig脚本跑批处理

luoyexuge的专栏

12-21

1477

最近用到了一个写pig脚本来批处理统计生成日志文件，具体的来看看吧： /* nohup pig -p INPUT=/staging/tracking/incoming/rtb.BJ.2015082516* -p SEID=9480 CheckIncomingData.pig & */ REGISTER pig-ext-1.0-SNAPSHOT.jar; REGISTER buzzads-b

spark统计文件行数

风筝中有风

01-04

1万+

虽然接触大数据2年了，以前对spark使用都是和solr建索引任务，由于目前的工作很少涉及spark了，为了不遗忘，从头开始复习一下spark，不同的是这次记录下来，一来方便自己查阅，二来对于刚入门的同行也算个案例。PS.高手勿喷 1、spark读取文件，统计行数 Intellj idea 开发工具环境就不在介绍了，网上很多教程，唯一需要注意的是你的spark或者scala版本与本地一致即可。

MapReduce高效词频统计指南：掌握性能优化的艺术

本文首先介绍了MapReduce在词频统计领域的基础应用，并对其编程模型的核心概念进行了深入解析，包括Map和Reduce函数的作用以及作业的生命周期。随后，探讨了数据流和任务调度机制，重点在于数据分区策略和任务调度。...

大数据处理与分析：Hadoop生态系统详解，挖掘大数据的金矿

![大数据处理与分析：Hadoop生态系统详解，挖掘大数据的金矿]...接着，文章扩展到Hadoop生态系统组件，包括Hive、HBase和Pig，阐述了它们在大数据仓库、NoSQL数据库和数据流语言中的应用及其优化策略。

12、大数据处理中的MapReduce及调度工作流

最新发布

ik67890123的博客

07-18

本博客深入探讨了大数据处理中的MapReduce编程模型及其调度与工作流管理。内容涵盖Hive的安装与使用，通过HiveQL进行词频统计的示例；使用Perl编写MapReduce任务的方法及其测试与运行；比较了不同MapReduce实现方式的优缺点；并详细介绍了Hadoop的调度器Capacity和Fair，以及工作流管理工具Oozie的应用。旨在帮助开发者根据实际需求选择合适的工具和技术，构建高效的大数据处理系统。

group by 统计行数

37度2

04-26

3113

select count(*) as cnt from ( //括号里写你原来的语句 select ... from ... where ... group by season,sex,type,year,itemid,itemname,size,color,unit,price,image ) as t

pig脚本总结

风起于青萍之末，折秀于林

09-02

1701

1 如果在宏中需要使用UDF，无需再宏中注册和定义该UDF，直接使用即可。因为pig的宏相当于直接将宏的代码与调用该宏的代码合并之后执行。 2 宏中传入的字段解析错误。比如传入的日期字段，会莫名其妙的被解析为1970年的时间，比如： define public_flow_and_usernum_statistic (grouped_data,sel_data,date_time ,

python实现词频统计(wordcount)函数

weixin_30412167的博客

08-05

2009

作为字典(key-value)的经典应用题目，单词统计几乎出现在每一种语言键值对学习后的必练题目，主要需求：写一个函数wordcount统计一篇文章的每个单词出现的次数(词频统计)。统计完成后，对该统计按单词频次进行排序。现python实现代码如下: #!/usr/bin/env python# encoding:utf-8# @Time : 2017...

pig简单案例统计每个ip的访问次数

逆水行舟，不进则退

11-23

1136

pig简单案例统计每个ip的访问次数

用Python统计单词的个数写wordcount

wyqwilliam的博客

09-23

3167

''' Created on 2018年9月22日 @author: Administrator ''' from pyspark.conf import SparkConf from pyspark.context import SparkContext from pyspark.streaming.tests import result from test.test_importlib.n...

日志查询-统计行数

github_38395241的博客

08-15

5360

需求：统计文件中id的个数方法：1. grep: grep -c “” fileName.txt假设fileName.txt中的数据是这样的failuer:id=1 failuer:id=2 ... failuer:id=3使用grep统计文件中id的个数: grep -o 'id=[0-9]\+' fileName.txt | grep -c ""grep -o 'id=[0-9]\+' f

统计文本中的单词数的简单脚本

azft68818的博客

09-06

223

最近在学习python，后面遇到课本上的一个例子，是一个统计文本当中单词数的简单脚本，源代码如下： # !/usr/bin/python # -*- coding:utf-8 -*- #somescript.py #统计sys.stdin中单词数的简单脚本 import sys text = sys.stdin.read() words = text.sp...

python统计出wordcount.txt文件中每个单词的个数

CZXY18ji的博客

09-28

1345

print( collections.Counter( re.findall( ‘\w+’ ,open( ‘wordcount.txt’ ).read( ) ) ) )

用python写wordcount

pupoqian3720的博客

08-05

6285

hadoop是建立在MapReduce机制之上，其中wordcount是hadoop最典型的一个实例，然而众所周知，hadoop的源码是java，并且大多数的hadoop代码都是基于java搭建起来，那如何利用python实现wordcount，这将是本篇博客主要想完成的功能，并将写好的程序放入hadoop集群上跑新建mapper.py #-*- encoding=UTF-8 -*-...

使用字符流统计文件中包含的单词个数和行数

11-08

使用字符流（CharacterInputStream）来统计文件中的单词个数和行数通常涉及到逐个读取字符，然后处理换行符和空格来分割出单词。以下是大致步骤： 1. **打开文件**：首先需要获取到文件的输入流，可以使用`...

pig分析日志脚本（1） 统计行数和单词个数wordcount

pig分析日志脚本（1）统计行数和单词个数wordcount