python-map()/reduce()

最新推荐文章于 2025-08-23 18:14:48 发布

原创最新推荐文章于 2025-08-23 18:14:48 发布 · 345 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#原创 #python #leetcode

Python 专栏收录该内容

31 篇文章

订阅专栏

最近刷leetcode,发现使用map()/reduce()这两个函数往往可以四两拨千金.但是使用起来却不简单,记录下来,免得忘记.

一 map(): 形式是map(function, sequence)
接受两个参数,第一个是函数,第二个是个可迭代对象.返回也是一个可迭代对象
第二个对象的元素依次带入第一个函数里面进行计算:

def func(x):
    return x*x
m=map(func,range(1,4))
print(list(m))
#输出：[1, 4, 9, 16]

如果传入多个对象,则按元素最少的为准:

def func(x,y):
    return x+y
m=map(func,range(1,8),range(3,6))
print(list(m))
#输出：[4, 6, 8]

二 reduce(): 要先导入库 functors .
形式是reduce(function, sequence,[initial])
接受三个参数,第一个是函数,第二个是个可迭代对象,第三个是初始值,返回是一个值
第一个函数必须有两个参数,必需.
第二个序列是个可迭代对象,如tuple ，list ，dictionary， string等,必需.
第三个初始值计算时作为函数第一个参数,如果序列为空,则返回初始值,非必需,如果没有初始值,则函数第一个参数是序列第一个元素,第二个参数是序列第二个元素.(有妙用!)
例如，

from functools import reduce
res = reduce(lambda x, y: x+y, [1, 2, 3, 4, 5])
print(res)
#1+2+3+4+5
#输出：15

from functools import reduce
res = reduce(lambda x, y: x+y, [1, 2, 3, 4, 5],1)
print(res)
#1+1+2+3+4+5
#输出：16

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Yolandera

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python常考--map、reduce、filter

axing194的博客

05-14

709

今天接着来讲python常考题~map有两个参数（函数，列表),他会在内部遍历列表中的每一个元素，执行传递过来的函数参数；Python2.7 返回列表，Python3.x 返回迭代器对象；map() 函数语法：map(function, iterable, ...) # function是函数，iterable是一个或多个序列。

简单了解python高阶函数map/reduce

12-31

Python内建了map()和reduce()函数。我们先看map。map()函数接收两个参数，一个是函数，一个是Iterable，map将传入的函数依次作用到序列的每个元素，并把结果作为新的Iterator返回。举例说明，比如我们有一个函数...

参与评论您还未登录，请先登录后发表或查看评论

Python 函数式编程-高阶函数-map/reduce

分享编程知识与技巧致力于技术交流与学习找我合作私聊有偿解决计算机问题

02-24

876

Python内建了map()和reduce()函数。如果你读过Google的那篇大名鼎鼎的论文“”，你就能大概明白map/reduce的概念。我们先看map。map()函数接收两个参数，一个是函数，一个是Iterablemap将传入的函数依次作用到序列的每个元素，并把结果作为新的Iterator返回。

python-map/reduce函数的应用

wolfcode_cn的博客

12-06

674

本文作者：黎智煊，叩丁狼高级讲师。原创文章，转载请注明出处。 map()和reduce()函数上次我们说了python的列表生成,可以很方便用很少代码,去取代相同的功能但需要写比较重复的代码,现在我们讲一下,python另外一对比较好用的高级函数. Python内建了map()和reduce()函数。 map()函数接收两个参数，一个是函数，一个是Iterable，map将传入的...

python的map和reduce_Python自学笔记-map和reduce函数（来自廖雪峰的官网Python3）

weixin_39637723的博客

12-16

419

感觉廖雪峰的官网http://www.liaoxuefeng.com/里面的教程不错，所以学习一下，把需要复习的摘抄一下。以下内容主要为了自己复习用，详细内容请登录廖雪峰的官网查看。Python内建了map()和reduce()函数。我们先看map。map()函数接收两个参数，一个是函数，一个是Iterable，map将传入的函数依次作用到序列的每个元素，并把结果作为新的Iterator返回。举例...

python--map、reduce、filter函数使用

tianheihei__的博客

05-02

2127

python-map\reduce\filter函数使用

python内置函数map/filter/reduce详解

kymppcds的博客

05-26

1575

在Python中，map(), filter(), 和 reduce() 是内置的高级函数(实际是class)，用于处理可迭代对象（如列表、元组等）的元素。这些函数通常与lambda函数一起使用，以简洁地表达常见的操作。下面我将分别解释这三个函数。

Python reduce / map / filter 函数区别

热门推荐

Yolandera的博客

05-08

5万+

一直用pycharm写代码一直用anaconda管理python环境但是今天我居然发现我不会更改pycharm当前的运行环境到我新建的anaconda environment中！配置：系统： win10； GPU：NVIDIA GeForce GTX 1050 Ti 管理平台：anaconda3 IDE：Pycharm 问题我的anaconda里面有三个环境，第一个是自...

python find() 和 index() 方法

Yolandera的博客

05-10

4万+

1 find() 方法字符串方法 str.find(str, beg=0, end=len(string)) 检测字符串中是否包含子字符串 str ，如果指定 beg（开始）和 end（结束）范围，则检查是否包含在指定范围内，如果指定范围内如果包含指定索引值，返回的是索引值在字符串中的起始位置。如果不包含索引值，返回-1。 a = 'Hello,World' print(a.fi...

张量(矩阵)乘积

Yolandera的博客

05-14

3万+

关于张量里面的积有太多形式了,这里终结一下,并用Python实现 1 矩阵乘积 (matmul product) 设A为m*p的矩阵，B为p*n 的矩阵，那么称m*n的矩阵C为矩阵A与B的乘积，记作 C = AB 其中矩阵C中的第行第列元素可以表示为：这里写代码片 2 哈达马积 (hadamard product) m*n矩阵 A 与m*n矩阵 B 的Hadam...

Python 二维数组排序

Yolandera的博客

09-25

8659

多维数组的排序之前在matlab上面想了好久。用python实现很简单： a = [[2,3,4], [2,4,5],[3,3,4]] sorted(a, key=lambda x: (x[1], x[0])) print(a) [[2, 3, 4], [2, 4, 5], [3, 3, 4]] ...

Python-numpy-高级索引

Yolandera的博客

05-14

4246

在做张量运算的时候经常会用到索引,这里记录一下numpy包中的ndarray中的高级索引 1 整数索引对于矩阵,有行索引,列索引 import numpy as np a = np.array([[1,2,3], [4,5,6],[7,8,9]]) b = a[[0,2],[0,2]] c = a[1,2] print(a) print(b) print(c) #输出 [[1 2 3...

Python append(),extend(),insert() 的区别

Yolandera的博客

05-13

3746

都是List的方法,用于添加元素到列表当中. 1 append() list.append(obj) 我用得最多,简单直接,将参数作为一个对象添加到列表最后,只接受一个参数. a = [1,2] a.append(('b','c')) print(a) #输出 [1, 2, ('b', 'c')] 2 extend() list.extend(seq) 列表末尾一次性追加另一个序列...

python2和python3的区别(不断更新)

Yolandera的博客

03-23

3096

目前百度回答或网上的教程使用Python2.x的比较多，但直接copy代码会显示错误；故将遇见的python3.x的改动总结一下：更新日期:2018.3.23 一到2018年12月31日为止，所有的NumPy版本都将完全支持Python2和Python3。从2019年1月1日开始，任何新的功能版本都只支持Python3。 2020年1月1日，我们将结束对Python2支持版本最后的社...

hadoop jar "/root/software/hadoop-3.1.3/share/hadoop/tools/lib/hadoop-streaming-3.1.3.jar" -D mapreduce.map.memory.mb=4096 \ -D mapreduce.reduce.memory.mb=8196 \-D mapreduce.map.java.opts="-Xmx3072m" \ -D mapreduce.reduce.java.opts="-Xmx6144m" \ -file "/usr/bin/python3" "/root/csv_python_code/my_mapper_csv.py" -mapper "/root/csv_python_code/my_mapper_csv.py" -file /usr/bin/python3 "/root/csv_python_code/my_reducer_csv.py" -reducer "/root/csv_python_code/my_reducer_csv.py" -input /my_input_csv/* -output /my_output.csv帮我把他们合成一段话

06-12

<think>我们面对的是HadoopStreaming任务失败的问题，具体有两个主要错误：1.PipeMapRed.waitOutputThreads():subprocessfailedwithcode1-说明mapper或reducer进程异常退出（返回非0状态码）2.容器因超出虚拟内存限制被YARN杀死（Containerkilledonrequest.Exitcodeis143）根据日志分析：-Mapper任务尝试3次均失败，错误码1（Python脚本执行异常）-Reducer任务因内存超限被终止（虚拟内存使用2.6GB，超过2.1GB限制）==解决思路==1.修复Python脚本异常（确保mapper/reducer能在集群环境运行）2.调整YARN内存参数（解决容器被杀问题）3.优化Python代码内存使用===详细解决方案===1.**诊断Python脚本错误**Mapper失败的根本原因是Python脚本执行异常。通过以下步骤诊断：-在脚本入口添加异常捕获（确保异常信息输出到stderr）```python#my_mapper_csv.py示例改造importsysimporttracebackdefmain():forlineinsys.stdin:#处理逻辑if__name__=="__main__":try:main()exceptExceptionase:sys.stderr.write(f"ERROR:{str(e)}\n")sys.stderr.write(traceback.format_exc())sys.exit(1)```-本地测试脚本：```bashcatinput.csv|python3my_mapper_csv.py```-常见错误：-Python版本不匹配（集群节点可能缺python3）-未安装必需库（如pandas等）-输入数据格式不符合预期（空行、字段不足等）2.**调整内存配置**原始任务内存参数不足，需在命令行或`mapred-site.xml`中增加：```bashhadoopjar...\-Dmapreduce.map.memory.mb=4096\#容器物理内存上限4GB-Dmapreduce.reduce.memory.mb=8192\-Dmapreduce.map.java.opts="-Xmx3072m"\#JVM堆内存（为容器内存留余量）-Dmapreduce.reduce.java.opts="-Xmx6144m"\-Dyarn.nodemanager.vmem-pmem-ratio=4.5\#虚拟内存/物理内存比例调高（默认2.1易超限）...```**参数解释**：-`mapreduce.[map|reduce].memory.mb`：容器分配的物理内存-`mapreduce.[map|reduce].java.opts`：JVM堆大小（通常设为内存的75%）-`yarn.nodemanager.vmem-pmem-ratio`：虚拟内存扩展系数（可调至4-5）3.**Python代码内存优化**即使调整配置，脚本自身也需控制内存：-**避免全量加载数据**（流式处理）：```python#错误示例（数据大时内存爆炸）data=[lineforlineinsys.stdin]#正确做法（逐行流式）forlineinsys.stdin:process(line)```-**减少对象引用**（及时释放）：```python#大对象用完后立即删除large_list=[...]result=compute(large_list)dellarge_list#主动释放```-**使用生成器代替列表**（reducer分组时尤其关键）：```pythonfromitertoolsimportgroupbyforkey,groupingroupby(sys.stdin,key=key_func):process_group(list(group))#注意：groupby要求输入已排序```===任务重启命令示例===综合调整后，完整任务提交：```bashhadoopjar"$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-3.1.3.jar"\-files"hdfs:///absolute/path/to/my_mapper_csv.py,my_reducer_csv.py"\#分发脚本（HDFS路径或本地）-archives"hdfs:///path/python_env.zip#pyenv"\#携带Python环境（若有第三方库）-Dmapreduce.map.memory.mb=4096\-Dmapreduce.reduce.memory.mb=8192\-Dyarn.nodemanager.vmem-pmem-ratio=5\-input/my_input_csv/*\-output/my_output.csv\-mapper"pyenv/bin/pythonmy_mapper_csv.py"\#使用归档中的Python解释器-reducer"pyenv/bin/pythonmy_reducer_csv.py"```注意：-`-files`替换废弃的`-file`参数[^1]-若用`-archives`，集群所有节点无需预装相同Python环境===相关配置参考===在`mapred-site.xml`中永久设置内存参数（避免每次命令行输入）：```xml<configuration><property><name>mapreduce.map.memory.mb</name><value>4096</value></property><property><name>mapreduce.reduce.memory.mb</name><value>8192</value></property><property><name>yarn.nodemanager.vmem-pmem-ratio</name><value>5</value></property></configuration>```[^1]:引用配置示例</think> ### Hadoop Streaming任务失败分析与解决方案 #### 问题诊断 1. **PipeMapRed.waitOutputThreads()错误** - 日志显示Mapper进程以错误码1退出：`subprocess failed with code 1` - 常见原因： * Python脚本执行异常（未捕获的异常） * 集群节点缺失Python依赖 * 输入数据格式问题（如CSV字段缺失） 2. **内存超限错误** ```log Container [pid=72527...] is running 537983488B beyond the 'VIRTUAL' memory limit Current usage: 168.3 MB of 1 GB physical memory used; 2.6 GB of 2.1 GB virtual memory used ``` - 虚拟内存（2.6GB）超出限制（2.1GB） - Reducer任务因内存超限被杀死（Exit code 143） --- #### 完整解决方案 ##### 第一步：修复Python脚本问题 1. **添加异常处理机制** 在Python脚本中添加全局异常捕获： ```python # my_mapper_csv.py 修改示例 import sys import traceback def process_line(line): # 原数据处理逻辑 return processed_data if __name__ == "__main__": try: for line in sys.stdin: result = process_line(line) print(result) except Exception as e: sys.stderr.write(f"ERROR: {str(e)}\n") sys.stderr.write(traceback.format_exc()) # 输出堆栈 sys.exit(1) # 必须返回非零退出码 ``` 2. **验证脚本本地执行** ```bash cat sample.csv | python3 my_mapper_csv.py | sort | python3 my_reducer_csv.py ``` 检查是否有错误输出 ##### 第二步：解决内存超限问题 1. **调整YARN内存参数** ```bash hadoop jar hadoop-streaming-3.1.3.jar \ -D mapreduce.map.memory.mb=4096 \ # 容器物理内存 -D mapreduce.reduce.memory.mb=8196 \ # Reducer需要更多内存 -D mapreduce.map.java.opts="-Xmx3072m" \ # JVM堆内存 -D mapreduce.reduce.java.opts="-Xmx6144m" \ -D yarn.nodemanager.vmem-pmem-ratio=5 \ # 虚拟/物理内存比(默认2.1) -files my_mapper_csv.py,my_reducer_csv.py \ # 替换-file参数 -mapper "python3 my_mapper_csv.py" \ -reducer "python3 my_reducer_csv.py" \ -input /my_input_csv/* \ -output /my_output.csv ``` 2. **关键参数说明** | 参数 | 推荐值 | 作用 | |------|--------|------| | `yarn.nodemanager.vmem-pmem-ratio` | 4-5 | 解决虚拟内存超限问题 | | `mapreduce.reduce.memory.mb` | ≥4096 | Reducer物理内存 | | `mapreduce.reduce.java.opts` | 物理内存的75% | JVM堆大小 | ##### 第三步：优化Python脚本内存 1. **避免全量加载数据** ```python # 错误做法（内存爆炸）： data = [line for line in sys.stdin] # 正确做法（流式处理）： for line in sys.stdin: fields = line.strip().split(",") # 立即处理并输出 ``` 2. **使用分组迭代器** ```python # Reducer优化示例 from itertools import groupby def key_func(line): return line.split(",")[0] # 按首字段分组 sorted_data = sorted(sys.stdin, key=key_func) for key, group in groupby(sorted_data, key=key_func): process_group(list(group)) # 分组处理 ``` ##### 第四步：永久配置优化（mapred-site.xml） ```xml <configuration>  <property> <name>yarn.nodemanager.vmem-pmem-ratio</name> <value>4.5</value> </property> <property> <name>mapreduce.map.memory.mb</name> <value>4096</value> </property> <property> <name>mapreduce.reduce.memory.mb</name> <value>8192</value> </property>  <property> <name>mapreduce.jobhistory.address</name> <value>master:10020</value> </property> </configuration> ``` #### 调试技巧 1. **查看完整错误日志** ```bash yarn logs -applicationId application_1744881937486_0004 > debug.log grep "Caused by" debug.log -A 15 ``` 2. **监控内存使用** 在Python脚本中添加： ```python import resource # Mapper/Reducer中定期输出 sys.stderr.write(f"MEM USAGE: {resource.getrusage(resource.RUSAGE_SELF).ru_maxrss} KB\n") ``` --- ### 相关问题 1. 如何为Hadoop Streaming任务分发Python虚拟环境？ 2. YARN容器被杀(Exit code 143)有哪些具体原因？ 3. 如何动态调整MapReduce任务的Reducer数量？[^4] 4. Hadoop Streaming与原生Java任务性能差异如何优化？ 5. 如何监控Hadoop集群中各节点的内存使用情况？