【技术性】OO语言知识

本文探讨了C++中folly库的分布式计算功能及其与PySpark底层思想的相似性,同时介绍了Python在数据管道搭建中的应用,包括FB的Dataswarmrepo和Zillow的Pyspark实践。此外,还详细讲解了Python中dict的操作、subprocess模块的使用以及yield与generators的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

持续更新。
--------------------C++篇------------------------

  1. 分布计算提高效率的库及库函数,比如FB的folly库就有folly::gen一大堆函数,e.g.
auto results = from(ids) | get<0>() | as<vector>();

本质上和e.g.Pyspark的分布式计算的底层思想是一致的。

--------------------Python篇-----------------------

  1. Python特别适用于搭data pipeline,比如FB的Dataswarm repo(用于run hive&presto tasks)和在Zillow用的Pyspark,其实根本上都是用了Python的脚本特性,串联起tasks来。
  2. dict的4种常见操作
    增:d['key1'] = 4
    删:d.pop('key1')
    找key:if 'key1' in d
    get值:d.get('key1')
  3. subprocess:
    Popen, e.g.

    process = Popen(['cat', 'test.py'], stdout=PIPE, stderr=PIPE)

    相当于执行了cat test.py这个命令
    然后可以用communicate函数来read,e.g. stdout, stderr = process.communicate(); print stdout

  4. yield & generators
    e.g.

    def foo():
        for i in range(0,100):
            yield i*i
    generator = foo()
    for i in generator:
        print(i)
        
  5. eee
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值