【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

本演讲介绍如何使用Spark ML和GraphFrames实现大规模文本分析管道。内容涵盖非结构化数据处理、高效数据存储格式及大规模图处理等,并推荐了一个跨平台的数据聚合工具——Histogrammar package。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package,并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。


8fa4d786b7d8c2ee2c86a6dcdc744e251d8fd4cc

e75e4d55b2a6bf6eb01db81b8077d5ae9fc3591d

c3fbc8d916df89c224e4b6e1390b7604f729d102

0f0def8e2eeecfccc48b783513b663a637b0a01a

bde8afa5f62762aabf2bc21f5313931c9b4e0d84

eac8e679dd81752c05b2fc8e7b985ff84f715e80

6dd8651b0f1367770bf2d5b41311968f7b8595fa

5d2f20a30be241543c863e3bcca1f168fc4097a2

e4b6f9877ca6ea027c16c826e94419c2e1948290

cabbe3c97ba87492c5d91c6978ffda31086995cd

6aa21ff394598f8139f831e783988f0787af118d

f7d7a6c345b8db08d6fd8841a118acaa38c64d52

5bef7aa17a4f7e60c761898b43c0cf96f051b3a3

58477f8dfb2e14b385ecfc54cc68380935cfaefe

0c5cd071b7f733b85c4207777dae983eb5b50793

ec910ad80c7ddbe6e2c65e06f06831bad92be3b5

44b2266cc1ea1bc04f20300753d2a91868003a6b

8f9eb0567ee73c3b906ded973b4942ddd3185a89

0986737cab539cd47258a642f30f00f589686e4c

3e0fc416bc9c1dd76946a677ce421061cce68f09

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值