历届中国大数据技术大会PPT精粹

本文回顾了Hadoop的起源与发展历程,并通过历届中国大数据技术大会的PPT精粹,深入探讨了实时数据分析、HBase应用、Apache Pig优化等多个核心议题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【优快云报道】Hadoop起源于2002年的Apache Nutch项目,是Apache Lucene的子项目之一。2004年,Google在OSDI上公开发表了题为《MapReduce: Simplified Data Processing on Large Clusters》的论文,受到启发的Doug Cutting等人开始实现MapReduce计算框架并与NDFS(Nutch Distributed File System)结合支持Nutch的主要算法。2006年逐渐成为一套完整而独立的软件,起名为Hadoop。

2008年初,Hadoop成为Apache顶级项目。也是在这一年,首届中国大数据技术大会在北京举行。过去六年,Hadoop从名不见经传的菜鸟,一跃成为大数据领域的黄色大象。

以下为历届中国大数据技术大会PPT精粹第一部分:

MemSQL联合创始人兼CTO Nikita Shamgunov解析“实时数据分析” PPT下载

Nikita把如今的时代比做是摩尔定律的尾声,指出如今的计算速度不会再像以前那么快,然而数据的发展速度却丝毫没有停止,同时数据的多样性也完全爆发。他认为如今大数据技术最大的难题就是延迟问题,尤其是数据延迟和查询延迟。在对比了Twitter的Strom和Cloudera的Impala技术之后,他详细介绍了MemSQL的性能。

阿里巴巴集团数据交换平台资深专家强琦:大数据探索 PPT下载

强琦称,阿里巴巴将建立一个数据交换平台,每个人都可以从这个平台获得有价值的数据,但同时需要贡献自己的数据,这些零散的数据将组成一个蓝海,要像银行一样玩数据。

Ted Yu:如何在企业中应用HBase PPT下载

Ted拥有14年软件开发经验,以及超过两年的HBase开发经验,2011年成为HBase代码提交者和PMC的成员。 


Hortonworks戴建勇:解读Apache Pig的性能优化 PPT下载

戴建勇从充分利用Combiner、构建基于规则的优化器、利用Column Pruner以及使用Push up filter等角度,在分区pruning、压缩中间文件、合并MapReduce作业和控制合并粒度等方面详细演示了如何对Apache Pig的性能进行优化。 

华为高级技术经理Anoop Sam John:HBase的二级索引 PPT下载

Anoop介绍了华为在实际工程中对于HBase的优化工作,并分享了华为基于开源社区建设及长期工程积累的经验。除此之外,Anoop Sam John还重点介绍了华为构建的HBase二级索引能力。 

网易资深工程师顾费勇:海量数据搬运工——DataStream PPT下载

顾费勇探讨了Datastream产生的原因,结构和特征,关键技术点分享,应用场景和未来展望。大数据最主要的两个关键技术,一个是数据搜集,一个是数据整合与分析。顾费勇介绍网易在数据搜集方面做了比较完整的平台,但没有跟后端的数据分析组成一个完整的大数据平台。

威斯康星大学计算机系教授Miron Livny:当Condor遇到Hadoop时的机遇和挑战 PPT下载

集成了Hadoop的超级计算机集群Condor形成了非常强大的计算机系统,它的能力达到了可以处理类似于人类基因组合这样复杂的问题。它用高吞吐量特性代替了传统的高性能计算,这正好符合了大部分科研对高吞吐量的要求,而不是瞬间的处理速度。

Yahoo!巴塞罗那研究院科学家Flavio Junqueira:Apache BookKeeper——高性能可靠预写式日志 PPT下载 

为了高效的顺序写入,较好的容错性和可扩展性,设计了BookKeeper。它的结构由他们组成:Bookie(存储节点),Ledger(日志文档),Ensemble(用一组Bookie存储Ledger)。 

Facebook研发部经理邵铮:Puma与数据高速公路——实时数据流与分析 PPT下载

邵铮介绍了Facebook的分析工具和实时数据的使用案例,以及对于可扩展的数据流如何处理,Puma2和Puma3的结构及不同。


百度基础架构部高级研发工程师刘景龙:HDFS的透明压缩存储和压缩传输 PPT下载

为节省更多的存储空间,避免压缩过程影响计算作业,并且使这一过程对用户透明,百度在HDFS下使用了透明压缩存储和压缩传输的技术。


Facebook公司Jerry Chen/Liyin Tang:在HBase上构建关键业务通信系统 PPT下载

Facebook选择了HBase,因为它具有高吞吐量,非常良好的随机读取性能,很不错的扩展性,也具有自动备缓功能,很强的兼容性和HDFS的优点。Facebook通常将Small Message,Message metadata和搜索索引存储在HBase中。

(文/ 包研  审校/仲浩)

欢迎关注 @优快云云计算微博,了解更多云信息。 

简介之前罗嗦一句:以下内容版本归原作者,本来本着分享精神我不应该要这一分 的,但是我发现整理这些资源竟然整整花了我超过一个小时,而且原先地址的资源有 些不能下载,我是千方百计找到所有的ppt,做个合集方便大家,节约大家的时间吧, 以下正题! 2015 中国大数据技术大会已经圆满落幕,本届大会,以更加国际化的视野,从政 策法规、技术实践和产业应用等角度深入探讨大数据落地后的挑战,作为大数据产业 界、科技界与政府部门密切合作的重要平台,吸引了数千名大数据技术爱好者到场参 会。 以下为合集列表: 1. 启明星辰公司副总裁潘柱廷:2016 年大数据技术发展趋势解读 2. Databricks公司联合创始人、Spark首席架构师辛湜:Spark发展:回顾2015,展望 2016 3. 京东云平台总架构师、系统技术部负责人刘海锋 :从2014 到2016,大规模内存数 据库演进之路 4. Hulu 资深研发主管梁宇明 :Voidbox - Docker On YARN在Hulu的实践 5. Pivotal 研发总监姚延栋:开源大数据引擎:分布式Greenplum数据库内核分析 6. 阿里巴巴iDST语音组高级专家鄢志杰 :Deep Learning助力客服小二:数据技术及 机器学习在客服中心的应用 7. 小米金融技术主管方流: 大数据在互联网金融中的应用 8. 新加坡管理大学信息系统学院教授朱飞达 :大数据与金融创新:从研究到实战 9. 宜信大数据创新中心首席数据科学家项亮: 大数据在信用风险管理中的应用 10. 南京大学计算机系PASA大数据实验室教授黄宜华 :Octopus(大章鱼):基于R语 言的跨平台大数据机器学习与数据分析系统 11. 百度基础架构部高级架构师沈国龙 :BML百度大规模机器学习云平台实践 12. 新浪微博算法技术总监姜贵彬:大数据驱动下的微博社会化推荐 13. FreeWheel技术副总裁李旸:FreeWheel基于大数据的新兴视频广告测量实践 14. 阿里巴巴数据安全部阿里数据安全小组总监郑斌:大数据下的数据安全 15. 数美公司联合创始人兼CTO梁堃:Sentry金融实时风控系统
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值