
Spark Streaming
段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
第2课:通过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming运行机制和架构
第2课:通过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming运行机制和架构解密Spark Streaming运行机制解密Spark Streaming架构 我们谈到技术界的寻龙点穴,每个领域都有自己的龙脉,Spark就是大数据的龙脉之所在,它的龙穴或者关键点就是Spark Streaming。上一节课我们采用了降维的方式,所谓降维就是把时间放大,将时间放长的原创 2017-08-23 07:14:37 · 682 阅读 · 0 评论 -
第4课: Spark Streaming的Exactly-One的事务处理和不重复输出彻底掌握
第4课: Spark Streaming的Exactly-One的事务处理和不重复输出彻底掌握根据家林大神课程编写!事务处理是至关重要的。事务处理例如:银行转账,A给B转账,B不可能多次收到A的转账;A转给B多次,而B只收到1次,这也不可能。事务处理:事务一定会被处理而且一定只会处理1次。在spark streaming,spark运行出错的时候不能保证输出的时候也是事务级别的,例如Task处理一原创 2017-08-30 21:28:45 · 712 阅读 · 0 评论 -
第14课:Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
第14课:Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密本节课讲解Spark Streaming中一个非常重要的内容:状态管理。为了说明这个状态管理,我们拿两个具体的方法updateStateByKey和mapWithState来说明Spark Streaming到底如何实现状态管理的。整个Spark Streaming按照B原创 2017-09-17 07:37:12 · 627 阅读 · 0 评论 -
第15课:Spark Streaming源码解读之No Receivers彻底思考 本节课分享Spark Streaming源码解读之No Receivers彻底思考,企业级开发Spark Strea
第15课:Spark Streaming源码解读之No Receivers彻底思考本节课分享Spark Streaming源码解读之NoReceivers彻底思考,企业级开发Spark Streaming的程序越来越多的采用No Receiver的方式,No Receiver的方式有自己的优势,例如:更强的控制的自由度;语义一致性.....;Spark Streaming支持2种方式:一种是Rec原创 2017-09-10 08:01:28 · 733 阅读 · 0 评论 -
第17课:Spark Streaming资源动态申请和动态控制消费速率原理剖析
本节课主要谈Spark Streaming两个比较高级的特性:Spark Streaming资源动态申请和动态控制消费速率原理剖析。动态消费速率背后有一套非常复杂的理论,这套理论有一篇非常好的论文, 而动态资源分配背后也有一套理论。因此首先跟大家讲清楚理论是怎么回事情,然后再进行深入的探讨就会容易很多。 我们首先思考一个问题,无论是资源动态分配,还是消费速率动态控制,为什么要动态?Spark在默认原创 2017-09-11 06:48:36 · 1865 阅读 · 0 评论 -
Spark视频王家林第119课: Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变?
Spark视频王家林第119课: Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变?本节讲解Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变?数据峰值及流量变化的不稳定有2个层面:1)第一个层面就是数据确实不稳定,例如晚上11点的时候访问流量特别高,相对其他时间而言表现为不稳定。2)第二个层面:数据是没问题的,数据流动的速度是匀速或接近于匀速,但原创 2018-01-17 19:50:14 · 635 阅读 · 0 评论