段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
第47课:spark中的新解析引擎catalyst源码sqlparser彻底详解
第47课:spark中的新解析引擎catalyst源码sqlparser彻底详解1 sqlparser的基本工作机制2 sql parser源码彻底详解原创 2016-07-22 06:17:42 · 787 阅读 · 0 评论 -
第50课:spark的新解析引擎catalyst源代码physical plan彻底详解
第50课:spark的新解析引擎catalyst源代码physical plan彻底详解1 spark planner的基本工作机制2 physical plan源码彻底详解原创 2016-07-25 20:54:01 · 705 阅读 · 0 评论 -
第37课:Kafka源码解读Consumer内幕解密
第37课:Kafka源码解读Consumer内幕解密contributor:spark 2.0 bug 修复 Consumer :while 循环,线程向broker list主动抓数据,线程不断的看有没有数据。不断向leader询问:有数据吗? 一个线程消费一个partition的数据 设想场景:broker(3)- topic (1)- partition(10)获原创 2016-07-03 17:04:26 · 1860 阅读 · 0 评论 -
第36课:Kafka源码解读SocketServer下的Acceptor、Processor、Handler
第36课:Kafka源码解读SocketServer下的Acceptor、Processor、Handler1 socketServer下的NIO2 Acceptor、Processor、Handler/** * An NIO socket server. The threading model is * 1 Acceptor thread that handles n原创 2016-07-03 09:26:13 · 1400 阅读 · 0 评论 -
第35课:Kafka源码解读中分区数、Consumer并行度等
第35课:Kafka源码解读中分区数、Consumer并行度等 kafka中怎么设置分区的?class Partition:Data structure that represents a topic partition. The leader maintains the AR, ISR, CUR, RARPartition分区被zookeeper管理的zookeeper有原创 2016-07-03 09:05:14 · 1458 阅读 · 0 评论 -
第38课:Kafka源码解读Producer工作机制内幕
第38课:Kafka源码解读Producer工作机制内幕1 producer 代码实例2 producer 源码揭密kafka 动态元数据刷新,对发送者而言,分布式和单机版没有多大区别,只是吞吐量区别。几种情况:分区丢失leader not availablebroker挂掉broker扩容同步:producer原创 2016-07-02 06:57:55 · 1515 阅读 · 0 评论 -
第28课 :在集成开发环境中详解spark streaming的运行日志内幕
第28课 :在集成开发环境中详解spark streaming的运行日志内幕 remove删除分2部分 Rdd占内存空间立即删除了 删除上一个job的元数据 下一个job启动以前删除上个job的原数据 第一个job没有删rdd,没有前置batch信息,无内存占用过大的问题原创 2016-06-16 07:17:46 · 606 阅读 · 0 评论 -
第49课:Spark中的新解析引擎Catalyst源码Optimizer彻底详解.
第49课:Spark中的新解析引擎Catalyst源码Optimizer彻底详解.1 Optimizer的基本工作机制2 Optimizer源代码彻底详解原创 2016-07-24 06:45:24 · 1000 阅读 · 2 评论 -
第48课:Spark中的新解析引擎Catalyst源码Analyzer彻底详解
第48课:Spark中的新解析引擎Catalyst源码Analyzer彻底详解1 Analyzer的基本工作机制2 Analyzer源码彻底详解原创 2016-07-23 07:07:20 · 693 阅读 · 0 评论 -
第46课:Spark中的新解析引擎Catalyst源码初探
第46课:Spark中的新解析引擎Catalyst源码初探1 sqlcontext2 catalyst 核心组件源码原创 2016-07-22 19:50:29 · 780 阅读 · 0 评论 -
第43课:Spark Streaming中UI内幕实现彻底解密
第43课:Spark Streaming中UI内幕实现彻底解密1 spark streaming中UI的监听器模式2 spark streaming中UI具体源码解析原创 2016-07-12 06:42:08 · 1132 阅读 · 0 评论 -
第41课:Spark Streaming中WAL内幕实现彻底解密
第41课:Spark Streaming中WAL内幕实现彻底解密1 WAL 框架和实现2 spark streaming中WAL的使用WAL 是一个存储系统,相当于Blockmanager,可以简单的认为,WAL就是一个文件系统。WAL 在存储系统上面加了一层,加了一个时间维度和索引的位置。原创 2016-07-10 07:25:20 · 1762 阅读 · 0 评论 -
第29课:深入理解Spark 2.x中的Structured Streaming内幕
第29课:深入理解Spark 2.x中的Structured Streaming内幕原创 2016-06-19 16:49:34 · 1733 阅读 · 0 评论 -
第30课:集群运行模式下的Spark Streaming日志和Web监控台实战演示彻底解密
第30课:集群运行模式下的Spark Streaming日志和Web监控台实战演示彻底解密1个程序,多个job 作业调度的时候,更大化的使用集群的资源,封装不同的taskreceive运行在executor,多个receive,启动多个job,spark streaming封装了runable对象,2个或3个job属于同样的batch,产生jobset,jobset具体处理哪原创 2016-06-19 20:46:30 · 1067 阅读 · 0 评论 -
第 45课:神速Spark的新解析引擎catalyst
第 45课:神速Spark的新解析引擎catalyst1 catalyst本地解析2 catalyst流程精彩解析 spark streaming依赖于 dataset dataframe,而dataset dataframe依赖于catalyst;绝对有必要精通catalyst和tungsten; catalyst不仅仅是sql的一个解析器引擎,应看做spark新一代的解原创 2016-07-20 19:52:57 · 2716 阅读 · 0 评论 -
第56课:Spark中的Tungsten内存和CPU的优化使用
第56课:Spark中的Tungsten内存和CPU的优化使用1 Tungsten内存分配优化使用2 Tungsten的cpu的优化使用 内存的使用 数据结构级别cpu的使用 调度级别 whole-stage code generationselect count(*) from sales where ....... vectorization原创 2016-08-04 06:49:08 · 1051 阅读 · 0 评论 -
第52课:spark的新解析引擎catalyst源码中的外部数据源、缓存及其他
第52课:spark的新解析引擎catalyst源码中的外部数据源、缓存及其他1 catalyst源码中的外部数据源2 catalyst缓存3 其他原创 2016-07-29 21:07:11 · 565 阅读 · 0 评论 -
第20课:Spark Streaming中动态Batch Size实现初探
第20课:Spark Streaming中动态Batch Size实现初探 1 Batch duration 与Process Time2 动态Batch sizeSpark Streaming中有很多算子,每一个算子不会呈现线性规律, Batch duration处理数据越大,时间不会线性增长。数据量大,不是加大Batch duration就能解决问题。一切终端一切媒体都会变原创 2016-06-04 07:52:57 · 3076 阅读 · 3 评论 -
第51课:Spark中的新解析引擎Catalyst源码SQL最终转化为RDD具体实现
第51课:Spark中的新解析引擎Catalyst源码SQL最终转化为RDD具体实现1 框架与RDD2 physical plan与RDD原创 2016-07-29 17:01:47 · 662 阅读 · 0 评论 -
第32课:Kafka原理内幕和集群构建与测试实战
第32课:Kafka原理内幕和集群构建与测试实战1 kafka原理内幕2 kafka集群实战Kafka的重要性不亚于spark streaming的重要性!彻底精通kafka,做到绝对精通kafka。如一些公司使用流处理系统:kafka改造整个IT异构系统!kafka1、kafka是分布式的,大规模消息打下坚实的基础,scalable2、对消息进行持久化,默认情况保存原创 2016-06-23 06:39:06 · 1359 阅读 · 0 评论 -
第39课:spark streaming中direct kafka 内幕实现彻底解密
第39课:spark streaming中direct kafka 内幕实现彻底解密1 spark streaming 下direct kafka 实例2 spark streaming 下direct kafka 内幕原创 2016-07-08 06:58:01 · 866 阅读 · 0 评论 -
第31课:集群运行模式下的Spark Streaming调试和难点解决实战经验分享
第31课:集群运行模式下的Spark Streaming调试和难点解决实战经验分享 一个batch中产生2个或3个job跟 spark streaming没有任何关系,2个 3个job只跟rdd的take有关。 分区中扫描,找不到数据循环执行job扫分区 ;如第一次分区刚好扫到了,就运行一个job原创 2016-06-21 19:28:04 · 1043 阅读 · 0 评论 -
第44课:Spark Streaming之Spark内核回顾思考
第44课:Spark Streaming之Spark内核回顾思考1 spark streaming 与spark core2 spark core思考一:spark core的数据结构rdd broadcast accumlatorrdd理解是一个数组,是分布式的数组;而hashset、array 就是一个单机版本的结构,rdd平铺在分布式的机器上,和在一台机器上的具体的区原创 2016-07-17 06:47:26 · 1041 阅读 · 0 评论 -
第42课:Spark Streaming中checkpoint内幕实现彻底解密(源代码提问:checkpoint源代码修改,适用场景:spark的版本升级,数据恢复。。)
第42课:Spark Streaming中checkpoint内幕实现彻底解密 高级 spark 人才的判定:1 在一家顶级的公司做了多年的spark的开发,而且有成果,领导认可2 为spark提供了bug的改进修复 spark contributor 而且是spark 多个部分的contributor3 spark内核基础之上,精通某个子框架 如spark sql sp原创 2016-07-16 08:53:45 · 1801 阅读 · 0 评论 -
第25课:spark streaming的streamingContext启动及Jobschedule启动源码图解
第25课:spark streaming的streamingContext启动及Jobschedule启动源码图解1 streamingContext启动2 Jobschedule启动源码图解/* * *王家林老师授课http://weibo.com/ilovepains */ 每天晚上20:00YY频道现场授课频道68917580 StreamingContext.st原创 2016-06-11 07:32:54 · 1350 阅读 · 0 评论 -
第24课:Spark Streaming的Transformation、Action、Input和Output
第24课:Spark Streaming的Transformation、Action、Input和Output源码图解1 Spark Streaming的Transformation、Action源码图解2 Input和Output源码图解未来Spark的发展,第二代钨丝计划解决了内存和CPU之后,接下来流处理是Spark发力的地方。原创 2016-06-10 07:10:57 · 1120 阅读 · 0 评论 -
第11课:Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究
第11课:Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究/* 王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/1,ReceiverTracker架构设计2,消息循环系统3,ReceiverTracker具体实现ReceiverTr原创 2016-05-22 17:49:07 · 755 阅读 · 0 评论 -
IMF 自定义 IMFTimer、IMFTimerTask
IMF 自定义 IMFTimer、IMFTimerTask package com.dt.spark.SparkApps.SparkStreaming;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Timer;原创 2016-05-28 19:43:27 · 702 阅读 · 0 评论 -
第17课:spark streming资源动态申请和动态控制消费速率原理剖析
第17课:spark streming资源动态申请和动态控制消费速率原理剖析/* 王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/1 spark streaming资源动态分配2 spark streaming动态控制消费速率推荐学习twitter公司heron的开源系统,twitter公司最深使原创 2016-05-28 07:49:41 · 848 阅读 · 0 评论 -
IMF SparkStreaming 自定义EventLoop 从入门到放弃
1、自定义一个IMFEventLoop2、自定义一个IMFEventLoopTest测试类运行结果com.dt.spark.sparkstreaming.IMFEventLoopTest=====IMF EventLoop from learn to give up !=========IMFEventLoop的start调用onstart,unitIMFE原创 2016-05-15 21:31:26 · 894 阅读 · 0 评论 -
IMF 自定义Reduce函数,学习理解Apply、callback函数、泛型类型、iterator迭代器
IMF 自定义Reduce函数,学习理解Apply、callback函数 package com.dt.spark.SparkApps.SparkStreaming;import java.util.ArrayList;import java.util.Iterator;import java.util.List;public class IMFReduce {原创 2016-05-27 15:48:15 · 729 阅读 · 0 评论 -
第3课:通过案例对SparkStreaming 透彻理解三板斧之三:解密SparkStreaming运行机制和架构进阶.
第3课:通过案例对SparkStreaming 透彻理解三板斧之三:解密SparkStreaming运行机制和架构进阶. //设置batchDuration时间间隔val ssc =new StreamingContext (conf,Seconds(5)) 真正的调度 ssc.start 在StreamingContext调用start方法的内部其实是一次启动Jo原创 2016-05-03 21:10:52 · 738 阅读 · 0 评论 -
第2课:通过案例对SparkStreaming 透彻理解三板斧之二
第2课:通过案例对SparkStreaming 透彻理解三板斧之二 空间维度: Y轴代表RDD的依赖关系构成的具体的处理逻辑的步骤,是用DStream Graph表示的 时间维度: X轴按照特定间隔不断的生成job的实例并在集群上运行 随着时间的流失基于DStream Graph不断的生成以RDDGraph也就是DAG的方式产生JOB,并通过JobSchedu原创 2016-05-03 21:08:37 · 816 阅读 · 0 评论 -
第1课:通过案例对SparkStreaming 透彻理解三板斧之一
第1课:通过案例对SparkStreaming 透彻理解三板斧之一 在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。这里选择Spark Streaming作为版本定制的切入点也是大势所趋。 将Batch interval放大,相当于看到了Strea原创 2016-05-03 21:07:10 · 1261 阅读 · 0 评论 -
IMF SPARK 源代码发行定制班 预习课程 IDEA Spark应用程序的调试 (1)从SparkSubmit入口进行调试
IDEA Spark应用程序的调试 从SparkSubmit入口进行调试1.下载spark-1.6.1登录官网http://spark.apache.org/2. 安装IntelliJ IDEA。进入下载页面:http://www.jetbrains.com/idea/download/,选择对应版本,下载并安装到集群中某个节点上192.168.18原创 2016-05-01 18:44:20 · 1324 阅读 · 0 评论 -
IMF SPARK 源代码发行定制班 预习课程 Spark框架源码的调试 (2) 从master worker main入口进行调试
1.在Master 所在节点的conf/spark-env.sh脚本中添加以下配置:export SPARK_MASTER_OPTS="$SPARK_MASTER_OPTS -Xdebug -server -Xrunjdwp:transport=dt_socket,address=5005,server=y,suspend=y"原创 2016-05-02 12:48:43 · 893 阅读 · 0 评论 -
第6课:Spark Streaming源码解读之Job动态生成和深度思考
第6课:Spark Streaming源码解读之Job动态生成和深度思考 /** * This class schedules jobs to be run on Spark. It uses the JobGenerator to generate * the jobs and runs them using a thread pool. */private[streaming]原创 2016-05-12 18:02:15 · 685 阅读 · 0 评论 -
第5课:基于案例一节课贯通Spark Streaming流计算框架的运行源码(Spark streaming源代码导入IDEA)
第5课:基于案例一节课贯通Spark Streaming流计算框架的运行源码1、在线动态计算分类最热门商品案例回顾演示2、基于案例贯通Spark Streaming的运行源代码 第一步,从IDEA中关联Spark Streaming源代码本地笔记本之前在eclipse(Java EE).exe通过maven方式获取了 Spark Streaming源代码,在eclipse的Ma原创 2016-05-10 10:05:17 · 1044 阅读 · 0 评论 -
第15课:spark streaming源码解读之No Receives彻底思考
第15课:spark streaming源码解读之No Receives彻底思考/* 王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/1、Direct Acess2、kafkaspark streaming两种方式:Receives以及No ReceivesNo Receives 的优势:语义一原创 2016-05-28 20:29:02 · 1106 阅读 · 0 评论 -
第16课:Spark streaming 源码解读之数据清理内幕彻底揭秘
第16课:Spark streaming 源码解读之数据清理内幕彻底揭秘 /* 王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/1、Spark streaming 数据清理原因和现象2、Spark streaming 数据清理代码解析spark运行在jvm上,jvm也会产生对象,jvm自动进行对原创 2016-05-28 21:56:12 · 1703 阅读 · 0 评论