段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
《Spark商业案例与性能调优实战100课》第1课:商业案例之通过RDD实现分析大数据电影点评系统中电影的用户行为信息
《Spark商业案例与性能调优实战100课》第1课:商业案例之通过RDD实现分析大数据电影点评系统中电影的用户行为信息英语学习: http://www.npr.org/spark2.1.0 新特点1,watermarksspark2.1.0 官方称从goole学习到的,或者从flink学的发送数据延迟到达,数据将放到正确的时间。如12点发送,1点收到,将按照原创 2017-01-01 22:29:16 · 2848 阅读 · 0 评论 -
<<《Spark商业案例与性能调优实战100课》第17课:商业案例之NBA篮球运动员大数据分析系统代码实战
原创 2017-01-27 21:36:57 · 1178 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第29课:彻底解密Spark 1.6.X以前Shuffle中JVM内存使用内幕及配置最佳实践
《Spark商业案例与性能调优实战100课》第29课:彻底解密Spark 1.6.X以前Shuffle中JVM内存使用内幕及配置最佳实践原创 2017-03-02 21:44:13 · 740 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第25课:Spark Hash Shuffle源码解读与剖析
《Spark商业案例与性能调优实战100课》第25课:Spark Hash Shuffle源码解读与剖析原创 2017-02-23 21:09:42 · 897 阅读 · 0 评论 -
第30课:彻底解密Spark 2.1.X中Shuffle中JVM内存使用及配置内幕详情
第30课:彻底解密Spark 2.1.X中Shuffle中JVM内存使用及配置内幕详情:Spark Unified Memory的运行原理和机制是什么?Spark JVM最小配置是什么?用户空间什么时候会出现OOM?Spark中的Broadcast到底是存储在什么空间的?ShuffleMapTask的使用的数据到底在什么地方?原创 2017-03-03 21:20:37 · 1266 阅读 · 0 评论 -
Spark商业案例与性能调优实战100课》第26课:电光石火间从根本上理解Spark中Sort-Based Shuffle产生的内幕及其tungsten-sort 背景解密
Spark商业案例与性能调优实战100课》第26课:电光石火间从根本上理解Spark中Sort-Based Shuffle产生的内幕及其tungsten-sort 背景解密原创 2017-02-24 21:04:45 · 696 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第27课:彻底解密Spark Shuffle令人费解的6大经典问题
《Spark商业案例与性能调优实战100课》第27课:彻底解密Spark Shuffle令人费解的6大经典问题原创 2017-02-26 21:39:52 · 863 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第31课:彻底解密Spark 2.1.X中Shuffle中内存管理源码解密:StaticMemory和UnifiedMemory
《Spark商业案例与性能调优实战100课》第31课:彻底解密Spark 2.1.X中Shuffle中内存管理源码解密:StaticMemory和UnifiedMemory原创 2017-03-09 21:09:14 · 912 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第32课:彻底解密Spark 2.1.X中Shuffle 下Task视角内存分配管理
《Spark商业案例与性能调优实战100课》第32课:彻底解密Spark 2.1.X中Shuffle 下Task视角内存分配管理 poolSize/(2*numActiveTasks) 到 maxPoolSize/numActiveTasks原创 2017-03-10 19:52:05 · 680 阅读 · 0 评论 -
第33课:彻底解密Spark 2.1.X中Shuffle 中Mapper端的源码实现
第33课:彻底解密Spark 2.1.X中Shuffle 中Mapper端的源码实现原创 2017-03-20 21:35:35 · 629 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第34课:彻底解密Spark 2.1.X中Shuffle 中SortShuffleWriter排序源码内幕解密
《Spark商业案例与性能调优实战100课》第34课:彻底解密Spark 2.1.X中Shuffle 中SortShuffleWriter排序源码内幕解密原创 2017-03-21 20:30:57 · 997 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第35课:彻底解密Spark 2.1.X中Sort Shuffle中TimSort排序源码具体实现
《Spark商业案例与性能调优实战100课》第35课:彻底解密Spark 2.1.X中Sort Shuffle中TimSort排序源码具体实现TimSort与MergeSort类似原创 2017-03-22 21:00:54 · 883 阅读 · 0 评论 -
Spark商业案例与性能调优实战100课》第36课:彻底解密Spark 2.1.X中Sort Shuffle中Reducer端源码内幕.pptx>>
Spark商业案例与性能调优实战100课》第36课:彻底解密Spark 2.1.X中Sort Shuffle中Reducer端源码内幕.pptx>>原创 2017-03-23 21:28:36 · 1013 阅读 · 0 评论 -
第217讲:Spark Shuffle中HashShuffleWriter工作机制和源码详解
第217讲:Spark Shuffle中HashShuffleWriter工作机制和源码详解1,获取shuffleManager Spark Stage里面除了最后一个stage,前面都是map级别,图中Stage2里面的任务是ShuffleMapTask,而ShuffleMapTask的runTask方法要从SparkEnv里面找shuffleManager,获取shuffleManager。原创 2017-04-26 20:21:58 · 1173 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第24课:彻底解密Shuffle是如何成为Spark性能杀手的及调优点思考
《Spark商业案例与性能调优实战100课》第24课:彻底解密Shuffle是如何成为Spark性能杀手的及调优点思考原创 2017-02-22 21:02:34 · 822 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第15课:商业案例之纯粹通过DataSet进行电商交互式分析系统中各种类型TopN分析实战详解
《Spark商业案例与性能调优实战100课》第15课:商业案例之纯粹通过DataSet进行电商交互式分析系统中各种类型TopN分析实战详解原创 2017-01-24 20:48:03 · 801 阅读 · 0 评论 -
Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析
Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析package com.dt.spark.coresimport org.apache.spark.{SparkConf, SparkContext}object Movie_Users_Analyzer {def main (args:Array[St原创 2017-01-05 21:17:37 · 1257 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写
《Spark商业案例与性能调优实战100课》第18课:商业案例之NBA篮球运动员大数据分析代码实战之核心基础数据项编写原创 2017-02-06 21:15:42 · 1084 阅读 · 0 评论 -
Spark商业案例与性能调优实战100课》第3课:商业案例之通过RDD分析大数据电影点评系各种类型的最喜爱电影TopN及性能优化技巧
Spark商业案例与性能调优实战100课》第3课:商业案例之通过RDD分析大数据电影点评系各种类型的最喜爱电影TopN及性能优化技源代码package com.dt.spark.coresimport org.apache.spark.{SparkConf, SparkContext}object Movie_Users_Analyzer {原创 2017-01-06 21:49:49 · 1930 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第9课:商业案例之通过Spark SQL 下两种不同方式实现口碑最佳和最热门电影比较
《Spark商业案例与性能调优实战100课》第9课:商业案例之通过Spark SQL 下两种不同方式实现口碑最佳和最热门电影比较原创 2017-01-15 21:09:00 · 881 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析
《Spark商业案例与性能调优实战100课》第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析package com.dt.spark.sparksqlimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{StringType, StructFiel原创 2017-01-11 23:31:51 · 2592 阅读 · 1 评论 -
《Spark商业案例与性能调优实战100课》第19课:商业案例之NBA篮球运动员大数据分析核心业务逻辑代码实战
《Spark商业案例与性能调优实战100课》第19课:商业案例之NBA篮球运动员大数据分析核心业务逻辑代码实战原创 2017-02-08 20:48:43 · 1312 阅读 · 0 评论 -
Spark商业案例与性能调优实战100课》第11课:商业案例之通过纯粹通过DataFrame分析大数据电影点评系仿QQ和微信、淘宝等用户群分析与实战
Spark商业案例与性能调优实战100课》第11课:商业案例之通过纯粹通过DataFrame分析大数据电影点评系仿QQ和微信、淘宝等用户群分析与实战原创 2017-01-18 20:50:38 · 1193 阅读 · 0 评论 -
Spark商业案例与性能调优实战100课》第20课:大数据性能调优的本质和Spark性能调优要点分析
Spark商业案例与性能调优实战100课》第20课:大数据性能调优的本质和Spark性能调优要点分析基于本元想办法,大智若愚,大巧若拙!深入彻底的学习spark技术内核!原创 2017-02-09 20:40:00 · 1036 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第21课:Spark性能调优之系统资源使用原理和调优最佳实践
《Spark商业案例与性能调优实战100课》第21课:Spark性能调优之系统资源使用原理和调优最佳实践原创 2017-02-10 20:48:19 · 1130 阅读 · 1 评论 -
《Spark商业案例与性能调优实战100课》第13课:商业案例之纯粹通过DataSet进行电商交互式分析系统中特定时段段访问次数TopN
《Spark商业案例与性能调优实战100课》第13课:商业案例之纯粹通过DataSet进行电商交互式分析系统中特定时段段访问次数TopN import org.apache.spark.sql.functions._第一个作业:通读functions.scala的源代码第二个作业:手动造出数据val userInfo=spark.read.format("js原创 2017-01-21 20:52:57 · 716 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第14课:商业案例之纯粹通过DataSet进行电商交互式分析系统中特定时段购买金额Top10 和访问次数增长Top10
《Spark商业案例与性能调优实战100课》第14课:商业案例之纯粹通过DataSet进行电商交互式分析系统中特定时段购买金额Top10和访问次数增长Top10 结合生产实际,json格式换成parquet格式,数据有问题,改回jsonval userInfo=spark.read.format("parquet").parquet("parquet file's path原创 2017-01-22 20:54:44 · 903 阅读 · 0 评论 -
《Spark商业案例与性能调优实战100课》第28课:彻底解密Spark Sort-Based Shuffle排序具体实现内幕和源码详解
《Spark商业案例与性能调优实战100课》第28课:彻底解密Spark Sort-Based Shuffle排序具体实现内幕和源码详解原创 2017-03-01 21:52:41 · 834 阅读 · 0 评论 -
第23课:Spark旧版本中性能调优之HashShuffle剖析及调优
第23课:Spark旧版本中性能调优之HashShuffle剖析及调优原创 2017-02-21 21:10:34 · 619 阅读 · 0 评论 -
Spark商业案例与性能调优实战100课》第22课:Spark性能调优之使用更高性能算子及其源码剖析
Spark商业案例与性能调优实战100课》第22课:Spark性能调优之使用更高性能算子及其源码剖析原创 2017-02-13 21:15:53 · 998 阅读 · 0 评论 -
Spark商业案例与性能调优实战100课》第16课:商业案例之NBA篮球运动员大数据分析系统架构和实现思路
Spark商业案例与性能调优实战100课》第16课:商业案例之NBA篮球运动员大数据分析系统架构和实现思路http://www.basketball-reference.com/leagues/NBA_2017_per_game.html原创 2017-01-26 21:07:07 · 4398 阅读 · 5 评论