段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
大数据Spark “蘑菇云”行动第58课: 广告点击广告累计点击数分析与实现
大数据Spark “蘑菇云”行动第58课: 广告点击广告累计点击数分析与实现 作业: 使用mapWithState的方式来实现广告点击的累加功能原创 2016-10-09 20:49:46 · 707 阅读 · 0 评论 -
大数据Spark“蘑菇云”行动第56课:在线广告点击黑名单分析和实现
大数据Spark“蘑菇云”行动第56课:在线广告点击黑名单分析和实现 补充完整黑名单动态生成和过滤的核心逻辑(可以不考虑数据库操作本身)原创 2016-09-28 21:24:09 · 833 阅读 · 0 评论 -
第73课: 基于Spark 2.0.1项目 例如注册之后前10天访问我们的移动App最多的前五个人;注册之后前10天内购买商品总额排名前5为的人
大数据Spark “蘑菇云”行动第73课: 基于Spark 2.0.1项目实现之三 例如注册之后前10天访问我们的移动App最多的前五个人或者注册之后前10天内购买商品总额排名前5为的人 package com.dt.spark200import org.apache.spark.sql.SparkSessionobject UserBehaviorsAn原创 2016-11-05 21:44:39 · 696 阅读 · 0 评论 -
第43课:Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战
第43课:Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战 2017年5月份左右,老师个人认为需要等到Spark 2.2版本 DataSet背后会被Tungsten优化,而这里面会采用Whole-Stage Code Generation的技术,所以出错的时候定位错误和调优非常困难例如for循环翻译成了自己的方式,出错的话,错误信原创 2016-09-13 22:02:44 · 1504 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第65课: 页面跳转功能代码骨架分析与实战 放scala代码
大数据Spark “蘑菇云”行动第65课: 页面跳转功能代码骨架分析与实战 页面调转类似图计算Spark GraphX中的二跳邻算法用户在页面上产生的首次点击被称为“二跳”,二跳的次数即为“二跳量”。二跳量与浏览量的比值称为页面的二跳率原创 2016-10-25 22:25:30 · 863 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL
大数据Spark “蘑菇云”行动补充内容第66课: 即将成为Spark未来的Spark SQL 1,与直接基于RDD编程,写Spark SQL代码更少、编写更快、更容易修改和理解; 2,相比于直接进行RDD编程而言,Spark SQL会自动的进行性能优化 3,更有效的使用必要的数据,提高内存的使用价值 PageJumpOnce.scalapa原创 2016-10-26 20:53:16 · 696 阅读 · 0 评论 -
第74课:基于spark 2.0.1项目测试与分析
第74课:基于spark 2.0.1项目测试与分析原创 2016-11-07 20:58:51 · 570 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第72课: 基于Spark 2.0.1项目实现之二. 实战 各种小bug修复及性能调优 200并行度调整为2个task
大数据Spark “蘑菇云”行动第72课: 基于Spark 2.0.1项目实现之二. 规律:agg前一般都进行grouBy操作 {"userID":"userID5234","Name":"zhangsan","Gender":"man","Occupation":"student"}{"userID":"userID2234","Name":"li原创 2016-11-03 21:30:56 · 3032 阅读 · 0 评论 -
第67课:解密spark sql 内核Tungsten和Catalyst
第67课:解密spark sql 内核tungsten和catalyst Spark内核三大核心:基于RDD的调度系统、Catylyst解析优化引擎和Tungsten 1,tungsten 堆内 堆外内存管理On-heap、Off-heap misc.unsafe。。。磁盘上1G的数据,如果使用JVM加载进来的话3G"ABCD" 四个字符 c语言是原创 2016-10-27 20:59:36 · 1368 阅读 · 0 评论 -
第53课实战操作Kafka+Flume成功! Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战
第53课实战操作Kafka+Flume成功!: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战 flume 安装在集群的worker4上,地址192.168.189.51.下载 flume http://flume.apache.org/download.html2.上传worker4 192.168.189.5原创 2016-10-04 21:07:04 · 3277 阅读 · 0 评论 -
大数据Spark“蘑菇云”行动第55课:在线广告点击流处理代码的分析和实现
大数据Spark“蘑菇云”行动第55课:在线广告点击流处理代码的分析和实现1 在线广告点击流处理代码的分析1 在线广告点击流处理代码的实战 1,Driver挂掉了怎么办?2,RDD挂掉怎么办?3,数据的WAL原创 2016-09-27 22:40:33 · 932 阅读 · 0 评论 -
大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置
大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 1, 对于window、updateStateByKey等DStream的状态操作,采用HDFS的checkpoint机制; 61课程:时间函数62课程:分层代码63课程 高可用性1、checkpoint 存放hdfs2、 RDD高可用性,WAL 的高可用性 配置原创 2016-10-22 21:03:38 · 959 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第39课:Spark中的Broadcast和Accumulator机制解密
大数据Spark “蘑菇云”行动第39课:Spark中的Broadcast和Accumulator机制解密 RDD: 分布式私有数据结构;Broadcast:分布式全局只读数据结构;Accumulator:分布式全局只写的数据结构;在生产环境下,我们几乎一定会自定义Accumulator1,自定义的时候可以让Accumulator非常复杂,基本上可以是任意类型的Java和S原创 2016-09-07 20:45:15 · 748 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第50课程 Spark 2.0项目概述 项目!!!大项目!!!超大型大数据项目!!!
大数据Spark “蘑菇云”行动第50课程 Spark 2.0项目概述从9月20号的大数据项目课程内容开始,所有的同学每节课必须按照课程内容动手实战,且基于课程内容写项目的学习博客;第一步:需求:数据的输入和数据的产出,大数据技术项目好比一台榨汁机,数据输入相当于例如苹果、柠檬等,然后通过榨汁机产出果汁; 第二步:数据量、处理效率、可靠性、维护性、简洁性原创 2016-09-20 21:20:57 · 2332 阅读 · 0 评论 -
Spark大型项目下的Spark Streaming本质剖析(全面涵盖Spark 2.0的精髓)项目!!!大项目!!!超大型大数据项目!!!
Spark大型项目下的Spark Streaming本质剖析(全面涵盖Spark 2.0的精髓) Input Output =====> Input Table 和 Output Table Computation 这个世界上所有事情是有时间主宰的流处理数据服务中心原创 2016-09-21 21:25:37 · 1105 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第52课: Spark大型项目广告点击项目数据建模 项目!!!大项目!!!超大型大数据项目!!!
大数据Spark “蘑菇云”行动第52课: Spark大型项目广告点击项目数据建模 用户广告点击行为(通过JS或者本地代码发送点击行为到服务器)-》Server接受到数据并把数据放在Flume的监控目录之下-》Flume感知到数据后会把数据放到Kafka中-》Spark Streaming感知到数据的到来并进行处理-》然后把流处理的结构交给例如HBase、Redis、MaySQL等-》通过原创 2016-09-22 20:58:58 · 1146 阅读 · 0 评论 -
大数据Spark“蘑菇云”行动第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战 项目!!!大项目!!!超大型大数据项目!!!
大数据Spark“蘑菇云”行动第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战原创 2016-09-23 21:35:54 · 1047 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第40课:Spark编程实战之aggregateByKey、reduceByKey、groupByKey、sortByKey深度解密
大数据Spark “蘑菇云”行动第40课:Spark编程实战之aggregateByKey、reduceByKey、groupByKey、sortByKey深度解密原创 2016-09-08 21:31:52 · 1515 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第59课: 广告点击系统TopN热门广告分析与实现
大数据Spark “蘑菇云”行动第59课: 广告点击系统TopN热门广告分析与实现 两份全局累计数据:一份在SparkStreaming中,另外一份在MySQL计算TOPn:1、topn从数据库中计算,数据特别多,一台数据库装不完,效率不高。不采用。 2、直接从spark streaming中累加器 reducebykey原创 2016-10-10 20:48:54 · 735 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第60课: 广告点击系统广告点击趋势分析与实现
大数据Spark “蘑菇云”行动第60课: 广告点击系统广告点击趋势分析与实现原创 2016-10-11 21:42:35 · 868 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第54课: 作业讲解与广告点击实现代码.
大数据Spark “蘑菇云”行动第54课: 作业讲解与广告点击实现代码. 1 作业讲解2 广告点击代码实现原创 2016-09-26 20:44:47 · 914 阅读 · 0 评论 -
第54课作业实战成功:用phpMyAdmin等数据库可视化软件操作MySQL,并且通过远程操作MySQL;
phpMyAdmin等数据库可视化软件操作MySQL大数据Spark “蘑菇云”行动第54课: 作业讲解与广告点击实现代码.作业:用phpMyAdmin等数据库可视化软件操作MySQL,并且通过远程操作MySQL;目的:在华为的windows本地服务器上使用phpMyAdmin连接操作虚拟机vmvare的集群中的master上安装的mysql.实现图形化,可视化操作my原创 2016-10-05 12:15:36 · 1860 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第62课: 广告点击系统数据库系统DAO实现
大数据Spark “蘑菇云”行动第62课: 广告点击系统数据库系统DAO实现 什么时候Hadoop比Spark快当只有一个Map-Reduce的情况且数据量特别大的时候(例如1P)Hadoop比Spark快Hadoop的Shuffle比Spark的Shuffle实现的好WordCount数据量达到例如1P的时候你会发现Spark比Hadoop慢还缺少DAO中至关重要的步原创 2016-10-18 21:01:40 · 766 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第83课:Hive架构剖析与初体验
大数据Spark “蘑菇云”行动第83课:Hive架构剖析与初体验原创 2016-11-22 20:50:04 · 655 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第84课:Hive配置和实战第一课
大数据Spark “蘑菇云”行动第84课:Hive配置和实战第一课原创 2016-11-24 21:34:43 · 661 阅读 · 0 评论 -
第85课:HWI操作实战及在eclipse中实战编码 HIVE!!HIVE实战
第85课:HWI操作实战及在eclipse中实战编码web页面地址 http://master:9999/hwi/ 在实际企业中一般会使用Hue来取代HWI的功能,Hue提供了远远比HWI更加丰富强大的功能原创 2016-11-25 21:29:09 · 683 阅读 · 0 评论 -
spark 2.0.0 开始了
spark 2.0.0 开始 SparkSession spark = SparkSession .builder() .master("Local") .appName("JavaWordCount") .getOrCreate(); 16/09/10 09:41:27 ERROR SparkContext: Erro原创 2016-09-10 09:49:44 · 7339 阅读 · 2 评论 -
大数据Spark “蘑菇云”行动第64课: 页面跳转功能分析与架构 A、B、C页面之间跳转率的计算方法
大数据Spark “蘑菇云”行动第64课: 页面跳转功能分析与架构 64课程:例如京东上买东西进入某个目录 搜商品--〉手机--〉华为--〉下订单--〉付款--〉业务处理用户喜欢什么页面,从什么页面跳转到什么页面 流处理结合页面跳转,在线处理。开发安卓程序,例如微信:聊天、支付功能,应用端智能端ui展示的效果差不多。 例如spark官网 A->B->CA页面 s原创 2016-10-23 22:17:51 · 1877 阅读 · 0 评论 -
热烈祝贺王家林老师又一本经典巨作<scala语言基础与开发实战> 出版上市!
热烈祝贺王家林老师又一本经典巨作 出版上市!原创 2016-08-02 20:26:49 · 2200 阅读 · 0 评论 -
数据倾斜解决方案之三:使用随机Key实现双重聚合
数据倾斜解决方案之三:使用随机Key实现双重聚合本节讲解使用随机Key实现双重聚合,首先讲解什么是随机Key双重聚合;接下来讲解使用随机Key实现双重聚合解决数据倾斜的适用场景、原理分析、案例实战以及使用随机Key实现双重聚合解决数据倾斜注意事项等内容。30.4.1 什么是随机Key双重聚合?随机Key双重聚合是指:Spark分布式计算对RDD调用reduceByKey各算子进行计算,使用对Key原创 2017-07-13 06:02:52 · 2550 阅读 · 3 评论 -
数据倾斜解决方案之六:使用随机数进行Join
30.7数据倾斜解决方案之六:使用随机数进行Join本节讲解使用随机数进行Join,首先讲解什么叫使用随机数进行Join来解决数据倾斜问题,然后讲解如何使用随机数?使用随机数进行Join来解决数据倾斜问题使用场景、案例实战、注意事项等内容。30.7.1什么叫使用随机数进行Join来解决数据倾斜问题? 使用随机数进行Join来解决数据倾斜问题:如果2个RDD的数据中某个Key或者某几个原创 2017-07-13 07:29:13 · 2836 阅读 · 0 评论 -
windows环境下的socket nc 测试小工具nc -L -p 9999
windows环境下的socket nc 测试小工具nc -L -p 9999 在windows本地 进行测试,发送socket包到是怕人看streaming。少了这个工具还真不方便。 nc.exe网上下载,保存在C:\nc.exe;同时也保存一份放到了百度云盘,我的实验目录里面 操作步骤:1. cd C:\nc.exe2 , 启动eclipse的spark原创 2016-09-10 20:32:07 · 12584 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第82课:Spark机器学习本质思考及案例初体验
大数据Spark “蘑菇云”行动第82课:Spark机器学习本质思考及案例初体验逻辑回归 a b 男还是女 垃圾邮件 合格 还是不合格线性回归 多个ALS是机器学习最重要的算法!!机器学习水平的高低:水平体现在2个方面:1,标签的选取;2,参数的调优类似数码相机: 选景、参数选取 K-means is one of th原创 2016-11-22 20:51:00 · 821 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第81课:Spark GraphX 综合案例作业讲解和源码深度剖析
大数据Spark “蘑菇云”行动第81课:Spark GraphX 综合案例作业讲解和源码深度剖析 聚合操作是分布式系统中最重要的操作 which fields should be included in the [[EdgeContext]] passed to the `sendMsg` function. If not all fields are needed,原创 2016-11-17 21:04:17 · 1142 阅读 · 0 评论 -
大数据spark“蘑菇云”行动超大型项目实战第68课:spark RDD案例和spark sql案例对比实战 看电影的例子分析 某门热门电影的年龄、性别分析
大数据spark“蘑菇云”行动超大型项目实战第68课:spark RDD案例和spark sql案例对比实战原创 2016-10-28 21:25:52 · 1759 阅读 · 0 评论 -
第75课:双十一背景下的大数据spark streaming本质思考和状态管理
第75课:双十一背景下的大数据spark streaming本质思考和状态管理原创 2016-11-09 20:48:59 · 1164 阅读 · 1 评论 -
大数据Spark “蘑菇云”行动补充内容第69课: Spark SQL案例之分析电影评分系统.
大数据Spark “蘑菇云”行动补充内容第69课: Spark SQL案例之分析电影评分系统.昨天的作业dataframe的 算子实现 :import org.apache.spark.sql.types._import org.apache.spark.sql.Rowval PATH = "/data/moviesData/"val moviesData = sc.textF原创 2016-10-29 20:51:22 · 1702 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第57课: Spark 2.0.1稳定版本解析及广告点击案例数据库和动态黑名单过滤代码
大数据Spark “蘑菇云”行动第57课: Spark 2.0.1稳定版本解析及广告点击案例数据库和动态黑名单过滤代码 1 spark 2.0.1 稳定版本解析2 数据库实现3 黑名单代码实现spark 2.0.1 2016年10月3日发布了,意味着spark 2.0 时代的到来!!但目前还不适用于生产环境!https://issues.apache.org/jira/se原创 2016-10-07 21:47:19 · 807 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第76课: Kafka+Spark Streaming+Redis项目实战
大数据Spark “蘑菇云”行动第76课: Kafka+Spark Streaming+Redis项目实战jedis插件 redis redis.clients jedis ${jedis.version} SparkSession是面向DataSet编程的,统一了SQLContex原创 2016-11-10 21:10:21 · 913 阅读 · 0 评论 -
大数据Spark “蘑菇云”行动第77课:Spark Streaming性能调优思考和实践方法,发现磁盘空间没有了,怎么办
大数据Spark “蘑菇云”行动第77课:Spark Streaming性能调优思考和实践方法Spark使用一段时间后,发现磁盘空间没有了,尤其是运行SparkStreamingSpark streaming在不断的写日志,日志将磁盘撑满了。无论磁盘空间多大,都会撑破的。有时运行一个晚上,有时运行一个上午,磁盘写满了。1、配置log最大的保存文件大小!!最多保存多少文件!2、配置每原创 2016-11-11 20:56:50 · 1053 阅读 · 0 评论