段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
生产环境!实战!电信支付系统使用Hadoop分析Apache日志!
1、输入数据1.2.3.4- - [20/Feb/2016:00:05:11 +0800] "POST /zhifubao/zhifu HTTP/1.1" 200 12861.2.3.4 - - [20/Feb/2016:00:05:14 +0800] "POST /pay/zf HTTP/1.1" 200 962.2.3.4 - - [20/Feb/2016:00:05:15 +原创 2016-03-01 14:31:53 · 1083 阅读 · 0 评论 -
大数据 IMF 传奇 困扰很久的问题解决!ecliplse 远程提交程序到虚拟机 hadoop集群 ,ecliplse 没有显示输出 的问题解决!
问题 :1、ecliplse 远程提交程序到虚拟机 hadoop集群 ,运行wordcount程序有问题,又没有提示 ,当时 下载了 windows 32的 winutils.exe hadoop.dll,以为解决了2、ecliplse 远程提交程序到虚拟机 hadoop集群 ,运行天气预报 程序temperature又有问题,但ecliplse无显示 ,不知道哪里有问题了? 直原创 2016-02-11 10:48:27 · 868 阅读 · 0 评论 -
大数据 IMF传奇行动 hadoop 中 开发mapreduce 天气预报的例子
大数据 IMF传奇行动 hadoop 中 开发mapreduce 天气预报的例子 1、拿到数据文件0067011990999991950051507004888888889999999N9+00001+99999999999999999999990067011990999991950051512004888888889999999N9+00221+999999999999原创 2016-02-11 09:11:37 · 1579 阅读 · 0 评论 -
大数据IMF传奇 java开发hadoop wodcount和hdfs文件 !
大数据IMF传奇 java开发hadoop wodcount和hdfs文件建立!windows 32 ecliplse 连接虚拟机的hadoop集群1、使用hadoop-eclipse-plugin-2.6.0.jar加入eclipse的插件区G:\IMFBigDataSpark2016\eclipse(java)\plugins2、切换"Map/Reduce"原创 2016-02-09 19:40:56 · 1293 阅读 · 0 评论 -
大数据 IMF 传奇 spark -history在分布式 集群 的安装部署 及问题解决
配置Spark History Server 1. 在Spark的conf目录下/usr/local/spark-1.6.0-bin-hadoop2.6/conf,将spark-defaults.conf.template改名为spark-defaults.conf mv spark-defaults.conf.template spark-defaults.conf r原创 2016-02-07 18:35:09 · 3501 阅读 · 0 评论 -
大数据 IMF传奇 如何搭建 8台设备的SPARK分布式 集群
1.下载spark-1.6.0-bin-hadoop2.6.tgz2.解压root@master:/usr/local/setup_tools# tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz3.配置Spark的全局环境变量输入# vi /etc/profile打开profile文件,按i可以进入文本输入模式,在profile文件的增原创 2016-02-07 17:40:23 · 1141 阅读 · 0 评论 -
大数据IMF 传奇 8台设备如何实现免密码的SSH登录呢 ?脚本分发 解决方案
vi /etc/hostnameroot@ubuntu:~# vi /etc/hosts192.168.189.1 master192.168.189.2 worker1192.168.189.3 worker2192.168.189.4 worker3192.168.189.5 worker4192.168.189.6 worker5192.168原创 2016-02-07 13:44:03 · 972 阅读 · 0 评论 -
大数据IMF传奇行动 UBUNTU的SSH SECURECRT不能登陆 与 vmvare net 8的问题解决
UBUNTU的SSH SECURECRT不能登陆1\安装 SSHsudo apt-get install openssh-server2\ssh server是否启动:ps -e |grep ssh3\重启SSH服务:sudo /etc/init.d/ssh stopsudo /etc/init.d/ssh start原创 2016-02-07 07:41:12 · 553 阅读 · 0 评论 -
大数据IMF传奇行动 IDEA导入spark源代码! 走入spark源代码世界!
maven的setting:G:\IMFBigDataSpark2016\IMFIdeaWorkspace\tools\apache-maven-3.3.9-bin\apache-maven-3.3.9\confG:\IMFBigDataSpark2016\IMFIdeaWorkspace\spark160repository repository:G:\IMFBigDataS原创 2016-02-06 22:01:39 · 805 阅读 · 0 评论 -
大数据IMF传奇行动 Spark history-server 配置 !运维人员的强大工具
配置Spark History Server 1. 在Spark的conf目录下/usr/local/spark-1.6.0-bin-hadoop2.6/conf,将spark-defaults.conf.template改名为spark-defaults.conf mv spark-defaults.conf.template spark-defaults.conf原创 2016-01-29 18:17:56 · 2828 阅读 · 0 评论 -
大数据IMF传奇行动 java maven工程(pom.xml配置) 本地模式运行词频统计
1、下载 eclipse 登录 www.eclipse.org/downloads 下载Eclipse IDE for Java EE Developers版本2、java 1.8版本 scala 2.10.43、解压 Eclipse IDE for Java4、新建maven工程 File-other-maven project5、选择mavena原创 2016-01-16 20:44:10 · 840 阅读 · 0 评论 -
大数据IMF传奇行动 scala IDE 本地local开发wordcount 无法加载主类问题解决
大数据IMF传奇行动安装工具存放的目录G:\IMFBigDataSpark2016\Bigdata_Software1、scala IDE 4.3.0 下载页面 scala-SDK-4.3.0-vfinal-2.11-win32.win32.x86http://scala-ide.org/download/sdk.html部署在 G:\IMFBigDataSpark2016\e原创 2016-01-13 12:13:40 · 5935 阅读 · 0 评论 -
Hadoop 求平均值 Average
hadoop 求平均值 1、源代码,map切割读入名字和分数,reduce汇总同一个人key的分数,然后求平均值 package com.dtspark.hadoop.hellomapreduce;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;原创 2016-02-13 08:59:17 · 1977 阅读 · 0 评论 -
Hadoop 求最大值 最小值 BiggestSmallest
Hadoop 求最大值 最小值 1、源代码package com.dtspark.hadoop.hellomapreduce;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer; import org.apache.hadoop.conf.Conf原创 2016-02-13 09:06:16 · 2236 阅读 · 2 评论 -
Hadoop 排序 SortData
Hadoop 排序 1、源代码(IMF)package com.dtspark.hadoop.hellomapreduce;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.ha原创 2016-02-13 10:03:18 · 1445 阅读 · 0 评论 -
重磅!Spark运行内幕 打通Spark系统运行内幕机制流程
Spark运行内幕1、编写的一个WordCount的例子【例】WordCount代码1. val conf = new SparkConf() //创建SparkConf对象conf.setAppName("Wow,My First Spark App!") //设置应用程序的名称,conf.setMaster("local") // 程序在本地运行,但是以下的原创 2016-02-14 13:56:47 · 4394 阅读 · 0 评论 -
HIVE 安装系列(1)安装部署 遇到虚拟机磁盘空间满 清理空间 折腾了半天
1\上传apache-hive-1.2.1-bin.tar.gz2、 [root@localhost setup_tools]#mv apache-hive-1.2.1-bin /usr/local[root@localhost setup_tools]#cd ..[root@localhost local]#ls3、[root@localhost local]#vi /etc原创 2016-03-01 22:12:43 · 7259 阅读 · 1 评论 -
HIVE 安装系列(3)配置HIVE 使用Mysql作为元数据的数据库
HIVE使用mysql作为元数据安装成功!结果如下 [root@master lib]#pwd/usr/local/apache-hive-1.2.1/lib[root@master lib]#cd /dev/shm/setup_tool/[root@master setup_tool]#lsMySQL-client-5.5.31-2.el6.i6原创 2016-03-02 19:59:43 · 2247 阅读 · 0 评论 -
HADOOP TopN 开发
package com.dtspark.hadoop.hellomapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io.Int原创 2016-02-15 20:33:31 · 1401 阅读 · 0 评论 -
Hadoop MapReduce 初级入门算法总结
Hadoop MapReduce 初级入门算法总结: 前提知识点:1、掌握Hadoop HDFS文件系统(文件上传、下载等基本操作)2、理解Hadoop MapReduce的Map、Redcue的原理及过程3、搭建ecliplse的Hadoop开发环境4、搭建虚拟机的Hadoop系统 算法:1、39课:MapReduce分析气象数据动手编程实战:案例原创 2016-02-16 12:48:22 · 1074 阅读 · 0 评论 -
Hadoop 分析Apache日志记录 URLlog日志分析
Hadoop 分析Apache日志记录 URLlog日志分析数据文件[root@master IMFdatatest]#hadoop dfs -cat /library/URLLog.txtDEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command原创 2016-02-16 20:27:26 · 1978 阅读 · 0 评论 -
hadoop 部门职员的join 操作
职员:1 工号 2 姓名 3 职位 4 上级工号 5 生日 6 工资 8 部门 9工作地点部门:1 部门信息 2 类型 3 地址 数据文件30 sales chicago20 research dallas10 accounting newyork 7499 allen salesman 7698 1981-02-20 1600 300 30 77原创 2016-02-16 21:53:18 · 539 阅读 · 0 评论 -
本地模式使用JAVA SACLA 开发 Spark SQL DataFrame
原文件:{"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}java package com.dt.sparkApps.sql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSpa原创 2016-03-14 21:34:35 · 1405 阅读 · 0 评论 -
使用java 将 Spark RDD和DataFrame转换
数据源文件1,Spark,72,Hadoop,113,Flink,5 运行结果原创 2016-03-16 16:03:42 · 1383 阅读 · 0 评论 -
SPARK 使用Java 在IDE中实战RDD和DataFrame动态转换操作
/** *王家林老师授课 http://weibo.com/ilovepains*/ 源文件1,Spark,72,Hadoop,113,Flink,5 运行结果原创 2016-03-16 21:10:49 · 856 阅读 · 0 评论 -
大数据实验增加,导致虚拟机的根目录/ 磁盘空间不够,会带来各种问题, 使用gpated工具解决!!
使用gpated给linux根目录增加空间原来的空间:[root@master ~]# df -kFilesystem 1K-blocks Used Available Use% Mounted on/dev/sda2 5921544 4343912 1276832 78% /tmpfs原创 2016-03-04 20:13:38 · 1889 阅读 · 0 评论 -
大数据IMF传奇行动 IDEA 安装运行 编译出错Error:scalac: Multiple 'scala-library*.jar'
1、IDEA的下载页面http://www.jetbrains.com/idea/2、下载到D:\IMFSpark_SoftWare_ALL\Big_Data_Software、ideaIC-15.0.2.exe3、复制到G:\IMFBigDataSpark2016\Bigdata_Software 点击ideaIC-15.0.2.exe安装 安装路径C:\Program原创 2016-01-16 23:07:57 · 6715 阅读 · 0 评论 -
HIVE系列(5)HIVE 数据源文件 本地文件、hdfs文件加载,hql 统计电商tb 每年订单最畅销商品
HIVE数据文件的加载方式1、本地文件加载2、hdfs文件加载每年订单中销售最畅销的商品:结果 1\数据源tbDate.txt日期,年月,年,月,日, 周三,第一周,第一季度,上旬,上半月2003-1-1,200301,2003,1,1,3,1,1,1,12003-1-2,200301,2003,1,2,4,1,1,1,12003原创 2016-03-05 08:33:28 · 1874 阅读 · 0 评论 -
HIVE 系列 (4) hive 内部表和外部表HQL查询统计
运行查询搜狗实验室200万条数据,耗时6.028秒 1\[root@master HiveTBdata]# service mysql startStarting MySQL SUCCESS! 2\[root@master HiveTBdata]# service mysql startStarting MySQL..................原创 2016-03-04 22:15:01 · 2292 阅读 · 0 评论 -
第61课:Spark SQL数据加载和保存内幕深度解密实战
/** *王家林老师授课 http://weibo.com/ilovepains*/ 第61课:Spark SQL数据加载和保存内幕深度解密实战源文件people.json{"name":"Michael"}{"name":"Andy","age":30}{"name":"Justin","age":19} 输出结果 {"name":"原创 2016-03-17 21:26:27 · 750 阅读 · 0 评论 -
27课 :SPARK 运行在yarn资源调度框架 client 、cluster方式 !!
分布式集群root@master:/usr/local/hadoop-2.6.0/etc/hadoop# vi /etc/hosts127.0.0.1 localhost192.168.189.1 master192.168.189.2 worker1192.168.189.3 worker2192.168.189.4 w原创 2016-03-05 21:50:46 · 1882 阅读 · 2 评论 -
Hadoop 二次排序
Hadoop 二次排序 八股文的样本例子1、数据文本[root@master IMFdatatest]#cat SecondarySort.txt 12 832 2154 3265 21501 1281 281 681 981 781 1100原创 2016-02-20 07:24:50 · 672 阅读 · 0 评论 -
Hadoop join 关联提升版 开发代码调整解决 reduce时候 OOM问题
1、数据文件[root@master IMFdatatest]#cat members.txt 1 Spark 12 Hadoop 13 flink 34 Kafka 15 Tachyon 2[root@master IMFdatatest]#cat address.txt1 Am原创 2016-02-20 20:04:13 · 635 阅读 · 0 评论 -
Haoop selfjoin 左表 右表 自连接
Haoop selfjoin 左表 右表 自连接 1、数据文件1列是孩子 2列是父亲,找祖父亲[root@master IMFdatatest]#hadoop dfs -cat /library/selfjoin/selfjoin.txtDEPRECATED: Use of this script to execute hdfs command is deprecated.原创 2016-02-21 07:39:23 · 863 阅读 · 0 评论 -
第62课:Spark SQL下的Parquet使用最佳实践和代码实战
/* * *王家林老师授课 http://weibo.com/ilovepains */ 元数据:users.parquet 运行结果原创 2016-03-18 21:32:13 · 766 阅读 · 0 评论 -
第57课 spark sql on hive实战
/* * *王家林老师授课 http://weibo.com/ilovepains */ 第57课 spark sql on hive实战1、配置/usr/local/spark-1.6.0-bin-hadoop2.6/confhive-site.xml 使用hive的元数据hive.原创 2016-03-20 09:41:02 · 1048 阅读 · 0 评论 -
第50课:HadoopMapReduce倒排索引解析与实战
1数据文件[root@master invertedindex]#cat file1.txtSpark is so powerful[root@master invertedindex]#cat file2.txtSpark is the most exciting thing happening in big data today[root@master invertedin原创 2016-02-23 21:59:51 · 947 阅读 · 0 评论 -
第70课:Spark SQL内置函数解密与实战 每天晚上20:00YY频道现场授课频道68917580
/* * *王家林老师授课http://weibo.com/ilovepains */ 源文件valuserData=Array("2016-3-27,001,http://spark.apache.org/,1000","2016-3-27,001,http://hadoop.apache.org/,1001","2016-3-27,002,http:原创 2016-03-28 21:59:17 · 758 阅读 · 0 评论 -
第72课:Spark SQL UDF和UDAF解密与实战 每天晚上20:00YY频道现场授课频道68917580
/* * *王家林老师授课http://weibo.com/ilovepains */ YY频道看直播68917580 输入数据 "Spark", "Spark","Hadoop", "Spark", "Hadoop", "Spark","Spark", "Hadoop", "Spark", "Hadoop" sqlContext.sql("select原创 2016-03-31 22:05:11 · 1596 阅读 · 0 评论 -
第69课:Spark SQL通过Hive数据源JOIN实战 每天晚上20:00YY频道现场授课频道68917580
源文件person.txt Michael 29 Andy 30 Justin 19 peoplescores.txt Michael 99 Andy 97 Justin 68 运行结果原创 2016-03-27 21:49:37 · 803 阅读 · 0 评论