
Spark 学习
段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
第1讲Spark纯实战公益大讲坛:通过案例实战掌握高可用HA下的Spark集群部署
第1讲Spark纯实战公益大讲坛:通过案例实战掌握高可用HA下的Spark集群部署 spark 网站 spark集群配置 spark源码初了解 DT大数据微信公众账号:DT_SparkDT大数据梦工厂scala的所有视频、PPT和代码在百度云盘的链接地址:http://pan.baidu.com/share/home?uk=4013289088&vi原创 2015-08-22 12:09:47 · 886 阅读 · 0 评论 -
(scala书籍编写)word 2007 目录格式乱的解决办法:编辑word 宏
word 2007 目录格式乱的解决办法: 1、按 Alt + F8,新建宏ReSetOutline2、把下面代码拷进去:Sub ReSetOutline()'' ReSetOutline Macro''Dim myPara As ParagraphFor Each myPara In ActiveDocument.ParagraphsmyPara.Ou原创 2016-01-31 10:22:04 · 832 阅读 · 0 评论 -
大数据 IMF传奇 sparkpi 运行5万次
1.这个可以运行的 ./spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100016/02/07 19:28:23 INFO scheduler.Tas原创 2016-02-07 20:11:35 · 885 阅读 · 0 评论 -
大数据 IMF传奇行动 如何 搭建 8台设备的 hadoop分布式集群
硬件配置 华为RH2285设备2CPU 8核16线程48G 内存 380G硬盘1.配置Hadoop的全局环境变量输入名称# vi /etc/profile打开profile文件,按i可以进入文本输入模式,在profile文件的最后增加HADOOP_HOME及修改PATH的环境变量,输入:wq!保存退出。export HADOOP_HOME=/usr/loc原创 2016-02-07 14:28:05 · 1047 阅读 · 0 评论 -
spark RDD 小实验 测试
class SparkContext(clientDriver:String){var scname = clientDriver}abstract class RDD(var sc:SparkContext){def persist(level:String){}}class myRDD(var myRDDsc:SparkContext) extends RDD(myR原创 2016-01-06 15:48:31 · 1104 阅读 · 0 评论 -
SparkContext.scala 源代码学习
https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/SparkContext.scala原创 2016-01-03 17:38:21 · 1303 阅读 · 0 评论 -
第3期Spark纯实战公益大讲坛:通过案例实战掌握Spark内核运行内幕
第3期Spark纯实战公益大讲坛:通过案例实战掌握Spark内核运行内幕 sc.textFile("hdfs://...").faltMap(_.split("")).map(_,1).reduceByKey(_+_).map(x=>(x._2),x._1)).sortByKey(false).map(x=>(x._2),x._1)).saveASTextFile(hdfs://原创 2015-08-22 12:21:19 · 1035 阅读 · 0 评论 -
SPARK 第4期:通过案例实战掌握spark sql(dataframe)
第4期:通过案例实战掌握spark sql(dataframe) SPARK 中使用dataframe 效率更高,比原生的scala python查询sql执行速度更快 young.registertemptable("young")sqlcontext.sql("select count(*) from young") DT大数据微信公众账号:DT_Spark原创 2015-09-02 21:52:34 · 747 阅读 · 0 评论 -
第2期Spark纯实战公益大讲坛:通过案例实战掌握Spark编程模型内幕
第2期Spark纯实战公益大讲坛:通过案例实战掌握Spark编程模型内幕 运行spark代码:sc.textFile("hdfs://...").faltMap(_.split("")).map(_,1).reduceByKey(_+_).map(x=>(x._2),x._1)).sortByKey(false).map(x=>(x._2),x._1)).saveASTextFil原创 2015-08-22 12:12:49 · 865 阅读 · 0 评论 -
大数据IMF传奇行动 scala IDE 内存不够问题解决
1、scalaIDE 运行提示报错:Please use a larger heap size2、修改jdk 使用内存 找到eclispe 中window->preferences->Java->Installed JRE ,点击右侧的Edit 按钮,在编辑界面中的 “Default VM Arguments ”选项中,填入如下值即可。-Xms128m -Xmx512m原创 2016-01-14 12:05:28 · 1553 阅读 · 0 评论