自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 从0到1,带你快速上手Scala语言

Scala,读作 “skah-lah” ,是 “Scalable Language” 的缩写,是一门多范式编程语言。它就像是编程世界里的 “变形金刚”,融合了面向对象编程(OOP)和函数式编程(FP)的特性,这意味着开发者能在同一语言中,把面向对象的设计和函数式编程的抽象结合起来使用,超级灵活!它运行在 Java 虚拟机(JVM)上,能与现有的 Java 代码无缝集成。

2025-02-21 17:28:24 664

原创 从DeepSeek入手,Transformer架构大揭秘!

Transformer 架构的优势那是相当突出,在并行计算方面,它完全不依赖序列顺序,不同位置信息能同时处理,大大缩短了训练时间。就像工厂里多条生产线同时开工,生产效率直线上升。而且它处理长距离依赖关系的能力超强,自注意力机制让模型在计算时,能直接捕捉到序列中任意两个位置的关联,完全不受距离限制,这是传统 RNN 和 LSTM 望尘莫及的。在文本处理里,不管句子多长,它都能精准把握上下文逻辑。

2025-02-21 17:01:23 1712

原创 DeepSeek爆火,背后模型竟藏着这些秘密!

DeepSeek 凭借其独特的底层模型架构、创新的训练方式以及出色的性能表现,在大模型领域迅速崛起,成为了众多开发者和企业的新宠。它的出现,不仅为我们带来了更高效、更智能的工具,也为人工智能的发展开辟了新的道路。随着技术的不断进步和应用场景的不断拓展,相信 DeepSeek 未来会在更多领域发挥重要作用,为我们的生活和工作带来更多的便利和惊喜。让我们一起期待 DeepSeek 在未来的精彩表现吧!如果你对 DeepSeek 还有什么疑问或者想法,欢迎在评论区留言讨论哦!

2025-02-21 16:53:19 617

原创 大数据神器Hadoop,你了解多少?

而员工就是 DataNode,它们是实际存储数据的节点,就像勤劳的小蜜蜂,负责处理文件系统客户端的读写请求,并在 NameNode 的统一调度下执行数据块的创建、删除和复制。据统计,采用 Hadoop 存储数据的企业,数据丢失的概率相比传统存储方式降低了 99% 以上 ,极大地保障了数据的安全性和业务的连续性。如果有大量的小文件,比如一个拥有数十亿个小文件的文件系统,每个小文件都会占用一定的元数据空间,这会导致 NameNode 的内存占用急剧增加,甚至可能超出其内存容量,从而影响整个系统的性能。

2025-02-21 10:21:06 720

原创 码农必知!Hive从入门到实战全攻略

宝子们,Hive 作为大数据领域的得力助手,优势满满。它简单易上手,查询语言和 SQL 超像,能处理海量数据,还支持多种数据格式,扩展性也超棒。从电商数据处理,到日志分析、数据挖掘等,Hive 的应用场景十分广泛。如果你是一名程序员,想要在大数据领域一展身手,Hive 绝对是你不能错过的技能。赶紧学起来,用 Hive 开启你的大数据之旅吧!要是在学习过程中有啥问题,欢迎在评论区留言,咱们一起交流探讨!

2025-02-21 09:59:52 2157

原创 码农必备!一文吃透Flink

Flink 作为强大的开源流处理框架,有着支持事件时间语义、有状态计算、灵活窗口操作、高吞吐低延迟、容错机制强等诸多突出特点,在与其他框架对比中优势明显 ,应用场景也十分广泛。不管你是大数据领域的新手,还是经验丰富的开发者,Flink 都值得深入学习和探索。如果你也对 Flink 感兴趣,想深入学习它,欢迎在评论区留言分享你的学习心得和疑问,咱们一起交流进步!

2025-02-21 09:43:19 1879

原创 一文搞懂大数据神器Spark,真的太牛了!

Spark 是什么在如今这个大数据时代,数据量呈爆炸式增长,传统的数据处理方式已经难以满足需求。就拿电商平台来说,每天产生的交易数据、用户浏览数据、评论数据等,数量巨大且种类繁多。假如要对这些数据进行分析,比如分析用户的购买行为,找出最受欢迎的商品,预测未来的销售趋势等,用普通的单机处理方式,可能需要花费很长时间,甚至根本无法完成。这时,Spark 就应运而生了。Spark 是一个开源的、基于内存计算的快速、通用的大数据处理引擎。它就像是一个超级数据处理工厂,能够快速、高效地处理海量数据。

2025-02-20 17:08:14 864

原创 根据hdfs文件创建表

根据hdfs文件创建表

2022-07-12 18:36:44 787

原创 shell脚本求hdfs文件小于20M的文件、文件大小最大值和最小值

shell脚本求hdfs文件小于20M的文件、文件大小最大值和最小值

2022-07-12 18:30:07 468

转载 spark调优(一)-开发调优,数据倾斜,shuffle调优

spark调优(一)-开发调优,数据倾斜,shuffle调优主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle调优,面向的是对Spark的原理有较深层次掌握和研究的同学,主要讲解了如何对Spark作业的shuffle运行过程以及细节进行调优。一:开发调优在开发Spark作业的过程中注意和应用一

2022-02-16 13:56:03 309

大数据技能包.zip

大数据技能包.zip

2021-02-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除