自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

敏叔

飞翔在天空,微风拂过脸颊,那种感觉无法用语言来表达!

  • 博客(131)
  • 资源 (1)
  • 收藏
  • 关注

原创 大数据治理:从计算优化到组织效能提升的全面解析

在数字化浪潮汹涌的当下,数据已然成为企业的核心资产。大数据治理作为释放数据价值的关键手段,其重要性不言而喻。今天,我们将从计算优化、治理、数据链路以及组织效能这几个关键维度,深入剖析大数据治理。

2025-02-07 12:47:43 845

原创 一文带你了解Spark4新特性,开启大数据处理新篇章

在大数据处理的广袤天地中,Apache Spark 始终是熠熠生辉的存在,宛如一颗璀璨的明星框架,吸引着无数开发者与数据分析师的目光。技术的车轮滚滚向前,Spark 4.0 在万众瞩目中荣耀登场,携带着一系列令人热血沸腾的新特性,如同为大数据领域开启了一扇通往新世界的大门,带来了前所未有的变革。今天,就让我们一同踏上这场探索之旅,深入剖析 Spark 4.0 的全新特性,探寻它们如何为大数据处理的版图添上浓墨重彩的一笔。

2025-02-05 23:46:33 1031

原创 大模型时代,如何做好技术储备开启求职之路

在科技飞速发展的当下,DeepSeek 的爆火成为了人工智能领域的一个现象级事件。短短数月间,DeepSeek 的用户数量呈指数级增长,广泛应用于智能写作、智能客服、智能翻译等多个领域,其精准高效的语言处理能力和强大的知识储备,让人们真切感受到了大模型技术的魅力与潜力。这一成功案例不仅是 DeepSeek 自身技术实力的彰显,更标志着大模型时代已然全面来临。“周虽旧邦,其命维新。” 科技浪潮滚滚向前,大模型时代的来临,恰似一场波澜壮阔的变革,彻底重塑了科技发展的格局,为我们带来前所未有的机遇与挑战。

2025-02-05 23:36:55 941

原创 大模型技术对大数据生态链的全面革新

在数字化浪潮汹涌澎湃的当下,大数据和人工智能技术已成为推动各行业发展的关键力量。其中,大模型技术的崛起,正深刻地改变着大数据生态链的格局,为数据的处理、分析与应用带来了前所未有的变革。今天,就让我们一同深入探讨大模型技术对大数据生态链的多维度影响,并结合实际案例展开分析。

2025-02-05 23:18:12 918

原创 一文读懂金融行业数仓建模

在金融行业加速数字化转型的当下,数据已然成为驱动业务创新与发展的关键生产要素。而数据仓库建模作为高效管理与运用这些数据的核心技术,犹如为金融机构筑牢数据大厦的基石,稳稳支撑起各类数据分析与决策应用,在金融领域的数字化进程中发挥着举足轻重的作用。今天,我们就一同深入探索金融行业数仓建模的关键要点,并结合实际案例展开详细剖析。

2025-02-05 23:07:02 1028

原创 当大模型遇上Spark:解锁大数据处理新姿势

开发专用模型和算法,针对特定领域特点,结合 Spark 计算能力开发专用模型和算法,在金融领域开发基于 Spark 的金融风险预测模型,利用 Spark 处理金融大数据,结合金融领域知识和算法提高预测准确性;医疗机构在日常诊疗过程中,积累了大量医疗影像数据,如 CT、MRI、X 光等,以及患者病历数据,包括症状描述、诊断结果、治疗方案等。将这些数据进行整合,存储到分布式存储系统中,利用 Spark 的分布式计算能力,对医疗影像数据进行预处理,如降噪、增强、分割等操作,提高影像质量,便于后续分析。

2025-02-05 22:18:52 1587

原创 解锁Hudi+Spark:大数据处理的超强组合拳

在大数据领域,数据的存储和处理是两大核心任务。Hudi(Hadoop Upserts Delete and Incremental)作为一种新兴的数据湖存储框架,正逐渐崭露头角,它为大规模数据集提供了高效的增量数据处理和实时数据更新能力。而 Spark,作为大数据处理领域的明星框架,以其快速的内存计算、丰富的 API 和强大的分布式处理能力,在批处理、流处理以及机器学习等多个场景中广泛应用。

2025-02-05 22:12:18 951

原创 突破解决brew install无法访问国内网络问题

使用mac的同学都会经常使用brew 工具安装,我本来是需要安装一下ffmpeg来着,我就执行以下命令这种情况还是好的,是安装慢,但是啊,好不容易下载完成后面伴有下面这种提示安装失败,死活也安装不了。。。

2024-10-14 22:45:06 1889

原创 数学符号练习-常用导数与四则运算

前言其实主要的目的是可以在文本中输出各种数学符号,便于以后用到的时候有现成的例子拿过来抄~~

2024-09-28 22:42:57 1142

原创 数学符号练习-函数连续性与导数

前言其实主要的目的是可以在文本中输出各种数学符号,便于以后用到的时候有现成的例子拿过来抄~~

2024-09-28 22:04:59 1360

原创 数学符号练习-无穷

其实主要的目的是可以在文本中输出各种数学符号,便于以后用到的时候有现成的例子拿过来抄~~

2024-09-27 13:30:29 1221

原创 数学符号练习篇-极限

其实主要的目的是可以在文本中输出各种数学符号,便于以后用到的时候有现成的例子拿过来抄~~

2024-09-27 12:19:07 1052

原创 数学符号练习篇-函数

量和量之间的关系:如AπR2A=πR^2AπR2yfxy=f(x)yfx中fff为函数,xxx为自变量,yyy因变量出函数在x0x_0x0​处取得的函数值y0y∣xx0fx0y0​y∣xx0​fx0​ygxy=g(x)ygxyφxy=φ(x)yφxyψxy=ψ(x)yψx。

2024-09-27 06:47:52 807

原创 利用VSCode正则方式捕获组替换,编码效率一飞冲天

我们经常需构造一些数据变成SQL或者JAVA代码,但是数据内容其实是从excel或者别的地方复制过来的,如下的字符串我们在SQL中需要变成或者在JAVA中变成其实规律很直接,我们就是需要在每一行的前后追加一下单引号/双引号再补充一个,号就行。

2024-08-25 18:09:11 355

原创 VSCODE 使用正则表达式匹配替换有规律的行

我有类似的文本我需要逐行替换l24,l32所在行,其他行保留。

2024-08-24 17:07:32 369

原创 Spark 3.5.1 升级 Java 17 异常 cannot access class sun.nio.ch.DirectBuffer

使用Spark 3.5.1 升级到Java17的时候会有一个异常,异常如下。

2024-06-02 10:53:25 3163 3

原创 全民上手大模型--ollama+langchain+通义千问零费用java+python跑通本机大模型

写本篇文章是因为我经历过了各种付费+测试之后很艰难想入手大模型,国内的同学学技术还是太困难了,但是看到市面上各种火爆,实在有按捺不住想体验,终于迎来了一个契机。在此之前,应该大家都了解OpenAPI,确实强大,但是国内用户来说,有以下问题:一、网络不通,这里还不是简单的翻墙的问题,是他的网站都不对中国大陆开放,政治因素就不谈了二、贵这玩意其实是按调用次数收费的,厉害点的功能其实都要收费,还是美元三、其实中文方面还是没有那么强了。

2024-04-25 23:06:56 4848 8

原创 Flink程序员开发利器本地化WebUI生成

在flink程序开发或者调试过程中,每次部署到集群上都需要不断打包部署,其实是比较麻烦的事情,其实flink一直就提供了一种比较好的方式使得开发同学不用部署就可以观察到flink执行情况。

2024-03-17 22:07:17 990

原创 在docker中玩flink时候记录一些组合命令

玩docker的时候记录一些组合命令,一方面是可以直接拿上来使用,还有的话也可以拿过来改改,主要是我自己有这种经历,过一阵子我自己也忘,与其去搜人家的博客还不如自己记录一把。好了,没啥所谓的规律性,就是一些日常经常使用的命令组合。

2024-03-04 22:57:39 340

原创 在Docker跑通Flink分布式版本的WordCount

前文我们介绍了,,这一把我们研究一下怎么自己撸一个WordCount上去跑起来。

2024-03-03 17:26:55 1071

原创 使用Docker快速部署Flink分布式集群

本文其实是介绍了最长见的两种使用docker的场景,一个是自己开发的程序如何用docker跑起来,第二是使用现成的容器更快速让我们入门。这两种方式在以后会经常碰到。

2024-03-03 09:38:18 3063

原创 failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpected status code

【代码】failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpected status code。

2024-03-02 22:43:46 895

原创 VSCode将某个字符替换为换行符并换行显示

快捷键其实想 option+command+f ,但是我每次都记不住,大家可以直接在编辑栏找到replace的地方。选择之后记得写着*的那里其实就是正则模式,否则的话会替换成字符串的\n。我的需求是一个一行的数据,用逗号分开,我希望竖着看有规律点,类似这样。不想每次去查了,我自己写博客记录一下~~~

2024-02-22 21:10:40 3377

原创 mac构建Docker镜像报错failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpec

【代码】mac构建Docker镜像报错failed to solve with frontend dockerfile.v0: failed to create LLB definition: unexpec。

2024-02-08 10:17:35 386

原创 mac docker 宿主机和容器间网络打通

是这样,笔者最近满怀欣喜入手Docker,看着各种文章命令都是不断点头称道:“嗯嗯,不错不错”,在接下来终于准备大干一场的时候碰壁了,主要情况是说在Mac中跑了第一把的时候发现碰到,虚拟机和宿主机居然是不通的,当然也找了一下资料说linux才是天然支持docker滴,底层都有cgroup,clx吧啦吧啦,mac,windows这种其实是底层干了波虚拟机,然后要转发啥的。从我过去多次学习大数据组件入门到放弃的情况来说,网络这种事情要提前解决,不能卡着,否则后面很多破事情。

2024-02-07 10:22:39 1762

原创 大数据技术闲侃之-鹰隼试翼风尘翕张

似乎是需要把一系列串起来,继走出校门、岗位选择之后,现在又开始卷职业规划了,有同学提出想了解了解职业规划的事情。写这篇文章也是因为之前做了个开头,后续持续很久放在记事本上面吃灰了。这段时间呢,组里有3位刚从校园的同学进来,组里年龄瞬间拉低了一个很大的水平,不管愿不愿意,反正生理年龄上来了一场风暴式的洗牌,主要找工作这个事情上如果相同水平的话,肯定越小的未来潜力越大嘛。我自己也是参与到了这些新鲜血液成长过程中来。

2023-08-16 13:05:32 413

原创 大数据技术闲侃之岗位选择解惑

写下这篇文章是因为五一节前给群友的承诺,当然按照以往的惯例,也是我背后看到的这个现象,我发现大部分同学在投递岗位的时候都是投递数据分析岗位,其实背后并不是很清楚背后的岗位是做啥的,想想我自己的工作生涯,还是觉得可以写一写。

2023-05-15 22:58:05 433

原创 Chrome版本太旧,无法访问此网站www.google.com 的响应时间过长

Chrome版本太旧,无法访问此网站www.google.com 的响应时间过长,问题解决

2023-04-22 21:37:44 1415

原创 如何在JAVA代码中嵌入汇编

如何在JAVA代码中嵌入汇编,Chatgpt来啦

2023-04-20 22:13:56 859

原创 #恭喜闲侃群通过人肉的方式对接了ChatGPT

我们的闲侃群一直很活跃啦,看到大家那么积极讨论,今天群主加一把火,大家的问题一起丢给ChatGPT看看,主要是我看了答案还是很不错的,这不小文章就出来了嘛~

2023-04-20 21:52:12 501

原创 anaconda运行Notebook和jupyter报错resource.setrlimit(resource.RLIMIT_NOFILE, (soft, hard)) ValueError

mac anaconda3 File "/Users/zhuxuemin/anaconda3/anaconda3/lib/python3.9/site-packages/notebook/notebookapp.py", line 1704, in init_resources resource.setrlimit(resource.RLIMIT_NOFILE, (soft, hard))ValueError: current limit exceeds maximum limit

2023-02-02 23:06:15 1417 2

原创 改良海量数据存储的若干的手段-转变数据垃圾为黄金

直到翻看了后面章节,才注意到封面上面的标语,中文意思是“禁止倾倒数据垃圾,违者务必读此书!”大致祖师爷对杂乱无序的数据垃圾深恶痛绝,在这点上大凡上了点年头的数据工作者都是深有体会~直到翻看了后面章节,才注意到封面上面的标语,中文意思是“禁止倾倒数据垃圾,违者务必读此书!”大致祖师爷对杂乱无序的数据垃圾深恶痛绝,在这点上大凡上了点年头的数据工作者都是深有体会~在这里插入图片描述一开始数据湖信息在设计时并没有考虑未来的访问和分析,机构会发现这样的数据湖仅仅是数据量大而已,大部分数据并不能真正支持他们的业务

2022-11-18 21:05:17 533

原创 关于技术面试一些有用的经历

其实比较标准的情况就是一个是技术把关,一个是你未来老板,一个是hr,有时候会发现搞个几轮,或者也就两面就通关了,这种情况是这几个角色分到几个人身上,或者就一个人顶了两轮角色的情况,有个需求注意的事情是,这里头其实没有闲人,尤其是针对技术把关的同学,他们在日常的工作中事情也是非常多的,所以内心诉求是期望面试的人就是自己想找的人,至于后面的老板嘛,肯定更加忙的,因为一旦面试不过的话,又要找下一个。还有些情况就是也不写毕业时间,或者模棱两可,因为这个需要判断工作时间的关键因素,后面的工作情况也是一样。...

2022-08-07 08:45:09 269 2

原创 手撕SparkSQL五大JOIN的底层机制

Broadcast hash join (BHJ)Shuffle hash join(SHJ)Shuffle sort merge join (SMJ)Shuffle-and-replicate nested loop join,又称笛卡尔积(Cartesian product join)Broadcast nested loop join (BNLJ)这些机制你真的了解清楚么, 今天对SparkSQL JOIN的机制从原理和源码都深入剖析,不管是做Spark优化,问题排查,都有极大的帮助~~

2022-07-31 14:43:56 1942

原创 大数据技术人员的打怪升级之路

事实上我们一般是把自己说成是技术人员,而在我们的 下游还有一部分也是做数据的,消费我们的数据,我们会把他们才叫做数据人员,在大数据的成长之路上,利用技术手段加持你真正的数据链路,从这个层面来讲探索新的etl pattern,带来新的设计范式,打造行业规范,也是可以星辰大海的一件事情,也就不会觉得数据人这个称呼不大行了!!............

2022-07-21 23:00:55 437

原创 Spark3.3.0源码编译补充篇-抓狂的证书问题

spark 编译gcs-maven-central-mirror (https://maven-central.storage-download.googleapis.com/maven2/): transfer failed for https://maven-central.storage-download.googleapis.com/maven2/org/apache/maven/plugins/maven-metadata.xml

2022-06-20 22:44:47 690

原创 SecureCRT运行SparkShell 删除键出现乱码的解法

SecureCRT 通过spark-shell启动控制台之后发现没办法进行删除操作一直按删除健没用选择----->会话选项---->映射键---->勾选两个勾仿真---->终端选择linux乱码问题,调整一下编码记得重启一下,后面界面也会变成linux的画风哦...

2022-06-18 12:13:41 589

原创 数据湖架构之Hudi编译篇

说起编译hudi,从第一遍过之后,再回过头来看,发现就是第一遍不熟悉,出现的一切问题可以总结为maven仓库没配置好。一开始我只是配置了阿里云仓库,但是后面不断报错,然后百度谷歌找原因,再调整配置,再编译,最后就成功了,所以整体来说编译不复杂,只要配置正确,那我把最后可以通过的配置贴出来,这也是我觉得可以帮助到大部分同学的地方。hudi迭代还是比较快的,因为同时也依赖了hadoop和spark,为了组合使用,我使用的是0.9.0版本,对应地址:[https://hudi.apache.org/release

2022-06-18 02:40:26 1459

原创 hadoop的基础设施-protobuf-2.5.0编译和安装

在安装编译Hadoop的时候需要提前安装protobuf-2.5.0的,而且版本不要高了或者低了,这个是因为hadoop的rpc通信里面是直接使用protobuf-2.5.0作为数据格式交换的,因为遇到很多次,每次都从头安装,这次记录下来。......

2022-06-18 00:53:28 1556

原创 CentOS yum源设置为国内aliyun yum源

CentOS,配置阿里巴巴的yum源,本身的网络上也是可以有很多资料的,但是我实际测试下来网络上很多的源其实是会变化的,我自己配置下来,也是觉得不能只告诉怎么配置,而是要说明怎么去找,可能是更加有帮助的。要知道去访问这个官网:https://developer.aliyun.com/mirror/官网上其实是给的镜像信息,只不过在介绍镜像的时候提供了yum源而已,我们选择centos进去里面很详细会介绍配置方式,关键是有一个过期源找到自己系统版本镜像配置首先做一下备份,问题不大接下来按照官网的说明

2022-06-18 00:32:48 1208

Hbase命令大全

各种操作的详细指令,里面是各种Shell的操作脚本

2015-10-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除