
大数据
文章平均质量分 88
记录在工作和学习过程中,大数据开发时可以遇到的bug以及一些经典的案例,旨在不断定期复习相关技术要点,不断提升编码能力,提升排错能力!
岁月的眸
认定学习目标,不断提升自我!
展开
-
NVIDIA A6000(48GB显存)可以全参量训练什么开源模型?
1.2B参数模型在单卡上约3-5天可完成预训练(BookCorpus+Wikipedia)。:基于Byte-Pair Encoding(BPE),减少词表膨胀问题。: - 适合生成任务,社区支持完善,显存占用低,训练周期可控。: - 直接支持非英语任务,减少数据预处理成本。:避免频繁切换任务类型,建议分阶段训练(预训练→微调)。:天然支持文本到文本(text-to-text)任务。:类GPT-3的解码器(Decoder-only)-:编码器-解码器(Encoder-Decoder)-原创 2025-02-15 02:15:31 · 720 阅读 · 0 评论 -
ubuntu安装mysql8.0.35过程和报错处理
ubuntu安装mysql8.0.35过程和报错处理原创 2023-11-11 11:03:21 · 1847 阅读 · 0 评论 -
Apache Flink 1.12.0 on Yarn(3.1.1) 所遇到的問題
Flink on yarn提交任务报错ERROR org.apache.flink.yarn.cli.FlinkYarnSessionCli [] - Error while running the Flink session. org.apache.flink.client.deployment.ClusterDeploymentException: Couldn't deploy Yarn session cluster原创 2023-11-04 13:36:29 · 1147 阅读 · 0 评论 -
网易Impala集群优化和高可用负载均衡配置和虚拟数仓
网易Impala集群优化和高可用负载均衡配置和虚拟数仓转载 2023-09-20 12:56:50 · 711 阅读 · 0 评论 -
Hive集群高可用配置与impala集群高可用配置
使用Zookeeper实现了HiveServer2的HA功能(ZooKeeper Service Discovery),Client端可以通过指定一个nameSpace来连接HiveServer2,而不是指定某一个host和portMetastore高可用原理:Hive Metastore客户端始终使用第一个url连接到metastore服务器,如果Metastore服务器变得无法访问,则客户端从列表中随机选取一个url并尝试与之建立连接。原创 2023-09-20 01:54:55 · 955 阅读 · 0 评论 -
如何为虚拟机添加磁盘,扩充原有分区的磁盘空间
虚拟机关机的状态下,在 VMware 当中新增一块磁盘,选中左边要添加磁盘的虚拟机镜像,然后鼠标右键点击设置。选中磁盘点击添加点击下一步,悬着SCSI这个选项继续点下一步,点击创建新虚拟磁盘根据自己的需要选择最大磁盘大小,然后选择将虚拟磁盘拆分为多个文件。最后点击完成。原创 2023-09-09 15:05:53 · 5995 阅读 · 0 评论 -
大数据平台迁移后yarn连接zookeeper 异常分析
XX保险HDP大数据平台机房迁移异常分析,事件:1. 机房迁移后大部分组件都能正常启动,2. Yarn 启动后8088 8042等端口无法访问 3. Hive spark 作业提交到yarn会出现卡死。备注迁移但IP不变。原创 2023-09-12 09:24:24 · 509 阅读 · 0 评论 -
使用Akka的Actor模拟Spark的Master和Worker工作机制
使用Akka的Actor模拟Spark的Master和Worker工作机制原创 2023-09-04 18:39:16 · 783 阅读 · 0 评论 -
Scala的集合操作之可变数组和不可变数组,可变List集合与不可变List集合,可变Set与不可变Set操作,可变和不可变Map集合和元组操作
【代码】Scala的集合操作之可变数组和不可变数组,可变List集合与不可变List集合。原创 2023-09-01 14:14:06 · 959 阅读 · 0 评论 -
Scala的函数式编程与高阶函数,匿名函数,偏函数,函数的闭包、柯里化,抽象控制,懒加载等
Scala的函数式编程与高阶函数,匿名函数,偏函数,函数的闭包、柯里化,抽象控制,懒加载等原创 2023-09-03 14:09:50 · 642 阅读 · 0 评论 -
Scala的隐式转换
scala隐式转换原创 2023-09-03 00:14:41 · 973 阅读 · 0 评论 -
Scala中的样例类和样例对象和JAVA存根类
在 Scala 中,样例类(case class)和样例对象(case object)是两种特殊的类和对象,它们具有以下特性:样例类是用来表示不可变数据的类。编译器会自动生成一些额外的方法,如基于构造参数的equalshashCodetoString等。样例类可以使用模式匹配来进行对象解构。area")area")printArea(circle) // 输出:圆的面积为:78.53981633974483printArea(rectangle) // 输出:矩形的面积为:12.0。原创 2023-09-01 09:10:25 · 1554 阅读 · 0 评论 -
Scala的模式匹配
Scala模式匹配原创 2023-09-02 23:18:45 · 583 阅读 · 0 评论 -
Scala的队列与并行集合
在 Scala 中,队列和并行集合是常用的数据结构和并发编程工具。原创 2023-09-02 21:48:43 · 805 阅读 · 0 评论 -
Scala集合常用函数与集合计算简单函数,高级计算函数Map和Reduce等
Scala集合常用函数与集合计算简单函数,高级计算函数Map和Reduce等原创 2023-09-01 20:20:01 · 823 阅读 · 2 评论 -
CDP集群卸载过程
CDP集群卸载过程原创 2022-12-31 17:43:55 · 1742 阅读 · 0 评论 -
Hadoop笔记整理
Hadoop一. 引言1.1 什么是大数据大数据:(Big Data):数据量级很大的应用处理。TB级 ,日数据增长GB级K -- M---- G ---- T ----PB ---- EB ---ZB 1024通过对海量数据进行分析,挖掘,进而发现数据内在的规律,从而为企业或者国家创造价值。1.2 大数据特点4V 是大数据典型的特点具体指的是:# 1.Volume (大量) 数据量很大,至少是TB或者日均增加GB级# 2.Variety (多样) a.结构化数据 :原创 2023-04-19 12:50:05 · 857 阅读 · 0 评论 -
彻底搞明白YARN资源分配
Container是以什么形式运行的?是单独的JVM进程吗?是的,每一个Container就是一个单独的JVM进程。YARN的vcore和本机的CPU核数关系?没关系。默认都是手动在yarn-default.xml中配置的,默认每个NodeManager是8个vcore,所有的NodeManager上的vcore加在一起就是整个YARN所有的vcore。每个Container能够使用的物理内存和虚拟内存是多少?转载 2023-07-28 12:22:02 · 2865 阅读 · 0 评论 -
Hadoop的OutputFormat类
OutputFormat是一个用于描述MapReduce作业的输出格式和规范的抽象类,位于org.apache.Hadoop.mapreduce.OutputFormat. Mapreduce框架依靠文件输出格式完成输出规范检查(如检查目录是否存在),并为文件输出格式提供作业结果数据输出的功能,即提供RecordWriter的实现,输出文件被存储在文件系统FileSystem中。TextOutputFormat类 是默认的输出格式,它把每条记录写成文本行。原创 2023-06-20 21:46:36 · 624 阅读 · 0 评论 -
内卷的本质和大数据在计量经济学领域的运用思考
我们带着以上四个问题去思考,在这里我谈谈个人的一些观点和具体的看法。若有说的不正确的地方,望贻笑大方!原创 2023-08-27 13:31:11 · 844 阅读 · 0 评论 -
DolphinScheduler海豚调度教程
DolphinScheduler 教程Apache DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。解决数据研发ETL 错综复杂的依赖关系,不能直观监控任务健康状态等问题。DolphinScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作DAG监控界面,所有流程定义都是可视化,通过拖拽任务定制DAG,通过API方式与第三方系统对接, 一键部署去中心化的多Master和多Worker原创 2023-05-04 21:16:01 · 15988 阅读 · 3 评论 -
关于Java连接Hive,Spark等服务的Kerberos工具类封装
关于Java连接Hive,Spark等服务的Kerberos工具类封装原创 2023-03-04 13:33:30 · 1491 阅读 · 0 评论 -
Kerberos认证原理与使用教程
Kerberos认证原理与使用教程原创 2023-02-21 23:22:35 · 10128 阅读 · 0 评论 -
Spark读取Hive数据的两种方式与保存数据到HDFS
Spark读取Hive数据的两种方式与保存数据到HDFS原创 2023-02-02 21:03:05 · 4906 阅读 · 0 评论 -
yarn的常用命令
yarn常用命令:1.yarn application 查看任务(1)列出所有Applicationyarn application -list(2)根据 Application 状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)2.yarn logs 查看日志(1)查看Application 日志yarn logs原创 2023-01-05 00:30:09 · 9304 阅读 · 0 评论 -
cdp集群安装好后hive启动查询库报错No current connection
cdp集群安装好后hive启动查询库报错No current connection原创 2022-12-10 23:49:23 · 2668 阅读 · 2 评论 -
DataX详解
dataX详解原创 2022-11-07 18:15:39 · 1070 阅读 · 0 评论 -
CDP集群搭建过程和bug处理
cdp安装全过程和遇到bug处理原创 2022-11-07 15:52:13 · 4474 阅读 · 9 评论 -
记录SparkSql向hive的动态分区表插入数据失败的bug问题
记录SparkSql向hive的动态分区表插入数据失败的bug问题原创 2022-11-01 16:34:23 · 1585 阅读 · 0 评论 -
Hive未关闭表的事务功能(ACID)所引发的一系列Bug问题
Hive 未关闭表的事务功能(ACID)的问题原创 2022-10-31 00:02:50 · 2377 阅读 · 1 评论 -
hive与impala相关
impala和hive的笔记原创 2022-10-25 23:46:36 · 1200 阅读 · 0 评论 -
CDH集群hadoop的资源调度yarn优化与Spark优化
CDH集群hadoop的资源调度yarn常用配置优化与资源池的配置原创 2022-10-11 13:40:48 · 3257 阅读 · 0 评论 -
AWK用法全解与sed去掉sql最后一个字段哪一行的逗号
AWK用法全解与Sed去掉sql最后一个字段哪一行的逗号原创 2022-09-30 19:47:31 · 1488 阅读 · 0 评论 -
SparkSql读取外部Hql文件的公共类开发
SparkSql读取外部Hql文件并执行和传参的公共类开发原创 2022-09-17 14:02:26 · 1289 阅读 · 0 评论 -
Kerberos新创建yarn主体,CDH集群CM页面重启RM失败
日常bug记录原创 2022-09-08 11:19:52 · 189 阅读 · 0 评论 -
大数据之Kerberos认证与kafka开启Kerberos配置
Kerberos 是一种计算机网络认证协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、保护数据完整性等场合,是一种应用对称密钥体制进行密钥管理的系统。.........原创 2022-08-06 14:07:18 · 7986 阅读 · 0 评论 -
跨集群拷贝Distcp性能测试
distcp+shell脚本实现跨集群数据迁移原创 2022-07-13 22:00:17 · 3841 阅读 · 0 评论 -
linux的一些命令和hadoop的一些命令
linux的一些命令和hadoop的一些命令原创 2022-07-10 00:01:39 · 741 阅读 · 0 评论 -
大数据离线集群数据迁移实战项目
大数据离线集群数据迁移与元数据迁移原创 2022-07-09 23:54:49 · 2203 阅读 · 0 评论 -
大数据学习路线(完整详细版)
大数据学习路线原创 2022-06-26 13:42:31 · 3614 阅读 · 0 评论