自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 大语言模型task3打卡

预训练过程为了预训练大语言模型,需要准备大规模的文本数据,并且进行严格的清洗, 去除掉可能包含有毒有害的内容,最后将清洗后的数据进行词元化(Tokenization)流,并且切分成批次(Batch),用于大语言模型的预训练.数据清洗:词元化:批次处理:将词元分成批次是为了方便在训练时提供输入。通常我们会将这些词元转换为 ID 并使用固定的批次大小。算力评估目前的开源模型普遍采用 2∼3T。

2025-03-17 21:50:04 689

原创 大语言模型task2打卡

进一步,大语言模型还具有较好的规划能力,能够针对复杂任务生成逐步求解的解决方案,从而简化通过单一步 骤直接求解任务的难度,进一步提升模型在复杂任务上的表现。数据的语义学习,因此受限非自然语言形式的任务(数值计算)和超过预训练数据所提供的信息,无法有效推断出超过数据时间范围和覆盖内容的语义信息。首先训练能够区分模型输出质量好坏的奖励模型,进而使用强化学习算法来指导语言模型输出行为的调整,让大语言模型能够生成符合人类预期的输出。(3)设计有效的数据配比与数据课程,加强模型对于数据语义信息的利用效率。

2025-03-15 17:26:20 903

原创 大语言模型学习task1打卡

Distributed Word Representation原理:使用分布词,构建分布词向量,使用预测函数,产出对应预测词。如果是3元模型,例如我喜欢吃苹果,需要先算出我喜欢吃的改了,前缀为2,计算如下。为了解决从未出现的数量,导致零概率,采用加一平滑的处理办法。Information Retrieval, IR)和(语言模型是根据人类语言规律进行预测,共经历了4个阶段。对于某修前缀不连贯的情况,可以使用回退的方法。1,1990年时期统计语言模型(SLM)2,2013年神经语言模型。

2025-03-12 15:00:49 219

原创 SPARKSQL NOT IN 空值处理以及执行计划优化

工作中(2,null)经常使用子查询的形式,对于优化热点问题,如果子查询中有空值,则返回空,数据不正确。改写的方式为将子查询中的NULL剔除,单独拿出来处理。

2024-07-16 15:55:10 340

原创 SPARK SQL AQE理解

根据每一个 ReduceTask 的数据大小,Spark AQE 能够判断出数据倾斜,并根据上游 MapTask 的统计信息,合理切分 Reducetask,尽可能保证切分的均匀性。第一,如果倾斜的分区的大部分数据来自于上游的同一个 Mapper,AQE SkewedJoin 无法处理,原因是 Spark 不支持 Reduce Task 只读取上游 Mapper 的一个 block 的部分数据。AQE SkewedJoin 功能并不能处理所有发生数据倾斜的 Join,这是由它的实现逻辑所决定的。

2024-07-11 17:36:23 822

原创 数仓笔记1

数据仓库主题九-(事务事实表)_多事务事实表-优快云博客什么是可加,半可加,不可加事实?_可加指标半可加指标-优快云博客

2024-06-12 17:54:21 134

原创 python取消合并单元格,如果格式不正确,怎么解决

4.遍历当前合并单元格中的每个单元格,并使用`sheet.cell(row, column, value=merge_value)._style = merge_style`函数将合并单元格的值和样式分别应用到每个单独的单元格中。2.遍历合并单元格列表中的每个合并单元格,并使用`merge_cell.start_cell.value`和`merge_cell.start_cell._style`分别获取合并单元格的值和样式。注:`sheet`参数应该是一个`openpyxl`库中的工作表对象。

2023-05-09 11:18:39 855

转载 利用map和reduce编写一个str2float函数,把字符串‘123.456‘转换成浮点数123.456:

from functools import reducedef str2float(s): DIGITS = { '0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9 } def char2num(s): .

2021-11-19 13:15:59 370

转载 statistics_level

SQL> show parameter statistics_levelNAME TYPE VALUE------------------------------------ ----------- -------------statistics_level string TYPICAL该参数有三个值:(默认值)typical,all,basic其中:ty...

2021-09-24 13:07:49 201

转载 plsql导出数据字典

方法一:PLSQL + POWER DESIGNER + PDMREADE1、从PLSQL中导出表结构,点击TOOL==>export user objects ,导出文件名为test.sql注意,因为公司要求只需要表格,根据要求User 选择IRCP ,type选择TABLE ,通过shift 全选,将storage owner 不选,直接导出文件到桌面。2、打开PowerDesigner单击File---->Reverse Engineer---->Databas.

2021-08-24 14:15:26 4182

原创 行转列的多种方法探究

本文所使用的创表语句如下:create table umo ( Y number(4), Q number(4), AMT number(4))insert into umo values(2015,1,100);insert into umo values(2015,2,110);insert into umo values(2015,3,130);insert into umo values(2015,4,100);insert into umo value

2021-07-13 16:02:21 208

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除