- 博客(16)
- 收藏
- 关注
原创 Datawhale AI夏令营-多模态RAG
然后是在线推理,将用户问题向量化后,在知识库中检索最相关的内容,结合大模型生成答案及来源信息。基础方案虽能实现基本功能,但仍有优化空间,比如改进 PDF 内容的拆分方式(按段落而非整页)、优化检索策略(增加重排环节)、提升提示词质量、使用更专业的解析工具(如 MinerU)处理图片和表格等,这些都能帮助提高系统性能。任务的难点在于多模态信息的融合(文字与图片内容的关联)、检索的准确性(从大量文档中精准找到相关信息)、答案生成的可靠性(避免编造信息)以及需同时保证答案内容和来源的正确性。
2025-08-09 21:45:51
156
原创 Datawhale AI夏令营-大模型task2
),并让教师模型生成包含计算步骤的答案(如 “到点 10:20,开点 10:35,停留 15 分钟”),让微调后的模型学习推理逻辑。:赛事评分指标中,答案准确率(40%)、响应时长(30%)、信息传达效率(30%)缺一不可,且准确率是前提(答案错误则得 0 分)。未来可进一步引入 “数据增强” 策略,如随机组合不同字段生成问题,或基于多行数据生成对比类问题(如 “去上海的两趟车,哪个检票口更近?”,但数据中无此字段),或答案与实际数据冲突(如将 “检票口 A3” 错写为 “A5”)。
2025-07-25 19:31:13
557
原创 Datawhale AI夏令营-大模型
智慧交通领域的大模型问答系统,核心目标是让模型能理解列车信息表数据,精准回答用户关于检票口、停留时间等问题,替代低效的人工查询。这就要求模型不仅能处理单字段查询,还要应对多条件筛选、时间推理等复杂问题,并且输出带推理步骤的结构化回答。刚开始接触时,我有点疑惑,为什么一定要结构化回答?后来想明白了,结构化回答更清晰,用户能快速 get 到关键信息,也方便后续可能的信息复用,比如其他系统调用这个回答结果。而且带推理步骤,能让用户知道答案的由来,增加信任感。
2025-07-23 19:37:25
299
原创 Datawhale AI夏令营-机器学习task2.2
数据建模是把现实世界的业务需求转化为结构化数据模型的过程,为数据的存储、管理和分析提供框架。
2025-07-15 23:15:51
476
原创 Datawhale AI夏令营-task2.1
解题需围绕 “将碎片化评论转化为可量化商业洞察” 的核心目标,聚焦三个任务的协同优化,关键要点如下:赛题的难点集中在数据限制、任务协同及文本复杂性,具体分析如下:
2025-07-15 23:05:03
620
原创 Datawhale AI夏令营-机器学习task2
可捕捉多维度的交互模式(如 “安卓系统 + 三星品牌” 的用户与 “iOS + 苹果品牌” 的用户行为差异),提升特征的 “信息密度”。用户行为具有强烈的时间依赖性(如 “最近 7 天是否活跃” 比 “过去一年总活跃” 更能反映当前状态)。等方式,挖掘用户行为随时间的变化趋势(如活跃度上升 / 下降、行为频次波动)。单个特征(如 “设备品牌”“操作系统”)只能反映单一维度的用户属性,而。若业务有明确价值指标(如电商的 “消费金额”),
2025-07-13 23:38:53
907
原创 Datawhale AI夏令营-Task2
用于 K-Means 聚类算法。,确保聚类结果既符合业务数量要求(5-8 个主题),又保证质量(轮廓系数尽可能高)。n_clusters=8不符合业务需求(5-8个),可以通过多种方法选择最合适的。,而实际业务中往往只知道大致范围(如本题要求 5-8 个)。本题对聚类的评估指标正是轮廓系数,因此用该指标选择。K-Means 需要人工指定聚类数。,避免凭经验判断的主观性。这段代码的核心功能是。
2025-07-13 23:23:17
428
原创 AI篡改图片检测(金融场景)
Faster R-CNN是一种两阶段的目标检测算法,其核心思想是先通过卷积神经网络提取特征,然后使用区域提议网络(Region Proposal Network, RPN)生成候选区域,最后通过分类器和回归器进行物体检测。Faster R-CNN的训练过程涉及RPN网络的训练和Faster R-CNN网络的训练。RPN网络训练时,使用ImageNet预训练的模型初始化参数,仅训练RPN部分;随后,利用RPN生成的候选区域训练Faster R-CNN的分类器和边界框回归器,这一步通常会微调特征提取器的参数。
2024-10-11 18:40:13
678
原创 Datawhale X 李宏毅苹果书 AI夏令营-Task3
1、重新设计一个灵活性更大的模型2、增加更多的特征3、用深度学习1、修改优化方式,使得能够从模型中找到这个最优的函数2、调整学习率和其他超参数。
2024-09-02 22:43:55
503
原创 【Datawhale X 李宏毅苹果书 AI夏令营】
分段线性曲线是一种由多个线性片段组成的模型,用于解决标准线性模型在表示复杂关系时的局限性分段线性曲线可以看作是一个常数再加上一群。
2024-08-31 21:27:25
1216
原创 Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1笔记
不过很明显第一张图片的手存在问题,通过之后几天的学习,代码会得到改进并更加完善。感兴趣的同学可以先玩一玩,深入学习后在baseline的基础上进行改进。
2024-08-07 10:38:31
519
原创 Datawhale AI夏令营(第三期)-逻辑推理TASK2
整体代码主要包括和两个大模块。包括大模型的处理函数、大模型返回结果抽取、多线程处理及答案生成的启动。这里代码核心是,动手能力强的小伙伴可以从这里入手开始自己的上分之路~为了保证整体代码性能使用多线程处理请求。存在的目的是由于目前使用了api调用在线开源大模型,因为网络、模型能力等原因会导致有一些结果会出现缺失。(比如大模型回答时,没有明确给出ABCD的结果,而返回的空值。也有时因为网络retry模块机会使用结束后,依然没有提取到结果会跳过某个问题。
2024-07-30 22:03:35
570
原创 Datawhale AI夏令营第二期Task3-尝试使用深度学习方案
从得分上看,stacking融合优于多个模型的结果进行加权平均融合,但得分相差不大,只差了3分左右。
2024-07-19 21:06:41
332
原创 Datawhale AI夏令营第二期Task2:入门lightgbm,开始特征工程
其中id为房屋id,dt为日标识,训练数据dt最小为11,不同id对应序列长度不同;type为房屋类型,通常而言不同类型的房屋整体消耗存在比较大的差异;target为实际电力消耗,也是我们的本次比赛的预测目标。下面进行简单的可视化分析,帮助我们对数据有个简单的了解。
2024-07-17 23:20:41
2036
1
原创 Datawhale AI夏令营第二期Task1——机器学习 电力需求预测挑战赛
赛题数据由训练集和测试集组成,为了保证比赛的公平性,将每日日期进行脱敏,用1-N进行标识。即1为数据集最近一天,其中1-10为测试集数据。数据集由字段id(房屋id)、 dt(日标识)、type(房屋类型)、target(实际电力消耗)组成。
2024-07-17 21:59:31
472
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅