AIGC
文章平均质量分 92
深入剖析AIGC的源码及论文
开始学AI
硕士生,研究方向无人机遥感图像处理,红外图像处理。不定时记录自己的学习日常,开源相关资料。关注一起学习吧!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ChatClimate:让对话式人工智能立足于气候科学
大型语言模型(Large Language Models, LLMs)在问答任务中已取得显著进展,但幻觉(hallucination,指生成虚假或不准确信息的现象)和信息过时等问题依然存在。这些问题在气候变化等领域尤为关键,因为在这类领域中,及时获取可靠信息至关重要。一种解决方案是让这些模型能够访问外部的、科学准确的信息源,以提升其知识储备与可靠性。原创 2025-10-21 17:11:47 · 149 阅读 · 0 评论 -
针对跨学科环境挑战的大语言模型微调
这两个指标在自然语言处理领域应用广泛,能够反映生成文本与参考文本之间的相似度,进而为文本生成质量提供客观衡量标准。其中,BLEU 侧重于文本间的匹配准确性,适用于评估生成文本在词汇和句法层面的精确性 [43];而 ROUGE 则是衡量文本覆盖度与连贯性的指标,通过 ROUGE-1、ROUGE-2 和 ROUGE-L 三个子指标,从多个层面实现综合评估 [44]。其次**,“大语言模型作为评判者” 方法借助大语言模型对生成结果进行评估,可提升评估的客观性与一致性 [45]。原创 2025-10-20 11:15:33 · 161 阅读 · 0 评论 -
LLM—各种任务的训练数据集格式
LLM各种任务的训练数据集格式。原创 2024-09-24 14:25:09 · 2423 阅读 · 0 评论 -
关于Resume训练 精度对齐的思考
如果想要精度对齐,需要Resume 正确的 state_dict,正确的学习率调度器,正确的恢复优化器的状态,同时还需要设置相同的随机种子。原创 2024-06-20 14:54:09 · 635 阅读 · 0 评论 -
ZeRO-3、模型并行、流水线并行适用情况
ZeRO-3适用于参数量大,需要显存优化的情况。模型并行适用于计算量大,但每层参数量相对较少的情况。流水线并行适用于计算量大且需要高效利用多 GPU 资源的情况。这三种方法可以根据具体的模型和训练需求进行选择和组合使用,以达到最优的显存利用和计算效率。原创 2024-05-23 17:29:46 · 1533 阅读 · 0 评论 -
【唇形同步】Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization
嘴唇同步的任务(唇同步)寻求将人脸的嘴唇与不同的音频相匹配。它在电影行业以及创建虚拟化身和视频会议中有各种应用。这是一个具有挑战性的问题,因为人们需要同时引入详细、逼真的嘴唇动作,同时保持身份、姿势、情绪和图像质量。许多试图解决这个问题的先前方法由于缺乏完整的上下文信息而遭受图像质量下降。在本文中,我们提出了Diff2Lip,这是一种基于音频条件扩散的模型,它能够在保持这些质量的同时在野外进行嘴唇同步。我们在Voxceleb2上训练我们的模型,这是一个视频数据集,包含狂野的会说话的人脸视频。原创 2024-05-10 16:50:26 · 2425 阅读 · 0 评论 -
【文生视频】InternVid: A Large-scale Video-Text Dataset forMultimodal Understanding and Generation
我们的核心贡献是开发一种可扩展的方法,用大型语言模型(LLM)自主构建高质量的视频文本数据集,提供视频文本表示学习模型ViCLIP。目前的研究依赖于HowTo100M[2]、HD-VILA[3]和YTTemporal[4,5]等数据集,这些数据集的文本是使用自动语音识别(ASR)生成的。尽管规模很大,但这些数据集在视频和相应的文本描述之间的语义相关性往往很低[2-5]。实证研究表明,改善这种相关性(例如,将视频与字幕对齐以提高其匹配性)显著有利于视频检索和视频问答等下游任务[6]。文本视频对齐非常重要。We原创 2024-04-25 17:38:01 · 2255 阅读 · 2 评论
分享