AIGC
文章平均质量分 92
以AIGC的理论、实践总结为主,介绍在工作项目中对aigc的各种尝试
算法驯化师
1. 多年面试官经验、欢迎咨询各类简历修改、面试经验、求职准备、项目包装、项目指导(算法代码方向);
2. 混迹多个大厂搜索、推荐、广告、内容、数据挖掘、数据分析等多个岗位工作,目前大模型算法驯化师;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【LLM实战-智能问答系统】一文搞懂基于Langchain、Llama2和PDF/CSV文件集成的智能问答系统
随着企业数据量的爆炸性增长,传统的信息检索方式已经无法满足高效工作的需求。智能问答系统应运而生,它能够理解自然语言问题,并从海量数据中快速提取答案。在本项目中,我们的目标是构建一个能够处理PDF文档和CSV文件的智能问答系统。通过Langchain框架和Llama2模型,我们希望为用户提供一个简单易用的界面,让他们能够快速获取所需信息。原创 2025-02-27 20:11:51 · 926 阅读 · 0 评论 -
【LLM实战-大模型自动打标】一文搞懂基于LLM大模型进行自动化打标
在自然语言处理(NLP)领域,文本标注是一个耗时且需要专业知识的任务,尤其是对于涉及敏感内容的文本标注。随着大语言模型(LLM)的发展,我们可以利用这些强大的模型来自动化标注过程,从而提高效率并减少人工干预。本文将介绍如何使用OpenAI的API,结合Python脚本,实现对文本是否涉及敏感话题的自动标注。在许多应用场景中,如社交媒体监控、内容审核等,我们需要快速判断文本是否包含敏感内容。传统的文本标注方法依赖人工标注,不仅效率低下,还容易受到主观因素的影响。原创 2025-02-12 11:02:18 · 2229 阅读 · 0 评论 -
【NLP实战-BERT文本分类】一文搞懂基于BERT进行文本分类并定制化评估指标
文本分类任务的目标是将文本数据分配到预定义的类别中。在本次项目中,我们使用了一个包含用户评论和评价维度的数据集。数据集中的每条评论都对应一个评价维度(如“服务态度”、“产品质量”等),我们的目标是训练一个模型,能够自动根据评论内容预测其对应的评价维度。原创 2025-02-07 17:09:32 · 1208 阅读 · 0 评论 -
【Transforms-驯化】一个通过seq2seq和Transforms实现文本生成的例子
文本生成目前都是通过gpt等大模型进行完成,本次介绍一下通过seq2sep以及Transforms来实现。原创 2024-12-17 11:43:53 · 532 阅读 · 0 评论 -
【多模态-驯化】一文搞懂通过http下载图片url并保存到execl中
在数据处理和报告制作中,经常需要将图片与数据结合,以提供更直观的信息展示。本博客将介绍如何使用Python自动化地从网络下载图片,并将其插入到Excel文件中。原创 2024-12-03 17:05:54 · 1116 阅读 · 0 评论 -
【大模型-驯化】一文教会qwen-vl、qwen系列通过Prompt输出json格式为非markdown格式问题
【大模型-驯化】一文教会qwen-vl、qwen系列通过zero-shot输出json格式为非markdown格式问题 本次修炼方法请往下查看 在企业的工程工作中,有时候由于没有想过的训练数据,需要通过zero-shot的方式调用大模型进行推理预测,目前来说比较好的模型中文解释模型为qwen系列的单模和多模模型,通常来说算法和工程进行对接时,我们需要将结果处理成json格式给后原创 2024-11-21 14:52:15 · 2986 阅读 · 0 评论 -
【大模型-驯化】一文教会你bert、qwen、llama等模型对结果进行概率控制问题
【大模型-驯化】一文教会你bert、qwen、llama等模型对结果进行概率控制问题 本次修炼方法请往下查看 大模型的发展使得之前的nlp相关任务:文本分类、实体抽取、文本生成、文本理解等任务都在由bert预训练模型向gpt模型进行过渡,具体的之前用bert进行文本分类的任务都可以通过gpt进行sft来得到微调的最终结果,在通过bert进行文本分类的过程中,我们可以对bert的原创 2024-11-20 11:08:19 · 1500 阅读 · 2 评论 -
【大模型-驯化】成功解决载cuda-11.8配置下搭建swift框架
【大模型-驯化】成功解决载cuda-11.8配置下搭建swift框架 本次修炼方法请往下查看 当前训练大模型的框架有很多,诸如:llava-factory、swift、原始微调脚本等,各个微调方法各有优缺点,对于llava-fatory来说相对来说比较复杂,而且不怎么好用,这边从实操的角度来分析,建议大家使用swift框架来训练大模型,对于swift来说需要搭建来说如果你的cu原创 2024-09-27 11:02:36 · 969 阅读 · 0 评论 -
【大模型-驯化】成功搞懂大模型的jsonl数据格式处理和写入,通过pandas读取和保存JSONL文件
JSONL(JSON Lines)是一种文本格式,目前大模型很多的数据格式都是jsonl和json的,通常我们使用json的文件相对较多,对于jsonl的处理,我们其中每一行都是一个独立的JSON对象。这种格式非常适合于那些需要逐行读取和写入数据的场景,比如日志文件处理。Pandas是一个强大的Python数据分析库,它提供了读取和保存JSONL文件的功能,使得处理这种格式的数据变得简单快捷。有时候,JSONL文件中的数据可能包含复杂的结构,比如嵌套的JSON对象。原创 2024-09-24 16:51:12 · 3338 阅读 · 0 评论 -
【大模型-驯化】成功解决fused_adam.so: undefined symbol: _ZN3c107WarningC1ENS中fused_adam .. [NO] ..[OKAY]问题
大模型-驯化】成功解决fused_adam.so: undefined symbol: _ZN3c107WarningC1ENS中fused_adam … [NO] …[OKAY]问题 本次修炼方法请往下查看 目前大模型的训练大都是是基于deepspeed来进行多卡并行加速,大家在安装deepspeed成功后,在训练大模型是经常会遇到运行的过程中出现训练:💡 2. 问题分析原创 2024-09-06 16:27:18 · 1404 阅读 · 0 评论 -
【大模型-驯化】成功解决deepspeed加速出现:./fused_adam/fused_adam.so: undefined symbol: _ZN3c107WarningC1ENS问题
成功解决qwen中deepspeed出现fused_adam.so问题原创 2024-09-03 16:26:39 · 1720 阅读 · 0 评论 -
【flash attention安装】成功解决flash attention安装: undefined symbol: _ZN2at4_ops9_pad_enum4callERKNS_6Tensor
在进行大模型训练时,我们通过为了解决内存采用策略来优化模型的性能,具体flash attention策略的原理可以自行去看论文,在实际的安装过程中坑太多了,最为经典的坑就是安装成功但是报各种各样的问题,最为经典的模型为目前最为火的模型为intervl看晚上很多的人说需要降低版本,因此,最后将版本降到2.1.0版本,至于高版本可不可以这个具体得看了,反正我调通了就没去试了。在暗疮flash-attn中常见。原创 2024-07-30 20:02:38 · 6138 阅读 · 0 评论 -
【LLM-驯化】成功配置多模态大模型InternLM-XComposer微调环境
是一个多模态视觉-语言预训练模型,它结合了视觉和语言信息,用于理解和生成跨模态内容。这种模型在图像描述、视觉问答、视觉对话等任务中表现出色,具体的榜单效果评估如下所示:从上述的榜单可以看出intern-xcomposer2-vl-7b在模型的整体性能上面还是很能打的,不仅评估效果相对比较优化,同时模型的整体参数大小也不是特别的大,感兴趣的可以去在线体验接口进行访问,体验链接。原创 2024-07-11 09:44:07 · 680 阅读 · 0 评论 -
【大模型驯化-bug解决】成功解决subprocess.CalledProcessError: Command ‘[‘ninja‘, ‘-v‘]‘ returned non-zero exit sta
在进行大模型微调过程中,我们出现pytroch版本问题而导致的, 这个问题的出现与pytorch的版本有关,可以把pytorch版本降到1.5.0以下。但是这个解决方法治标不治本,有时候我们不可避免的需要使用高版本的pytorch,这就需要对pytorch做一些更改。原创 2024-06-24 16:08:41 · 1393 阅读 · 0 评论 -
【大模型驯化-Prompt】企业级大模型Prompt调试技巧与batch批量调用方法
Prompt 工程是创建提示或指导像 ChatGPT 这样的语言模型输出的过程。它允许用户控制模型的输出并生成符合其特定需求的文本。prompt的设计一定要有逻辑和系统性,现在大模型对于文本的分类、抽取、生成、理解等nlp任务都特别的强大,在通用的领域里面基本不会比传统的模型效果差,但是受限于gpu资源和预算,目前对于大规模的任务很多都是通过大模型进行样本的修正和标注,在用小模型进行在线部署,后续如果性能提高、费用降低很多之前的小模型都会基于大模型进行任务的处理。原创 2024-06-21 22:54:57 · 2236 阅读 · 0 评论
分享