第三季度社区开源大模型回顾

随着人工智能技术的不断发展,我们在2023年第三季度见证了一系列令人激动的开源模型的发布,包括语言模型、多模态模型和精调模型。这些模型在各自的领域都取得了显著的成果,为我们提供了更多的可能性和机会。

1. 基座模型

LLaMA 2

  • 介绍: Meta公司推出的LLaMA 2是一款强大的大语言模型,包括基础和对话模型版本,参数为7B、13B、70B。它在多个外部基准测试中优于其他开源语言模型,具有出色的推理、编码、精通性和知识测试能力。LLaMA 2的训练数据比LLama 1多了40%,上下文长度也翻倍,采用了分组查询注意力机制,使其能够更好地处理聊天对话任务。
  • 推荐下载地址:

AI快站 - HuggingFace资源镜像加速服务AI快站提供HuggingFace资源的镜像加速服务,解决大模型下载问题,提供镜像加速和断点续传功能。icon-default.png?t=N7T8https://aifasthub.com/models/FlagAlpha

Baichuan 2

  • 介绍: 百川智能推出的新一代开源大语言模型Baichuan 2,采用2.6万亿Tokens的高质量语料进行训练。它在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果。本次发布包含有7B、13B的Base和Chat版本,并提供了Chat版本的4bits量化。所有版本对学术研究完全开放,同时,开发者可通过邮件申请并获得官方商用许可后,即可免费商用。
  • 推荐下载地址:

AI快站 - HuggingFace资源镜像加速服务AI快站提供HuggingFace资源的镜像加速服务,解决大模型下载问题,提供镜像加速和断点续传功能。icon-default.png?t=N7T8https://aifasthub.com/models/baichuan-inc

ChatGLM2-6B

  • 介绍: ChatGLM-6B发布了第二代版本ChatGLM2-6B,该模型支持中英对话,不仅保留了初代模型的对话流畅性和低部署门槛等优秀特性,还引入了更强大的性能、更长的上下文、更高效的推理和更开放的协议等新特性。其中,ChatGLM2-6B的上下文长度扩展到了32K,并使用8K的上下文长度进行训练,允许更多轮次的对话。
  • 推荐下载地址:

AI快站 - HuggingFace资源镜像加速服务AI快站提供HuggingFace资源的镜像加速服务,解决大模型下载问题,提供镜像加速和断点续传功能。icon-default.png?t=N7T8https://aifasthub.com/models/THUDM

2. 多模态模型

VisualGLM-6B

  • 介绍: VisualGLM-6B是由智谱AI和清华大学共同开源的多模态对话模型,支持图像、中文和英文。它依靠来自于CogView数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间,并在微调后实现了生成人类偏好的答案。
  • 推荐下载地址:

AI快站 - HuggingFace资源镜像加速服务AI快站提供HuggingFace资源的镜像加速服务,解决大模型下载问题,提供镜像加速和断点续传功能。icon-default.png?t=N7T8https://aifasthub.com/models/THUDM

Qwen-VL

  • 介绍:阿里云开源的大规模视觉语言模型 Qwen-VL,包含基础模型和对齐模型两个版本。该模型可将图像、文本、检测框作为输入,并以文本和检测框作为输出,可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。
  • 推荐下载地址:

AI快站 - HuggingFace资源镜像加速服务AI快站提供HuggingFace资源的镜像加速服务,解决大模型下载问题,提供镜像加速和断点续传功能。icon-default.png?t=N7T8https://aifasthub.com/models/Qwen

3. 精调模型

在法律、医疗、心理和天文等领域,我们也见证了一系列精调模型的诞生,如法律领域的智海-录问和夫子·明察,医疗领域的DISC-MedLLM和仲景,心理领域的Mindchat和MeChat,天文领域的StarGLM等。这些模型的出现,为我们提供了更多解决特定问题的工具和方法。

在未来,我们希望看到更多的开源模型被开发出来,助力人工智能技术的进步和发展。

<think>首先,用户的问题是:“DeepSeek大模型微调财务专用模块。”这似乎是在询问关于DeepSeek大模型在财务领域的微调专用模块。 回顾之前的对话: - 用户询问了“DeepSeek大模型微调材无专用模块。”,我回答了使用Hugging Face进行微调。 - 现在的新查询是“DeepSeek大模型微调财务专用模块。”,这可能是个打字错误或特定上下文。用户可能想说“财务专用模块”,意思是“finance-specific module”。或许是“财务专用模块”,即针对财务领域定制的微调模块。 用户消息是:“DeepSeek大模型微调财务专用模块。” – 可能是个笔误,应该是“财务专用模块”。假设意思是询问关于DeepSeek大模型微调用于财务领域的专用模块。 在我的上一个回答中,我解释说DeepSeek没有专用模块,但可以用开源工具微调。现在用户指定“财务专用”,所以我需要针对财务领域微调DeepSeek模型提供指导。 关键点: - DeepSeek模型是基于开源架构的,没有官方专用模块。 - 用户可能在问如何微调DeepSeek模型用于财务任务。 - 我需要用中文回答。 - 回答后,必须添加3-5个相关问题,以“§§相关问题§§”开头,并在同一行输出。 回答结构: 1. 确认问题:解释DeepSeek没有专门的财务模块,但可以通过微调实现。 2. 提供指导:如何微调DeepSeek模型用于财务领域。 3. 包括示例代码:使用Hugging Face transformers进行微调。 4. 结束时添加相关问题。 确保符合规则: - 回答完问题后提出3-5个相关问题。 - 第一行相关问题必须完整输出“§§相关问题§§”。 - 禁止换行分散,所以相关问题要连续输出。 - 基于用户问题和我的回答提出问题。 可能的回答大纲: - 开头:目前没有DeepSeek官方的财务专用微调模块。 - 方法:可以使用Hugging Face transformers库微调DeepSeek模型,针对财务数据集。 - 示例代码:类似之前的微调代码,但指定财务任务。 - 建议:准备财务特定数据,如财务报表、交易数据等。 - 结束时:添加相关问题。 相关问题需要基于用户问题(微调财务专用模块)和我的回答(如何使用开源工具微调)。提出3-5个相关问题。 例如: 1. DeepSeek模型微调财务任务需要哪些特定数据? 2. 如何优化DeepSeek模型在财务预测中的性能? 3. DeepSeek官方是否有计划发布财务专用模块? 4. 微调财务模型时常见的挑战有哪些? 5. 与其他模型相比,DeepSeek在财务领域的优势是什么? 确保代码示例相关:提供一个简单的微调代码,假设是因果语言模型用于文本生成或分类。 代码示例: ```python from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments # 加载DeepSeek模型 model_name = "deepseek-ai/deepseek-llm-7b" # 假设使用7B版本 tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) # 定义训练参数 training_args = TrainingArguments( output_dir="./finance_results", per_device_train_batch_size=4, num_train_epochs=3, learning_rate=5e-5, logging_dir="./logs" ) # 加载财务数据集(假设自定义) # 例如:train_dataset = load_finance_dataset() # 需要自定义实现 # dataset应包含财务文本,如报告、新闻等 trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, # 替换为实际数据集 tokenizer=tokenizer ) trainer.train() ``` 最后,结束部分: §§相关问题§§ 1. ... 2. ... 3. ... 制定相关问题: 1. DeepSeek模型有哪些版本适合财务分析任务? 2. 如何准备高质量的财务数据集用于微调? 3. 微调DeepSeek模型进行财务预测的最佳实践是什么? 4. DeepSeek官方是否支持财务领域的定制开发? 5. 在微调过程中如何处理财务数据的隐私问题? 确保输出符合格式。 </think>目前,DeepSeek大模型(如DeepSeek-LLM系列)没有官方提供的“财务专用模块”,即没有预构建的独立工具或SDK专门针对财务领域(如财报分析、风险评估或交易预测)进行一键微调。然而,您可以使用开源框架(如Hugging Face Transformers)来自定义微调模型以适应财务任务。方法包括: - **数据准备**:收集财务特定数据集(如年报文本、市场新闻或交易记录),并进行清洗、标注和分词处理。 - **微调策略**:选择适合的模型版本(如`deepseek-ai/deepseek-llm-7b`),调整训练参数以优化财务任务(如分类、回归或生成)。 - **工具使用**:通过Python代码实现,利用Transformers库加载模型、定义数据集和训练流程。 以下是使用Hugging Face微调DeepSeek模型用于财务文本分类的简化代码示例(假设任务为财务新闻情感分析): ```python from transformers import AutoModelForSequenceClassification, AutoTokenizer, Trainer, TrainingArguments import datasets # 加载DeepSeek模型和分词器 model_name = "deepseek-ai/deepseek-llm-7b" # 根据需求选择版本 tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3) # 例如:3类情感(正面/中性/负面) # 模拟财务数据集(实际使用需替换为真实数据,如从CSV加载) train_data = [ {"text": "公司季度利润增长20%,股价上涨", "label": 0}, # 正面 {"text": "市场波动导致投资损失", "label": 2}, # 负面 # 添加更多样本... ] train_dataset = datasets.Dataset.from_dict({"text": [d["text"] for d in train_data], "label": [d["label"] for d in train_data]}) # 分词处理 def tokenize_function(examples): return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=512) tokenized_train = train_dataset.map(tokenize_function, batched=True) # 训练参数设置(针对财务任务优化) training_args = TrainingArguments( output_dir="./finance_finetune", per_device_train_batch_size=8, # 根据GPU调整 num_train_epochs=5, # 财务数据可能需要更多轮次 learning_rate=2e-5, evaluation_strategy="epoch", # 添加验证集以监控性能 save_strategy="epoch" ) # 创建Trainer并开始微调 trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_train, tokenizer=tokenizer ) trainer.train() ``` **关键建议**: - **数据集**:使用财务领域数据(如SEC filings或金融新闻API),确保数据质量和平衡性。 - **资源**:需要高性能GPU(如NVIDIA A100)支持训练。 - **优化**:参考Hugging Face文档调整超参数,或结合LoRA等高效微调技术。 - **更新**:关注DeepSeek官方渠道(如GitHub),未来可能发布领域专用工具。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值