Macropodus-优快云博客

原创 ChatTutor调研(AI老师边讲边画)——原理剖析

ChatTutor：可视化AI教学工具原理剖析 ChatTutor是由HugeCatLab开发的多模态AI教学系统，通过结合语言模型和可视化引擎实现"边讲边画"的教学效果。该系统采用双智能体架构：STEM-Agent（基于GPT-4）负责知识讲解和指令生成，Painter-Agent（基于Claude）专精数学可视化。核心技术包括： DSL转换流程：LLM生成结构化绘图指令→转换为Drawio XML→前端实时渲染动态交互：支持学生修改参数触发模型重新生成内容教学工具数字化：模拟黑板

2025-12-18 12:24:37 991

原创 macbert4mdcspell_v2训练微调总结

本文总结了macbert4mdcspell_v2模型的训练微调过程。在v1版本基础上，通过优化训练数据（新增60万无修改数据和中小学课本数据）和改进训练策略（7个epoch训练，最后不mask），使用1000万混合数据集进行训练。测评采用公开数据集，结果显示v2版本在多个指标上优于v1和其他对比模型（如macbert4csc-base-chinese和chinese-text-correction-1.5b），平均F1值显著提升，同时降低了过度纠错率。训练参数包括batch_size=32、learning

2025-12-18 12:23:22 657

原创 GPT Image 1.5

摘要：GPT Image 1.5是OpenAI推出的新一代图像生成与编辑模型，在速度、编辑能力和成本方面均有优化。其优势包括编辑精准度高、生成速度快（提升4倍）、成本降低20%，支持多种创意操作，但存在非英语文本处理差、特定场景表现不足等缺点。与Google Gemini Nano Banana Pro相比，在文本处理、画质和逻辑推理方面有明显差距。用户测试显示其能生成角色形象和传统服饰图像，但体验一般。该模型适用于普通用户和专业开发者，已在多个行业应用。

2025-12-18 08:27:59 829

原创 Nano Banana Pro & 2 体验

Nano Banana2 Pro是基于Gemini 3 Pro Image模型开发的AI图像生成工具，具有角色一致性保持、高分辨率输出（支持2K/4K）、自然语言编辑和多图融合等核心功能。相比Midjourney等竞品，它在生成速度（5-10秒）、角色连贯性、文本渲染和逻辑推理能力方面表现突出，且性价比更高（起价4.99美元/月）。不过仍存在细节瑕疵、复杂编辑挑战和水印限制等缺点。整体而言，这款工具特别适合需要快速生成专业级图像的内容创作者。

2025-12-18 08:27:11 795

原创 GPT-5的多模态能力如何？

GPT-5多模态能力测试显示其仍存在局限。通过三类典型问题(非整点闹钟识别、小学数学数数问题、带干扰的数数问题)的验证发现，GPT-5与之前多模态模型一样无法准确解决这些问题。特别是面对指针错位、格子数错误等复杂视觉信息时，以及需要精确计数和排除干扰的项目时表现欠佳。测试结果表明，GPT-5的多模态能力虽然有所提升，但在处理某些特定类型的视觉推理任务上仍存在明显不足。

2025-08-08 09:12:23 3079

原创 python3写一个异步流式 http 接口服务调用大模型(async, stream, sanic)---6.2

本文介绍了如何使用Python3的Sanic框架构建异步流式HTTP接口服务来调用大模型。主要内容包括：1) Sanic框架简介，它是一个支持async/await的高性能Python Web框架；2) 实现异步流式接口的代码示例，通过HTTPMethodView创建支持POST/GET请求的流式接口；3) 演示了如何通过yield实现数据流式返回，使用response.ResponseStream构建流式响应；4) 提供了接口测试方法和参数示例。该方案特别适合处理I/O密集型操作，尤其是调用大模型等长时间

2025-07-23 17:17:27 591

原创 python3写一个异步http接口服务调用大模型(async, sanic)---6.1

本文介绍了如何使用Python3和Sanic框架构建异步HTTP接口服务，特别适合调用耗时较长的大模型场景。Sanic是基于async/await语法的异步Web框架，安装简单。文章提供了完整的代码实现，包括异步处理函数add_ab和AddView视图类，支持POST/GET请求。服务启动后可通过http://127.0.0.1:8032/v1/add访问，传入参数a和b，返回两者之和c。示例还展示了如何配置超时时间和处理异常，适合处理I/O密集型操作。

2025-07-23 17:16:05 559

原创 python3使用openai调用Doubao-Seed-1.6的非思考/自动/思考模式(thinking)的代码

本文介绍了如何使用Python3通过OpenAI API调用Doubao-Seed-1.6模型，并控制其思考模式（thinking参数）。摘要要点：通过设置extra_body参数中的"thinking"类型为"disabled"、"enabled"或"auto"来控制模型的思考模式提供三种调用示例：纯文本问答处理远程图片处理本地图片（需要Pillow库）需要openai>=1.50.2和Pillow两个依赖包

2025-06-17 17:02:39 2039

原创 macro-correct，中文拼写纠错/标点符号纠错(CSC, Chinese Spelling Correct / Check, Punct Correct)工具包

macro-correct,文本纠错工具包(TextCorrect),支持中文拼写纠错/标点符号纠错(CSC,ChineseSpellingCorrect/Check),CSC支持各领域数据(包括古文),模型在大规模、各领域的、现代/当代语料上训练而得,泛化性强.macro-correct是一个只依赖pytorch、transformers、numpy、opencc的文本纠错(CSC,中文拼写纠错;Punct,中文标点纠错)工具包，专注于中文文本纠错的极简自然语言处理工具包。

2025-01-18 10:05:08 4456 2

原创中文拼写纠错(CSC, Chinese Spelling Correct)一：综述、概述、简介、时间线

CSC, 中文经典拼写纠错模型汇总(综述/概述)，分类：引入拼音字形信息，检测错误和纠错一体化融合，prompt对齐预训练，训练+微调方式的调整，前处理+后处理，基于大模型。ReLM, C-LLM, MacBERT4CSC, MaskCorrect, BERT-MFT, ECOPO, SoftMask-BERT, Bi-DCSpell, ChineseBERT, SpellBERT, SCOPE, DCN,FASPell, Hybrid(Wang271k), CSCD-IME(+NS), MCSCSet

2024-12-30 16:01:09 4920

原创 near-synonym反义词生成(2)：Prompt +Bert-MLM(FT)

near-synonym, 中文反义词/近义词/同义词(antonym/synonym)工具包.方法一为(neg_antonym): Word2vec -> ANN -> NLI -> Length方法二为(mlm_antonym): Prompt + Bert-MLM(FT) + Beam-Search。

2024-12-26 09:03:50 4009

原创 LLaMA3（Meta）微调SFT实战Meta-Llama-3-8B-Instruct

LlaMA3-SFT, Meta-Llama-3-8B/Meta-Llama-3-8B-Instruct微调(transformers)/LORA(peft)/推理。

2024-04-29 10:02:07 7008

原创 Qwen2（Qwen1.5阿里）微调实战qwen1.5-7b

Qwen1.5-SFT(阿里, Ali), Qwen_Qwen1.5-2B-Chat/Qwen_Qwen1.5-7B-Chat微调(transformers)/LORA(peft)/推理。

2024-04-02 18:46:58 6777

原创 near-synonym, 中文反义词/近义词(antonym/synonym)工具包

near-synonym, 中文反义词/近义词(antonym/synonym)工具包.

2024-03-15 19:57:21 4881

原创 Gemma谷歌(google)开源大模型微调实战(fintune gemma-2b/7b)

Gemma-SFT(谷歌, Google), gemma-2b/gemma-7b微调(transformers)/LORA(peft)/推理。

2024-02-26 15:58:08 7982 7

原创国内外各ChatGPT类语言大模型API价格汇总, 对比，ChatGPT/Gmini/PaLM/Clude/Ernie/ChatGLM/千问/混元/星火/Minimax/百川

2023年，国内外的IT公司大都发布了自己的类ChatGPT语言大模型，有种“百模大战”的味道。至2024.01.01, 收录的有, ChatGPT/Gmini/PaLM/Clude/Ernie/ChatGLM/Qwen/Hunyuan/星火/Minimax/Baichuan

2024-02-23 19:03:02 9991 2

原创汉字字形/拼音/语义相似度(单字, 可用于数据增强, 特别是文本纠错csc)

汉字字形/拼音/语义相似度(单字, 可用于数据增强, CSC错别字检测识别任务(构建混淆集))

2024-02-21 09:46:25 4119

原创 pytorch-textregression，中文文本回归实践，支持多值输出

pytorch-textregression是一个以pytorch和transformers为基础，专注于中文文本回归的轻量级自然语言处理工具，支持多值回归等。

2024-02-20 16:31:46 4067

原创 pytorch-textsummary，中文文本摘要实践

pytorch-textsummary是一个以pytorch和transformers为基础，专注于中文文本摘要的轻量级自然语言处理工具，支持抽取式摘要等。

2024-02-20 16:24:26 5145 1

原创从零开始训练一个ChatGPT大模型（低资源，1B3）

大模型全量预训练(1b3), 多卡deepspeed/单卡adafactor。

2023-12-05 09:27:11 4613

原创 chatglm3-6b微调实战

chatglm3-6b, chatglm-3b微调/LORA/推理/单机多卡/deepspeed/支持多轮对话。

2023-12-04 10:47:20 5102

原创 Qwen-7B微调实例

阿里通义千问(Qwen-7B-Chat/Qwen-7B), 微调/LORA/推理。

2023-08-23 11:28:25 7820 2

原创 LlaMA2微调实战

LLaMA2-SFT, Llama-2-7B微调(transformers)/LORA(peft)/推理。

2023-07-28 10:38:54 4735

原创 chatglm2-6b微调实战

chatglm2-6b, chatglm-6b微调/LORA/推理。

2023-07-03 08:45:08 5318 1

原创 LLM-SFT，新微调数据集-MWP-Instruct(多步计算 + 一、二元方程)，微调Bloom, ChatGLM, LlaMA(支持QLoRA, TensorBoardX)

中文大模型微调(LLM-SFT), 支持模型(ChatGLM, LlaMA, Bloom), 支持(LoRA, QLoRA, DeepSpeed, UI, TensorboardX), 支持(微调, 推理, 测评, 接口)等.

2023-06-12 23:00:54 4576 1

原创 python3写一个http接口服务(get, post)，给别人调用6-sanic

近年来异步web服务器比较火热，例如falcon/bottle/sanic/aiohttp，今天也来玩玩sanic。Sanic是一个支持Python 3.7+的web服务器和web框架，速度很快。它允许使用Python 3.5中添加的async/await语法，无阻塞且快。Sanic也符合ASGI，目标是提供一种简单的方法来建立和运行一个高性能的HTTP服务器，该服务器易于构建、扩展。

2023-06-09 10:29:11 6474

原创大模型 LLM 综述, A Survey of Large Language Models

一般认为NLP领域的大模型>=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力);经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等;大模型时间线, 图来自，下同。

2023-06-08 10:29:53 6355

原创不乱码、下载 Transformers 模型 (抱抱脸、model)

目的: 因为需要对预训练模型等做一些查看、转移操作，不想要乱码，不想频繁下载模型等;

2023-04-13 17:11:46 5172

原创国产开源类ChatGPT模型，ChatGLM-6b初步微调实验

chatglm-6b微调/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu。

2023-03-22 11:07:14 9156 6

原创 python3写一个http接口服务(url, get, post)，接口限流、拒绝访问

接口限流(rate-limit)，笔者最近工作中，遇到提供给客户的算法微服务，遇到大量请求挂掉了，除了扩容负载均衡外，也采取了限流的方式。一般来说，常见的接口限流，我们可以采用。

2023-02-28 18:54:50 2670

原创国产开源ChatGPT模型对比

# 国产开源ChatGPT模型对比(大雾)## 概述为什么要做国产开源ChatGPT模型对比呢(大雾)，答案显而易见嘛。最近尤其是这阵子ChatGPT爆火, 2月3日在ChatGPT推出仅两个月后，它在2023年1月末的月活用户已经突破了1亿，成为史上用户增长速度最快的消费级应用程序。而要达到这个用户量，TikTok用了9个月，Instagram则花了2年半的时间。作为一款聊天机器人，凭借大规模预训练模型GPT3.5(~100B参数)、指令微调尤其是人类反馈强化学习微调(RLHF,OpenAI在强化

2023-02-09 23:50:20 10430

原创 pytorch模型(.pt文件)转tensorflow(.pb文件)

需求: pytorch1.x的模型(.pt文件)转tensorflow1.x/2.x的模型(.pb文件—savedmodel格式);目的: pytorch进行实验等, tf-serving部署最后的模型;

2022-12-14 18:00:53 2447

原创文档理解-layoutxlm-layoutlmv3

# 文档理解-layoutxlm-layoutlmv3-实验## 一、总结-summary - layoutxlm/layoutlmv3模型比较敏感, 不怎么稳定, 尤其是对lr很敏感, 2e-5至5e-5;

2022-10-26 08:56:38 2789

原创多模态概述

多模态学习可以聚合多源数据的信息，使得模型学习到的表示更加完备。潜表示空间的质量决定了多模态模型的效果，数据量达到一定规模，模态种类越完整，多模态模型的效果越好。

2022-08-03 10:14:39 5893

原创由国内知名企业开源人工智能项目想到的

6、反倒是一些初创企业开源意愿较强，也是宣传和证明自己技术实力的一种方式吧，例如CV领域的AI四小龙中的商汤、旷视，又比如NLP领域的追一科技和香侬科技。4、不过与大众印象中阿里国内最强的开源互联网企业不同，阿里在AI领域的开源并不活跃，在CV、NLP似乎也见不到阿里的经典项目和论文。3、相较于创业公司，大公司开源动力更强，不过与美国头部互联网公司相比，国内公司的实力确实是不强，有影响力的项目更是少之又少。1、国内开源尤其是AI开源确实不太活跃，相对于企业，更多的可能是大学和个人。.........

2022-08-02 16:52:56 877

原创计算机视觉CV-目标检测OB

目标检测，也称目标提取，是计算机视觉四大基础任务之一（分类、定位、检测、分割），是一种基于目标几何和统计特征的图像分割。目的是对图像上的预定目标进行分割和识别，通俗来说就是检测图像中有什么，以及在哪里，通常用矩形框圈定目标。传统机器学习时代，目标检测经典算法大都基于滑动窗口、人工特征提取等技术手段，代表算法有VJ检测器、HOG行人检测器和DPM检测器等；深度学习时代大放异彩的卷积神经网络也被引入目标检测任务并大放异彩，实现了真正意义上的工业级使用。...

2022-07-27 10:32:52 1778

原创计算机视觉CV-骨干网络Backbone

2012-2022是深度学习集中爆发的10年,在这10年间,涌现出许许多多的新技术新理论，尤其是在骨干网络上。ConvNet-1989接近现代卷积神经网络CNN了，它具有两个特征（专利），一个是跨步卷积（strided-convolution），另一个是独立池化层（Pool）。基于该网络架构的系统被用于用于手写邮政编码识别。LenNet-5是一个简单的浅层卷积神经网络，激活函数为sigmoid，其输入INPUT为3232像素的单通道图像；第一个block的卷积层C1为6个53最大池化(步长2),...

2022-07-27 10:29:07 3755

chinese_word_segment_data.rar

( Redis-x64-3.2.100.msi

空空如也