- 博客(3)
- 收藏
- 关注
原创 画中画论文调研(万字长文)
为了将MLLM的生成式输出转换为可用于线上服务的概率分数,论文采用了Softmax函数对目标令牌(如“Y”和“N”)的logits值进行归一化,得到两个类别的概率。其核心思想是利用模型自身的内部状态(注意力、梯度)来定位感兴趣区域,然后对该区域进行裁剪放大,并将放大后的图像令牌与原图令牌一同输入模型,从而在不丢失全局上下文的前提下增强对细节的感知。:类似于Grad-CAM的思想,通过计算模型决策相对于输入图像像素的梯度,梯度值大的地方意味着该像素的微小变化会对决策产生巨大影响,因此这些像素是关键的。
2025-11-07 11:05:06
522
原创 本地部署Qwen2/2.5-VL和书生InternVL-2/3进行批量OCR
阿里推出的Qwen2.5系列仍然是目前最火的BASE模型,相比于Qwen2系列,2.5只是使用了体量更大、质量更高的数据集继续训练得到的 Qwen2.5 系列模型。Qwen系列包括了5个尺寸的预训练和指令微调的模型,当时在开源的模型里一经推出就达到SOTA的水平。其中全系都使用了GQA(Group-Query Attention)技术,小模型使用了Tie Embedding(共享向量)技术。上下文长度都是基于32K的数据预训练然后拓展的,可以看到最长可以支持到128K。
2025-06-04 16:51:48
1744
原创 OCR开源API——MinerU批量调用下载方法
MinerU是上海AILab推出的高效PDF处理工具,可将PDF(包括加密和模糊文件)转换为markdown格式,便于后续处理或喂给AI模型。支持多语言解析,能提取文字、表格、公式和图片等内容,并通过LayoutLMv3、YOLOv8等模型实现精准识别。其API每天允许2000页优先解析,单文件不超过200MB。开发者还提供了批量处理代码,解决大规模PDF转换需求。转换结果以压缩包形式返回,包含完整的markdown文件。官网:https://mineru.net/,GitHub:https://githu
2025-05-28 16:16:02
2180
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅