自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

上一步保存

m0_71062934的博客

杰说新技术

博客等级

码龄3年

53
原创

771
点赞

500
收藏

619
粉丝

关注

私信

分类专栏

多模态 15篇
AIGC 46篇
文生图 8篇
文生视频 6篇
英语模型 5篇
3D生成 1篇
ocr 1篇
数字人 4篇
虚拟换衣 1篇
定制化形象 1篇

最新评论

MuseTalk的最新唇形同步模型落地实践经验总结（不看后悔）
Yesday ? 、温华良故: 这个怎么实时的啊？我执行这个脚本也没看到有实时啊‘’
最新口型同步技术EchoMimic部署
edccc__: pip一直下载报错怎么办
超详细的CogVLM2模型最新微调落地经验
qq_42914012: 博主，只有这些步骤吗？ apt install mpich mpich-doc mpich-committers-dev这一步我显示定位不到软件包还有peft_lora.py中的参数不用改吗？
多语言声音克隆，CosyVoice模型最强部署
baobaobao6: 这些老的库都被删了，安装新的库也不能运行啊
SenseVoice多语言语音理解模型之最新部署落地经验
栀尘ぅ: 这玩意是什么东西，看了半天不知道这玩意怎么用[code=plain] from model import SenseVoiceSmall import time import argparse class VoiceRecognitionModel: def __init__(self, model_dir="SenseVoiceSmall", device="cpu"): self.model_dir = model_dir self.device = device self.model, self.kwargs = SenseVoiceSmall.from_pretrained(model=self.model_dir, device=self.device) def infer(self, input_file, language="auto", use_itn=False): start_time = time.time() result = self.model.inference( data_in=input_file, language=language, use_itn=use_itn, **self.kwargs, ) elapsed_time_ms = (time.time() - start_time) * 1000 print(f"tts time: {elapsed_time_ms:.2f} ms") return result if name == "__main__": parser = argparse.ArgumentParser() parser.add_argument('--voice', type=str, default='voice/test1.wav', help='Path to the voice') args = parser.parse_args() model_dir="SenseVoiceSmall" device="cpu" recognizer = VoiceRecognitionModel(model_dir, device) result = recogni [/code]

ocr

关注

文章平均质量分 68

关注数：文章数：1 文章阅读量：1154 文章收藏量：14

作者: 杰说新技术

AIGC最新前言落地技术研讨

展开

支持多种数据来源的ocr识别，GOT-OCR2.0模型部署

GOT-OCR2.0模型是一种代表了光学字符识别（OCR）领域最新进展的高性能通用OCR解决方案。 GOT-OCR2.0模型在设计上追求极致的通用性和灵活性，旨在克服传统OCR系统中遇到的各种局限性，并为用户提供了前所未有的文本识别体验。 GOT-OCR2.0通过一个结构优化的vision encoder + input embedding layer + decoder架构实现了高效的数据处理，其中encoder部分采用带local attention的VITDet架构来有效管理显存使用。

原创 2024-10-25 06:00:00 · 1154 阅读 · 0 评论

ocr

作者: 杰说新技术

支持多种数据来源的ocr识别，GOT-OCR2.0模型部署