
nlp orc
文章平均质量分 75
nlp和ocr相关算法知识,实战分享
AI算法网奇
本人是一名资深算法工程师,优快云博客专家。多年一线算法研发经验 主要研究方向为三维重建、多模态模型。希望把我的经验和知识带给每一个喜欢钻研朋友,为中国人工智能行业添砖加瓦!
展开
-
语音播报 tts espeak
tts espeak语音原创 2024-05-29 19:47:32 · 1020 阅读 · 0 评论 -
命名实体识别 分词
命名实体识别 分词原创 2024-05-08 11:31:50 · 194 阅读 · 0 评论 -
知识库 搭建学习笔记
知识库 搭建学习笔记原创 2024-05-30 15:46:36 · 1679 阅读 · 0 评论 -
paddleocr Android推理
目录官方Android推理示例导出Android nb文件:官方Android推理示例模型路径:src/main/assets/models/ocr_v2_for_cpu模型:src/main/assets/models/ocr_v2_for_cpu/ch_ppocr_mobile_v2.0_det_opt.nb导出Android nb文件:1,打开cmd 输入 pip install paddlelite 回车,安装paddlelite工具;2,运行 mai.原创 2022-05-04 00:58:36 · 3273 阅读 · 2 评论 -
paddlecor可视化标注,数据预处理
import osimport cv2dir_path=r'E:\project\icdar_c4_train_tmp/'labelpath=dir_path+'/Label.txt'labeldict = {}with open(labelpath, 'r', encoding='utf-8') as f: data = f.readlines() for each in data: file, label = each.split('\t') ...原创 2022-05-02 00:15:37 · 4273 阅读 · 0 评论 -
paddleocr np.array(padding.Execute(distance)[0]) IndexError: list index out of range
报错: File "I:\project\jushi\shuini\PaddleOCR-release-2.4\ppocr\data\imaug\make_border_map.py", line 61, in __call__ self.draw_border_map(text_polys[i], canvas, mask=mask) File "I:\project\jushi\shuini\PaddleOCR-release-2.4\ppocr\data\imaug\mak..原创 2022-01-30 16:06:14 · 3421 阅读 · 0 评论 -
paddleoc onnx转换推理
感谢博客:PaddleOCR转ONNX模型(推理部分)_favorxin的博客-优快云博客_paddleocr转onnxpython onnx识别部分推理示例:import mathimport cv2import onnxruntimeimport numpy as npsmall_rec_file="vc_rec_dynamic.onnx"onet_rec_session = onnxruntime.InferenceSession(small_rec_file)..原创 2022-01-27 00:29:53 · 3547 阅读 · 0 评论 -
paddleocr win10 编译
报错点:if (WIN32 AND WITH_MKL) add_custom_command(TARGET ${DEMO_NAME} POST_BUILD COMMAND ${CMAKE_COMMAND} -E copy_if_different ${PADDLE_LIB}/third_party/install/mklml/lib/mklml.dll ./mklml.dll COMMAND ${CMAKE_COMMAND} -E copy_if_differ...原创 2022-01-25 01:27:19 · 2477 阅读 · 0 评论 -
paddleocr 训练自己的数据,详细笔记
需要制作数据集SimpleDataSet制作数据集:import globimport os.pathdir_path=r'F:\project\ocr\plate_double2'save_file = dir_path+"/train_label.txt"files=glob.glob(dir_path+"/train/*.jpg")datas=[]for file in files: datas.append(file+f"\t{os....原创 2022-01-24 01:02:19 · 2499 阅读 · 0 评论 -
python 词频统计,分词笔记
Python的中文分词库有很多,常见的有:jieba(结巴分词) THULAC(清华大学自然语言处理与社会人文计算实验室) pkuseg(北京大学语言计算与机器学习研究组) SnowNLP pynlpir CoreNLP pyltp参考:https://www.jianshu.com/p/7ad0cd33005enltk词频统计本文使用的包为nltk包,使用pip语句就可以安装,安装后使用 nltk.download()下载扩展部分首先,我们配置需要使用的包和文本材料..原创 2021-07-07 17:50:58 · 3275 阅读 · 0 评论 -
EAST笔记
论文题目:EAST: An Efficient and Accurate Scene Text Detector论文地址:https://arxiv.org/pdf/1704.03155.pdf代码复现:https://github.com/argman/EAST传统的文本检测方法和一些基于深度学习的文本检测方法,大多是multi-stage,在训练时需要对多个stage调优,这势必会影响最终的模...原创 2020-05-04 12:43:26 · 26227 阅读 · 5 评论 -
Trie树详解及其应用
Trie树详解及其应用原创 2017-10-21 10:34:42 · 2594 阅读 · 0 评论 -
文本处理相关资料整理
文本处理相关资料整理原创 2017-10-19 23:16:22 · 2659 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用
TF-IDF与余弦相似性的应用转载 2017-10-19 23:13:58 · 2518 阅读 · 0 评论 -
tesseract 识别中文字符
tesseract 识别中文字符转载 2017-07-24 21:54:20 · 9467 阅读 · 0 评论