- 博客(49)
- 资源 (1)
- 收藏
- 关注
原创 conda迁移虚拟环境路径
3.查看是否成功conda env list。方法二:修改~/.condarc文件。1.打开~/.condarc文件。
2024-10-29 22:11:33
742
原创 调研funasr时间戳返回时间坐标效果可用性
②评估一个在大概在0.15左右,偏差在0.02没有太大影响,设定偏差阈值在30%以内可用(可以根据实际情况进行修改)4.根据HResults统计出识别效果,根据识别效果中的正确字以及替换字作为标注和识别字进行时间戳对比。# 背景 : 分析funasr识别结果中每个中文字的时间戳偏差情况。偏差百分比=(AB的区间并集-AB的区间交际)/(A的帧长)然后再将识别结果和标注转为HResults统计格式,参考。偏差=(AB的区间并集-AB的区间交际)A=标注字的时间戳(帧长区间)B=识别字的时间戳(帧长区间)
2024-10-24 21:45:37
662
原创 使用difflib实现文件差异比较用html显示
2.方式1直接调用difflib.HtmlDiff()存在一个问题,在复杂场景下不能针对文本很好的比对(小伙伴们有好的方案可以推荐,当前输入字符串按列展示没有问题,但看着不舒服),因此使用diff_match_patch或者difflib.SequenceMatcher,进行修改,当前以diff_match_patch演示。
2024-06-07 20:52:36
1002
2
原创 离线部署funasr
例如,将 my_image:tag 保存为 my_image.tar。2.当前funasr-runtime-sdk-cpu-0.4.5在centos上运行不起来,在ubuntu系统上按照原始文档说明安装成功。5.在无网络环境中的目标机器上,使用 docker load 命令加载之前保存的 tar 归档文件并导入镜像。3.将ubuntu系统上docker镜像打包以及模型copy迁移到离线的centos机器上。4.将 tar 归档文件传输到无网络环境中的目标机器。1.在已有的可以运行的docker打包。
2024-05-23 10:36:23
2703
原创 python实现数字规整(转中文)
1.思路根据正则匹配数字类型比如手机号、年月日等进行相对的数字规整。话不多说直接上代码,有新的类型可以按照当前方案进行新增。
2024-02-29 23:41:06
270
原创 centos环境处理音频格式
音频格式转化命令:ffmpeg -i 1024.m4a 1024.wav。比如手机录音.m4a格式需要使用ffmpeg转换。# SoX 安装和ffmpeg安装。ps:语音识别引擎安装可参考。ffmpeg安装参考。
2023-11-24 22:25:19
1005
原创 FunASR离线文件转写服务开发指南
通过下述命令拉取并启动FunASR runtime-SDK的docker镜像:(等待安装完成)使用python(版本3.7以上,注意安装缺少的环境)运行。下载客户端测试工具目录samples。
2023-08-22 23:11:40
1908
3
原创 Hadoop常用命令
hdfs dfs -copyFromLocal /local/data/file.txt /hadoop/data :将本地文件上传到hdfs上(原路径只能是一个文件)hadoop dfs -put /local/*.txt /hadoop/path/ :put和 copyFromLocal 区别是,put 原路径可以是文件夹等。hadoop dfs -put -f /local/*.txt /hadoop/path/ :-f 含义是表示强制覆益。
2023-06-14 00:02:13
3325
原创 python排序大全
print(names) #[('李四', 18), ('王五', 20), ('张三', 23), ('刘六', 25)]print(files) #{'李四': 18, '王五': 20, '张三': 23, '刘六': 25}names=[('刘六', 25), ('张三', 23), ('王五', 20), ('李四', 18)]names = {'张三':23,'李四':18,'王五':20,'刘六':25}# sort() 函数对列表元素进行排序,(此方法只能适用于列表),针对列表排序。
2023-01-03 13:52:49
464
原创 OCR效果统计公式
①要素抽取准确率:pression=corrH/extractN。②要素抽取召回率:recall=corrH/labN。②字的精确率acc:acc=(H-I)/N。corrH:表示完全识别正确的要素数量;extractN:表示引擎抽取要素总数;labN:表示标注的要素总数;
2022-10-10 19:30:44
1132
原创 python根据字相似度进行替换
一:常用场景,OCR识别金额大写错误时,金额大写内容可以固定,根据ocr识别的结果进行相似度比对进行替换比如:核酸检测经过ocr识别成核酪椅测,此时计算每个字的相似度。# coding:utf-8# cython: language_level=3import numpy as npdef edit_distance(string_a, string_b, name='Levenshtein'): size_x = len(string_a) + 1 size_y = le
2022-05-24 00:03:55
619
1
原创 python基础一
1.python语句2.数据类型数字型整型 (int)浮点型(float)布尔型(bool)真 True假 False复数型 (complex)主要用于科学计算,例如:平面场问题、波动问题、电感电容等问题非数字型字符串列表元组字典无序集合3.函数4.文件操作1. 读取关闭文件1.读取关闭文件 # 新建一个文件,文件名为:123.txt f = open('123.txt', 'w') # 关闭这个文件 f.close()2.自动关闭文件w
2022-05-23 23:23:06
408
原创 正则表达式
python中re正则表达的用法1.match 主要用于校验数据的格式2.search 查询、获取数据(只要匹配到就停止)3.findall 也是查询、获取数据返回的是列表,跟前两个不一样,不用加group()4.sub 替换数据............
2022-05-22 23:01:24
527
原创 centos常用命令
一:查看内存使用情况:free -mh查看磁盘以及分区情况df -h 显示存储空间大小df -ah 人性化显示各存储空间大小df -aT 显示所有存储系统空间使用情况,同时显示存储系统的文件系统类型df -ahlT 查看本地文件,不显示网络磁盘du -sh 显示当前文件夹的空间使用情况du -h --max-depth=1 /home 查看home文件夹的空间使用情况du -ch 看当前文件及文件中包含的子文件夹大小du -h test1.txt 查看某个文件容量大小du -h test
2022-05-21 23:28:54
3450
3
原创 python解析xml
一:通用的方法# -*- coding: UTF-8 -*-# 从文件中读取数据import osimport xml.etree.ElementTree as ETimport xml.dom.minidom as minidomdom = minidom.getDOMImplementation().createDocument(None,'root',None)root1 = dom.documentElementroot1.setAttribute('zoom', "1.0")
2022-05-21 22:05:22
343
原创 easyocr识别健康码内容
一:easyocr识别不旋转的图片的文字效果还可以import jsonimport osimport easyocrimport numpy as npimport cv2#初始化加载模型, 创建reader对象reader = easyocr.Reader(['ch_sim', 'en'])## 图片旋转def rotate_bound(image, angle): # 获取宽高 (h, w) = image.shape[:2] (cX, cY) = (
2022-05-15 16:41:30
1096
原创 python保留2位小数
一:使用占位符方法:# 1:%g 科学计数法输出小数,用于舍弃无效的小数print("%g"%(1.2000004))print("%.2g"%(1.2000004))# 2:直接使用%f 输出小数,会出现无效的0;使用%.2f 表示保留两位小数print("%f"%(1.4))print("%.2f"%(1.4))print("%f"%(1.2000004))print("%.2f"%(1.2000004))# 3.%d保留整数print("%d"%(1.2000004))pri
2022-05-12 00:38:44
42400
原创 文本相似度计算
一:相似度计算的两种方式import difflibdef string_similar(s1, s2): return difflib.SequenceMatcher(None, s1, s2).quick_ratio()# for i in range(len(data4_message)):# s1 = data4_message[i]# s2 = data4_answer[i]# print(string_similar(s1, s2))de.
2022-05-11 23:59:54
234
原创 Mac创建虚拟环境python3
1、安装virtualenvsudo pip3 install virtualenv2、安装 virtualenvwrapper, Virtaulenvwrapper是virtualenv的扩展包,可以更方便地新增,删除,复制,切换虚拟环境。sudo pip3 install virtualenvwrapper3、创建所以.virtualenvs的隐藏文件夹存放所有虚拟环境(可以直接放在根目录创建)mkdir ~/.virtualenvs4、切换到.virtualenvs目录查看python3.
2022-04-22 22:16:15
910
2
原创 mac安装Homebrew
1.目前官网给出地址在国外下载不下来,此时使用国内镜像下载/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"2.下载过程操作home:$ /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 开始执行Brew自动安装程序
2022-04-22 22:12:37
517
1
原创 windows中U盘出问题,传文件显示:错误0x80071AC3:
windows中U盘出问题,传文件显示:错误0x80071AC3:无法完成操作,因为卷有问题请运行chkdsk并重试,解决方案:打开 cmd 输入:chkdsk G:/f 就好了G表示你的U盘
2022-04-22 21:50:14
4095
原创 pip 导出安装库,批量安装库以及镜像源安装
1.导出安装库以及版本pip freeze > requirements.txt2.批量安装pip install -r ./requirements.txt3.windows上安装pip镜像源在用户目录下C:\Users\Administrator 创建pip文件夹,在pip文件夹下创建pip.ini文件pip.ini文件内容写入如下:[global]index-url = http://mirrors.aliyun.com/pypi/simple/[inst
2022-04-19 17:53:42
1682
原创 python合并两个字典
一:方案一:name = {'name': 'Gage'}age = {'age': 25}name.update(age)print(name)其中更新之后的name就是合并的新字典二:方案二name = {'name': 'Gage'}age = {'age': 25}#将字典转化成列表相加,在转成字典merge=dict(list(name.items())+list(age.items()))merge就是合并的新字典...
2022-04-18 17:32:49
8718
原创 DFA算法进行敏感词过滤
1.新建敏感词文本new_adress.txt,进行添加敏感词2.代码# -*- coding:utf-8 -*-import timetime1 = time.time()"""DFA算法:它的基本思想是基于状态转移来检索敏感词,只需要扫描一次待检测文本,就能对所有敏感词进行检测"""# DFA算法class DFAFilter(object): def __init__(self): self.keyword_chains = {} # 关..
2022-04-17 23:31:33
505
原创 opencv读取、保存图片的两种方式
opencv读取带中文名称的图片或者中文路径下的图片不能使用CV2.imread(path)import cv2import numpy as npimg_path="1.jpg"# 读取图片img = cv2.imread(img_path)# 读取中文路径图片img1 = cv2.imdecode(np.fromfile(img_path, dtype=np.uint8), -1)# 保存生成的图片#cv2.imwrite("文件名称", img)cv2.imwrite("2
2022-04-17 23:23:59
4969
原创 python-opencv minAreaRect 生成最小外接矩形
建议安装opencv-python==3.4.2.17版本,方法使用python opencv返回点集cnt的最小外接矩形,所用函数为 cv2.minAreaRect(cnt) ,cnt是点集数组或向量(里面存放的是点的坐标),并且这个点集中的元素不定个数。同时还可以计算偏转角度一、cv2.minAreaRect函数原型cv2.minAreaRect(Points)其中points是点集,数据类型为ndarray,array((x1,y1),(x2,y2),....,(xn,yn)).
2022-04-17 23:12:22
2578
原创 opencv无损旋转图片
#旋转不改变图片原大小(周围补充黑色)def rotate_bound(image, angle): # grab the dimensions of the image and then determine the # center 获取图像的尺寸,然后确定中心 (h, w) = image.shape[:2] (cX, cY) = (w // 2, h // 2) # grab the rotation matrix (applying the negat.
2022-04-17 23:02:15
3491
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人