- 博客(124)
- 资源 (19)
- 收藏
- 关注
原创 PaddleOCROCR关键信息抽取训练过程
评估数据集可以通过 `configs/kie/vi_layoutxlm/ser_vi_layoutxlm_xfund_zh.yml` 修改Eval中的 `label_file_path` 设置。预测过程中,默认会加载PP-OCRv3的检测识别模型,用于OCR的信息抽取,如果希望加载预先获取的OCR结果,可以使用下面的方式进行预测,指定`Global.infer_img`为标注文件,其中包含图片路径以及OCR信息,同时指定`Global.infer_mode`为False,表示此时不使用OCR预测引擎。
2024-12-27 18:51:15
994
原创 Milvus 中,FieldSchema 的 dim 参数和索引参数中的 “nlist“ 的区别
在 Milvus 中,FieldSchema 的 dim 参数和索引参数中的 "nlist" 是两个完全不同的概念,它们分别用于不同的目的。不同的索引类型适用于不同的场景,选择合适的索引类型可以显著提高查询性能。查询性能:"nlist" 的值越大,索引的粒度越细,查询精度越高,但查询速度可能会变慢,因为需要搜索更多的簇。"nlist":定义索引的粒度,决定将向量空间划分为多少个簇,影响查询性能、索引构建时间和内存占用。内存占用:较大的 nlist 值会增加索引的内存占用,因为需要存储更多的倒排文件。
2024-12-24 15:45:35
949
转载 基于PaddleOCR实现语义实体识别 (Semantic Entity Recognition) 以及关系抽取 (Relation Extraction, RE)
评估数据集可以通过 `configs/kie/vi_layoutxlm/ser_vi_layoutxlm_xfund_zh.yml` 修改Eval中的 `label_file_path` 设置。预测过程中,默认会加载PP-OCRv3的检测识别模型,用于OCR的信息抽取,如果希望加载预先获取的OCR结果,可以使用下面的方式进行预测,指定`Global.infer_img`为标注文件,其中包含图片路径以及OCR信息,同时指定`Global.infer_mode`为False,表示此时不使用OCR预测引擎。
2024-12-23 15:42:00
278
转载 目标检测、语义分割和实例分割
通过实例分割,艺术家可以轻松地将图像中的物体分离出来,并进行创意性的编辑和合成,从而创作出更具创意和表现力的作品。例如,在人像分割中,实例分割可以帮助识别图像中的不同人物,并将它们从背景中分割出来,从而实现更精确的图像处理。目标检测是指识别图像中存在的物体,并确定它们的位置和类别。与目标检测不同,语义分割不仅需要识别图像中的物体,还需要对每个像素进行分类,从而实现对图像的精细理解。在一些实时场景下,例如自动驾驶和智能监控,目标检测和分割算法需要在极短的时间内完成处理,因此需要更高效的算法和硬件支持。
2024-12-16 10:35:51
106
原创 torch.optim.SGD参数
在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。当使用冲量时,则把每次x的更新量v考虑为本次的梯度下降量−dx∗lr与上次x的更新量v乘上一个介于[0,1][0,1]的因子momentum的和,即。中,每次x的更新量v为v=−dx∗lr,其中dx为目标函数func(x)对x的一阶导数,。
2024-12-10 10:08:42
421
转载 解读深度学习中Batch Size、Iterations和Epochs
训练网络之前有很多参数要设置,不了解各个参数的含义就没法合理地设置参数值,训练效果也会因此大受影响。本篇博客记录一下网络训练里的Batch Size、Iterations和Epochs怎么理解。
2024-12-09 10:59:45
93
原创 Centos升级gcc版本
将export LD_LIBRARY_PATH=/opt/software/mpc-0.8.1/lib/:$LD_LIBRARY_PATH 添加到环境变量~/.bashrc,执行source ~/.bashrc使环境变量生效。解决:在环境变量中添加export LIBRARY_PATH=/usr/lib/x86_64-linux-gnu/进入目录/*自己的目录*/gcc-11.4.0/,新建build文件夹,进入该文件夹,执行以下命令。cd /*自己的目录*/gcc-11.4.0/mpc-1.0.3。
2024-01-22 10:49:36
3525
转载 PyCharm解决Git冲突
使用Git工具进行异步开发的优点是非常显而易见的,在开发效率和版本管理上得到非常大的进步。当然异步开发过程中也难免会遇到一些开发冲突,比如两个人同时修改了同一个文件,那最终仓库上的版本肯定只能保留一个版本,因此在pull下来的过程中就会提示合并冲突。此时可以使用PyCharm中的专业合并冲突解决工具来进行处理,该工具首先可以在界面上列举出来所有包含冲突的文件,其次是支持diff的界面,并且可以直接在界面上进行代码修改。
2024-01-10 15:06:58
630
原创 4.Swin Transformer目标检测——训练数据集
报错问题:TypeError: FormatCode() got an unexpected keyword argument ‘verify’步骤4.修改文件configs/_base_/dataset/coco_instance.py。步骤3:修改文件configs/_base_/default_runtime.py。在项目跟目录,新建目录data/coco,将下载的资源直接放到文件夹中。步骤2:修改tools/tran.py文件。步骤1:准备待训练的coco数据集。添加上下载好的模型路径。
2023-11-09 14:55:23
566
转载 线性回归(Linear Regression)
过犹不及用在这里也适合,过度拟合也很脆弱的,因为可能新增加一个或几个数据就破坏了之前的完美,就好像专门为你定制的帽子戴在别人头上就没那么合适和美了,当然,拟合的不及也不好,这时候可能就要换模型或者调参了吧。刚好今天听大妈讲机器学习,各种复杂高大上的算法,其背后都是在求”拟合“。举个简化的例子:员工的工资 y 与 学历 x 的关系。假设学历越高,工资也越高,二者是某种程度上的线性关系,线性回归估计是最简单的拟合了。当只有一个 x1 的时候,就是最简单的线性回归。回归,指的是研究变量之间的关系,这个由来在。
2023-10-10 10:59:05
225
原创 PySpark 线性回归
Spark ML 是 Spark 提供的一个机器学习库,用于构建和训练机器学习模型。它提供了一系列常用的机器学习算法和工具,包括分类、回归、聚类、模型评估等。我们可以使用 PySpark 中的 Spark ML 来训练和评估我们的机器学习模型。本文介绍了如何使用 PySpark 提供实时预测的方法。通过使用 PySpark 的 Spark ML,我们可以训练和调优机器学习模型,并使用训练好的模型进行实时预测。希望本文能对读者理解和使用 PySpark 进行实时预测有所帮助。
2023-10-09 17:28:22
785
1
转载 粒子群算法
其中,v(t)和x(t)分别表示粒子的当前速度和位置,v(t+1)和x(t+1)表示更新后的速度和位置,pbest表示粒子的个体最优位置,gbest表示群体最优位置,w是惯性权重,c1和c2是加速因子,rand()表示一个在[0,1]范围内的随机数。1. 参数选择困难:PSO算法的性能受到参数的选择和设置影响较大,特别是惯性权重和加速因子的选择往往需要通过试错方式进行调整,增加了算法的实验难度。5. 更新粒子速度和位置:通过考虑个体历史最优位置和群体最优位置,更新粒子的速度和位置。
2023-10-09 15:09:04
1912
原创 python np 基础知识
5.np.random.rand() 该函数括号内的参数指定的是返回结果的形状,如果不指定,那么生成的是一个浮点型的数;如果是两个以上的数组,那么返回的维度就和指定的参数的数量个数一样。其返回结果中的每一个元素是服从0~1均匀分布的随机样本值,也就是返回的结果中的每一个元素值在0-1之间。1).low:采样区域的下界,float类型或者int类型或者数组类型或者迭代类型,默认值为0。3.random.random()用于生成一个0到1的随机符点数: 0 <= n < 1.0,每次生成的结果是不同的。
2023-10-08 14:29:54
307
原创 3.Cenots Swin-Transformer-Object-Detection环境配置
解压缩文件后,进入文件目录,执行命令python setup.py develop。再执行 pip install -r requirements.txt -i。1.下载Swin-Transformer-Object-Detection。python setup.py develop 成功后如下图。然后再执行:python setup.py develop。版本选择1.4.0,下载好后,执行安装。步骤3:安装mmcv-full安装。解决方式,安装cython。报错:gcc:error。
2023-09-27 18:20:05
295
原创 2.安装conda python库
由于在线安装总出错,建议先将包下载下来之后,再安装。由于torch,依赖numpy,所以要先安装numpy。使环境变量生效,source ~/.bashrc。安装torchvision依赖于pillow。一路执行回车,然后选择yes,最后安装完成。如果没有出现anacoda,则添加环境变量。添加anaconda的地址。再执行python命令测试。1.安装anaconda。返回True表示成功。步骤6:安装其他的包。
2023-09-27 16:33:49
249
原创 1.centos7 安装显卡驱动、cuda、cudnn
在网站选择对应版本:https://developer.nvidia.com/cuda-toolkit-archive。说明,cuda文件夹的内容与cuda-11.1文件夹的内容是一样的。找到2230号码,进入如下网址,找到显卡具体型号。生效,source ~/.bashrc。步骤3:根据型号下载显卡驱动。其中有是否32位,选择否。解压后文件夹为:cuda。步骤2:查询显卡版本。步骤3:配置环境变量。
2023-09-27 10:49:52
4082
1
原创 pyspark dataframe vector转array 保存到csv文件
【代码】pyspark dataframe vector转array 保存到csv文件。
2023-09-21 16:23:50
497
转载 pyspark一些简单常用的函数方法
但是有时候由于类别数太多,达到几千万上亿,如对推荐的MF中ID的编码,此时仍然使用stringIndex容易内存溢出,因为这几千万个字符要进行序列化并传播需要较大的机器内存。这时候我们就需要使用其他的方法来进行编码了。通过上面的代码可以将sparse vector转换为scipy sparse matrix,具体地——scipy csr matrix。当数据维度非常大且稀疏的时候,使用sparse matrix/tensor能极大的减少内存占用,是一个非常实用的方法。需要注意的是,udf中的。
2023-09-21 16:03:52
733
原创 Python的23种设计模式
设计模式是面对各种问题进行提炼和抽象而形成的解决方案。这些设计方案是前人不断试验,考虑了封装性、复用性、效率、可修改、可移植等各种因素的高度总结。它不限于一种特定的语言,它是一种解决问题的思想和方法。
2023-09-15 16:15:00
858
转载 傅里叶变换之高通滤波和低通滤波
所谓低通就是保留图像中的低频成分,过滤高频成分,可以把过滤器想象成一张渔网,想要低通过滤器,就是将高频区域的信号全部拉黑,而低频区域全部保留。高通滤波器是指通过高频的滤波器,衰减低频而通过高频,常用于增强尖锐的细节,但会导致图像的对比度会降低。它通过傅里叶变换转换为频谱图像,再将中心的低频部分设置为0,再通过傅里叶逆变换转换为最终输出图像“Result Image”。如果构造低通滤波器,则将频谱图像中心低频部分保留,其他部分替换为黑色0,其处理过程如图所示,最终得到的效果图为模糊图像。
2023-09-11 15:09:56
3638
转载 Pandas DataFrame切片操作
切片操作是指通过选择某个数据结构的一部分来创建一个新的数据结构的过程。在Pandas中,DataFrame是一个二维数据结构,类似于表格,可以通过切片操作来选择特定的行和列,以创建一个新的DataFrame。通过切片操作,我们可以轻松地选择DataFrame中的特定行和列,从而创建一个新的DataFrame。Pandas提供了灵活的切片操作语法,包括基于标签的loc方法和基于位置的iloc方法。熟练掌握这些切片操作的语法,对于处理和分析大型数据集非常有帮助。
2023-08-28 09:20:12
1348
转载 Dataset和DataLoader原理
DataLoader能够控制batch的大小,batch中元素的采样方法,以及将batch结果整理成模型所需输入形式的方法,并且能够使用多进程读取数据。DataLoader能够控制batch的大小,batch中元素的采样方法,以及将batch结果整理成模型所需输入形式的方法,并且能够使用多进程读取数据。Dataset定义了数据集的内容,它相当于一个类似列表的数据结构,具有确定的长度,能够用索引获取数据集中的元素。参数将多个抽样的元素整理成一个列表,一般无需用户设置,默认方法在DataLoader的参数。
2023-08-17 13:59:24
273
原创 random
设置随机种子,每次重新运行程序,产生的随机数都是一样的。不设置随机种子,每次重新运行程序,产生的随机数都不一样。保证每次运行程序时都得到相同的随机列表值。
2023-08-17 10:47:08
63
原创 SummaryWriter
其次运行命令:tensorboard --logdir= swin_transformer_loss_acc --port=6666。首先进入到“swin_transformer_loss_acc”文件夹所在的目录。(3)global_step:可以简单理解为一个x轴值的列表,与y轴的值相对应。(1)tag:要求是一个string,用以描述 该标量数据图的 标题。(2)scalar_value :可以简单理解为一个y轴值的列表。
2023-08-17 10:10:58
265
转载 argparse
为了在命令行中避免上述位置参数的bug(容易忘了顺序),可以使用可选参数(因为上面的几个例子,都是需要输入指定个数的参数,不能多也不能少)。在命令行中传入参数时候,传入的参数的先后顺序不同,运行结果往往会不同,这是因为采用了位置参数。可选参数虽然写法比较繁琐,但是增加了命令行中的可读性,不容易因为参数传入顺序导致数据错乱。现在在命令行中给demo.py 传入多个参数,例如传入1,2,3,4四个数字。新建demo.py文件,来看一个最简单的argsparse库的使用的例子。我们可以看到,得到的这个结果。
2023-08-17 09:30:03
65
转载 Transformer
Decoder 最终的输出是一个向量,其中每个元素是浮点数。我们怎么把这个向量转换为单词呢?这是由 Softmax 层后面的线性层来完成的。线性层就是一个普通的全连接神经网络,可以把解码器输出的向量,映射到一个更长的向量,这个向量称为 logits 向量。现在假设我们的模型有 10000 个英语单词(模型的输出词汇表),这些单词是从训练集中学到的。因此 logits 向量有 10000 个数字,每个数表示一个单词的分数。我们就是这样去理解线性层的输出。
2023-08-08 14:38:01
141
转载 pycharm 配置 spark环境
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径,这两个文件都在spark-2.4.5-bin-hadoop2.7\python\lib文件夹中。新建系统变量SPARK_HOME:E:\dju_softwares\DSJ_gz\spark-2.4.5-bin-hadoop2.7。添加PATH值:E:\dju_softwares\DSJ_gz\spark-2.4.5-bin-hadoop2.7\bin。
2023-07-07 13:49:53
1323
原创 OptaPlanner 中的hello world项目实战
2.使用编辑器打开hello-world项目。配置JDK ,File——》Settings。--阿里镜像的配置-->
2023-05-24 17:22:29
813
翻译 OptaPlanner Spring Boot Java快速启动
通常,求解器在不到200毫秒的时间内找到一个可行的解。前面图表中的大多数字段都包含输入数据,除了橙色字段:课程的时间段和房间字段在输入数据中是未分配的(null),而在输出数据中是分配的(非null)。幸运的是,OptaPlanner等人工智能约束求解器拥有先进的算法,可以在合理的时间内提供近乎最优的解决方案。在一节课中,老师向一群学生教授一门学科,例如,九年级的图灵教授数学,十年级的居里教授化学。它在与其他测试隔离的情况下测试每个约束的边缘用例,这降低了在添加具有适当测试覆盖率的新约束时的维护。
2023-05-24 17:12:30
1311
3
翻译 OptaPlanning 第五章 分数计算
例如,在会议调度中,最小暂停约束有一个约束权重(与任何其他约束一样),但它也有一个约束参数,用于定义同一发言者的两次发言之间的最小暂停长度。暂停的时间长短取决于会议的安排:在一些大型会议中,从一个房间到另一个房间,20分钟是不够的。在这种情况下,它有五个分数等级。justification是用户定义的对象,它实现了org. optaplaner .core.api.score.stream. constraintjustification接口,它携带有关约束匹配的有意义的信息,比如它的包、名称和分数。
2023-05-19 11:18:24
459
翻译 OptaPlanning 第六章约束流分数计算
方法,而不是penalizesBy()或rewardsWith()调用。例如,调用equal(Shift::getEmployee)与调用equal(Shift::getEmployee, Shift::getEmployee)是相同的。在UniConstraintStream上,ifExistsOther()构建块也是可用的,这在forEach()约束匹配类型与ifExists()类型相同的情况下很有用。它查找分配给员工Ann的每个班次,并且对于每个这样的实例(也称为匹配),它在总分中添加1的软惩罚。
2023-05-19 08:43:13
634
CN109141884A-基于EEMD-AR模型和DBN的轴承故障诊断方法-公开.PDF
2020-10-27
qt助力构建互联网.pdf
2019-08-06
Qt工业应用的基本要点.pdf
2019-08-06
2018年工业互联网汇编-优秀应用案例-典型安全解决方案案例
2019-03-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人