自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 使用Unstructured处理PDF文件——清洗噪声元素

这里还有一个上下文:我需要处理的这一系列文档,由同一个机构release,也就是说这些文档的页眉页脚、章节结构都是相似的。本文只介绍清洗的思路以及unstructured能提供的一些实现路径,代码由于比较具有个体差异性,大家可以根据自己的具体情况直接让AI帮写。这些逻辑非常清晰的代码非常适合让AI写。在unstructured的。

2025-06-27 18:28:27 975

原创 使用Unstructured处理PDF文件——Partition

使用Unstructured处理PDF文件的第一步就是,中文是“分割”、“分开”的意思。但这里有个很容易混淆的地方,在partition之后还有一个处理阶段叫,也是分块的意思,不熟悉的伙伴可能会对这两个感到困惑。为了更好地区分开,我们也直接用这两个阶段的英文来称呼他们。

2025-06-20 16:37:18 883

原创 使用Unstructured处理PDF文件的前置安装项

在做RAG开发时,众所周知一个非常关键的步骤就是文档预处理,目前在试用的工具是unstructured。我没有使用langchain的unstructured,而是直接安装了unstructured库。。可以做到本地推理(依赖模型)以及OCR等处理技术。但在运行包含unstructured的程序时发现,直接运行会有诸多报错,基本都是因为一些前置的依赖没有被安装。这篇文章就是来总结一下需要前置安装的内容。提示:本文主要针对Windows环境下的运行。Mac上只需要运行来安装下方依赖项即可。

2025-06-10 15:59:41 1424

原创 g++ (MinGW) 编译器如何调用PCANBasic.dll?/ DLL核心机制

我的C++编译器使用的是g++,在我企图调用时编译出现了报错。因为以前使用过Visual Studio运行,没有遇到问题,在排除了其它问题原因后考虑可能是官方提供的文件只支持MSVC编译器。就在这时,我在PEAK的官方论坛上看到有人遇到了同样的问题,并得到了官方支持人员的回复(回复内容是positive的):and我本人是C++新手,由于这个问题的解决方案恰好非常好地反映了,决定写这样一篇文章记录下来。

2025-05-12 17:15:34 905

原创 局域网访问WSL服务——问题排查笔记

端口转发 (netsh): 虽然监听 0.0.0.0 理论上可行,但在 WSL 场景下,当通过主机自身外部 IP 访问时可能出现问题。显式将 listenaddress 设置为主机的局域网 IP () 是更可靠的方案。防火墙: 必须确保 Windows 防火墙 (以及可能的第三方安全软件) 允许外部访问所需端口 (本例中为 3000 和 8001)。服务监听: 确保 WSL 内的服务监听在 0.0.0.0 或其分配的 IP 上。

2025-04-27 15:46:54 1414

原创 创建python虚拟开发环境venv

所以归根结底还是资源不足导致的。我自己常用的方案:我公司是Windows系统,我的开发环境经常是WSL + venv(使用的Linux发行版是Ubuntu)。这样以后在服务器上一样能正常运行。虽然使用WSL似乎跨平台有点麻烦,但也建议这么做,避免后期不必要的麻烦。

2025-04-14 15:20:11 455

原创 [C++ & Qt] 从零开始的QCanBus开发(Qt CAN通信上位机之一)

因为公司有需求做一个能够用PCAN通信/刷写bootloader的上位机。一开始想要使用PCAN官方提供的库PCAN Basic API,但后来发现QCanBus可以被认为是内嵌了PCAN的接口,并且还支持其他几种工具的接口,以后如果有其他工具的扩展需要就能省去不少麻烦。我平时是一个python用户,对于C++和Qt都是新手。即便大学的启蒙编程语言就是C++,但多年不用已经忘光,现在看C++代码犹如看天书……在自己学习和调试的过程中,我收获到了很多珍贵的经验,于是想把这个过程记录下来。

2024-12-02 11:29:40 3459

原创 C++中的库引用——.h, .dll, .lib是如何作用的(python用户学C++)

由于公司里有一个上位机工具开发需求有非常严格的时序要求(通信时间差1ms就可能报错),以前一直用的python在这里就不适用了,只能采用C++和Qt的方案。虽然我大学的启蒙编程语言就是C++,但是多年不用已经忘光,看C++代码有如看天书……因为这个项目需要调用一个官方通信库,于是我研究了一下C++中库的使用,过程中为方便我的学习会将一些理解类比为python。本文提供的见解仅针对引用现成的库文件。

2024-12-01 21:44:10 1543

原创 gradio中的button.click是如何链接事件函数的

在我自己的项目中,我困惑于gradio UI中点击了按钮之后如何返回多个输出结果。本文来源于我自己探索使用的小案例,说明了gradio(python)中如何将点击按钮链接到具体函数上的方法。在这个例子中,因为我希望如果发生系统错误,直接显示错误信息内容,而不显示计算结果,所以在事件函数的定义中,except return的后面两个内容需要用。建议大家把代码拷贝到自己的环境中,然后尝试修改代码来尝试。当我输入的内容为数字时,输出正常的结果。首先定义了点击按钮要执行的函数,是一个数组,数量和内容内容。

2024-11-08 18:11:03 957

原创 从python函数的调用与引用(函数名后面到底加不加括号),聊聊函数的基本原理

本篇文章适合python初级开发者阅读。在我们使用python的过程中会发现:对于一个函数,有时候使用的是函数名加括号,例如,有时候直接使用函数名本身func_name。这两者有什么不同呢?各自应用于什么样的场景呢?简单来说,代表func_name代表。:就是让函数执行其中的代码。:当需要将函数作为对象传递或赋值时使用。但要深入理解 python 中函数的调用和引用,我们可以从以下几个方面展开讨论:函数对象的本质、内存管理、以及调用和引用的具体区别。

2024-10-25 15:04:04 2088

原创 如何在内网环境安装python依赖库

下载相应依赖库时,其中一个依赖库multi-key-dict下载了一个.zip文件并无法通过上述方法安装成功。**(外网操作)**在requirements.txt所在路径打开终端,输入。(仅能连接公司局域网,无法连接Internet)。无法直接安装python依赖库。此时库安装文件(多为.whl文件)已被下载到指定路径。看到"success"字样即说明安装成功,可通过。相信很多朋友和我们公司一样,研发工作被约束在。:打开终端/commandline,输入。3. 内网安装依赖库。查看已安装的依赖库。

2024-09-10 13:31:02 1285 1

yolox-l0.05.onnx

Unstructured本地运行会用到的模型。

2025-06-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除