- 博客(119)
- 资源 (3)
- 收藏
- 关注
原创 python pdfplumber优化表格提取
根据提取的文本信息是没办法获取到表格数据的,太乱了。根据表头画竖线,可能内容超出表头左右坐标。3.根据坐标放入单元格的list中。解决办法:根据内容进行特殊匹配。自行画线,根据画线进行提取。1.根据表头进行画竖线。2.根据行坐标画横线。4.拼接单元格文字。
2024-07-03 17:06:59
922
1
原创 python 比webdriver更好用的ChromiumPage
可以监控网络请求,比webdriver方便多了。chromiumPage介绍:DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大,内置无数人性化设计和便捷功能。它的语法简洁而优雅,代码量少,对新手友好。
2024-07-03 15:56:20
1267
原创 python aiohttp异步多并发协程访问&多个依赖url访问
使用异步进行并发访问:aiohttp大部分可能就只是访问某个url,直接使用aiohttp的异步方式即可。有时候需要访问多层的url,而下一层依赖上一层,需要等待上一层返回才能继续访问。例如获取代理(见第二种)
2023-11-06 15:42:33
550
原创 springboot web & 增加不存在的url返回200状态码& vue 打包设置&vue.js 单文件使用
2. package.json 文件, scripts 中没有build的可以增加一个,如果执行 npm run build 报错的,可以改成build+后缀的其它。1. main.js 配置 axios相关,这里没有进行增加前缀路由,注释调的api是增加的,但是打包后,访问的页面里面也加上了,不知道为什么,所有就去掉吧。如果有的话,需要进行注释。outputDir 要输出的目录路径,这里的话,我这里打包的不在当前这个目录下面。这里的话,axios没有设置前缀,所以这里的路由也就不需要了。
2023-09-08 18:00:09
1258
原创 python 获取对象中的属性并进行赋值操作
需要保存十张不同结构表的数据,但是不想写十个实体类赋值的代码。于是乎,想着数据转成dict,然后dict转成实体类。所以主要的就是dict 转换成实体类这里。当然了,还有getattr方法。
2023-06-14 15:51:13
634
原创 pdfplumber TypeError: must be str, not bytes
使用 pdfplumber 读取pdf文件时跑出异常,代码入刚开始一直以为是文件有问题。百度了一会无果。GitHub也有此类问题,但是说修复了,没看到方案,最后还是在博客园看到解决方案。
2023-04-13 14:49:22
302
原创 java HttpURLConnection 下载文件异常 301
异常关键词:javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target下载代码public stat
2022-05-18 16:21:30
1974
原创 elasticsearch matchPhraseQuery zeroTermsQuery异常
elasticsearch matchPhraseQuery zeroTermsQuery异常ES 的版本是6.2.2的版本。es版本 , 6.4.3 也会有这个错。<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifact
2022-05-02 15:51:31
2399
原创 非数据库型的节点执行思路
思路:1. 定义一个数组,用来存放节点序号2. 根据条件决定走哪些节点(节点的值可以改成可动态配置的)3. 声明一个json存放结果,以及节点执行的结果4.进行for循环,进行多个节点的结果处理。如果其中有一个节点执行失败,则终止流程。5.进行最终的处理,通过json里面判断是否有失败标志判断执行结果。public Response executeNotarizationBook(Domain applyNorDomain, String fqBusId, byte assuran
2022-04-30 14:18:53
848
原创 java 文字生成pdf,并创建自定义表单域pdf模板
java 通过itext 生成pdf、生成带文本域的pdf、生成带签名的pdf域,根据指定文字生成签名域。
2022-04-26 18:34:39
5164
原创 mq消费,多条累积定时定量批量消费
mq消费handle中的方法部分代码// 队列处理if (ElasticSearchEnums.ES_UPDATE.getMqType().equalsIgnoreCase(mqType)) { return loanEsQueueService.updateLoanToEs(object);} else if (ElasticSearchEnums.ES_INSERT.getMqType().equalsIgnoreCase(mqType)) { ..
2022-03-02 11:50:51
2138
4
原创 ES 条件查询6.4.2
查询方法@Override public Page<Object> queryLoanListFromElasticSearch(QueryDomain queryDomain){ BoolQueryBuilder boolQueryBuilder = getQueryByEntity(queryDomain); return getSearchRequestResult(boolQueryBuilder, queryDomain, null..
2022-03-02 11:29:25
1851
原创 如何防止selenium被检测
selenium 通过js会被检测出来,按照其它设置:from selenium.webdriver import Chromefrom selenium.webdriver import ChromeOptionsoption = ChromeOptions()option.add_experimental_option('excludeSwitches', ['enable-automation'])driver = Chrome(options=option)设置 excludeS
2022-01-01 17:48:56
5619
原创 python module 下载异常,无法下载安装
直接去module官方包网站下载对应module 到本地安装,网址:Simple Indexhttps://pypi.tuna.tsinghua.edu.cn/simple/打开会有点慢。pycharm 国内源:Simple Indexhttp://mirrors.aliyun.com/pypi/simple/Simple Indexhttps://pypi.tuna.tsinghua.edu.cn/simple/需要复制地址设置方式:1.2.3.4...
2021-11-19 10:41:19
944
原创 go web/http
1. 创建工程创建一个新的目录执行: go mod init test_module # test_module 为你的目录名成功后该目录下会有个go.mod文件2. 安装 github ginhttps://github.com/gin-gonic/gin设置代理:go env -w GOPROXY=https://goproxy.cn,direct执行 go get -u github.com/gin-gonic/gin没有初始化目录很可能会报错。3. .
2021-08-26 17:51:38
175
原创 使用python 进行区间取值
需求背景:进行分值计算。如下图,如果只是一两个还好说,写写判断,但是如果有几十个,几百个,会不会惨不忍睹。而且,下面的还是三种情况。例如:解决:# 根据值、比较list, 值list,返回区间值, other_value 即不在的情况 def get_value_by_between(self, compare_value, compare_list, value_list, other_value, type="compare", left=False,
2021-07-30 14:05:14
3941
原创 python 利用joblib将py文件生成pkl
首先,安装 joblib 模块包1.准备好一个python文件class GwSamel(object): def __init__(self): pass def predict(self, input): # 你的逻辑 print(input) return True, "ok"2.生成pkldef dump_pkl(): import joblib # 先声明
2021-07-29 15:20:47
1573
原创 python 获取指定日期前后几个月/几天的日期
import timeimport calendar# 获取指定之前的月份 def get_last_month_by_int(self, last_int): ''' :param mon: 获取当前时间X月之前的时间 :return: YYYY-MM ''' now = time.time() return self.get_last_month_by_time_int(now, last_in.
2021-07-21 11:21:20
2034
原创 python pdfplumber 识别pdf为空 表格识别 文字提取 zipfile解压 bad password
使用python module pdfplumber 提取表格的时候,在window中提取没有任何问题,到了linux上,发现提取出来的文字全部为空,使用tabula 可以,但是结果bu'zhu
2021-06-19 17:53:39
2844
1
原创 python 提取pdf中表格(单元格)内容
python3.7要求:提取pdf中表格里面的内容,提取每一个单元格中的内容,并且精确。尝试了3种,每种都需要安装不同的module。
2021-05-28 10:50:30
1019
原创 configurable-http-proxy 安装失败,Missing required argument, npm 升级还是旧版本
docker里面安装 configurable-http-proxy 一直不成功,node 版本4.6.2几,npm v3.5.2 。使用源码方式安装都不行,错误日志如下。[2021-05-01T03:11:18.220Z] WARN engine configurable-http-proxy@4.3.2: wanted: {"node":">= 6.0"} (current: {"node":"4.2.6","npm":"3.5.2"})[2021-05-01T03:11:18.220Z
2021-05-01 15:40:30
2330
原创 docker ubuntu 安装jdk 失败,404,apt-get install -y default-jdk
最近使用docker打镜像,发现无法成功,经常就是有几个404,然后就退出了。docker命令:RUN apt-get install -y default-jdk --allow-unauthenticated --allow-downgrades然后去官网下载也是需要登录,其它一些安装jdk的命令也都是不行。现在推测怕是官方原因吧,导致所有的下载链都被删了。经过很多次尝试:wget https://builds.openlogic.com/downloadJDK/openlogic-
2021-05-01 15:32:43
666
原创 Public key not installed
Public key for tesseract-langpack-eng-4.00~git30-5.3.noarch.rpm is not installed解决:使用参数 --nogpgcheck例如:rpm --rebuilddb && yum -y install tesseract --nogpgcheck
2020-10-13 13:50:43
219
原创 vue element ui this.$alert 样式修改,长词自动换行、自定义html标签无效果
问题:vue alert提示框长词无法自动换行(一个连起来的词)解决: 自定义一个class 名this.$alert(row.content, row.title, { confirmButtonText: '确定', customClass:'message_box_alert' });CSS:<style> /**站内信长单词强制换行 */ .message_box_alert { word-.
2020-09-28 11:26:37
13697
6
原创 centos selenium chrome 中文显示为方框解决
百度了一堆:很多说使用下面三行命令的,没有解决yum -y groupinstall "X Window System"yum -y groupinstall chinese-supportyum -y groupinstall Fonts首先下载中文字体 ttf 文件 http://www.downyi.com/downinfo/38944.htmlcopy 到 /usr/share/fonts 目录下,执行下面命令fc-cache -fv参考:...
2020-09-23 16:46:59
1126
原创 docker login,docker 登录私有库下载镜像,docker pull
1.登录docker login -u 用户名 -p 密码 www.baidujingxiang.com(yourUrl,镜像所在库地址,非镜像下载地址)docker pull www.baidu.com/docker/******:1.0(镜像下载地址)最后记得logout下docker logout www.baidujingxiang.com(yourUrl,镜像所在库地址,非镜像下载地址)...
2020-09-16 10:26:33
2007
原创 no module ‘fcntl‘、module ‘fcntl‘ has no attribute ‘LOCK_UN‘
no module 'fcntl'或module 'fcntl' has no attribute 'LOCK_UN'原因:windows 不支持该module!!!!!!以上是Linux下的环境。根据网上的内容如下 fcntl.py#fcnt1.pyLOCK_UN=8def fcntl(fd, op, arg=0): return 0 def ioctl(fd, op, arg=0, mutable_flag=True): if mutabl...
2020-09-01 17:23:56
1841
原创 python+tesseract 训练和破解验证码
tesseract 训练验证码https://www.cnblogs.com/jnhs/p/11320413.html训练的话,照着上面的做吧,最好名字一样,我改名了一直不行。下载验证码#下载验证码def downloadImg(): for i in range(1, 100): headers = { # 用户代理 'User-Agent': 'Mozilla/5.0 (Windows NT ...
2020-08-24 20:14:59
553
原创 unexpectedly exited. Status code was
1.代码不对unexpectedly exited. Status code was: 0Traceback (most recent call last): File "C:/Users/daidongdong-jk/PycharmProjects/aiw/startDriver.py", line 10, in <module> test() File "C:/Users/daidongdong-jk/PycharmProjects/aiw/startDriv...
2020-08-24 11:39:30
3931
2
原创 Class extends value undefined is not a constructor or null
cnpm run build 的时候报错,如下:加载应用:voiceSpAvailable加载应用:wechatTemplateList WARN "baseUrl" option in vue.config.js is deprecated now, please use "publicPath" instead.- Building for production... ERROR TypeError: Class extends value undefined is not a co
2020-08-14 18:44:46
11555
6
原创 Facade test 为空 null
spring test 的时候需要测试 facade 接口@Resource private SmsFacade smsFacade;@Test public void sendSmsTiming() { SmsTemplate smsTemplate = newSmsTemplateTiming(); Response response = smsFacade.sendSms(smsTemplate); System.out.pr.
2020-08-13 14:37:06
195
原创 missing ServletWebServerFactory bean
点击了报错行,在报错行打了个断点,发现是没取到这个bean。启动了另一个web项目,同样一个地方打了断点,发现取到的是tomcatServletWebServerFactory。判断到没有引入tomcat即web类的依赖。不过看pom是引入了。发现boot-web依赖下面有个排除。去掉之后报错依旧。进行重新clean pom,重新编译启动Caused by: org.springframework.context.ApplicationContextException: Unab...
2020-08-11 14:06:40
5864
原创 Microsoft Visual C++ 14.0 is required.
pip install 的时候提示 : error : Microsoft Visual C++ 14.0 is required.Microsoft Visual C++ 14.0 下载点击下载并进行安装,就可以了
2020-08-06 17:41:56
92
原创 Page 分页之 Entity to Domain
分页类public class Page<T extends Serializable> implements Serializable { private static final long serialVersionUID = 1L; private int page; private int pageSize; private int pages; private long total; private List<T> ro
2020-08-03 18:06:22
1116
原创 Cannot find module ‘webpack‘ Require stack
一、Class extends value undefined is not a constructor or nullBuilding for production... ERROR TypeError: Class extends value undefined is not a constructor or nullTypeError: Class extends value undefined is not a constructor or null at Object.<a
2020-07-31 15:32:19
9079
1
原创 zookeeper 学习,详细了解
角色:leader:主节点,负责数据的写入follower:从节点,负责数据的读取observer:功能一就如同他的名字,只是一个观察者,对leader和follower的工作进行观察监听。 功能二就是动态扩展zookeeper集群,而又不影响集群的性能,接收客户端连接,执行leader更新系统状态的命令,不影响集群的性能是因为观察者节点不参与投票,即使是观察者节点宕机了,对集群的运行状态没有影响。只有follower 才能选举。follower越少选举速度越快,其余的为observ.
2020-07-02 23:16:15
3482
原创 spring框架、alibaba nacos、sentinel 使用、nacos没看到应用、sentinel控制台看不到应用
框架框架就是一些类和接口的集合,通过这些类和接口协调来完成一系列的程序实现。JAVA框架可以分为三层,表示层,业务层和物理层。框架又叫开发中的半成品,它不能提供整个web应用程序的所有东西,但是有了框架,我们就可以集中精力进行业务逻辑的开发而不用去关心它的技术实现以及一些辅助的业务逻辑。Spring、Spring MVC、Spring Bootspring 是一个框架的集合,包含了很多组件。spring MC 只是 spring 其中一个 web 组件。关于 spr...
2020-06-29 08:50:44
3004
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人