- 博客(21)
- 资源 (3)
- 收藏
- 关注
原创 NER数据增强篇-DAGA
NER数据增强方法DAGA,不同于传统的EDA方法,而是首先将标注数据线性化,将带标签的句子转换成线性序列,通过语言模型学习标注数据中单词和标签的分布情况;然后对线性化后的数据训练语言模型,用于生成合成标记数据。本文简单介绍了DAGA论文,并展现完整复现步骤,以及期间遇到的各种问题。...
2022-06-22 14:47:54
1265
4
原创 python 单点登录
前言 最近项目中小组负责开发的知识图谱子系统需要增加单点登录这个功能,由于我也是头一次开发这个,也请教了java后端大佬,再根据自己具体业务和使用的框架(fastapi)完成了任务,现在回过头来整理一下。 单点登录(Single Sign On),简称为 SSO,是比较流行的企业业务整合的解决方案之一。SSO的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。在整个项目中,存在多个业务系统,也有独立登录系统,把授权的逻辑与用户信息的相关逻辑独立,由统一认证中心进行管理。因此
2021-12-21 16:47:02
3906
原创 Fastapi 中间件 middleware
问题描述在项目中遇到一个问题,在进行单点登录时,需要通过fastapi的middleware对存于redis的token进行刷新,但是取出request.json()后,request请求被消耗掉了,导致异步程序卡死在了await call_next(request),最后参考了https://github.com/tiangolo/fastapi/issues/409上的解答,最终完美解决。具体内容要想取到request中的内容,并且call_next函数正常运行,set_body是重点,重点,重点
2021-11-12 15:11:09
4222
4
原创 【知识图谱系列】- ongdb因果集群部署
一、安装包准备下载ongdb-3.5.22企业稳定版.zip,并将安装包分别上传相关待部署服务器。解压中文文件,unzip -O CP936 ongdb-3.5.22企业稳定版.zip 。进入[安装包],根据实际需求选择解压unix版本或者windows版本。cd ongdb-enterprise-3.5.22/confvim neo4j.conf二、配置文件修改以下为集群用到的配置,无具体说明的可直接删除“#”,将该行打开。dbms.security.auth_enabled=fals
2021-07-14 15:07:53
671
原创 Linux安装nginx(快速版)
网上已经有很多详细的nginx安装教程,但是大都太过于复杂和冗长,对于急性子的同学看着难受,于是决定整一手快速无脑安装大法,来来来,搞起搞起!!!步骤1:下载nginxwget http://nginx.org/en/download.html/nginx-1.14.2.tar.gz备注: http://nginx.org/en/download.html(可进入网站选择合适的nginx版本)步骤2:安装所需依赖:openssl、zlib、pcreyum -y install pcre
2021-06-09 11:31:07
292
2
原创 【知识图谱系列】-【Neo4j】之Cypher 二
cypher语句语句描述match~语句通过模式(Pattern)来检索数据库optinal match~匹配模式与match类似,不同之处在于,如果没有匹配到,将null作为未匹配到部分的值where~不能单独使用,只能作为match、optinal match语句中添加约束...
2021-05-08 10:04:21
463
1
原创 【知识图谱系列】-【Neo4j】之Cypher 一
Cypher简述Cypher是Neo4j支持的一种图数据库查询语言,其具有极强的表达能力,能够支持图数据库数据的增删改查功能。以下将罗列常用的cypher语句。1、增增加节点的核心为:create1.1、创建节点create(n:标签{name:"节点名称",age:"2"}) return n注释:[标签处]输入节点标签名称(节点为多标签时输入n:标签1:标签2)[节点名称]输入节点名称n:节点的代称,可任意指定字母,a、b、c均可。name:花括号中写节点的属性信息,例如:名称、
2021-04-22 17:26:03
1077
原创 supervisor安装及配置说明
1、安装sudo apt-get install supervisor # ubuntu下安装,推荐使用apt-getpip install supervisor # centos下安装,使用pip安装2、卸载sudo apt-get remove supervisor # ubuntu下卸载pip uninstall supervisor # centos下卸载3、查看是否安装成功(有配置信息输出则安装成功)echo_supervisord_conf4、创建配置文件夹m
2021-03-29 17:21:56
1767
2
原创 python 读取excel文件
1. excel文件只包含一个sheet表import xlrd"""读取包含耽搁sheet的excel数据"""workbook = xlrd.open_workbook("test.xlsx") # 打开工作表sheet0 = workbook.sheet_by_index(0) # 获取工作簿nrows = sheet0.nrows # 获取总行数for i in range(nrows): each_data = sheet0.row_values(i) print
2020-11-26 16:18:14
891
原创 python 多进程(multiprocessing)详解
前言看了好多写python多进程的,看了半天都无法快速入手!!!希望这篇能带你3分钟入门!!!python提供的multiprocessing模块用于开启子进程,并在子进程中执行特定任务(eg:函数),该模块与多线程模块threading的编程接口类似。1、multiprocessing.Pool示例任务描述:将关键词抽取结果和其他字符串拼接并输出到文件"""以关键词抽取为例阐述如何使用multiprocessing.Pool"""import jiebaimport jieba.anal
2020-11-10 16:33:21
3210
5
原创 python 关键词抽取工具
前言依任务需要,对多种关键词抽取工具进行比较,测试、调研。特此记录相关调用方法及最终评测结果。1、jiebaGithub地址:https://github.com/fxsjy/jieba/安装:pip install jieba -i https://pypi.douban.com/simple/基于 TextRank 算法的关键词抽取import jiebadef keyword_extraction(content): """TextRank关键词抽取""" keywor
2020-11-05 15:49:58
1879
原创 python logging 日志重复打印两次
logging日志重复打印问题问题描述在查看项目文件输出的运行日志时发现每句日志都会打印两次(info和debug均出现此问题)解决工程文件中一般会配置log,解决方法是将参数propagate修改为False# -*- coding:utf-8 -*-"""log_util.py~~~~~~~~~~~~~~提供日志支持。:copyrith: (c) 2020 Dingdang Cat:modified: 2020-9-28"""import osimport loggingf
2020-09-28 16:41:07
4096
原创 flask+celery+uwsgi+nginx+redis项目部署(CentOS系统)
前沿本次算法部署是基于restapi服务,以http请求的方式提供服务。主要基于Flask + celery + uwsgi + nginx实现,对外提供相关的功能。整个部署下来最大的感受就是在redis的安装和配置上CentOS与Ubuntu有区别。服务部署1.Anaconda下载wget -P [文件保存路径] https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2019.07-Linux-x86_64.sh安装(
2020-09-18 16:30:38
921
4
原创 fastapi服务部署
前沿FastAPI 是用来构建 API 服务的一个高性能框架。快!性能极高,可与 NodeJS, Go 媲美。FastAPI(中文官方文档):https://fastapi.tiangolo.com/zh/uvicorn是一个闪电般快速的ASGI服务器,基于uvloop和httptools构建。步骤1、安装依赖包(fastapi、uvicorn、gunicorn)pip install fastapi -i https://pypi.douban.com/simple/pip install
2020-09-16 13:35:21
9392
原创 transformers.tokenization_utils_base
1.问题描述:在使用Transformer或者SentenceTransformer时有时会遇到如下警告,甚是恼火!!!2.错误:WARNING:transformers.tokenization_utils_base:Truncation was not explicitely activated but max_length is provided a specific value, please use truncation=True to explicitely truncate exampl
2020-09-04 11:20:53
3414
3
原创 hnswlib相似最近邻
HNSW相似最近邻1.安装通过镜像安装速度快pip install hnswlib -i https://pypi.douban.com/simple/Windows报错处理解决方法(安装Microsoft Visual C++)链接:https://pan.baidu.com/s/1QHaJkQ_U45cFyPOozbJxnA提取码:bdsq2.HNSW使用及说明def annsearch(data, data_labels): """利用HNSW进行近似最近邻搜索
2020-08-21 10:52:15
1200
原创 python写入Excel文件操作
**任务描述:** 最近在做一个为公文写作提供素材的任务,大致就是将原有公文进行分块保存,然后以块的形式提供给用户,辅助用户完成公文写作中各部分的编写。代码编写好后运行结果存放在json文件中,本地测试校验时需要将json文件中的结果存放到前期数据调研时的excel中预留的行、列中,那么怎么来做呢?(此问题转换为:如何将结果存入已存在的excel中?)**xlutils模块** 该模块的功能是作为xlrd和xlwt的桥梁,解决了xlrd中book对象无法编辑的问题。通...
2020-07-16 15:03:44
1157
原创 Python代码打包
Python代码打包步骤1:下载Pyinstallerwin + R →cmd→pip安装命令pip install pyinstaller步骤2:准备工作1.python代码准备好需要打包的python代码2.可执行文件(.exe)图标(1)百度搜索中意图片(png、jpg、gif)→图片格式转换(.ico)(2)**图片转换网站:**http://ico.duduxue...
2020-04-28 15:33:51
934
1
原创 Python:读取文件夹的文件
### 知识点:os.listdir() #用于返回指定文件夹包含的文件或文件夹的名字的列表。### python程序实现:数据描述:一个文件夹下包含多个文件# -*- coding:utf-8 -*-"""数据描述:一个文件夹下包含多个文件main_path:最外层文件夹路径"""import osdef file_path(main_path): path...
2019-11-19 10:28:06
840
原创 json文件读取和搜索
# -*- coding: utf-8 -*-"""本模块负责检索json文件内容,解决notepad++检索内容卡顿问题:copyright: (c) 2019 by Zhichao Xia:modified: 2019-10-21:TODO:"""import jsonwith open("./data/project_candidate.json", 'r', en...
2019-10-23 11:03:34
2634
原创 python:中文日期转化为数字日期
# 中文日期转化为数字日期time_ch = '二零一五年十二月三十日'year = time_ch.split('年')[0]month = time_ch.split('年')[1].split('月')[0]day = time_ch.split('年')[1].split('月')[1].split('日')[0]# 去掉"日"中的十,例如"三十一"转化为"三一"if l...
2019-09-24 09:41:39
5879
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人