
Python相关
文章平均质量分 69
介绍Python编程语言相关基础、原理、程序代码、常见报错等
华师数据学院·王嘉宁
研究方向:深度学习、自然语言处理、知识图谱。
研究兴趣:大语言模型训练与推理、知识增强预训练、Prompt-tuning、小样本学习、问答系统、信息抽取。
展开
-
NLP简单的数据增强方法
NLP简单的数据增强方法 当训练数据量不充分,或者分布单一的情况下,数据增强可以快速扩充语料以避免过拟合的问题,同时,数据增强也可以提升模型的鲁棒性,避免微弱的变化使得模型无法泛化到相似的语境中。 本文介绍几种比较简单但常用的NLP数据增强方法,包括显式和隐式两个方面,在实验或比赛中可以提升效果。可使用nlpaug工具快速实现这些技术。一、动机机器学习和深度学习在包括文本分类等自然语言任务达到不错的效果,但他们需要依赖于大规模的标注数据,除了直接使用小样本学习外,显式数据增强格外有效;数据原创 2021-11-30 11:11:37 · 2013 阅读 · 0 评论 -
python多线程实现
python多线程实现 有时候在进行数据处理时,处理的数据量非常庞大,在不使用并行化处理时可能需要若干小时。为了加快处理速度,使用多线程机制是非常常用的做法。本文简单实现了多线程的代码框架,可供数据处理使用。 多线程主要包括三个部分:处理函数:主要负责对某一个线程拥有的数据进行处理,也即是单线程处理方法;线程分配:获取机器的CPU核数(线程数),并获得所有数据,按照一定规则进行数据分配;数据合并:每一个线程上会处理不同的数据,最后需要进行合并。import multiprocessing原创 2021-11-28 20:27:23 · 961 阅读 · 2 评论 -
使用matplotlib绘制范围波动曲线图
使用matplotlib绘制范围波动曲线 论文在做数据分析时,经常需要绘制曲线图,例如怼不同的超参数其实验性能的效果。由于实际实验需要重复执行多次并获取均值和波动范围,需要同时在曲线图中展示。本文介绍并提供使用基于matplotlib绘制简单精美的曲线图。 展示预期效果,例如给出两个方法在不同训练样本数量条件下的准确率变化情况:图像特点:可对比多个不同的方法,不同方法的使用不同颜色、类型的曲线进行绘制;可展示每个方法对应的极差波动范围,以展示不同方法的稳定程度;横坐标部分为2倍指数递增;原创 2021-11-28 19:03:15 · 7336 阅读 · 0 评论 -
Python类库Networkx实现图最短路径
Python类库Networkx实现图最短路径 最近在做一个有关图谱的任务,其中涉及到在图类型数据中寻找两个结点之间的最短路径,一般实现最短路径的算法可以有经典的Dijkstra和Floyd算法,不过通常自己实现起来非常麻烦,经过半小时的调研,发现了一个非常方便的工具,今天分享一个快捷高效的python类库Networkx及相关参考博客。前记【1】安装Networkx: 通常如果安装的是anaconda,一般都会将networkx类库给安装上,如果没有,则可以自行使用pip安装:pip i原创 2020-12-29 22:06:28 · 3817 阅读 · 0 评论 -
从文本中自动抽取结构化三元组
从文本中自动抽取结构化三元组参考文献【1】:ICDM2019 Knowledge Graph Contest: Team UWA参考文献【2】:Seq2KG: An End-to-End Neural Model for Domain Agnostic Knowledge Graph (not Text Graph) Construction from TextGitHub:https://github.com/Michael-Stewart-Webdev/Seq2KG现有工作缺点: Open原创 2020-11-30 16:24:23 · 9523 阅读 · 13 评论 -
基于PCA的图像压缩实现
基于PCA的图像压缩实现注:该内容为校内课程实验,仅供参考,请勿抄袭!源码:PPCA-for-Image-Compession摘要 随着计算机互联网的发展和数据的日益增长,如何高效的处理和传输海量数据成为大数据处理的瓶颈问题,尤其对于图像类数据,通常其占有空间大,包含信息量丰富,如何对图像数据进行压缩吸引广大研究者们的注意。本文通过调研PCA图像压缩的相关工作,认为当前方法依赖于整个数据集,压缩效率低、占据内存量大的问题,本文提出一种分片PCA(P-PCA)图像压缩算法,旨在通过对图像进行分片,并原创 2020-08-02 17:50:10 · 4905 阅读 · 2 评论 -
Webdriver & PhantomJS使用cookie免重复登录
Webdriver & PhantomJS使用cookie免重复登录 最近在接手一个网络爬虫的任务,任务要求登录到某管理系统后台,并抓取数据。该后天相比传统系统不同之处在于其后台全部是由js实现响应,因此传统的爬虫技术束手就擒了,本文先介绍基于webdriver的模拟浏览器操作,以及借助phantomjs完成js触发。直接上代码:#第一次登录时,需要进行账号密码登录def log...原创 2020-02-23 11:24:16 · 1070 阅读 · 0 评论 -
python实现计算精度、召回率和F1值
python实现计算精度、召回率和F1值 摘要:在深度学习的分类任务中,对模型的评估或测试时需要计算其在验证集或测试集上的预测精度(prediction/accuracy)、召回率(recall)和F1值。本文首先简要介绍如何计算精度、召回率和F1值,其次给出python编写的模块,可直接将该模块导入在自己的项目中,最后给出这个模块的实际使用效果。一、混淆矩阵及P、R、F1计算原理1、混淆...原创 2019-03-02 11:09:47 · 45296 阅读 · 13 评论 -
基于word2vec的中文词向量训练
基于word2vec的中文词向量训练一、引言 在绝大多数的自然语言处理任务中,语料是无法直接用来特征提取,需要将其转化为计算机可以读取的数值,因此引入独热编码,即对于语料库中为每一个词汇设置编号。在大语料中这种做法具有很多缺点,因此在2013年Mikolov等人发表的论文《Efficient Estimation of Word Representation in Vector Space》...原创 2019-02-20 10:38:30 · 9609 阅读 · 13 评论 -
python爬虫获取强智科技教务系统学科成绩(模拟登录+成绩获取)
python爬取强智科技教务系统,以江苏科技大学为例:本人开发的系统作为参考:https://www.wjn1996.cn/estudy/tools/educationLogin.jsp?school=10289&search=1以本人账号为例: 程序如下,保存为test.py,cmd命令执行python3 test.py+学号+密码。可返回所有成绩列表。im...原创 2017-09-05 12:12:52 · 7311 阅读 · 5 评论 -
关于python网络爬虫——摘取新闻标题及链接
Python是最近流行的编程语言,最近学习了python编程,并在网络爬虫方面进行了研究,下面给出简单实例来实现网络信息的获取步骤一:要有python开发环境,可下载python3.5版本,或anaconda3步骤二:在命令行输入jupyter notebook 打开jupyter步骤三:书写如下代码:import requestsfrom bs4 import Beautif原创 2017-09-04 17:42:21 · 1405 阅读 · 1 评论