- 博客(24)
- 收藏
- 关注
转载 NVIDIA MPS总结
多进程服务(Multi-Process Scheduling)是 CUDA 应用程序编程接口(API)的替代二进制兼容实现。从 Kepler 的 GP10 架构开始,NVIDIA就引入了(基于软件的多进程服务),这种技术在当时实际上是称为,允许多个流(stream)或者 CPU 的进程同时向 GPU 发射 Kernel 函数,结合为一个单一应用程序的上下文在 GPU 上运行,从而实现更好的 GPU 利用率。在单个进程的任务处理,对 GPU 利用率不高的情况下是非常有用的。
2023-08-31 12:04:35
2754
1
原创 修改Linux时区
如果安装系统时没有设置时区,系统将使用默认UTC时区。在Linux上,有两种方式修改时区,分别为 timedatectl 修改 和 软连接修改。
2023-08-30 16:17:27
11861
原创 机器翻译评测---multi-bleu
在机器翻译中,经常使用中的 mosesdecoder/scripts/generic/multi-bleu.perl 来评测模型的 bleu,只关注最后的bleu得分,而忽略计算过程。
2023-08-02 20:57:15
439
转载 flask部署服务
说明:我们定义了一个get_result()函数,对应的请求是ip:port/split_words。在__main__中,我们引入了model.py的JiebaModel类,然后加载了模型,并在get_result()中调用。get_split_word_result 是调用之前 flask 启动的服务,通过requests发送post请求,请求数据编码成utf-8的格式,最后得到响应,并利用.text得到结果。为了方便起见,这里我们就使用简单的分词模型,相关代码如下:model.py。
2023-06-05 20:49:22
556
转载 python获取主机ip
是利用 UDP 协议来实现的,生成一个UDP包,把自己的 IP 放如到 UDP 协议头中,然后从UDP包中获取本机的IP。这个方法并不会真实的向外部发包,所以用抓包工具是看不到的。但是会申请一个 UDP 的端口,所以如果。在工作中,经常需要获取服务器ip,人工设置太繁琐,于是直接使用脚本自动获取。起来,性能可以获得很大提升。1、在 shell 中运行。的,这里如果需要可以。
2023-06-05 17:59:29
403
原创 linxu去除一个文件中包含另一个文件的行
1)print} 指读取第二个参数(b.txt)的内容,如果在变量 a 中的值不为1(及不在 a.txt ),那么打印出来;在工作中遇到大型文件去除相同内容,利用 python 效率较低,直接使用 linux 命令更效率,现有两个文件 a.txt。NR==FNR{a[$0]=1} 指读取第一个参数(a.txt)的内容存到变量 a 中,并赋值 1;这里使用 -v、-w、-f 三个参数。= 变为 == 即可。下面是 grep 的一些参数。下面是 awk 的一些参数。的内容,将 -v 去掉。
2023-04-24 20:48:54
410
转载 SSH连接出现错误 WARNING REMOTE HOST IDENTIFICATION HAS CHANGED
1、找到 know_hosts 位置(上图红色框就是),找到有问题的 ip(10.7.67.43)所在行删除。本文出现问题时第二个原因,重装系统导致 host key 改变。2、找到 know_hosts 位置,对所有的进行删除。2、host key 改变(一般重装系统出现)3、移除有问题的 ip key。
2023-04-23 15:06:58
907
转载 Htop在Centos7的安装
htop是Linux系统下一个基本文本模式的、交互式的进程查看器,主要用于控制台或shell中,可以替代top,或者说是top的高级版。1) 快速查看关键性能统计数据,如CPU(多核布局)、内存/交换使用;2) 可以横向或纵向滚动浏览进程列表,以查看所有的进程和完整的命令行;3) 杀掉进程时可以直接选择而不需要输入进程号;4) 通过鼠标操作条目;5) 比top启动得更快。
2023-04-17 18:07:29
3641
原创 机器翻译——mosesdecoder
1.mosesmoses是由英国爱丁堡大学、德国亚琛工业大学等8家单位联合开发的一个基于短语的统计机器翻译系统。本文主要介绍 mosesdecoder 中的 tokenizergithub地址2.安装及使用2.1 安装直接 clone 上面 githubgit clone https://github.com/moses-smt/mosesdecoder.git2.2 tokenizer 使用进入tokenizer.perl所在目录cd mosesdecoder/scripts/t
2021-11-23 09:45:51
1122
转载 去除html标签等
去除html标签等很多时候网页中采用正则或者xpath提取数据内容的方式是很好的,但是对于不确定网页内容结构,可以采用xpath提取更大范围的div,然后去除一切标签来提取数据。import re def filter_tags(htmlstr): #先过滤CDATA re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA re_script=re.compile('<\s*scri
2021-11-18 16:13:43
245
原创 机器翻译——fairseq 安装(一)
1 . Fairseq 简介Fairseq 是一个用 PyTorch 编写的序列建模工具包,它可以为翻译、摘要、语言建模和其他文本生成任务训练自定义模型。特点:多GPU训练使用多种搜索算法在 CPU 和 GPU 上快速生成在单个 GPU 上,gradient accumulation可以使用大的小批量进行训练可扩展:轻松注册新 models , criterions , tasks , optimizers and learning rate schedulers混合精度训练fu
2021-11-17 21:29:26
14840
9
原创 评价指标(一)
在倾向于 Precision的分类任务场景下,常使用 F0.5 - score,或α1\alpha<1α1的其它值;在倾向于 Recall的分类任务场景下,常使用 F2 - score,或α1\alpha>1α1的其它值;在Precision 与 Recall 同等重要的分类任务场景下,常使用 F1 - score。
2021-02-09 16:03:39
2870
原创 文本语种检测---langid
langid github源码:https://github.com/saffsd/langid.py 特点 支持97中语言滤过速度快准确率高不支持中文繁体(香港),中文繁体(台湾) 检测接口 classify rank >>> import langid...
2021-01-26 11:25:05
4484
4
转载 srilm训练语言模型
SRILM来建立语言模型: ngram-count -text ${text} -vocab ${vocab} -order 2 -sort -tolower -lm ${arpa} 官方参数说明: http://www.speec...
2020-11-06 15:35:24
858
转载 纠错——拼写纠错
1. 引言 拼写检查是一个非常底层的自然语言处理方面的任务。多用在信息检索、输入法等,其实也可以扩展到寻找同义词等相关领域。这里我们主要针对英文、中文中的拼写检查的方法,进行一个简要的概述,因为这方面是一个很热门的研究方向,所以材料很多,我们只是进行入门介绍。 2. 英文拼写纠错...
2020-10-23 16:14:05
2656
2
转载 在win10下生成github ssh key
一、引子:什么是ssh:ssh是Secure Shell(安全外壳协议)的缩写,建立在应用层和传输层基础上的安全协议。为了便于访问github,要生成ssh公钥,这样就不用每一次访问github都要输入用户名和密码。二、生成条件:请在github上先注册账号,本地安装git。三、生成步骤:1、本地成功安装了git后,打开Git Bash。2、 键入命令:ssh-keygen ...
2019-09-05 16:21:41
6255
3
转载 Few-shot Learning
原文:https://www.jianshu.com/p/a70869bb6e55【领域报告】小样本学习年度进展|VALSE2018 https://zhuanlan.zhihu.com/p/38246454零/小样本以及开集条件下的社交媒体分析 https://blog.youkuaiyun.com/XWUkefr2tnh4/article/details/79021641当小样...
2019-08-29 10:38:57
975
转载 文本聚类-LDA
原地址:https://blog.youkuaiyun.com/worryabout/article/details/79792835 ...
2019-07-17 16:00:06
1272
转载 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
https://zhuanlan.zhihu.com/p/49271699
2019-03-20 11:40:02
218
转载 NLP:命名实体识别(NER)
NLP:命名实体识别(NER)1.NER相关简介1.1概念1.2分类2.关于NER的方法(概述)2.1基于规则的方法2.1.1概念相关2.1.2优缺点2.2基于模型的方法2.2.1基于传统机器学习的方法2.2.2基于深度学习的方法(主要)1.NER相关简介1.1概念命名实体识别(Named EntitiesRecognition, NER)是自然语言处理(Natural LanguagePr...
2019-03-19 20:49:21
1647
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人