yc_starlight-优快云博客

多进程服务（Multi-Process Scheduling）是 CUDA 应用程序编程接口（API）的替代二进制兼容实现。从 Kepler 的 GP10 架构开始，NVIDIA就引入了（基于软件的多进程服务），这种技术在当时实际上是称为，允许多个流（stream）或者 CPU 的进程同时向 GPU 发射 Kernel 函数，结合为一个单一应用程序的上下文在 GPU 上运行，从而实现更好的 GPU 利用率。在单个进程的任务处理，对 GPU 利用率不高的情况下是非常有用的。

2023-08-31 12:04:35 3394 1

原创修改Linux时区

如果安装系统时没有设置时区，系统将使用默认UTC时区。在Linux上，有两种方式修改时区，分别为 timedatectl 修改和软连接修改。

2023-08-30 16:17:27 13153

原创机器翻译评测---multi-bleu

在机器翻译中，经常使用中的 mosesdecoder/scripts/generic/multi-bleu.perl 来评测模型的 bleu，只关注最后的bleu得分，而忽略计算过程。

2023-08-02 20:57:15 564

转载 flask部署服务

说明：我们定义了一个get_result()函数，对应的请求是ip:port/split_words。在__main__中，我们引入了model.py的JiebaModel类，然后加载了模型，并在get_result()中调用。get_split_word_result 是调用之前 flask 启动的服务，通过requests发送post请求，请求数据编码成utf-8的格式，最后得到响应，并利用.text得到结果。为了方便起见，这里我们就使用简单的分词模型，相关代码如下：model.py。

2023-06-05 20:49:22 696

转载 python获取主机ip

是利用 UDP 协议来实现的，生成一个UDP包，把自己的 IP 放如到 UDP 协议头中，然后从UDP包中获取本机的IP。这个方法并不会真实的向外部发包，所以用抓包工具是看不到的。但是会申请一个 UDP 的端口，所以如果。在工作中，经常需要获取服务器ip，人工设置太繁琐，于是直接使用脚本自动获取。起来，性能可以获得很大提升。1、在 shell 中运行。的，这里如果需要可以。

2023-06-05 17:59:29 456

原创 linxu去除一个文件中包含另一个文件的行

1)print} 指读取第二个参数（b.txt）的内容，如果在变量 a 中的值不为1（及不在 a.txt ），那么打印出来；在工作中遇到大型文件去除相同内容，利用 python 效率较低，直接使用 linux 命令更效率，现有两个文件 a.txt。NR==FNR{a[$0]=1} 指读取第一个参数（a.txt）的内容存到变量 a 中，并赋值 1；这里使用 -v、-w、-f 三个参数。= 变为 == 即可。下面是 grep 的一些参数。下面是 awk 的一些参数。的内容，将 -v 去掉。

2023-04-24 20:48:54 497

原创 python实现txt与docx互转

需要安装 python 的 docx 库。

2023-04-23 16:14:19 977

转载 SSH连接出现错误 WARNING REMOTE HOST IDENTIFICATION HAS CHANGED

1、找到 know_hosts 位置（上图红色框就是），找到有问题的 ip（10.7.67.43）所在行删除。本文出现问题时第二个原因，重装系统导致 host key 改变。2、找到 know_hosts 位置，对所有的进行删除。2、host key 改变（一般重装系统出现）3、移除有问题的 ip key。

2023-04-23 15:06:58 967

转载 Htop在Centos7的安装

htop是Linux系统下一个基本文本模式的、交互式的进程查看器，主要用于控制台或shell中，可以替代top，或者说是top的高级版。1) 快速查看关键性能统计数据，如CPU（多核布局）、内存/交换使用；2) 可以横向或纵向滚动浏览进程列表，以查看所有的进程和完整的命令行；3) 杀掉进程时可以直接选择而不需要输入进程号；4) 通过鼠标操作条目；5) 比top启动得更快。

2023-04-17 18:07:29 4026

原创各国语言代码

在翻译工作中，经常遇到不同国家的语言代码，这里收集了一些以便日后查阅维基百科

2023-04-07 16:48:11 1587 3

原创机器翻译——mosesdecoder

1.mosesmoses是由英国爱丁堡大学、德国亚琛工业大学等8家单位联合开发的一个基于短语的统计机器翻译系统。本文主要介绍 mosesdecoder 中的 tokenizergithub地址2.安装及使用2.1 安装直接 clone 上面 githubgit clone https://github.com/moses-smt/mosesdecoder.git2.2 tokenizer 使用进入tokenizer.perl所在目录cd mosesdecoder/scripts/t

2021-11-23 09:45:51 1173

转载去除html标签等

去除html标签等很多时候网页中采用正则或者xpath提取数据内容的方式是很好的，但是对于不确定网页内容结构，可以采用xpath提取更大范围的div，然后去除一切标签来提取数据。import re def filter_tags(htmlstr): #先过滤CDATA re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA re_script=re.compile('<\s*scri

2021-11-18 16:13:43 305

原创机器翻译——fairseq 安装（一）

1 . Fairseq 简介Fairseq 是一个用 PyTorch 编写的序列建模工具包，它可以为翻译、摘要、语言建模和其他文本生成任务训练自定义模型。特点：多GPU训练使用多种搜索算法在 CPU 和 GPU 上快速生成在单个 GPU 上，gradient accumulation可以使用大的小批量进行训练可扩展：轻松注册新 models , criterions , tasks , optimizers and learning rate schedulers混合精度训练fu

2021-11-17 21:29:26 15396 9

原创评价指标（一）

在倾向于 Precision的分类任务场景下，常使用 F0.5 - score，或α1\alpha<1α1的其它值；在倾向于 Recall的分类任务场景下，常使用 F2 - score，或α1\alpha>1α1的其它值；在Precision 与 Recall 同等重要的分类任务场景下，常使用 F1 - score。

2021-02-09 16:03:39 3344

原创文本语种检测---langid

langid github源码：https://github.com/saffsd/langid.py 特点支持97中语言滤过速度快准确率高不支持中文繁体(香港)，中文繁体（台湾）检测接口 classify rank >>> import langid...

2021-01-26 11:25:05 4775 4

转载 srilm训练语言模型

SRILM来建立语言模型： ngram-count -text ${text} -vocab ${vocab} -order 2 -sort -tolower -lm ${arpa} 官方参数说明： http://www.speec...

2020-11-06 15:35:24 911

转载纠错——拼写纠错

1. 引言拼写检查是一个非常底层的自然语言处理方面的任务。多用在信息检索、输入法等，其实也可以扩展到寻找同义词等相关领域。这里我们主要针对英文、中文中的拼写检查的方法，进行一个简要的概述，因为这方面是一个很热门的研究方向，所以材料很多，我们只是进行入门介绍。 2. 英文拼写纠错...

2020-10-23 16:14:05 3735 2

转载在win10下生成github ssh key

一、引子：什么是ssh：ssh是Secure Shell（安全外壳协议）的缩写，建立在应用层和传输层基础上的安全协议。为了便于访问github，要生成ssh公钥，这样就不用每一次访问github都要输入用户名和密码。二、生成条件：请在github上先注册账号，本地安装git。三、生成步骤：1、本地成功安装了git后，打开Git Bash。2、键入命令：ssh-keygen ...

2019-09-05 16:21:41 6316 3

转载在win10上安装git

2019-09-05 15:57:33 388

转载 Few-shot Learning

原文：https://www.jianshu.com/p/a70869bb6e55【领域报告】小样本学习年度进展|VALSE2018 https://zhuanlan.zhihu.com/p/38246454零/小样本以及开集条件下的社交媒体分析 https://blog.youkuaiyun.com/XWUkefr2tnh4/article/details/79021641当小样...

2019-08-29 10:38:57 1017

转载文本聚类-LDA

原地址：https://blog.youkuaiyun.com/worryabout/article/details/79792835 ...

2019-07-17 16:00:06 1313

转载从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

https://zhuanlan.zhihu.com/p/49271699

2019-03-20 11:40:02 250

转载 NLP:命名实体识别（NER）

NLP:命名实体识别（NER）1.NER相关简介1.1概念1.2分类2.关于NER的方法（概述）2.1基于规则的方法2.1.1概念相关2.1.2优缺点2.2基于模型的方法2.2.1基于传统机器学习的方法2.2.2基于深度学习的方法（主要）1.NER相关简介1.1概念命名实体识别(Named EntitiesRecognition, NER)是自然语言处理(Natural LanguagePr...

2019-03-19 20:49:21 1770

yc星光

原创 nvidia显卡型号规格

转载 NVIDIA MPS总结