- 博客(29)
- 收藏
- 关注
原创 Centos7修改系统默认启动项
查看/boot/grub2/grub.cfg里面的系统启动项方法一:查看当前系统默认启动项grub2-editenv list设置默认启动项grub2-set-default "CentOS Linux (3.10.0-957.el7.x86_64) 7 (Core)"检查当前系统默认启动项grub2-editenv list方法二:编辑/etc/default/grub注释GRUB_DEFAULT=saved,设置GRUB_DEFAULT="CentOS Lin
2022-02-21 14:37:59
3811
原创 机器阅读理解学习笔记
================================================================================================ACL 2018:Simple and Effective Multi-Paragraph Reading Comprehension=========================================================================================
2021-10-16 15:19:36
751
原创 文本分类学习笔记
1 文本分类概述1.1 简介文本分类。3 论文笔记================================================================================================ACL 2017:Bag of Tricks for Efficient Text Classification==================================================================.
2021-10-05 15:48:00
478
原创 词性标注学习笔记
1 词性标注概述1.1 简介词性(Par-Of-Speech,Pos)是词汇基本的语法属性,通常也称为词类。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。1.2 难点1)汉语是一种缺乏词形态变化的语言,词的类别不能像印欧语那样,直接从词的形态变化上来判别。2)常用词兼类现象严重,具有多个词性的兼类词的占比高达22.5%。而且越是常用的词,多词性的现象越严重。3)词性划分标准不统一。词类划分粒度和标记符号等,目前还没有一个广泛认可的统一的标准。比如LDC标注
2021-09-17 16:56:01
2532
原创 开放领域问答学习笔记
1 开放领域问答概述1.1 简介开放领域问答(Open-domain question answer, QA),即使用大量不同主题的文档来回答问题,是自然语言处理(NLP)、信息检索(IR)和相关领域长期研究的主题。传统的QA系统通常构建为一个pipeline,由许多不同的组件组成,如问题处理、文档/文章检索和答案处理。随着深度学习的快速发展,现代开放域QA系统通过结合传统IR技术和深度学习模型重构,甚至完全以端到端方式实现。1.2技术方案当前开放域问答的技术方案可以主要分为三大类:..
2021-08-31 18:22:38
3442
原创 命名实体识别学习笔记
================================================================================================ACL 2017:Fast and Accurate Entity Recognition with Iterated Dilated Convolutions=============================================================================
2021-08-14 10:48:23
2103
原创 对话状态跟踪学习笔记
================================================================================================ACL 2019:Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems=======================================================================
2021-01-30 15:37:14
4555
原创 实体关系抽取学习笔记
1 关系抽取概述1.1 简介关系抽取可分为全局关系抽取与提及关系抽取。全局关系抽取基于一个很大的语料库,抽取其中所有关系对,而提及关系抽取,则是判断一句话中,一个实体对是否存在关系,存在哪种关系的工作。常见的关系抽取结果可以用SPO结构的三元组来表示,即 (Subject, Predication, Object),如:中国的首都是北京 ==> (中国, 首都, 北京)关系抽取的分类:是否有确定的关系集合:限定关系抽取:事先确定好所有需要抽取的关系集合,则可讲关系抽取看作是一中
2020-12-08 18:26:13
4347
原创 中文分词学习笔记
1 中文分词概述1.1 简介定义通过计算机自动识别出句子中的词,在词间加入边界标记符,分隔出各个词汇。为什么需要中文分词?因为,汉语中,书面上以字为基本单位,语义上以词为基本单位。难点1)没有统一的分词标准,不同的领域对于词的划分方式有不同的标准。2)歧义消解 例子1:结婚的和尚未结婚的 结婚/的/和/尚未/结婚/的 结婚/的/和尚/未/结婚/的 例子2:研究生命的起源 研究/生命/的/起源 研究生/命/的/起源 ...
2020-10-24 17:10:05
1771
1
原创 centos调整home分区空间至root分区
方案:将/home目录压缩一部分空间到/1、备份/home目录下文件tar -czvf /root/home.tgz -C /home .2、测试备份文件test the backup3、解除/home挂载umount /dev/mapper/centos-home有可能有target is busy错误,使用umount -l /dev/mapper/centos-home4、删除逻辑分区remove the home logical volume有
2020-06-15 10:07:29
1810
原创 NLP文本输出评价方法
BLEU:找出输出句子与参考句子之间的 n 元语法重叠部分并对(比参考句子)更短的输出句子施以惩罚的评价方法NIST:它基于 n 元语法的稀缺性对其进行加权。这就意味着对某个稀缺 n 元语法的正确匹配能提高的分数,要多于对某个常见的 n 元语法的正确匹配。(http://www.mt-archive.info/HLT-2002-Doddington.pdf)ROUGE:它对 BLEU 进行...
2020-01-21 16:01:54
1394
原创 自然语言处理著会议和期刊
国际会议ACL、EMNLP、NAACL和COLING可以说是 NLP 领域的四大顶会。其中 ACL、EMNLP、NAACL都是一家的(均由 ACL 举办)。ACL 是CCF推荐A类国际学术会议,EMNLP 和 COLING 是B类,NAACL 则是C类。ACLhttps://www.aclweb.org/portalACL全称The Association for C...
2019-08-13 22:37:28
2755
转载 真正理解拉格朗日乘子法和 KKT 条件
这篇博文中直观上讲解了拉格朗日乘子法和 KKT 条件,对偶问题等内容。首先从无约束的优化问题讲起,一般就是要使一个表达式取到最小值:。如果问题是max f(x)也可以通过取反转化为求最小值min −f(x),这个是一个习惯。对于这类问题在高中就学过怎么做。只要对它的每一个变量求导,然后让偏导为零,解方程组就行了。所以在极值点处一定满足(只是必要条件,比如在x=0处就不是极值点),然后...
2019-07-17 17:47:42
898
转载 拉格朗日乘子法和KKT条件
1 无约束优化对于无约束优化问题中,如果一个函数f是凸函数,那么可以直接通过f(x)的梯度等于0来求得全局极小值点。为了避免陷入局部最优,人们尽可能使用凸函数作为优化问题的目标函数。凸集定义:欧式空间中,对于集合中的任意两点的连线,连线上任意一点都在集合中,我们就说这个集合是凸集。凸函数定义:对于任意属于[0,1]的a和任意属于凸集的两点x, y,有f( ax + (1-a)y ...
2019-07-17 15:00:11
323
转载 ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。ROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,recall,F-score,以及我们今天要讨论的ROC和AUC。下图是一个ROC曲线的示例。正如我们在这个...
2019-07-15 11:18:30
251
转载 XLNet:运行机制及和Bert的异同比较
大数据文摘授权转载自张俊林知乎专栏作者:张俊林这两天,XLNet貌似也引起了NLP圈的极大关注,从实验数据看,在某些场景下,确实XLNet相对Bert有很大幅度的提升。就像我们之前说的,感觉Bert打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,而XLNet就是其中比较引人注目的一位。当然,我估计很快我们会看到更多的这个模式下的新工作。未来两年,在两阶段新模式(预训练+...
2019-06-25 14:14:52
1145
转载 深度学习中的注意力机制
深度学习中的注意力机制作者 | 张俊林 责编 | 何永灿最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。本文以机器翻译为例,深入浅出地介绍了深度学习中注意力机制的原理及关键计算机制,同时也抽象出其本质思想,并介绍了注意力模...
2019-06-18 10:56:35
150
原创 Centos7安装Python3
首先安装依赖包sudo yum -y groupinstall "Development tools"sudo yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel x...
2018-03-06 14:34:05
476
转载 Centos7部署Tensorflow Serving
sudo su# Javayum -y install java-1.8.0-openjdk-devel# Build Esentials (minimal)yum -y install gcc gcc-c++ kernel-devel make automake autoconf swig git unzip libtool binutils# Ext
2017-06-23 10:14:41
3308
原创 Ubuntu搭建Scikit-Learn、TensorFlow、Theano、Caffe、OpenCV、Hadoop、Spark开发环境
Ubuntu搭建Scikit-Learn、TensorFlow、Theano、Caffe、OpenCV、Hadoop、Spark开发环境
2016-07-18 09:03:56
1256
转载 Windows通过VNC连接Ubuntu
1、设置Ubuntu系统允许远程控制在 Dash 中打开 桌面共享2.运行dconf-editor,把加密选项去掉。ubuntu:~$ sudo apt-get install dconf-editor //安装dconf-editorubuntu:~$ dconf-editor //运行dconf-edi
2016-07-14 10:28:58
642
原创 机器学习练习平台
Kaggle https://www.kaggle.comDataCastle http://www.pkbigdata.com/阿里巴巴—天池 http://tianchi.aliyun.com
2015-09-14 14:43:40
828
原创 机器学习数据源
UCI Machine Learning Repositoryhttps://archive.ics.uci.edu/ml/datasets.htmlAmazon Public DataSethttp://aws.amazon.com/cn/public-data-sets/U.S. Government’s Open Datahttp://www.data.gov/
2015-08-18 14:59:50
647
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人