
自然语言处理
柚芷
这个作者很懒,什么都没留下…
展开
-
python读写XML(20201217)
XML指可扩展标记语言(eXtensibleMarkupLanguage),被设计用来传输和存储数据。python中有三个模块解析xml文件:DOM, ElementTree,SAX。三个工具包1、DOM(Document Object Model)DOM是个跨平台的标准模型,W3C定义了DOM模型里的概念。DOM将XML数据在内存中解析成一个树,通过对树的操作来操作XML。python的xml.dom.minimom模块实现了DOM1.1 DOM写入xml文件DOM写入x...原创 2020-12-17 21:09:55 · 1534 阅读 · 0 评论 -
Keras(五)——指定显卡且限制显存用量(GPU/CPU使用)
Keras在使用GPU时有个特点,就是默认全部占满显存。参考:https://cloud.tencent.com/developer/article/1434932原创 2020-12-15 21:54:45 · 439 阅读 · 0 评论 -
中文分词及词频统计
问题背景最近在一个比赛里划水,需要完成一些词频统计的工作。以及实验室任务还需要做一个短语挖掘和分词的任务,所以针对此来做一些实践。很多东西不记住下次用就不会了,所以还是小小的记录一下,方便之后拿出来用。基本工具结巴分词stanford nlp参考资料中文分词方法和软件工具汇总笔记:https://zhuanlan.zhihu.com/p/86322679自然语言处理NLP知识和产品的笔记: https://zhuanlan.zhihu.com/p/85...原创 2020-11-26 19:25:57 · 2351 阅读 · 1 评论 -
Numpy常用总结(20201214)
1、np.argmax()import numpy as npa = np.array([[2.5404317e-03,1.1229481e-01, 1.9477041e-03, 4.1146163e-04, 1.3162383e-04, 1.2035034e-01, 2.4439844e-03, 7.2189087e-01, 3.7895240e-02, 9.3566909e-05],[9.2819709e-01, 1.3503281e-02, 3.8306025e-05, 1.103...原创 2020-11-25 15:20:05 · 141 阅读 · 0 评论 -
零次学习 Zero-Shot Learning(20201125)
CCF2020大数据与计算智能大赛——面向数据安全治理的数据内容智能发现与分级分类# 在比赛即将结束的时候进入。然后。。就是很菜。Zero-Shot Learning目前流行的zero-shot方案有两种:(1)人工专家未知标签的类中心定义,再进行向量化;(2)海量的数据集自动学习未知类中心向量。其中(1)更加准确,效果更好,但是更加麻烦。在不能使用外部数据的情况下,也不能人工写某些概念性的东西,所以直接采用Zero-Shot方案难度较大。可以尝试使用远程监督的方法是。在原创 2020-11-24 22:47:26 · 778 阅读 · 2 评论 -
自监督学习(self-supervised learning)(20201124)
看论文总是会看出来一堆堆奇奇怪怪的名词。从远程监督、有监督、半监督、无监督开始,最近又看到了一个自监督。首先先对上面的概念进行简述:半监督(semi-supervised learning):利用好大量无标注数据和少量有标注数据进行监督学习;远程监督(distant-supervised learning):利用知识库对未标注数据进行标注;无监督:不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务。自监督:利用辅助任务从无监督的数据中挖掘大量自身的信息。原创 2020-11-24 10:30:28 · 20053 阅读 · 3 评论 -
Ltp介绍及实践(20200925)
Ltp中源代码和模型包括:中文分词、词性标注、未登录词识别、依存句法、语义角色标注几个模块。目录1、标注集合分词标注集词性标注集命名实体识别标注集依存句法关系语义角色类型1、标注集合分词标注集 标记 含义 举例 B 词首 __中__国 I 词中 哈__工__大 E原创 2020-09-25 10:02:56 · 4724 阅读 · 6 评论 -
Keras(一)——常用功能总结(20200915)
1、kr.preprocessing.sequence.pad_sequences(转化为相同序列长度)为了实现的简便,keras只能接受长度相同的序列输入。因此如果目前序列长度参差不齐,这时需要使用pad_sequences()。该函数是将序列转化为经过填充以后的一个长度相同的新序列新序列。 官方语法: keras.preprocessing.sequence.pad_sequences(sequences, maxlen=None, dtype='int32', padding=原创 2020-09-11 11:03:02 · 1458 阅读 · 0 评论 -
生成式 判别式
序监督学习可分为生成式模型和判别式模型。生成式模型生成式模型学习到的是数据的联合概率分布P(X, Y),进而根据联合概率分布与边缘分布的关系求出条件概率分布,这个条件概率模型就是我们最终的预测模型:典型的生成模型: 朴素贝叶斯法、隐马尔科夫模型、混合高斯模型 特点 生成式方法可以还原联合概率分布P(X,Y),而判别式不能;生成式的收敛速度较快;当存在隐变量时,仍可用生成式模型进行学习。判别式模型判别式模型是根据数据直接学习出一个决策函数f(X)或是一个条件概率分布P(Y.转载 2020-09-10 13:03:49 · 274 阅读 · 0 评论 -
Anaconda使用汇总——20200106
时常更新……这个好像总结的不错:https://blog.youkuaiyun.com/u012343179/article/details/76146815linux&&windows1、创建环境conda create -n xxx python=3.62、进入环境win: activate xxxubuntu: source act...原创 2019-11-19 21:09:37 · 200 阅读 · 0 评论 -
Win10下安装tensorflow,scikit-learn
1、参考:https://blog.youkuaiyun.com/u010858605/article/details/641284662、参考:https://www.jianshu.com/p/26ab6c22051e原创 2019-03-28 21:10:14 · 258 阅读 · 0 评论 -
《数学之美》——快速阅读·第二章·自然语言处理(摘录、分享)
第二章 自然语言处理——从规则到统计 自然语言从产生开始,逐渐演变成一种上下文相关的信息表达和传递的方式,因此让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关的特性建立数学模型。 1、机器智能图灵测试:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。 自然语言发展的两个阶段 :1、用电脑模拟人脑;2、基于数学模型和统...原创 2018-09-20 21:53:34 · 799 阅读 · 0 评论 -
《数学之美》——快速阅读·第一章·文字和语言 vs 数字和信息(摘录)
第一章 文字和语言 vs 数字和信息 数字、文字和自然语言一样,都是信息的载体,它们之间本有着天然的联系。 语言和数学的产生都为了同一个目的——记录和传播信息。 语言的出现是为了人类之间的通信。字母、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码方式,而语言的语法规则是编解码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方...原创 2018-09-19 15:38:44 · 521 阅读 · 0 评论