
自然语言处理
文章平均质量分 92
yang_live
这个作者很懒,什么都没留下…
展开
-
条件随机场
1 条件随机场概述;条件随机场CRF是自然语言处理的基础模型,广泛应用于中文分词、命名实体识别、词性标注等标注场景。1.1 条件随机场场景假设有一系列照片,我们要去给打标签,在吃饭或是在跑步等等,一张照片上只有张着的嘴巴,他可能是在吃饭也可能是在唱歌,这时候单单依靠照片本身的信息,不足以准确的判断照片中的人的行为。但是如果把这些照片按照时间的顺序来排列起来,它的前一张照片是在吃饭,那有极大的可能这张嘴也是在吃饭。将每一个行为都看成一个随机场,如果找到当前行为前后的行为,有助于当前时刻行为分类,这就是条原创 2020-10-12 15:30:37 · 1788 阅读 · 0 评论 -
信息提取
信息提取信息抽取的定义为:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取。信息抽取主要包含以下几个关键内容。指代消解;指代消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是原创 2020-10-12 15:30:21 · 1709 阅读 · 0 评论 -
一些python代码
python读取json文件import jsonpath=r'path'with open(path,"r",encoding='utf-8') as f: json_data = json.load(fp) print("数据类型",type(json_data)) print('json数据:',json_data)))原创 2020-09-14 14:54:35 · 176 阅读 · 0 评论 -
Sinhash文档排重
Simhash理论simhash是一种能计算文档相似度的hash算法。通过simhash能将一篇文章映射成64bit,再比较两篇文章的64bit的海明距离,就能知道文章的相似程序。若两篇文章的海明距离<=3,可认为这两篇文章很相近,可认为它们是重复的文章。Simhash的算法简单的来说就是,从海量文本中快速搜索和已知simhash相差小于k位的simhash集合,这里每个文本都可以用一个simhash值来代表,一个simhash有64bit,相似的文本,64bit也相似,论文中k的经验值为3。该原创 2020-06-19 09:26:35 · 311 阅读 · 0 评论 -
【lecuure1】深度学习和自然语言处理课
1.语言层次输入:语音输入:音位分析单词结构分析句法分析语义理解一些还涉及到篇章分析原创 2020-03-24 22:47:51 · 148 阅读 · 0 评论 -
文本相似度计算:Jaccard系数,余弦相似度等
基础知识文本相似度计算是把文本投影到向量空间,文本的相似度是把文本投影到向量空间,用向量相似度来表示语义相似度,通过比较计算向量的空间距离来比较文本的相似度。Jaccard系数Jaccard系数是计算两个集合重合度的常用方法:两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的Jaccard系数,用符号 J(A,B) 表示。Jaccard系数是衡量两个集合相似度的一种指标,...原创 2020-03-24 22:41:58 · 10322 阅读 · 0 评论 -
基于传统计算机视觉特征的图片分类
1 理论知识1.1 局部特征SIFT特点:多量性;支持视角变换,仿射变换,对噪声处理效果好。基本思想:Step1:找关键点用DOG(高斯差分)代替LOG(高斯微分)①用两个不同尺度的高斯核滤波得到的图片相减,可得到边缘。②构建高斯金字塔:金字塔的每一层:用不同参数做高斯模糊,得到多组图片。层与层之间:下层降采样得到上层,每一层包含了不同尺度特征。下层包含细节特征,上层包含大的...原创 2020-03-19 09:55:11 · 1284 阅读 · 2 评论 -
网页爬虫:爬取百度咨询新闻
1.获取网页源码工具:import urllib.requesturllib.request库可以模拟浏览器发送网页请求并获取request的结果。以科技类新闻为例,拟爬取这样一篇文章。首先,发送请求html = "https://baijiahao.baidu.com/s?id=1654779534169792316&wfr=spider&for=pc"requ...原创 2020-03-19 09:54:45 · 2142 阅读 · 0 评论 -
P2-计算编辑距离
编辑距离定义:给定两个字符串,两者的编辑距离是将S1转化成S2的最小操作数。如:cat和dog的编辑距离是3.编辑距离算法:实验过程初始化一个二维数组,设置str1长度为行长度,str2长度为列长度。(伪代码第一行)matrix = [[0 for i in range(len(str2) + 1)] for j in range(len(str1) + 1)]初始化矩阵...原创 2020-03-24 19:27:59 · 242 阅读 · 0 评论 -
论文阅读:基于多模态词向量的语句距离计算方法
论文信息文章来源:cnki.net添加链接描述文章类别,发表时间华阳. 基于多模态词向量的语句距离计算方法[D].哈尔滨工业大学,2018.摘要原创 2020-02-18 08:19:18 · 901 阅读 · 0 评论 -
SVM文本分类
一.理论方法介绍SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,可以用来进行分类研究。二. 实验过程1.数据处理实验语料为三个类型的文档。分别是:从百度新闻搜集的奥运会报道10篇,从延边大学研究生院官网搜集的研究生通知10篇,从微信公众号搜集的机器学习类文章30篇。主要思路:1.加载实验数据:(3个类...原创 2019-12-28 18:54:43 · 6094 阅读 · 1 评论 -
KNN分类算法
一.理论方法介绍什么是K近邻K最近邻算法是一种监督学习算法。K最近邻指的是:每个样本都可以由离它最近的K个邻居来代表。KNN和SVM算法都是一种距离测度进行分类的算法。思路是:物以类聚。如果样本周围的K个样本都属于某一类,那么样本也应该属于同一类别。K近邻中所选择的邻居都是已经正确分类的对象。因此,KNN的分类结果只取决于和他临近的几个样本的类别。K的选择结果不同会直接影响到分类结果,以...原创 2019-12-21 23:19:42 · 2900 阅读 · 0 评论