
NLP
文章平均质量分 88
NLP实战。开发实战,包括算法、软件开发与硬件结合。用算法解决问题,专攻自然语言处理、机器视觉、深度学习的落地,采用Tf、keras、caffe等框架嵌入C++、Python、Android中、全程源码开放。细致教学。
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
南七小僧
C9博士,前百度、联想技术产品总监。深入理解人工智能技术研发与应用。
展开
-
Graph Clustering和Community Detection(附代码) 图谱
关于图聚类,我们有大量的算法可以帮助我们实现。有在度量空间内聚类的,有在图上聚类的;有聚成独立的类的,有聚成overlapping的类的。实际上,在我看来,用哪个都差不多。比如我们推荐的这篇通过聚类进而有针对性发广告的论文,把node建立在Graph上是OK的,建立在度量空间里也是很平凡的;聚类的时候用Markov算法聚成独立的类,推荐的结果是好的,假如聚成有重叠的类,推荐的结果也不会差。原创 2024-09-23 19:38:49 · 339 阅读 · 0 评论 -
NLP CRF 命名实体识别
1. 实体先说什么实体吧。在NLP中通常所说的实体指的是人名、地名、机构名,在新闻领域,我们希望了解突发事件的主体,比如人物、地点、机构等等。如果扩展的话,就是你所关心的词语,比如在商品标题中,我们会关心品牌词、物品词、物品属性词,通过这些词+情感极性词,可以更详细地了解顾客的购物意愿。2. 实体识别再说怎么让机器识别这些实体吧。从识别步骤来看分为两步,第一步识别出实体词边界,也就是实体的开始位置和结束位置;第二步识别出实体的类型,也就是前边所说的人名、地名、机构名等等具体的实体类型。从识别方法原创 2021-07-18 15:25:46 · 389 阅读 · 0 评论 -
“AIIA”杯-国家电网-电力专业领域词汇挖掘
电力词汇,NER自动挖掘比赛这一堆数据,质量真的惨不认输。有点难受,我找找思路 思路:爬取各大电力相关论文的关键词,将其作为ner,与原文混合做自动化标注,把原文标注的结果,用bilstm+CRF训练...原创 2018-09-18 17:02:23 · 2390 阅读 · 17 评论 -
gamma校正定义,图像对比度调整
1 gamma校正背景 在电视和图形监视器中,显像管发生的电子束及其生成的图像亮度并不是随显像管的输入电压线性变化,电子流与输入电压相比是按照指数曲线变化的,输入电压的指数要大于电子束的指数。这说明暗区的信号要比实际情况更暗,而亮区要比实际情况更高。所以,要重现摄像机拍摄的画面,电视和监视器必须进行伽玛补偿。这种伽玛校正也可以由摄像机完成。我们对整个电视系统进行伽玛补偿的目的,是使摄像机根据...原创 2018-09-06 18:26:04 · 2939 阅读 · 0 评论 -
Apriori算法介绍(布尔关联规则 挖掘)啤酒尿不湿【数据挖掘 机器学习】
导读:随着大数据概念的火热,啤酒与尿布的故事广为人知。我们如何发现买啤酒的人往往也会买尿布这一规律?数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法可以告诉我们。本文首先对Apriori算法进行简介,而后进一步介绍相关的基本概念,之后详细的介绍Apriori算法的具体策略和步骤,最后给出Python实现代码。并附上小例子。1.Apriori算法简介Apriori算法是经典...原创 2018-09-06 09:53:23 · 3785 阅读 · 0 评论 -
【TEXT-CNN】详细解释 与 代码
1.简介TextCNN 是利用卷积神经网络对文本进行分类的算法,由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Classification” 一文 (见参考[1]) 中提出. 是2014年的算法.图1-1 参考[1] 中的论文配图合理性: 深度学习模型在计算机视觉与语音识别方面取得了卓越的成就. 在 NLP 也是...原创 2018-09-08 15:35:12 · 5344 阅读 · 3 评论 -
【NLP系列1】基于Doc2Vec的文本分类
import jieba as jbimport numpy as npimport pandas as pdfrom gensim.models.doc2vec import Doc2Vec, TaggedDocumentshixi = pd.read_table('shixi.txt')print(shixi)s = '哈哈哈哈大师赛的小康康'w = jb.cut(s)jd...原创 2018-08-30 11:26:21 · 880 阅读 · 0 评论 -
通俗的说 LDA ----Latent Dirichlet Allocation
LDA的原理:LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。什么是主题因为LDA是一种主题模型,那么...原创 2018-08-30 10:28:00 · 7413 阅读 · 0 评论 -
基于LDA的 职位描述JD 匹配
def findjd(request): print('推荐中') shixi = pd.read_table('shixi.txt', delimiter="\n") stopwords = '' with open('stopwords.txt', 'r') as f: stopwords = f.readline() jdldalis...原创 2018-08-30 10:15:55 · 458 阅读 · 0 评论 -
基于LSI的 职位描述JD 匹配
在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。1. 文本主题模型的问题特点 在数据分析中,我们经常会进行非监督学习的聚类算法,它可以对我们的特征数据进行非监督的聚类。而主题模型也是非监督的算法,目的是得到文本按照主题的概率分布。从这个方面来说,主题模型和普通的聚...原创 2018-08-29 17:20:52 · 524 阅读 · 0 评论 -
C#中的bitmap类和图像像素值获取方法
一.Bitmap类Bitmap对象封装了GDI+中的一个位图,此位图由图形图像及其属性的像素数据组成.因此Bitmap是用于处理由像素数据定义的图像的对象.该类的主要方法和属性如下:1. GetPixel方法和SetPixel方法:获取和设置一个图像的指定像素的颜色.2. PixelFormat属性:返回图像的像素格式.3. Palette属性:获取和设置图像所使用的颜色调色板....原创 2018-08-31 17:27:31 · 2049 阅读 · 0 评论