艾文教编程
BAT资深算法专家
展开
-
知识图谱实战(04):基于知识图谱的搜索引擎系统
一、项目介绍适用人群知识图谱工程师、NLP工程师、搜索工程师,希望进入人工智能领域的同学你将会学到您将系统学习整个知识图谱框架体系、落地方法、互联网各行业场景下应用、工业界项目落地实战,深入看看互联网行业知识图谱的应用。掌握知识图谱领域知识点掌握知识图谱互联网大厂应用领域及其效果分析掌握图数据neo4j使用及其应用案例熟练使用neo4j构建知识图谱模型掌握知识图谱中NLP工业界常见的实现方法深度熟练掌握知识图谱在搜索系统工业界应用课程简介。原创 2023-04-07 00:33:04 · 1238 阅读 · 1 评论 -
知识图谱实战(03):python操作neo4j实战
Neo4j 提供了一个Python版本的驱动包,用来连接Neo4j数据库,从而完成图数据库的增删改查操作。1、安装指定版本的驱动包(我们这里采用Neo4.x版本,同neo4j安装包保持一致即可)《艾文教编程》Python操作Neo4j例子(py2neo版本).ipynb。Python操作Neo4j例子(py2neo版本).ipynb。Python操作Neo4j例子(py2neo版本)Python操作Neo4j例子(官方版本)Python操作neo4j图数据库代码实战。neo4j 版本查看(ipython)原创 2023-04-07 00:30:11 · 2500 阅读 · 0 评论 -
知识图谱实战(02):什么是图数据库
支持在线导入,速度在10万/秒级别,支持格式丰富:CSV、TXT、Json,支持从HDFS导入并兼任其各类压缩格式,支持从传统关系型数据库导入,包括MySQL、Oracle、PostgreSQL、SQL-Server等,支持从消息队列导入。作为图数据库的底层应用,知识图谱可为多种行业提供服务,应用场景涉及电商、金融、法律、医疗、智能家居等多个领域决策系统、推荐系统、智能问答等。支持二级索引、范围索引、联合索引、全文索引,允许精确匹配查询、范围查询、全文检索等,均为原生实现不依赖第三方系统,不支持空间检索。原创 2023-04-07 00:25:37 · 498 阅读 · 0 评论 -
知识图谱实战(01):从0-1搭建图片服务器
在实际开发中,我们会有很多处理不同功能的服务器1、 应用服务器:负责部署我们的应用2、数据库服务器:运行我们的数据库3、文件服务器:负责存储用户上传文件的服务器(例如:图片/js/css等静态资源)1、图片服务器专门为图片读写操作优化的独立服务器。2、Web 服务器通过 Web 服务器,用户可以访问静态网页、Web应用程序、数据库,或者上传下载图片以及其他多媒体内容。服务器中分离出来。3、图片服务器和Web服务器分离如果网站存在大量图片读写操作,把图片服务分离出来,建立独立的图片服务器。原创 2023-02-07 12:02:07 · 1105 阅读 · 1 评论 -
自然语言处理(NLP):08-04 使用Tensorboard在 PyTorch 中进行可视化
tensorboard是tensorflow内置的一个可视化工具,它通过将tensorflow程序输出的日志文件的信息可视化使得tensorflow程序的理解、调试和优化更加简单高效原创 2020-09-06 20:45:17 · 1472 阅读 · 0 评论 -
自然语言处理(NLP):08-05 TextCNN短文本分类案例分享
文章目录数据预处理基于所有数据构建词典文本离散化处理文本数据集切分自定义DatasetDataLoader批量加载构建词向量词向量可视化gensim工具加载词向量模型词向量应用词向量转换 可视化表示构建领域的词向量词向量验证模型训练模型结构训练方法定义import warningswarnings.filterwarnings('ignore')import jiebafrom data_processing import load_datafrom collections import Coun原创 2020-09-06 21:01:10 · 2252 阅读 · 0 评论 -
自然语言处理(NLP):08-03 词向量word2vec
预训练词向量 Word+Character 300d下载地址: https://github.com/Embedding/Chinese-Word-Vectorsgensim是一个方便的nlp工具词向量词向量获取获取某个词向量和句子的向量相似文本的比较word2vec 词向量导入词向量gensim导入词向量需要词向量文件的首行是:所有的单词数 词向量的维度import gensimPRE_WORD_VECTOR = '../data/news/sgns.sogou.char'm原创 2020-09-06 20:42:03 · 1380 阅读 · 1 评论 -
自然语言处理(NLP):08-02 CNN文本分类论文讲解及TextCNN原理
卷积神经网络的核心思想是捕捉局部特征,对于文本来说,局部特征就是由若干单词组成的滑动窗口,类似于N-gram。卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息原创 2020-09-06 20:36:54 · 2468 阅读 · 0 评论 -
自然语言处理(NLP):08-01 数据分析和文本分类效果对比
文章目录导入库数据加载数据预处理统计指标数据分布统计每种标签数据分布字符长度可视化统计文本分词长度分析文本 词云可视化文本分类深度学习模型介绍模型对比:性能和得分总结总结导入库import pandas as pdimport jieba数据加载ROOT_PATH = '../data/news/'LABEL_PATH = os.path.join(ROOT_PATH,'class.txt')DAT_PATH = os.path.join(ROOT_PATH,'data.txt')pri原创 2020-09-06 20:28:51 · 1368 阅读 · 1 评论 -
自然语言处理(NLP):24基于文本语义的智能问答系统
本文分享主题:Faiss和bert提供的模型实现了一个中文问答系统。旨在提供一个用Faiss结合各种AI模型实现语义相似度匹配的解决方案。原创 2020-08-05 20:13:52 · 16010 阅读 · 3 评论 -
自然语言处理(NLP):23 Word2Vec词向量研究以及实践
本文主要同大家分享word2vec原理以及应用,通过文本相似度和新闻文本分类为案例进行展开,最后对词向量技术发展进行简述。原创 2020-07-14 11:22:59 · 5978 阅读 · 1 评论 -
自然语言处理(NLP):21 音乐领域NLP比赛-语义理解NER应用(小数据集BERT快速验证)
专注于文本分类、关键词抽取、文本摘要、FQA问答系统、对话系统语义理解NLU、知识图谱等。结合工业界具体案例和学术界最新研究成果实现NLP技术场景落地。本文主要分析NER 在小规模数据集下BERT上快速验证,关于完成的意图识别和槽位抽取将在后续博客中总结分享。 博客:https://wenjie.blog.youkuaiyun.com/作者:走在前方主要内容任务描述介绍领域意图识别判断槽位填充数据预处理预料中有多种标签,我们重点关注 singer,songer 标签进行实验数.原创 2020-06-16 14:58:01 · 1900 阅读 · 4 评论 -
自然语言处理(NLP):22 BERT中文命名实体识别
本文主要通过不同的数据集来进行 NER 模型验证验证,以及指定一些通过训练 NER 任务的一套标准,通过两条路线进行分析和总结。(1)工业界场景-> 学术界 NER 论文-> BERT 实现 NER 方案以及源码分析(2)预料数据-> 业务数据可视化分析-> 标准数据格式转换-> 模型训练-> 在线预测-> 序列标准任务优化和拓展作者:走在前方博客:https://wenjie.blog.youkuaiyun.com/专注于文本分类、关键词抽取、文本摘要、FQA .原创 2020-06-16 15:25:36 · 5200 阅读 · 0 评论 -
自然语言处理(NLP):15 图解attention计算过程(02)
seq2seq框架和attention 在机器翻译中应用,我们图解Attention 计算过程,进一步了解Attention 是如何运行的原创 2020-06-16 14:05:07 · 1677 阅读 · 1 评论 -
自然语言处理(NLP):20 基于知识图谱的智能问答系统
基于知识图谱的问答系统答即根据一个问题,抽出一条三元组,生成类 sql 语句,知识图谱查询返回答案。本文是基于知识图谱的问答系统,通过 BERT+CRF 做命名实体识别和句子相似度比较,最后实现线上的部署。原创 2020-06-10 15:26:42 · 19437 阅读 · 7 评论 -
自然语言处理(NLP):19 金融领域NLP竞赛——文本语义相似度
智能客服的本质,就是充分理解用户的意图,在知识体系中精准地找到与之相匹配的内容,回答用户问题或提供解决方案。问题相似度计算,是贯穿智能客服离线、在线和运营等几乎所有环节最核心的技术,广泛应用于搜索、推荐、对话等领域。原创 2020-06-10 14:56:46 · 4972 阅读 · 0 评论 -
自然语言处理(NLP):18 基于规则医药领域知识图谱
本文为了快速搭建一个垂直领域的知识图谱,实体抽取+实体关系暂采用规则处理,这里仅仅提供一种创建知识图谱的一种思路。后续给大家分享基于模型的知识图谱的问答。原创 2020-06-04 21:45:23 · 2830 阅读 · 0 评论 -
自然语言处理(NLP):17 Transformer模型解读
NLP 领域的模型研究已经被 transformer 模型占领了,学习Transformer 理解Attention,Self-Attention 机制应用实现以及原理,理解BERT 模型必备内容。原创 2020-06-03 14:50:41 · 1930 阅读 · 1 评论 -
自然语言处理(NLP):15 seq2seq+attention图解原理+论文剖析(01)
从BERT模型横空出世以后,通过预训练模型在NLP 领域的使用得到了快速的发展并且取得了非常好的效果。然而理解BERT 之前我们需要掌握大量知识原创 2020-06-03 14:16:16 · 1719 阅读 · 1 评论 -
自然语言处理(NLP): 14 BERT上下文表示和其他预训练语言模型
介绍BERT预训练模型的发展历史,通过多篇论文的学习,让你可以掌握BERT发展以及工业界如何通过BERT来解决问题。原创 2020-05-26 18:09:07 · 3620 阅读 · 2 评论 -
自然语言处理(NLP): 13 The Illustrated BERT, ELMo, and co.
2018年可谓是自然语言处理(NLP)的元年,本文详细介绍了BERT 的前世今生以及BERT源码分析。转载 2020-05-25 17:25:39 · 892 阅读 · 0 评论 -
自然语言处理(NLP): 12 BERT文本分类
BERT介绍BERT 论文阅读来自论文《https://arxiv.org/pdf/1810.04805.pdf》BERT说:“我要用 transformer 的 encoders”Ernie不屑道:“呵呵,你不能像Bi-Lstm一样考虑文章”BERT自信回答道:“我们会用masks”解释一下Mask:语言模型会根据前面单词来预测下一个单词,但是self-attention的注意力只...原创 2020-04-08 23:03:57 · 10902 阅读 · 5 评论 -
自然语言处理(NLP):11 SelfAttention和transformer Encoder情感分析
动手写SelfAttetion和transformer Encoder模型实现电影情感分类通过代码学习,加深对Self Attention 和 Transformer 模型实现理解数据预处理分析,掌握torchtext 在数据预处理应用Self Attention 机制模型训练ats=emb(xt)Temb(xs) a_{ts} = emb(x_t)^T emb(x_s)ats=...原创 2020-04-06 19:41:09 · 2070 阅读 · 4 评论 -
自然语言处理(NLP):10 基于WordAVGModel 增加Attention机制情感分析
电影评论数据集进行情感分析通过torchtext 数据预处理定义WordAVGModel引入Attention加权平均机制(参考transformer中attention中dot product实现机制,这里 cosine_similarity 计算attention)二分类任务 BCEWithLogitsLoss 计算损失,通过Adam算法优化参数模型训练过程引入Mask 来对pad...原创 2020-03-28 16:25:59 · 1123 阅读 · 0 评论 -
自然语言处理(NLP):09 语言模型2-使用PyTorch搭建BiLSTM语言模型
关于语言模型:官网提供案例供参考https://pytorch.org/tutorials/advanced/dynamic_quantization_tutorial.html?highlight=lstm主要内容:自定义CrossEntropyLoss,主要把padding的数据不进行loss 计算(默认0填充,这里我们使用pad_vaue = 1 填充)自定义DataSet,使用D...原创 2020-03-23 17:46:26 · 1297 阅读 · 0 评论 -
自然语言处理(NLP):09 语言模型1
语言模型语言模型:给句子计算一个概率为什么会有这样一个奇怪的任务?机器翻译:P(我喜欢吃水果)> P(我喜欢喝水果)拼写检查:P(我想吃饭)> P(我像吃饭)语音识别:P (我看见了一架飞机)> P(我看见了一架斐济)文本摘要, 问答系统 etc.文本自动补全。。。概率语言模型(probablistic language modeling)目标:计算一串单词连成...原创 2020-03-23 17:22:46 · 980 阅读 · 0 评论 -
自然语言处理(NLP):08 PyTorch深度学习之LSTM微博评论情感分析
学习目标微博评论数据探查,重点掌握pandas数据分析使用数据可视化,重点掌握seaborn,pyecharts 可视化工具的实用卷机神经网络RNN/LSTM 模型原理掌握PyTorch 中关于自然语言处理torchtext 库使用torchtext 中重点工具BucketIterator使用,torch.nn模型使用情感分析RNN/LSTM模型构建和训练评论情感分析模型预测微......原创 2020-02-11 20:16:42 · 9936 阅读 · 3 评论 -
自然语言处理(NLP):07 fastText训练中文模型-文本分类
fastText 另外两种安装方式conda install 方式:速度慢https://anaconda.org/conda-forge/fasttextwindows 版本下可以通过whl安装(fasttext‑0.9.1‑cp36‑cp36m‑win32.whl) ,windows 下可以使用这个安装https://www.lfd.uci.edu/~gohlke/pythonlibs...原创 2019-08-08 18:23:13 · 3351 阅读 · 2 评论 -
自然语言处理(NLP):命名实体识别-NER
[1]2019达观杯 第七名代码https://github.com/cdjasonj/datagrand.git[2]中文命名实体识别(包括多种模型:HMM,CRF,BiLSTM,BiLSTM+CRF的具体实现)https://github.com/luopeixiang/named_entity_recognition.git...原创 2019-10-17 11:55:23 · 1988 阅读 · 1 评论 -
自然语言处理(NLP):08 TextCNN在短文本分类应用介绍
NLP领域短文本分类非常的常见,那么我们今天分享一下NLP领域文本主要的应用场景原创 2020-02-17 13:40:42 · 4601 阅读 · 4 评论 -
自然语言处理(NLP):05 基于 doc2vec 特征抽取+电影情感文本分类
本章节研究内容: doc2vec 提取句子特征+基于doc2vec 特征工程 文本分类问题基于Doc2Vec情感分析词向量在NLP被广泛应用,通过引入Doc2Vec,不仅可以对单个词进行词向量表示,而且可以对整个句子或文章进行表示。 想象一下,能够使用固定长度的向量表示整个句子,然后我们可以使用标准的分类算法去分类。是一件很神奇的事情。本章以Word2Vec 为基础,使用Do...原创 2019-07-26 16:09:06 · 1800 阅读 · 0 评论 -
自然语言处理(NLP):06 word2vec训练中文模型-文本分类
本章节主要研究内容:基于word2vec 提取特征 + 文本分类原创 2019-08-02 18:22:37 · 7526 阅读 · 10 评论 -
自然语言处理(NLP): 03 tfidf 特征抽取&n-gram 扩展 + 朴素贝叶斯模型
本章节研究内容: 基于TFIDF特征抽取&ngram + 朴素贝叶斯算法 文本分类原创 2019-07-17 23:57:39 · 3174 阅读 · 0 评论 -
自然语言处理(NLP):04 word2vec 入门介绍
词向量表示One-Hot RepresentationNLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。举个栗子,“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]“...原创 2019-07-20 10:34:33 · 693 阅读 · 1 评论 -
自然语言处理(NLP):02 基于词袋模型(BOW)特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法 文本分类
本章节研究内容: 基于词袋模型(BOW)特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法 文本分类有任何问题,可以交流:1121025745@qq.com实践验证:相比与0.8751187431494337 不使用ngram和扩展特征情况下准确率:0.8760321519912313,高出0.1% 提升。我们可以把特征做得更棒一点,比如说,我们试试...原创 2019-07-17 00:42:33 · 2067 阅读 · 2 评论 -
自然语言处理(NLP): 01 基于词袋模型(BOW)特征抽取 + 贝叶斯算法 新闻文本分类
本章节研究内容: 基于词袋模型(BOW)特征抽取 + 贝叶斯算法 文本分类CountVectorizer 使用基于词袋模型特征提取,即我们使用词频TF来抽取特征from sklearn.feature_extraction.text import CountVectorizertexts=["dog cat fish","dog cat cat","fish bird", 'bird']cv = CountVectorizer(analyzer='word',max_features=4000)原创 2019-07-17 00:03:44 · 3807 阅读 · 4 评论