
NLP
文章平均质量分 95
注:供学习用,侵权删!
BoCong-Deng
翻过这座山,别人就能听到你的故事!
展开
-
深度学习中眼花缭乱的Normalization学习总结
对于深度学习而言,正则化方法就是“通过把一部分不重要的复杂信息损失掉,以此来降低拟合难度以及过拟合的风险,从而加速了模型的收敛”,而本篇文章我们要讲的Normalization方法的目的就是让分布稳定下来(降低各维度数据的方差),不同的正则化方法的区别只是操作的信息维度不同,即选择损失信息的维度不同。原创 2021-01-16 23:50:47 · 1356 阅读 · 0 评论 -
搞定检索式对话系统的候选response检索--使用pysolr调用Solr
模型结构和训练至关重要,但是检索候选回复也是使得整个对话流程实现闭环的关键。我们了解了检索的目的和整体流程,那我们从何实现?方式有很多,可以自行编写一个脚本从数据集中生成一个索引候选数据集(这个是我最开始用的方法,但毕竟没专门研究过检索,所以写的很粗糙,勉强验证功能可以,用作正式使用就不行了),还有一种就是使用现有的检索工具,比如Lucene、Solr、ElasticSearch等等。所以这篇文章就是来讲解部署solr和使用python实现检索原创 2020-11-19 00:19:41 · 1307 阅读 · 1 评论 -
好好琢磨一下TF-IDF,结合Sklearn
TF-IDF(Term Frequency-Inverse Document Frequency)是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性。原理说简单点,不难理解。原创 2020-11-08 17:08:28 · 1772 阅读 · 0 评论 -
处理文本数据的一些思路
文本是最常用的序列数据之一,可以理解为字符序列或单词序列,但最常见的是单词级处理。深度学习序列处理模型都可以根据文本生成基本形式的自然语言理解,并可用于文档分类、情感分析、作者识别甚至问答(QA,在有限的语境下)等应用。当然,目前我所接触的这些深度学习模型都没有像人类一样真正地理解文本,而只是映射出书面语言的统计结构,但这足以解决许多简单的文本任务。原创 2020-07-21 12:54:17 · 1508 阅读 · 0 评论 -
RNN的一些高级用法-以温度预测问题为例
RNN的神奇用的人都说话,不过在使用RNN的时候,还是需要知道一些技巧,有利于我们实现更符合预期的模型,本文将会介绍以下三种技巧。循环dropout(recurrent dropout)。这是一种特殊的内置方法,在循环层中使用dropout 来降低过拟合。堆叠循环层(stacking recurrent layers)。这会提高网络的表示能力(代价是更高的计算负 荷)。双向循环层(bidirectional recurrent layer)。将相同的信息以不同的方式呈现给循环网原创 2020-07-21 12:33:35 · 6891 阅读 · 4 评论 -
机器学习的通用工作流程
介绍一种可用于解决任何机器学习问题的通用模板。这一模板将问题定义、评估、特征工程和解决过拟合等概念串在一起原创 2020-07-18 22:07:56 · 384 阅读 · 0 评论 -
基于TensorFlow实现预测房价--回归问题
分类问题的目标是预测输入数据点所对应的单一离散的标签。另一种常见的机器学习问题是回归问题,它预测一个连续值而不是离散的标签,例如,根据气象数据 预测明天的气温,或者根据软件说明书预测完成软件项目所需要的时间。原创 2020-07-17 17:46:17 · 1619 阅读 · 0 评论 -
新闻分类--多分类问题,使用TensorFlow实现
构建一个网络,将路透社新闻划分为46 个互斥的主题。因为有多个类别,所以 这是多分类(multiclass classification)问题的一个例子。因为每个数据点只能划分到一个类别, 所以更具体地说,这是单标签、多分类(single-label, multiclass classification)问题的一个例 子。如果每个数据点可以划分到多个类别(主题),那它就是一个多标签、多分类(multilabel, multiclass classification)问题。原创 2020-07-17 17:33:25 · 2392 阅读 · 0 评论 -
使用TensorFlow解决电影评论分类--二分类问题
二分类问题可能是应用最广泛的机器学习问题。在这个例子中,你将学习根据电影评论的 文字内容将其划分为正面或负面。本节使用IMDB 数据集,它包含来自互联网电影数据库(IMDB)的50 000 条严重两极分 化的评论。数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论,训练集和测试 集都包含 50% 的正面评论和 50% 的负面评论。再此之前,先说说相关的流程定义。相关代码基于TensorFlow实现,你也可以只用Keras实现,整个项目就是围绕Keras进行开发的。原创 2020-07-17 17:27:57 · 1836 阅读 · 0 评论 -
神经网络的相关数据表示 - 概念说明
数据存储在多维Numpy 数组中,也叫张量(tensor)。一般来说,当前所有机器学习系统都使用张量作为基本数据结构。张量对这个领域非常重要,重要到Google 的 TensorFlow 都以它来命名。那么什么是张量? 张量这一概念的核心在于,它是一个数据容器。它包含的数据几乎总是数值数据,因此它是数字的容器。你可能对矩阵很熟悉,它是二维张量。张量是矩阵向任意维度的推广(这里要特别提一下, 张量的维度(dimension)通常叫作轴(axis))。原创 2020-07-16 00:00:02 · 1078 阅读 · 0 评论 -
用三张图理解深度学习的工作原理
为了给出深度学习的定义并搞清楚深度学习与其他机器学习方法的区别,我们首先需要知道机器学习算法在做什么。我们有个大致的认识,给定包含预期结果的示例,机器学习将会发现执行一项数据处理任务的规则。原创 2020-07-15 22:42:07 · 1749 阅读 · 0 评论 -
统计学习方法-感知机概括和补充
本章中涉及到向量内积,有超平面的概念,也有线性可分数据集的说明,在策略部分有说明损关于失函数的选择的考虑。原创 2020-07-10 20:15:53 · 3163 阅读 · 0 评论 -
统计学习方法的概括和补充
关于机器学习三要素,也有另外一种的解读:`模型,学习准则,优化算法`。这个定义比较接近代码。以Tensorflow为例。通常会定义一个网络(模型),定义Loss(学习准则),定义优化算法(Optimizer),然后开Session,不停的把数据带入用Opitmizer去最小化Loss原创 2020-07-08 22:22:48 · 1519 阅读 · 0 评论