- 博客(14)
- 收藏
- 关注
原创 文本相似度:TF−IDF算法和BM25算法
文本相似度:TF−IDF算法和BM25算法1、TF−IDF算法TF是指归一化后的词频,IDF是指逆文档频率。给定一个文档集合D,有d1,d2,d3,......,dn∈D。文档集合总共包含m个词(注:一般在计算TF−IDF时会去除如“的”这一类的停用词),有w1,w2,w3,......,wm∈W。我们现在以计算词wi在文档dj中的TF−IDF值为例。TF的计算公式为: ...
2020-09-27 16:30:49
413
原创 tensorflow2.0中自定义模型的保存与加载问题
在用cnn做文本分类时我是自定义的模型类,并没有用到Sequential,因此在保存模型和加载模型时会遇到各种各样的报错,经过尝试,找到以下方法可以解决。1、首先,看一下自定义的模型类:class TextCnn(tf.keras.Model): def __init__(self, maxlen, max_features,class_num,embedding_dims,embeddings_matrix,kernel_sizes=[1,2,3,4,5],
2020-06-05 15:57:38
3404
1
原创 word2vec词向量化算法
word2vec就是一个将词向量化的工具,这里我们使用的是gensim的word2vec。1、one-hot编码在介绍Word2vec之前,我们先来看一下one-hot,它是指词向量维度大小为整个词汇表的大小,对于每个具体的词汇表中的词,将对应的位置置为1。例如:“the cat looks so cute”,该文本包含5个单词,词汇表为{'the','cat','looks','so',...
2020-04-22 10:11:07
2011
原创 命名实体识别(二)——基于条件随机场的命名实体识别
一、条件随机场首先,我们看一下条件随机场的定义:在给定一组输入序列的条件下,另一组输出序列的条件概率分布模型。设X=和Y=是联合随机变量,若随机变量Y构成一个无向图G=(V,E)表示的马尔科夫模型,则其条件概率分布P(Y|X)称为条件随机场,即 其中,表示图G=(V,E)中与节...
2020-04-10 11:14:50
2084
原创 命名实体识别(一)——基于规则的命名实体识别
一、命名实体识别首先,我们来认识一下命名实体识别的概念。命名实体识别(Named Entities Recognition, NER)研究的命名实体一般分为3大类(实体类、时间类和数字类)和7小类(人名、地名、组织机构名、时间、日期、货币和百分比),研究的目的是将语料中的这些命名实体识别出来。主要有三种方式:1)基于规则的命名实体识别:依赖于手工规则的系统,结合命名实体库,对每条规则进行权...
2020-04-09 11:38:05
7181
原创 中文分词技术(二):统计分词--基于隐马尔科夫模型
基于统计的中文分词主要思想是:利用字与字相邻出现的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合的频度,当组合频度高于某一个临界值时,我们便可认为此字组可能会构成一个词语。基于统计的分词一般有两个步骤:1)建立统计语言模型;2)对句子进行单词划分,然后对划分结果进行概率计算,获得概率最大的分词方式。一、语言模型语言模型用概率论的术语来描述就是:为长度为m 的字符串确定...
2020-03-30 16:01:01
1295
1
原创 中文分词技术(一):规则分词
基于规则的分词是一种机械分词方法,主要通过维护词典,在切分语句时,将语句的每个字符串与词典中的词进行逐一匹配,找到则切分,否则不切分。按照语句切分的方式,可分为:正向最大匹配法、逆向最大匹配法、双向最大匹配法。下面将详细介绍。一、正向最大匹配法正向最大匹配法(Maximun Match Method,简称MM)的基本思路是:假设分词词典中最长词的长度为i个字符,则用被处理语句的前i个字符作...
2020-03-20 15:59:48
1281
原创 数据可视化(七):可视化设计实战
本篇将通过一个可视化的完整设计,从数据获取到可视化实现解构数据可视化的思路和完整流程。通过前面几篇的学习,可知数据可视化的关键步骤为如下4点: 获取可视化需要的数据; 确定数据可视化的主题; 提炼可视化主题的数据; 根据数据关系确定图表; 进行可视化布局及设计。 1、数据获取与预处理1.1爬取数据这里我们以【链家全网上海一月内的二手房成交数...
2020-01-02 14:05:32
3233
1
原创 数据可视化(六):如何优雅地选择数据图表(提升可视化效果经验总结)——学习笔记
1.学习目标前面已经学习了可视化图表的选择方式,接下来主要探讨哪些方面的改进和有益实践,可以使我们的数据可视化的呈现效果更加具有表现力。主要是以下两个目标: 了解哪些方面的因素,会影响数据可视化的呈现效果; 熟悉数据层面/非数据层面提升可视化效果的实操经验,并能在工作中实际应用这些经验。 2.影响因素总的来说,影响数据可视化效果的主要有以下两各个方面:2.1数据层面...
2019-12-18 11:15:45
890
1
原创 数据可视化(五):如何选择图表(常用图表对比)——学习笔记
前面几篇文档,我们已经学习了时序型数据、对比型数据、对比型数据、分布型数据、区间型数据、关系型数据、地理型数据的可视化方式,这次,我们针对几种常见的图表,根据不同数据集以及可视化的目的,对比相似图表的差别和适用的数据集,从而总结出根据可视化目的、数据集特征,去选择图表类型的一般套路。1.柱状图vs条形图1.1可视化目标首先明确可视化的目的是要展示什么,比如:展示销售额TOP5的产品二级...
2019-12-13 10:00:56
6701
原创 数据可视化(四):如何选择图表(区间型、关系型和地理型数据图表)——学习笔记
这一篇是阐述如何选择可视化图表的最后一部分,主要是以下几类数据的可视化:区间型数据:区间型数据一般是用来显示数据当前的进度情况,数据格式一般为数值或者百分比; 关系型数据:数据之间有包含关系、层级关系、分流情况、联结关系等; 地理型数据:包含地理型信息的数据,如国家、省份、城市、行政区、经纬度等。1、区间型数据可视化通过阅读资料可知,区间型数据大致分为两种:比例型...
2019-12-06 13:53:12
7506
原创 数据可视化(三):如何选择图表(【对比型数据】和【分布型数据】)——学习笔记
上一篇学习的是基于【时序型数据】和【比例型数据】如何选择图表,这篇讨论基于【对比型数据】和【分布型数据】来选择图表:【对比型数据】:对比两组或者两组以上数据的差异; 【分布型数据】:探索数据分布的集中趋势、离散程度、分布形状。一、对比型数据可视化对比型数据一般是比较几组数据的差异,这些差异通过视觉通道和标记来区分,体现在可视化中通常表现为以下几种差异形式:(1)高度差异/宽度差异:...
2019-11-28 16:43:25
17389
原创 数据可视化(二):如何选择图表——学习笔记
在数据可视化的过程中,根据数据之间的关系选择合适的图表来表示尤为关键。主要是两类数据关系的可视化:时序数据可视化和比例型数据可视化。一、时序数据可视化时序数据指的是任何随着时间变化的数据。而时间具有以下特征:有序性,随时间变化的事件有先后顺序; 周期性,许多自然或商业现象都具有循环规律,如季节就有周期性的循环。 结构性,时间的尺度可以按照年、季度、月、日、小时、分钟、秒等去切割。...
2019-11-21 14:34:17
2579
原创 数据可视化(一):解构数据可视化——学习笔记
一、数据可视化过程一个完整的数据可视化过程可以分为四个步骤:(1)确定可视化的主题首先得确定数据围绕什么样的主题来组织。具体地说,可以是业务的目标、一个需求、一个问题。比如,信贷行业分析不同信用等级的客户按时还款率;制造业分析不同生产线产品的合格率;餐饮业分析客户对某种菜品的评价;物流公司分析不同地区的运输时效等,都可以作为数据可视化的一个主题。(2)提炼可视化需要的数据确定好...
2019-11-15 18:04:44
2120
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人