
文本分类
文章平均质量分 91
xsdjj
这个作者很懒,什么都没留下…
展开
-
文本分类——特征选择概述
内容提要特征选择概述常见模型文档频率(DF)卡方校验(CHI)信息增益(IG)互信息(MI)特征选择概述 在向量空间模型中,文本可以选择字、词组、短语、甚至“概念”等多种元素表示。这些元素用来表征文本的性质,区别文本的属性,因此这些元素可以被称为文本的特征。在文本数据集上一般含有数万甚至数十万个不同的词组,如此庞大的词组构成的向量规模惊人,计算机运算非常困难。进行特征选择,对文本分类具有重要...原创 2018-11-06 15:33:36 · 12138 阅读 · 0 评论 -
文本分类——快速kNN设计实现
内容提要介绍普通kNN实现快速kNN实现实验对比分析总结介绍 文本分类——常见分类模型 kNN分类模型的主要思想:通过给定一个未标注文档d,分类系统在训练集中查找与它距离最接近的k篇相邻(相似或相同)标注文档,然后根据这k篇邻近文档的分类标注来确定文档d的类别。普通kNN实现 一般常规的kNN计算新输入文档与训练集中样本之间的距离,都是新输入文档与每一训练集样本计算相似度。数据结构...原创 2018-11-07 18:56:21 · 5225 阅读 · 0 评论 -
自然语言处理——文本分类平台功能及UI设计
目录1. 我的博客测试1.1 我的博客次标题我的博客测试1. 我的博客测试信息检索作为互联网应用的重要组成部分,1.1 我的博客次标题 &a原创 2018-11-04 21:04:58 · 2526 阅读 · 3 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计——完整版
内容提要1 概述2 系统介绍2.1 功能全览2.2 核心功能3 系统架构3.1 云化架构图3.2 架构说明4 云化部署4.1 部署图4.2 部署说明4.3 部署实例5 设计实现5.1 RESTful微服务框架5.1.1 微服务框架图5.1.2 微服务框架实现5.2 中文分词微服务5.2.1 设计模式5.2.2 代码实现5.2.3 请求JSON5.2.3 响应JSON5.3 预处理微服务5.3.1...原创 2018-11-10 14:31:33 · 5577 阅读 · 1 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计系列——(十)数据可视化
内容提要数据可视化可视化演示数据可视化 应用访问界面如图所示:应用服务UI界面包括:微服务配置、分类任务配置;微服务资源监控,动态显示;数据集分析图、分类对比图;综合对比、参数调优等。可视化演示 分类任务运行效果如图所示,如未显示请点击图片显示。分类任务运行动图(JE-MP) 上图选择JE分词和MP特征选择。下图选择RS分词和CHI特征选择,效果如下,如未显...原创 2018-11-10 12:19:06 · 1210 阅读 · 0 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计系列——(九)应用服务
内容提要1 分类任务1.1 分类任务类图1.2 数据结构1.3 调度状态转移2 资源监控2.1 资源监控类图2.2 部分代码实现3 应用WEB部署 本文的应用服务是指机器学习任务的应用,主要涉及任务的调度、状态机、和微服务发现,微服务访问以及微服务资源的监控。1 分类任务1.1 分类任务类图 分类任务类图如图所示:分类任务类图1.2 数据结构 分类任务类图如图所示:分类...原创 2018-11-10 12:08:12 · 1367 阅读 · 0 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计系列——(七)分类器微服务
内容提要分类器类图部分代码实现请求JSON响应JSONDEBUG信息 分类器微服务主要实现如下分类选择算法:k-Nearest Neighbor(kNN)、Naïve Bayes(NB)、Support Vector Machine(SVM)、Normalized Vector(NLV)。分类器类图 分类器服务主要类图如下图所示:分类器服务主要类图部分代码实现文本分类-训练器抽...原创 2018-11-10 11:18:20 · 600 阅读 · 0 评论 -
文本分类——NLV算法研究与实现
内容提要1 引言2 NLV算法理论2.1 训练模型2.2 分类模型3 NLV算法实现3.1 算法描述4 实验及性能评估4.1 实验设计4.1.1 实验环境4.1.2 数据集4.1.3 实验目标4.1.4 关于预处理4.2 实验说明4.3 实验结果4.3.1 选参前提实验4.3.2 NLV分类实验4.3.3 分类对比实验5 分析总结1 引言 分类器的分类效率是衡量分类器性能的一项重要指标。为了...原创 2018-11-07 15:22:13 · 6437 阅读 · 1 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计系列——(五)预处理微服务
内容提要实现代码请求JSON响应JSON 文本分类任务的预处理阶段一般包括中文分词。这里中文分词单提出来,预处理阶段的主要任务是停用词去除、索引词典的构建、词文档矩阵化。实现代码预处理Action实现类package com.robin.pretreatment.action;import com.robin.loader.MircoServiceAction;import co...原创 2018-11-09 22:39:42 · 348 阅读 · 0 评论 -
特征选择——Matrix Projection算法研究与实现
内容提要引言MP特征选择思想MP特征选择算法MP特征选择分析实验结果分析总结引言 一般选择文本的词组作为分类器输入向量的特征语义单元,而作为单词或词语的词组,在任何一种语言中都有数万或数十万个。另外,对于Web文本检索应用来说,互联网每天可能都会产生各种各样的新词汇。这样文本分类问题就面临着特征向量的维数灾难问题。有许多理由要求必须将特征的数量减少到尽可能的小,其中时间和空间复杂度就是很重要...原创 2018-11-07 00:13:58 · 2141 阅读 · 0 评论 -
文本分类——算法性能评估
内容提要数据集英文语料中文语料评估指标召回率与准确率F1-评测值微平均与宏平均混淆矩阵 优秀的文本分类模型必须经得住真实数据集的验证,因而分类器必须在通用的数据集上进行测试。用于文本分类的数据集一般称为语料库。 语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为...原创 2018-11-06 20:04:08 · 11765 阅读 · 3 评论 -
文本分类——常见分类模型
内容提要基于规则的模型基于概率的模型基于几何的模型基于统计的模型 文本分类方法模型主要分为两个大类,一类是基于规则的分类模型;另一类是基于概率统计的模型。基于规则的模型 基于规则的分类模型相对简单,易于实现。它在特定领域的分类往往能够取得较好的效果。相对于其它分类模型来说,基于规则的分类模型的优点就是时间复杂度低、运算速度快。在基于规则的分类模型中,使用许多条规则来表述类别。类别规则可以...原创 2018-11-06 17:37:56 · 35859 阅读 · 1 评论 -
自然语言处理——文本分类概述
内容提要分类概述分类流程数据采集爬虫技术页面处理文本预处理英文处理中文处理停用词去除文本表示特征选择分类概述 分类(Classification)是指自动对数据进行标注。人们在日常生活中通过经验划分类别。但是要依据一些规则手工地对互联网上的每一个页面进行分类,是不可能的。因此,基于计算机的高效自动分类技术成为人们解决互联网应用难题的迫切需求。与分类技术类似的是聚类,聚类不是将数据匹配到预先定...原创 2018-11-05 19:50:59 · 27996 阅读 · 0 评论