
机器学习
文章平均质量分 93
xsdjj
这个作者很懒,什么都没留下…
展开
-
文本分类——特征选择概述
内容提要特征选择概述常见模型文档频率(DF)卡方校验(CHI)信息增益(IG)互信息(MI)特征选择概述 在向量空间模型中,文本可以选择字、词组、短语、甚至“概念”等多种元素表示。这些元素用来表征文本的性质,区别文本的属性,因此这些元素可以被称为文本的特征。在文本数据集上一般含有数万甚至数十万个不同的词组,如此庞大的词组构成的向量规模惊人,计算机运算非常困难。进行特征选择,对文本分类具有重要...原创 2018-11-06 15:33:36 · 12138 阅读 · 0 评论 -
自然语言处理——文本分类概述
内容提要分类概述分类流程数据采集爬虫技术页面处理文本预处理英文处理中文处理停用词去除文本表示特征选择分类概述 分类(Classification)是指自动对数据进行标注。人们在日常生活中通过经验划分类别。但是要依据一些规则手工地对互联网上的每一个页面进行分类,是不可能的。因此,基于计算机的高效自动分类技术成为人们解决互联网应用难题的迫切需求。与分类技术类似的是聚类,聚类不是将数据匹配到预先定...原创 2018-11-05 19:50:59 · 27996 阅读 · 0 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计系列——(一)概念与构想
内容提要欢迎页面语料分析语料处理英文支持特征选择文本分类——工作空间配置文本分类——单一分类测试文本分类——分类器速度对比文本分类——分类算法对比文本分类——特征选择对比文本分类——NLV参数调优文本分类——kNN参数调优文本分类——SVM参数调优总结说明 本文档介绍笔者自己开发的自然语言处理——文本处理实验平台的系统功能及UI设计。笔者前期所做大量实验都是基于本工具平台。欢迎页面语料分...原创 2018-11-08 08:56:21 · 1194 阅读 · 1 评论 -
文本分类——快速kNN设计实现
内容提要介绍普通kNN实现快速kNN实现实验对比分析总结介绍 文本分类——常见分类模型 kNN分类模型的主要思想:通过给定一个未标注文档d,分类系统在训练集中查找与它距离最接近的k篇相邻(相似或相同)标注文档,然后根据这k篇邻近文档的分类标注来确定文档d的类别。普通kNN实现 一般常规的kNN计算新输入文档与训练集中样本之间的距离,都是新输入文档与每一训练集样本计算相似度。数据结构...原创 2018-11-07 18:56:21 · 5225 阅读 · 0 评论 -
自然语言处理——文本分类平台功能及UI设计
目录1. 我的博客测试1.1 我的博客次标题我的博客测试1. 我的博客测试信息检索作为互联网应用的重要组成部分,1.1 我的博客次标题 &a原创 2018-11-04 21:04:58 · 2526 阅读 · 3 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计系列——(二)架构与部署
内容提要1 概述2 系统介绍2.1 功能全览2.2 核心功能3 系统架构3.1 云架构图3.2 架构说明4 云化部署4.1 部署图4.2 部署说明4.3 部署实例5 详细设计5.1 RESTful微服务框架5.1.1 微服务框架图5.1.2 微服务框架实现5.2 中文分词微服务5.3 预处理微服务5.4 特征选择微服务6 系统运行7 分析总结1 概述 本篇主要介绍基于Kubernetes、...原创 2018-11-08 21:48:49 · 2931 阅读 · 0 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计——完整版
内容提要1 概述2 系统介绍2.1 功能全览2.2 核心功能3 系统架构3.1 云化架构图3.2 架构说明4 云化部署4.1 部署图4.2 部署说明4.3 部署实例5 设计实现5.1 RESTful微服务框架5.1.1 微服务框架图5.1.2 微服务框架实现5.2 中文分词微服务5.2.1 设计模式5.2.2 代码实现5.2.3 请求JSON5.2.3 响应JSON5.3 预处理微服务5.3.1...原创 2018-11-10 14:31:33 · 5577 阅读 · 1 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计系列——(七)分类器微服务
内容提要分类器类图部分代码实现请求JSON响应JSONDEBUG信息 分类器微服务主要实现如下分类选择算法:k-Nearest Neighbor(kNN)、Naïve Bayes(NB)、Support Vector Machine(SVM)、Normalized Vector(NLV)。分类器类图 分类器服务主要类图如下图所示:分类器服务主要类图部分代码实现文本分类-训练器抽...原创 2018-11-10 11:18:20 · 600 阅读 · 0 评论 -
特征选择——Matrix Projection算法研究与实现
内容提要引言MP特征选择思想MP特征选择算法MP特征选择分析实验结果分析总结引言 一般选择文本的词组作为分类器输入向量的特征语义单元,而作为单词或词语的词组,在任何一种语言中都有数万或数十万个。另外,对于Web文本检索应用来说,互联网每天可能都会产生各种各样的新词汇。这样文本分类问题就面临着特征向量的维数灾难问题。有许多理由要求必须将特征的数量减少到尽可能的小,其中时间和空间复杂度就是很重要...原创 2018-11-07 00:13:58 · 2141 阅读 · 0 评论 -
文本分类——NLV算法研究与实现
内容提要1 引言2 NLV算法理论2.1 训练模型2.2 分类模型3 NLV算法实现3.1 算法描述4 实验及性能评估4.1 实验设计4.1.1 实验环境4.1.2 数据集4.1.3 实验目标4.1.4 关于预处理4.2 实验说明4.3 实验结果4.3.1 选参前提实验4.3.2 NLV分类实验4.3.3 分类对比实验5 分析总结1 引言 分类器的分类效率是衡量分类器性能的一项重要指标。为了...原创 2018-11-07 15:22:13 · 6437 阅读 · 1 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计系列——(五)预处理微服务
内容提要实现代码请求JSON响应JSON 文本分类任务的预处理阶段一般包括中文分词。这里中文分词单提出来,预处理阶段的主要任务是停用词去除、索引词典的构建、词文档矩阵化。实现代码预处理Action实现类package com.robin.pretreatment.action;import com.robin.loader.MircoServiceAction;import co...原创 2018-11-09 22:39:42 · 348 阅读 · 0 评论 -
基于Kubernetes、Docker的机器学习微服务系统设计系列——(四)中文分词微服务
内容提要设计模式代码实现JSON格式 中文分词微服务包括分词方法有:RobinSeg(RS)、IKAnalyzer(IK)、JEAnalysis(JE)、MmSeg4j(MS)、PaoDing(PD)、SmallSeg4j(SS)。其中RS分词实现见我的文章:知更鸟中文分词RS设计实现 ,其他分词方法都采用发布的jar包进行封装装。设计模式 主要涉及外观模式、适配器模式、工厂模式和单例...原创 2018-11-09 22:03:08 · 454 阅读 · 0 评论 -
文本分类——算法性能评估
内容提要数据集英文语料中文语料评估指标召回率与准确率F1-评测值微平均与宏平均混淆矩阵 优秀的文本分类模型必须经得住真实数据集的验证,因而分类器必须在通用的数据集上进行测试。用于文本分类的数据集一般称为语料库。 语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为...原创 2018-11-06 20:04:08 · 11765 阅读 · 3 评论 -
文本分类——常见分类模型
内容提要基于规则的模型基于概率的模型基于几何的模型基于统计的模型 文本分类方法模型主要分为两个大类,一类是基于规则的分类模型;另一类是基于概率统计的模型。基于规则的模型 基于规则的分类模型相对简单,易于实现。它在特定领域的分类往往能够取得较好的效果。相对于其它分类模型来说,基于规则的分类模型的优点就是时间复杂度低、运算速度快。在基于规则的分类模型中,使用许多条规则来表述类别。类别规则可以...原创 2018-11-06 17:37:56 · 35859 阅读 · 1 评论 -
中文分词——知更鸟分词(RS)设计与实现
内容提要分词概述算法分类常见项目知更鸟分词实现算法描述数据结构代码实现运行结果分词概述 英文文本的处理相对简单,每一个单词之间有空格或标点符号隔开。如果不考虑短语,仅以单词作为唯一的语义单元的话,处理英文单词切分相对简单,只需要分类多有单词,去除标点符号。中文自然语言处理首先要解决的难题就是中文分词技术。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序...原创 2018-11-05 23:56:06 · 1936 阅读 · 0 评论