Vicky_xiduoduo-优快云博客

原创标注一致性计算

因此，本文讨论最多的是多位标注员对相同数据进行标注时的一致性评估方法。Fleiss' Kappa在Scott's Pi上进行泛化，使其能对任意固定数量的标注员评估一致性。评估一致性最简单且直观的方法是统计标注一致的样本占所有标注样本的百分比。即通过标签的联合边缘分布来估计随机一致性，也可以说scott's Pi是算数平均值的平方，而Cohen's Kappa是几何平均值的平方。Scott's Pi也只能评估两位标注员之间的一致性，无法拓展到多位标注员。是标注一致的样本占所有标注样本的百分比。

2023-07-02 20:47:47 3015

原创停用词（stop words）+TF-IDF实现

在汉语中，有一类没有实际意义的词语，比如组词“的”，连词“以及”，副词“甚至”，语气词“吧”，被称为停用词。一个句子去掉这些停用词，并不影响理解。TF:词频，TF=某词在某文档中出现的次数 (ps：也有TF=某次在某文档中出现的次数/该文档的总词量这种计算，但Sklearn是采用直接计算次数。也就是说，对一个文件集或者语料库而言，包含某个单词的文档越少，IDF的值越大，这个词的区分力越强，就越重要。其中，Nd是训练集文档总数量，df(d,t)是包含某个单词的文档数量， +1的原因是避免分母为0.

2023-04-26 21:56:03 2405

原创 Zotero安装教程

此时，可在单台设备上使用，可以在“我的文库”中创建分类、添加条目来管理文献和导出引用。安装完成后，打开zotero，选择编辑->首选项->同步选项卡，首先注册一个账号。可以在网上查找文献的doi号，zotero会搜索文献信息自动添加。对于一些特别古老的文献，可能没法识别，可以通过剪切板导入辅助添加。一般导入文献后，并不能保证文献信息一定是正确的，还需要定期检查。安装过程简单，一路next直到出现下图为安装成功。根据对应的系统选择下载包。

2023-04-06 20:46:43 811

原创 N-Gram模型介绍

N-gram介绍

2022-11-29 22:23:25 1671

原创连续词袋模型（Continous bag of words, CBOW）

CBOW简介

2022-11-24 16:49:13 1428

原创医学主题词表(Medical Subject Headings, MeSH)

MeSH简介

2022-11-23 11:44:07 6021

原创软件安装教程2——MyEclipse下载与安装

MyEclipse下载与安装

2022-11-20 22:03:53 3033 2

原创软件安装教程1——Neo4j下载与安装

详细介绍Neo4j安装，所需环境JDK。

2022-11-19 21:18:08 2190

原创机器学习算法——概率图模型（隐马尔可夫模型2）

HMM概率计算问题

2022-10-12 16:18:17 333

原创机器学习算法——概率图模型（隐马尔可夫模型1）

HMM的三大要素和三大假设

2022-10-11 11:17:57 901

原创深度学习算法——循环神经网络RNN

传统的RNN模型、RNN前向传播算法、RNN反向传播算法

2022-10-04 20:44:21 1794

原创自然语言处理3——句子相似度

句子相似度表示：欧式距离，余弦相似度、TF_IDF、word2vec

2022-09-29 10:31:04 893

原创自然语言处理2（文本的表示）

讲解文本表示方法，包括离散表示和分布式表示，离散式用One-hot和词袋表示，并进行举例。

2022-09-28 16:53:21 642

原创自然语言处理1（前向+后向最大匹配分词算法）

前向+后向最大匹配分词算法

2022-09-20 22:10:51 773

原创知识图谱2（正则表达式语法）

正则表达式，未来用于知识图谱数据获取中的数据清洗步骤。

2022-09-19 21:33:58 527

原创机器学习算法——分类问题1（类别不平衡问题--欠采样方法）

EasyEnsemble和BalanceCascade讲解。

2022-08-23 16:12:30 2554

原创知识图谱1（实体抽取）

回顾召回率、准确率，并简单介绍实体抽取。

2022-08-23 16:00:05 2564

原创机器学习算法——集成学习5（随机森林）

随机森林讲解，并用代码实现随机森林与Bagging算法的比较。

2022-08-17 09:12:00 354

原创机器学习算法——集成学习4（Bagging）

介绍了自助采样法，Bagging算法以及在西瓜数据集3.0α上用代码实现Bagging算法

2022-08-15 16:12:43 2511

原创机器学习算法——聚类3（k均值算法）

讲解K-Means算法，K-Means算法对西瓜数据集4.0进行聚类分析并用代码实现

2022-08-10 18:01:04 1176

原创机器学习算法——聚类2（距离计算）

距离计算——闵可夫斯基距离、VDM等

2022-08-10 09:48:04 1016

原创机器学习算法——聚类1（性能度量——外部指标Jaccard系统，FM指数，Rand指数；内部指标：DB指数，Dunn指数）

性能度量——外部指标Jaccard系统，FM指数，Rand指数；内部指标：DB指数，Dunn指数

2022-08-09 16:52:20 2895

原创机器学习算法——集成学习2（Boosting）

Boosting是一族可将弱学习器提升为强学习器的算法。这族算法的工作机制类似：【提高】那些在前一轮被弱分类器【分错】的样本的权值；【减小】那些在前一轮被弱分类器【分对】的样本的权值；使得误分的样本在后续受到更多的关注。体现了【串行】Boosting族算法最著名的代表是AdaBoost算法，它解决的是二分类问题。AdaBoost算法有很多推导方式，比较容易理解的是基于“加性模型”，即基学习器的线性组合：在每一轮中，要分别记录好那些被当前弱分类器【正确分类】与【错误分类】的样本，

2022-05-26 10:33:29 706

原创机器学习算法——集成学习1（个体与集成）

集成学习（Ensemble Learning）通过构建并结合多个学习器来完成学习任务。上图为集成学习的一般结构：先产生一组“个体学习器”，再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生。如C4.5决策树算法、BP神经网络等。集成中只包含同种类型的个体学习器，例如“决策树集成”中全是决策树，“神经网络集成”中全是神经网络，这样的集成是“同质”的。同质集成中的个体学习也称为“基学习器”，相应的学习算法称为“基学习算法”。集成中也可以包含不同类型的个体学习器，

2022-05-24 16:16:28 1270

原创 [解决问题]UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\ue615‘ in position 295852

在写爬虫时，用了request获取网页页面源代码，具体代码如下：import requestsurl = 'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=62095104_19_oem_dg&wd=周杰伦'headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.3

2022-05-20 21:56:00 215

原创 Python网络爬虫--服务器/客户端渲染

Web请求过程剖析1. 服务器渲染（SSR）服务器在返回html之前，在html特定的区域特定的符号里用数据填充，再给客户端，客户端只负责解析Html。鼠标右击可以查看页面代码，性能消耗在服务器端，用户达到一定程度的时候，后端会考虑缓存。部分数据，避免消耗过多的资源重复渲染。优点：前端耗时少，首次渲染快，更快的内容到达时间。缺点：网络运输数据量大，占用部分服务器运算资源；用户体验差；不容易维护，前端修改部分html/css后端也要改。2.客户端渲染（CSR）通过约定好的API交互

2022-05-20 21:44:27 771

原创机器学习算法——神经网络6（SOM网络）

SOM（Self-Organizing Map,自组织映射）网络也是一种竞争学习型的无监督神经网络。它能将高维数据映射到低维空间（通常为二维），同时保持输入数据在高维空间的拓扑结构，即将高维数据中相似的样本点映射到网络输出层中的邻近神经元。SOM网络结构为：输入层神经元的数量是由输入向量的维度决定的，一个神经元对应一个特征。SOM网络结构的区别主要在竞争层：可以有1维、2维（最常见）。竞争层也可以有更高的维度，不过处于可视化的目的，高维竞争层用的比较少。其中二维平面有2种平面结构

2022-05-20 17:11:18 7223 1

原创机器学习算法——神经网络5（ART 1网络）

竞争型学习是神经网络中一种常用的无监督学习策略，在使用该策略时，网络的输出神经元相互竞争，每一时刻仅有一个竞争获胜的神经元被激活，其他神经元的状态被抑制，这种机制亦称为“胜者通吃”原则。ART（Adaptive Resonance Theory，自适应谐振理论）网络是竞争型学习的重要代表。该网络由比较层、识别层、识别阈值和重置模块构成。其中，比较层负责接收输入样本，并将其传递给识别层；识别层每个神经元对应一个模式类，神经元数目可在训练过程中动态增长以增加新的模式类。在接收到比较层的输入信号后，识别层

2022-05-19 11:13:04 2967 1

原创机器学习算法——神经网络4（RBF神经网络）

RBF(Radial Basis Function,径向基函数)网络是一种单隐层前馈神经网络。它使用径向基函数作为隐层神经元激活函数，而输出层是对隐层神经元输出的线性组合。所以，RBF神经网络是一种三层神经网络，其包括输入层、隐层、输出层。从输入层到隐层的变换是非线性的，从隐层到输出层的变换是线性的。RBF神经网络结构如下图所示。其中，我们称之为径向基函数，最常见的径向基函数是高斯径向基函数（或称为“高斯核函数”或者RBF核函数）。高斯核函数定义如下：其中，是第i个神经元的中心点，为高.

2022-05-17 11:06:59 8435 3

原创机器学习算法——神经网络3（误差逆传播算法-BP算法）

一、多层前馈神经网络要解决非线性可分问题，需考虑使用多层功能神经元。输入层和输出层之间的一层神经元，被称为隐层或隐含层（hidden layer）。隐含层和输出层神经元都是拥有激活函数的功能神经元。更一般的，常见的神经网络如下图所示的层级结构：图1 多层前馈神经网络结构示意图每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接。这样的神经网络结构通常称为“多层前馈神经网络”（multi-layer feedforward neural networks），其

2022-05-12 15:32:58 3334 1

原创机器学习算法——神经网络2（感知机）

感知机（Perception）是由两层神经元组成。输入层接收外界输入信号后传递给输出层，输出层是M-P神经元，亦称之为“阈值逻辑单元”，如下图所示。图两个输入神经元的感知机网络结构示意图感知机能很容易的实现逻辑与、或、非运算（只考虑0和1的取值）。注意到,假设f是跃阶函数，有“与”（）：令，则，仅在时，y=1。 “或”（）:令，则，仅在或时，y=1。 "非"（），令，则，仅在时，y=0;当时，y=1。定义感知机：假设输入空间（特征空间）是,输出空间是y={+1,-1}输入表.

2022-05-10 17:38:24 1670

原创机器学习算法——神经网络1（神经元模型）

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经元发送化学物质。1943年，McCulloch and Pitts将上述情形抽象为下图所示的简单模型

2022-05-09 15:49:20 1948

原创机器学习算法——概率类模型评估指标4（校准可靠性曲线及预测概率直方图）

一、预测概率直方图我们可以通过绘制直方图来查看模型的预测概率的分布。直方图以样本的预测概率分箱后的结果为横坐标，每个箱中的样本数量为纵坐标绘制一个图像。具体代码实现为：from sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_splitfrom sklearn.naive_bayes import GaussianNBfrom sklearn.svm im

2022-05-09 11:52:15 2443

原创机器学习算法——概率类模型评估指标3（可靠性曲线Reliability Curve）

可靠性曲线（Reliability Curve），又叫做概率校准曲线或可靠性图。这是一条以预测概率为横坐标，真实标签为纵坐标的曲线。我们希望预测概率与真实值越接近越好，最好两者相等。因此一个模型/算法的概率校准曲线越靠近对角线越好。校准曲线是我们模型评估指标之一。和布里尔分数相似，概率校准曲线是对于标签的某一类来说的。因此一类标签就会有一条曲线，或者我们可以使用一个多类标签下的平均来表示一整个模型的概率校准曲线。但通常来说，曲线用于二分类的情况最多。但是，以二分类为例，按上述的思路构图，会出现点全部

2022-05-08 22:07:01 3067 1

原创机器学习算法——概率类模型评估指标2（对数似然函数Log_Loss）

除了上节的布里尔分数外，另一种常用的概率损失衡量是对数损失（log_loss），又叫做对数似然、逻辑损失或者交叉熵损失，它是多元逻辑回归以及一些拓展算法（比如神经网络）中使用的损失函数。它被定义为，对于一个给定的概率分类器，在预测概率为条件的情况下，真实概率发生的可能性的负对数。由于是损失，因此对数似然函数的取值越小，则证明概率估计越准确，模型越理想。需要注意的是，对数损失只能用于评估分类型模型。为了计算对数损失，分类器必须提供对输入的所属的每个类别的概率值，不只是最可能的类别。对数损失函数的计算公式如

2022-05-03 16:01:05 3461

原创机器学习算法——概率类模型评估指标1（布里尔分数Brier Score）

概率预测的准确程度被称为“校准程度”，是衡量算法预测出的概率和真实结果的差异的一种方式。一种常用的指标叫做布里尔分数，它被计算为是概率预测相对于测试样本的均方误差（MSE）。MSE通常用作回归问题的损失函数。MSE的公式为预测值为，真实值为Y。由MSE推出布里尔分数（Brier Score）的公式为:其中，N是样本数量，为朴素贝叶斯预测出的概率，为样本所对应的真实结果。取值范围为[0,1]，分数越高则说明预测结果越差劲，校准程度越差，因此布里尔分数越接近0越好。这个指标衡量了我们

2022-05-03 11:11:25 6621

原创机器学习算法——贝叶斯分类器6（sklearn中的朴素贝叶斯）

朴素贝叶斯公式为：在贝叶斯中，P(x)是先验概率，一般很容易求得。所以需要重点求解贝叶斯概率公式中的分子。但是，在现实中，要求解也会有各种各样的问题。我们可能面临的特征非常多，这需要极多的计算资源。也有可能出现某一个概率为0的情况，分子就会为0，这种情况下的概率会导致整个概率的估计为0。求解连续型变量的概率，需要引入各种概率论中的数字分布，使用各种分布下的概率密度曲线来估计一个概率。其中涉及的数学过程是极其复杂的，要求熟悉概率论和微积分。我们最常用的几个分布为：高斯分布、伯努利分布和多项式.

2022-05-02 16:35:34 2383

原创机器学习算法——贝叶斯分类器5（EM算法）

在前面的讨论中，我们一直假设训练样本所有属性变量的值都已被观测到，即训练样本是“完整”的，但在实际应用中往往会遇到“不完整”的训练样本，例如由于西瓜的根蒂已脱落，无法看出是“蜷缩”还是“硬挺”，则训练样本的“根蒂”属性变量值未知。这种存在“未观测”变量的情形下，是否仍能对模型参数进行估计呢？未观测变量的学名是“隐变量”，令X表示已观测变量集，Z表示隐变量集，表示模型参数。若对做极大似然估计，则应最大化对数似然由于Z是隐变量，上式无法直接求解。此时我们可通过对Z计算期望，来最大化已观测数据的对

2022-04-30 07:00:00 1028

原创机器学习算法——贝叶斯分类器4（半朴素贝叶斯分类器）

为了降低贝叶斯公式中估计后验概率的困难，朴素贝叶斯分类器采用了属性条件独立性假设，但在现实任务中这个假设往往很难成立。于是，人们尝试对属性条件独立性假设进行一定程度的放松，由此产生了一类称为“半朴素贝叶斯分类器”的学习方法。半朴素分类器的基本思想是适当考虑一部分属性间的相互依赖信息，从而既不需进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”（One-Dependent Estimator,ODE）是半朴素贝叶斯分类器常用的一种策略。即假设每个属性在类别之外最多仅依赖于一个其它

2022-04-29 10:22:32 2388 1

原创机器学习算法——贝叶斯分类器3（朴素贝叶斯分类器）

基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于：类条件概率P(x|c)是所有属性上的联合概率，难以从有限的训练样本直接估计而得。为避开这个障碍，朴素贝叶斯分类器（Naive Bayes classfier）采用了“属性条件独立性假设”：对已知类别，假设所有属性相互独立。换句话说，每个属性独立地对分类结果产生影响。基于属性条件独立性假设，可重写P(c|x)其中，d为属性数目，为x在第i个属性上的取值。由于对所有类别来说P(x)相同，则贝叶斯判定准则为(即朴素贝叶斯分类器的表达式)：

2022-04-28 17:29:30 7081 2

空空如也

空空如也