
机器学习
大鹏的NLP博客
擅长自然语言处理,知识图谱,人工智能,大数据,K8S,软件工程等领域的技术及管理
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
cuda安装地址
【代码】cuda安装地址。原创 2024-11-28 20:10:41 · 205 阅读 · 0 评论 -
机器学习指标:准确率、精准率、召回率、F1、ROC曲线、AUC曲线
还是拿之前的例子,总样本中,90% 是正样本,10% 是负样本。这里,TPR 只关注 90% 正样本中有多少是被真正覆盖的,而与那 10% 毫无关系,同理,FPR 只关注 10% 负样本中有多少是被错误覆盖的,也与那 90% 毫无关系,所以可以看出:如果我们从实际表现的各个结果角度出发,就可以避免样本不平衡的问题了,这也是为什么选用 TPR 和 FPR 作为 ROC/AUC 的指标的原因。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。这样不利于模型的学习。原创 2024-10-19 20:49:21 · 1421 阅读 · 0 评论 -
Transformers 直观解释——不仅是如何工作,而且为什么工作得这么好
查询Q和键K之间的点积计算每对单词之间的相关性。然后将该相关性用作“因子”来计算所有值V的加权和。该加权和作为注意力分数输出。Transformer 学习嵌入等,从而使彼此相关的单词更加对齐。这是引入三个线性层并为查询、键和值创建三个版本的输入序列的原因之一。这为注意力模块提供了更多参数,它可以学习这些参数来调整词向量的创建。原创 2024-03-27 22:36:02 · 913 阅读 · 0 评论 -
熵权法实现
一般来说,若某个指标的概率越大,不确定程度越小,信息熵越小,指标离散程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的指标的概率越小,不确定程度越小,信息熵越大,表明指标值得离散程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。而熵权法是统计学领域,与信息学领域对熵值的解释有所不同。简言之,在统计学领域中,当数据越分散时,熵值越小,可认为该数据包含信息越多,因此权重越大,这也是熵权法的解释;而在信息学领域中,数据越分散,计算熵值越小,数原创 2023-02-23 17:08:34 · 566 阅读 · 0 评论 -
机器学习工具
通过完全托管的基础设施、工具和工作流程为任何用例构建、训练和部署机器学习 (ML) 模型。https://aws.amazon.com/cn/sagemaker/ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!我们希望在汇集行业领先的预训练模型,减少开发者的重复研发成本,提供更加绿色环保、开源开放的AI开发环境和模型服务,助力绿色“数字经济”事业的建设。 ModelScope平台将以开源的方式提供多类优质模型,开发者原创 2022-12-07 16:34:26 · 148 阅读 · 0 评论 -
集成学习算法
bagging、boosting、stacking原创 2022-11-17 15:02:17 · 389 阅读 · 0 评论 -
长短期记忆网络(LSTMs)介绍
长短期记忆网络(LSTMs)介绍1:传统RNN的缺点,LSTM结构解析,LSTM变体简介转载 2022-11-14 18:43:49 · 182 阅读 · 0 评论 -
K-means 有一个著名的解释:牧师—村民模型
有四个牧师去郊区布道,一开始牧师们随意选了几个布道点,并且把这几个布道点的情况公告给了郊区所有的村民,于是每个村民到离自己家最近的布道点去听课。听课之后,大家觉得距离太远了,于是每个牧师统计了一下自己的课上所有的村民的地址,搬到了所有地址的中心地带,并且在海报上更新了自己的布道点的位置。牧师每一次移动不可能离所有人都更近,有的人发现A牧师移动以后自己还不如去B牧师处听课更近,于是每个村民又去了离自己最近的布道点……就这样,牧师每个礼拜更新自己的位置,村民根据自己的情况选择布道点,最终稳定了下来。原创 2022-11-10 11:13:07 · 738 阅读 · 0 评论 -
Bert微调技巧大全
论文摘要这篇论文的主要目的在于在文本分类任务上探索不同的BERT微调方法并提供一种通用的BERT微调解决方法。这篇论文从三种路线进行了探索:(1) BERT自身的微调策略,包括长文本处理、学习率、不同层的选择等方法;(2) 目标任务内、领域内及跨领域的进一步预训练BERT;(3) 多任务学习。微调后的BERT在七个英文数据集及搜狗中文数据集上取得了当前最优的结果。有兴趣的朋友可以点击上面的实验代码,跑一跑玩一玩~见: https://mp.weixin.qq.com/s/uYHYISd72rF_0uQI转载 2021-08-25 10:01:45 · 1443 阅读 · 0 评论 -
scikit-learn algorithm cheat-sheet
scikit-learn,备忘录,路线图,技巧原文地址:https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html原创 2019-12-23 14:17:21 · 429 阅读 · 0 评论 -
归一化的意义笔记:归纳统一样本的统计分布性
归一化前:归一化后:在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1–+1之间是统计的坐标分布。假设有两个变量,都是均匀分布,X1范围是100000到200000,X2的范围是1到2。现在请在一张A4纸上画个坐标,点出这些点。很显然,你会点出很多处于同一直线上的点,我们称这条直线为L。也就是说,如果现在我们要做一个cl原创 2017-07-14 21:20:38 · 6198 阅读 · 1 评论 -
tf-idf:sklearn中TfidfVectorizer使用
import jiebafrom sklearn.feature_extraction.text import TfidfVectorizercorpus = []data_file="./tfidf-data.txt"with open(data_file, 'r') as f: for line in f: corpus.append(" ".join(jieba.c原创 2017-09-05 17:18:28 · 12469 阅读 · 0 评论 -
Scikit-learn使用总结
估计器(Estimator)估计器,很多时候可以直接理解成分类器,主要包含两个函数:fit():训练算法,设置内部参数。接收训练集和类别两个参数。 predict():预测测试集类别,参数为测试集。 大多数scikit-learn估计器接收和输出的数据格式均为numpy数组或类似格式。转换器(Transformer)转换器用于数据预处理和数据转换,主要是三个方法:fit():训练算法,设置内部参原创 2017-08-30 16:17:31 · 920 阅读 · 0 评论 -
关于深度学习优化器 optimizer 的选择,你需要了解这些
https://www.leiphone.com/news/201706/e0PuNeEzaXWsMPZX.html转载 2017-11-29 11:37:22 · 483 阅读 · 0 评论 -
TensorFlow全新的数据读取方式:Dataset API入门教程
Dataset API的导入在TensorFlow 1.3中,Dataset API是放在contrib包中的:tf.contrib.data.Dataset而在TensorFlow 1.4中,Dataset API已经从contrib包中移除,变成了核心API的一员:tf.data.Dataset下面的示例代码将以TensorFlow 1.4版本为例,如果使用TensorFlow 1.3的话,需要原创 2017-12-08 16:22:32 · 2292 阅读 · 0 评论 -
训练深度神经网络失败的罪魁祸首不是梯度消失,而是退化
训练深度神经网络失败的罪魁祸首不是梯度消失,而是退化https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650735824&idx=1&sn=1720a687f197538b23d8d329e87998fb&chksm=871ac0aeb06d49b826d8f7d6370e2fc9768c57c4d8ef3ed8dd90ae97d33转载 2018-01-08 10:11:34 · 3711 阅读 · 1 评论 -
Anaconda 镜像使用帮助
Anaconda 是一个用于科学计算的 Python 发行版,支持 Linux, Mac, Windows, 包含了众多流行的科学计算、数据分析的 Python 包。清华提供了下载:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/清华还提供了 Anaconda 仓库的镜像,运行以下命令:conda config --add原创 2018-01-25 15:05:21 · 1004 阅读 · 0 评论 -
tensorflow调试tfdbg
环境Windows10,Anaconda3。错误:curses问题去这里下载相应的库:https://www.lfd.uci.edu/~gohlke/pythonlibs/#curses利用pip install 安装,见下图:pip install安装时遇到的问题TypeError: parse() got an unexpected keyword argu原创 2018-01-25 17:22:00 · 2670 阅读 · 0 评论 -
逻辑回归算法
它能够把输入的连续实值“压缩”到0和1之间。特别的,如果是非常大的负数,那么输出就是0;如果是非常大的正数,输出就是1. sigmoid 函数曾经被使用的很多,不过近年来,用它的人越来越少了。主要是因为它的一些 缺点: 当输入非常大或者非常小的时候,这些神经元的梯度是接近于0的,从图中可以看出梯度的趋势。Sigmoid 的 输出不是0均值,这会导致后一层的神经元将得到上一层输出的非0均值的信...原创 2018-06-12 12:04:42 · 405 阅读 · 0 评论 -
tensorflow 交叉熵 softmax分类
THE MNIST DATABASEhttp://yann.lecun.com/exdb/mnist/ https://blog.youkuaiyun.com/simple_the_best/article/details/75267863交叉熵(cross entropy)的定义对多分类问题(multi-class),通常使用 cross-entropy 作为 loss function。...原创 2018-06-12 20:21:10 · 733 阅读 · 0 评论 -
Tensorflow 指定GPU运行
If you have more than one GPU in your system, the GPU with the lowest ID will be selected by default. If you would like to run on a different GPU, you will need to specify the preference explicitly:(h...原创 2018-08-13 16:42:25 · 2454 阅读 · 0 评论 -
自然语言处理语料库
搜狗实验室数据资源http://www.sogou.com/labs/resource/list_pingce.php自然语言处理与信息检索共享平台http://www.nlpir.org/?action-category-catid-28参考:http://blog.youkuaiyun.com/u012052268/article/details/78035272其它语...原创 2018-03-22 14:24:28 · 2298 阅读 · 1 评论 -
pandas 学习笔记
https://ericfu.me/10-minutes-to-pandas/ DataFrame 是由 Series 组成的,内部使用numpy格式存储用 head 和 tail 查看顶端和底端的几列df = pd.DataFrame({ 'A' : 1., 'B' : pd.Timestamp('20130102'), ...原创 2018-08-28 12:26:30 · 340 阅读 · 0 评论 -
pyltp测试笔记
ltp数据地址:http://ltp.ai/download.html分句 def test_split(self):#分句 sents = SentenceSplitter.split('人工智能是一门极富挑战性的科学。从事这项工作的人必须懂得计算机知识,心理学和哲学。') # 分句 print('\n'.join(sents))结果...原创 2018-09-01 18:26:04 · 860 阅读 · 0 评论 -
几大智能平台
腾讯:https://ai.qq.com/百度:https://ai.baidu.com/阿里数据智能:https://ai.aliyun.com/?spm=5176.8142029.388261.19.54306d3ePrtcHc阿里云IoT:https://iot.aliyun.com/阿里云:https://www.aliyun.com...原创 2018-09-29 14:00:38 · 321 阅读 · 0 评论 -
卷积神经网络之一:基本慨念的理解笔记
CNN 特点:局部感受野权重共享池化 上图左:全连接网络,对于1000x1000像素的图像,有1百万个隐层神经元,每个隐层神经元都连接图像的每一个像素点,就有1000x1000x1000000=10^12个连接,也就是10^12个权值参数。 上图右:局部连接网络,每一个节点与上层节点同位置10x10的窗口相连接,则1百万个隐层神经元就只有100w*10原创 2015-02-14 22:05:21 · 3745 阅读 · 0 评论 -
文本情感分类(二):深度学习模型
http://spaces.ac.cn/archives/3414/转载 2017-03-07 20:54:27 · 2469 阅读 · 0 评论 -
高方差与高偏差学习笔记
Error = Bias + Variance。这里的Error大概可以理解为模型的预测错误率,是有两部分组成的,一部分是由于模型太简单而带来的估计不准确的部分(Bias),另一部分是由于模型太复杂而带来的更大的变化空间和不确定性(Variance)。朴素贝叶斯是高方差低偏差的算法Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Varia原创 2016-03-26 22:02:07 · 6770 阅读 · 2 评论 -
中文分词笔记之二:隐马尔科夫模型
总结,隐马尔科夫模型一共有两组状态,三个矩阵 隐藏状态:一个系统的(真实)状态,可以由一个马尔科夫过程进行描述(例如,天气)。 观察状态:在这个过程中‘可视’的状态(例如,海藻的湿度)。 向量:包含了(隐)模型在时间 t=1 时一个特殊的隐藏状态的概率(初始概率)。 状态转移矩阵:包含了一个隐藏状态到另一个隐藏状态的概率 混淆矩阵:包含了给定隐马尔科夫模型的某一个特殊的隐原创 2015-01-29 22:11:04 · 1564 阅读 · 0 评论 -
中文分词笔记之一:概率基础
分词,对于一个字符串C=可以输出多个词串S=,而S中最大的那个,就是我们要的结果。根据贝叶斯公式,其中P(C),可以从语料库统计得出,在这里只是一个固定值;且P(C|S)=1。因此,比较P(S|C)的大小变成比较P(S)的大小: 根据马尔科夫模型可得:P(S) = P(w1,w2,...,wn)= P(w1)P(w2|w1) P(w3|w1,w2原创 2015-01-28 23:07:37 · 7584 阅读 · 0 评论 -
随机森林笔记
随机森林 顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的随机森林的优点 能够处理很高维度的数据,并且不用做特征选择 在训练完后,它能够给出哪些feature比较重要 在创建随机森林的时候,对generlization error使用的是无偏估计 训练速度快 在训练过程中,能够检测到featur原创 2015-10-01 07:00:00 · 1347 阅读 · 0 评论 -
卷积神经网络之二:实例及源码示例笔记
文字识别系统LeNet-5 下面,有必要来解释下上面这个用于文字识别的LeNet-5深层卷积网络。 1. 输入图像是32x32的大小,局部滑动窗的大小是5x5的,由于不考虑对图像的边界进行拓展,则滑动窗将有28x28个不同的位置,也就是C1层的大小是28x28。这里设定有6个不同的C1层,每一个C1层内的权值是相同的。 2. S2层是原创 2015-02-14 22:08:47 · 4914 阅读 · 0 评论 -
Linux安装 PyQt-x11-gpl-4.11.3.tar.gz笔记
安装PyQt-x11-gpl-4.11.3.tar.gz执行:python3configure.py报错:Failedto determine the layout of your Qt installation.Tryagain usingthe --verbose flag to see more detail about the problem.这是编译器原创 2015-06-07 19:20:43 · 1296 阅读 · 0 评论 -
“100 Best GitHub: Deep Learning”
http://meta-guide.com/software-meta-guide/100-best-github-deep-learning/转载 2015-07-22 14:19:13 · 536 阅读 · 0 评论 -
数据规范化笔记
最小-最大规范化原创 2015-07-14 21:35:55 · 1559 阅读 · 0 评论 -
朴素贝叶斯分类及程序简述笔记
独立的类别变量C有若干类别,条件依赖于特征变量 d,d是一个向量空间。贝叶斯定理有以下式子:分母不依赖于类别C,所以分母是个固定值,跟最终的分类结果无关,所以有:原创 2015-02-17 00:12:23 · 776 阅读 · 0 评论 -
神经网络BP的简单实现
/* * 将三位二进制数转为一位十进制数 * * 作者:zhangdapeng * */#include #include #include #includeusing namespace std;const int layer=2;//BP层的数量const int in_unit=3; //输入单元数const int hide_unit=100;//隐藏原创 2015-01-06 21:47:22 · 1980 阅读 · 0 评论 -
基于本体的单标签分类
1)在本体中找到能表示各个类的一个或几个概念,我们称为本体中的各个类Ci(02)根据本体从样本集中得到概念向量Vj(03)求出概念向量Vj到本体中的各个类Ci的距离(语义相似度)的和Σj,其和最大的对应的那个类,就是样本所属的类。其它的样本以此类推。原创 2014-06-07 17:56:19 · 726 阅读 · 0 评论 -
中文分词笔记之三:示例代码及测试结果
示例代码: /** *g为邻接表 *i为当前节点 */ Iterator it1 = g.getPrev(i);//得到一级前驱词集合 double maxProb = Double.NEGATIVE_INFINITY; int maxPrev1 = -1; int maxPrev2 = -1; while(it1.hasNext()) { CnToken t1原创 2015-01-31 13:46:16 · 1032 阅读 · 0 评论 -
特征选择
http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.htmlhttp://www.36dsj.com/archives/24225原创 2016-04-01 15:43:58 · 2110 阅读 · 0 评论