
机器学习
文章平均质量分 56
包括西瓜书,NLP和数据挖掘
qq_33588413
这个作者很懒,什么都没留下…
展开
-
图神经网络学习gnn-day-2
主要问题为版本环境问题,我的python版本为py3.6,torch-1.7,必须下载对应的版本的离线包,并且安装。其次是数据集问题,数据集较大,且GitHub要翻墙,所以数据集问题也要解决。离线whl包如下所示:问题主要是: model = Net().to('cpu')Data(x=x, edge_index=edge_index, edge_attr=edge_attr, y=y, num_nodes=num_nodes, other_attr=other_attr) 类没有构建.原创 2021-06-16 23:00:37 · 336 阅读 · 2 评论 -
python QT5_demo
import sysfrom PyQt5.QtCore import *from PyQt5.QtWidgets import *from PyQt5.QtCore import *class ComboxDemo(QWidget): def __init__(self, parent=None): super(ComboxDemo, self).__init__(parent) # 设置标题 self.setWindowTitle('C.转载 2021-06-12 20:06:30 · 250 阅读 · 0 评论 -
集成学习下之Blending集成学习
Blending集成学习作为stack集成学习的简化版,可以看成是一个两层的集成,第一层有多个分类器,分类的结果输出到第二层,而第二层通常是一个逻辑回归的模型,把第一层的分类结果作为特征输入到逻辑回归的模型。Blending集成学习主要步骤分为以下五步:(1) 将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集 (val_set); (2) 创建第一层的多个模型,这些模型可以使同质的也可以是异质的; (3) ...原创 2021-05-11 22:00:03 · 259 阅读 · 0 评论 -
二手车交易价格预测
二手车交易价格预测,是一个典型的预测问题,baseline就是提取出数值类的特征列,Type类的都不符合要求,['SaleID','name','regDate','creatDate','price','model','brand','regionCode','seller']也不符合,如果数据存在空值,就用-1进行替换,y值就是二手车的价格,显然不是标签值,故预测模型采用xgboost和lgboost回归,采用交叉验证的方式计算验证集和训练集的mae。然后分别用xgb和lgb训练模型,...原创 2021-04-13 19:59:27 · 1218 阅读 · 1 评论 -
语音识别-食物声音识别
声音识别和自然语言处理类似,声音和文本都是一种序列化的数据。自然语言处理要处理文本,首先要将文本表示成为计算机能够识别的数据,比如one-hot编码,词袋模型,或者训练成词向量嵌入到空间内。在声音利与内,声音可以通过librosa库进行特征处理,例如提取melspectrogram,mfcc特征。进而可以成为计算机可以识别,处理的数据。 本次做食物声音识别,共有20种咀嚼食物的声音,如咀嚼肉饼,卷心菜等。baseline采用的是CNN,最后一层接全连接层,激活函数采用softmax,...原创 2021-04-13 15:24:03 · 649 阅读 · 0 评论 -
论文解读:Connecting Embeddings for Knowledge Graph Entity Typing
论文解读:Connecting Embeddings for Knowledge Graph Entity Typing知识图谱实体类型推理(KG Entity Typing)致力于预测知识图谱中可能缺失的实体类型实例,其作为知识图谱自动补全的一项子任务,非常重要但仍然缺乏更深入的研究。本文的方法基于联合学习的思路,从已知实体类型标注集中局部类型标注知识(Local typing knowledge)和知识图谱中全局三元组知识(Global triple knowledge)两类数据中挖掘知识,提出了两原创 2020-10-23 21:46:28 · 1060 阅读 · 0 评论 -
概率图算法-EM算法
1.引言EM算法,也就是期望最大算法,分为E步和M步,作为一种算法,和模型当然有着本质的区别,类似于梯度下降算法,去求解模型的参数。EM算法多用于概率图生成模型,像HMM,GMM。。。之前的文章里就有EM算法去求解HMM的learning问题。研究EM算法,就要从EM算法收敛性的证明,EM公式的推导这几个方面来看。2.EM算法收敛性为什么要去证算法的收敛性,就是要证明EM公式可以去取的一个最大值,并且得到一个对应的。这样,就能为接下来EM公式的推导做铺垫。其收敛性证明主要用到了KL函数的性质,即原创 2020-10-04 08:31:20 · 686 阅读 · 0 评论 -
概率图模型-条件随机场(CRF)
1.引言根据前面所写的HMM和HMMVSMEMMVSCRF,CRF也成了一个比较熟悉的概念了,作为HMM和MEMM的集大成者,由于有了之前HMM的研究基础,而CRF也是类似HMM的,有些问题的解决办法甚至是一模一样的,比如decoding问题,都是用的维特比算法,CRF作为一个无向图,和HMM还是有一些区别的,并且CRF是判别式模型。研究概率图模型一般都是从learning(求参数)和inference(求边缘概率,求条件概率,求最优状态序列)展开,故本文也从这分这两小节讲述。2.Learning原创 2020-10-02 17:25:50 · 444 阅读 · 0 评论 -
HMM VS MEMM VS CRF
一般而言,两个模型的对比,一般都是有缺点和优点的,这是经典的马克思主义学说,HMM,MEMM,CRF都是经典的概率图模型,它们有相同点,当然也有不同点。1.相同点HMM是生成模型,MEMM,CRF都是判别式模型,也就是求解条件概率,而判别式模型在求解标注问题时更加方便,时间消耗小。2.不同点HMM,MEMM,CRF当然不同,他们之间的关系是一种递进的关系,最终得到的结果是使得模型的合理性更加通用。由于最开始为了计算的简便,在计算HMM的三个问题的时候,就做了两个假设。而这两个假设显然是不合理原创 2020-09-30 21:25:51 · 379 阅读 · 0 评论 -
概率图模型-HMM(隐马尔可夫模型)
HMM隐马尔可夫模型是一种经典的概率图模型,是动态贝叶斯网络,即是一种有向图。概率图模型不同于传统的统计机器学习方法,传统的统计机器学习的三个基本问题是关于模型,策略,还有算法。可以看成是一个优化已经构建的损失函数的问题。而概率图模型则不同,它包括了learning还有inference这两个过程,是一个积分问题。HMM广泛运用于自然语言处理中的机器翻译等等。。。它的缺陷也是十分明显的,模型较为简单,因为假设过多,包括了齐次马尔科夫假设和观测独立性假设。研究HMM一般是从三个问题出发,evaluat..原创 2020-09-30 10:05:00 · 1297 阅读 · 0 评论 -
西瓜书-简单线性模型
线性模型,当然就是最简单的模型了,形如3.1和3.2这两个公式,显然w和x都为向量,当然w可以为标量,此时对应的就是最普通的线性模型,其次就是多元线性模型。线性模型可以做什么?答:分类和回归。这样自然要去回答分类和回归是什么,回归就是预测的函数值是连续的,而分类拟合的函数值就是离散的,典型的就是二分类,预测的是0和1.那么如何才能得到一个好的线性回合模型?自然就是要使得预测的结果和实际值差距小,但是也不能达到100%,那就是经典过拟合了,这就是均方误差,如下所示:这就是...原创 2020-10-02 17:28:19 · 352 阅读 · 0 评论