
机器学习
文章平均质量分 86
Reacubeth
imperfect but true
展开
-
基于历史对比学习的时序知识图谱推理
知识图谱(KGs)作为人类知识的集合,在自然语言处理、推荐系统和信息检索等领域显示展现了很好的前景。传统的KG通常是一个静态知识库,它使用图结构数据拓扑,并以三元组(s, p, o)的形式集成事实(也称为事件),其中s和o分别表示主语(头实体)和宾语(尾实体)实体,p作为关系类型表示谓词。在现实世界中,由于知识不断发展,时序知识图谱(TKG)的构建和应用成为领域热点,其中三元组(s, p, o)扩展为四元组,增加了时间戳t,即(s, p, o, t)。下图是由一系列国际政治事件组成的TKG。原创 2022-12-25 17:43:42 · 4242 阅读 · 2 评论 -
对比学习Python实现
对比学习是一种通过对比正反两个例子来学习表征的自监督学习方法。对于自监督对比学习,下一个等式是对比损失:Li,j=−logexp(zi⋅zj/τ)∑k=1,k≠i2Nexp(zi⋅zk/τ) \mathcal{L}_{i,j} = - \log \frac{exp(\textbf{z}_i \cdot \textbf{z}_j / \tau)}{\sum_{k=1,k\neq i}^{2N}exp(\textbf{z}_i \cdot \textbf{z}_k / \tau)}Li,j=−log∑原创 2022-01-13 18:19:12 · 6339 阅读 · 0 评论 -
知识图谱中的结构信息建模
什么是知识图谱全球最具权威的IT研究与顾问咨询公司高德纳发布了2020年AI领域技术成熟度曲线,其中知识图谱的期待值处在AI领域的顶峰,还有5到10年的发展机会达到平稳期,也就是大规模商用。知识图谱这个概念是在2012年谷歌知识图谱的提出而火起来的,追根溯源,知识图谱的前身是语义网络。通俗地说,知识图谱将无序分散的信息,以图的方式整合成知识。那么知识图谱和图、异质图这些概念有什么区别呢。这里给出了三个概念的形式化定义。其中图就是节点和边的集合,社交网络,引文网络,脉络树都是很典型的图。第二个是异原创 2021-06-18 16:31:37 · 1046 阅读 · 0 评论 -
OmegaXYZ知识图谱应用Github仓库(长期更新)
知识图谱可视化DemoGithub: https://github.com/xyjigsaw/Knowledge-Graph-And-Visualization-Demo本项目支持2D,3D知识图谱可视化与查询,主要为JavaScript代码。详细描述:https://www.omegaxyz.com/2020/03/03/knowledge-graph-demo/Aminer学术社交网络数据知识图谱构建Github: https://github.com/xyjigsaw/Aminer2KG原创 2021-04-12 21:01:23 · 1638 阅读 · 1 评论 -
速读-对抗攻击的弹性异构DNN加速器体系结构
Paper: Wang, Xingbin, et al. “Dnnguard: An elastic heterogeneous dnn accelerator architecture against adversarial attacks.” Proceedings of the Twenty-Fifth International Conference on Architectural Support for Programming Languages and Operating Systems. .原创 2021-03-31 16:31:26 · 952 阅读 · 0 评论 -
速读-张量流处理器(TSP)
Paper: Abts, Dennis, et al. “Think fast: a tensor streaming processor (TSP) for accelerating deep learning workloads.” 2020 ACM/IEEE 47th Annual International Symposium on Computer Architecture (ISCA). IEEE, 2020.简介本文介绍了一种名为张量流处理器(TSP)的新型处理器体系结构,它利用了机器.原创 2021-02-03 12:12:23 · 1825 阅读 · 0 评论 -
冯诺依曼图熵(VNGE)Python实现及近似计算
简介冯·诺依曼图熵(VNGE)有助于测量图序列中图之间的信息差异和距离。给定第一个无向图 G=(V,E,A)G=(V, E, A)G=(V,E,A), 其中 AAA 是对称的邻接矩阵。 度矩阵定义为 D=diag(d1,...,dn)D=diag(d_1,...,d_n)D=diag(d1,...,dn),则它的拉普拉斯矩阵为 L=D−AL=D-AL=D−A。其中后者的特征值 λi\lambda_iλi 被称为拉普拉斯谱。 这里,Hvn(G)H_{vn}(G)Hvn(G) 为冯诺依曼图熵(von原创 2021-01-26 13:05:21 · 2873 阅读 · 0 评论 -
速读-NFA的GPU加速器
Liu, Hongyuan, Sreepathi Pai, and Adwait Jog. “Why GPUs areslow at executing NFAs and how to make them faster.” Proceedings ofthe Twenty-Fifth International Conference on Architectural Support forProgramming Languages and Operating Systems. 2020.本文介绍.原创 2021-01-19 21:56:14 · 656 阅读 · 0 评论 -
神经网络高维互信息计算Python实现(MINE)
论文Belghazi, Mohamed Ishmael, et al. “Mutual information neural estimation.” International Conference on Machine Learning. 2018.利用神经网络的梯度下降法可以实现快速高维连续随机变量之间互信息的估计,上述论文提出了Mutual Information Neural Estimator (MINE)。NN在维度和样本量上都是线性可伸缩的,MI的计算可以通过反向传播进行训练。核心原创 2020-12-18 12:38:01 · 7071 阅读 · 5 评论 -
速读-A3基于注意力机制的神经网络处理器
论文:Ham, Tae Jun, et al. “A^ 3: Accelerating Attention Mechanisms in Neural Networks with Approximation.” 2020 IEEE International Symposium on High Performance Computer Architecture (HPCA). IEEE, 2020.SJTU-CS7331-高级计算机系统架构 阅读材料HPCA,CCF-A体系结构顶会。随着神经网络计算需原创 2020-10-16 20:51:43 · 1669 阅读 · 0 评论 -
GCC图神经网络预训练概述
PaperGCC: Graph Contrastive Coding for Graph Neural Network Pre-Training关键词: 对比学习,实例辨析,可转移性,预训练图神经网络预训练的图对比编码最近工作然而,到目前为止,大多数关于图的表示学习工作都集中在学习单个图或一组固定图的表示,非常有限的工作可以转移到域外的数据和任务。挑战如何设计预训练任务,使网络内和网络间的通用结构模式被捕获并进一步转移?主要思想预训练的想法是使用预训练的模型作为一个良好的初始化,对未见数据原创 2020-10-09 18:29:50 · 1011 阅读 · 0 评论 -
GCC图神经网络预训练概述
PaperGCC: Graph Contrastive Coding for Graph Neural Network Pre-TrainingConference: KDDKeywords: Contrastive Learning, Instance Discrimination, Transferability, Pre-trainingRecent WorkHowever, most representation learning work on graphs has thus far f原创 2020-09-30 12:28:50 · 958 阅读 · 0 评论 -
Aminer学术社交网络数据知识图谱构建(三元组与嵌入)
本文共2865个字,预计阅读时间需要10分钟。Aminer科技情报大数据挖掘与服务系统平台AMiner是由清华大学计算机科学与技术系教授唐杰率领团队建立的,具有完全自主知识产权的新一代科技情报分析与挖掘平台 。AMiner平台以科研人员、科技文献、学术活动三大类数据为基础,构建三者之间的关联关系,深入分析挖掘,面向全球科研机构及相关工作人员,提供学者、论文文献等学术信息资源检索以及面向科技文献、专利和科技新闻的语义搜索、语义分析、成果评价等知识服务。典型的知识服务包括:学者档案管理及分析挖掘、专家学者原创 2020-07-13 12:22:44 · 8454 阅读 · 8 评论 -
个人主页信息提取器
本文共731个字,预计阅读时间需要3分钟。简介从研究人员的主页(HTML)中提取信息,并将信息自动分为三类(您可以添加更多的类)。支持中英文页面。可以分成的类别:publicationeducationhonor详细从互联网文本数据中提取并分类学术行为的流程如下图所示,整个过程是线性的。在正式提取学术行为之前,首先人工标注互联网中少量的学术行为,生成训练集后,采用fastText进行训练生成模型并保存。接下来通过Python爬虫获取HTML元数据,将HTML数据传入网页正文提取算法W原创 2020-06-20 14:28:23 · 492 阅读 · 0 评论 -
基于留一法的快速KNN代码
本文共885个字,预计阅读时间需要3分钟。留一法交叉验证(LOOCV)留一法即Leave-One-Out Cross Validation。这种方法比较简单易懂,就是把一个大的数据集分为k个小数据集,其中k-1个作为训练集,剩下的一个作为测试集,然后选择下一个作为测试集,剩下的k-1个作为训练集,以此类推。其主要目的是为了防止过拟合,评估模型的泛化能力。计算时间较长。适用场景:数据集少,如果像正常一样划分训练集和验证集进行训练,那么可以用于训练的数据本来就少,还被划分出去一部分,这样可以用来训练的数原创 2020-06-17 22:28:13 · 2456 阅读 · 1 评论 -
知识图谱综述论文阅读
论文摘要论文为A Survey on Knowledge Graphs: Representation, Acquisition and Applications,发表日期2020年,论文PDF,点击链接。代表实体间结构关系的知识图谱已成为认知和人类智能研究的一个日益流行的方向。在这篇论文中,作者对知识图谱进行了全面的回顾,涵盖了1)知识图谱表示学习、2)知识获取和补全、3)时序知识图谱、4)知识感知应用等方面的研究主题,并总结了最近的突破和未来的研究方向。作者对这些主题进行全视图分类。知识图谱嵌入从表原创 2020-05-21 17:51:56 · 4408 阅读 · 1 评论 -
BERT-BiLSTM-CRF命名实体识别应用
引言本文将采用BERT+BiLSTM+CRF模型进行命名实体识别(Named Entity Recognition 简称NER),即实体识别。命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。BERT(Bidirectional Encoder Representation fromTransformers),即双向Transformer的Encoder。模型的创新点在预训练方法上,即用了Masked LM和NextSentence Prediction两种原创 2020-05-18 14:06:16 · 11349 阅读 · 2 评论 -
图神经网络(GNN)TensorFlow实现
图神经网络的研究与图嵌入或网络嵌入密切相关,图嵌入或网络嵌入是数据挖掘和机器学习界日益关注的另一个课题。图嵌入旨在通过保留图的网络拓扑结构和节点内容信息,将图中顶点表示为低维向量,以便使用简单的机器学习算法(例如,支持向量机分类)进行处理。许多图嵌入算法通常是无监督的算法,它们可以大致可以划分为三个类别,即矩阵分解、随机游走和深度学习方法。同时图嵌入的深度学习方法也属于图神经网络,包括基于图自动...原创 2020-05-07 14:38:09 · 9667 阅读 · 13 评论 -
黑暗森林:知识图谱的前世今生
黑暗森林宇宙就是一座黑暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间,轻轻拨开挡路的树枝,竭力不让脚步发出一点儿声音,连呼吸都必须小心翼翼:他必须小心,因为林中到处都有与他一样潜行的猎人,如果他发现了别的生命,能做的只有一件事:开枪消灭之。在这片森林中,他人就是地狱,就是永恒的威胁,任何暴露自己存在的生命都将很快被消灭,这就是宇宙文明的图景。——《三体:黑暗森林》抛去黑暗森林的道德,...原创 2020-04-28 22:25:17 · 654 阅读 · 0 评论 -
COVID-19知识图谱问答系统(基于REFO)
本文共669个字,预计阅读时间需要3分钟。简介基于知识图谱的问答系统,即KBQA。其中一个简单的实现方法是根据用户输入的自然语言问句,转化为图数据库中的关系查询,最终将数据库中的实体及关系呈现给用户。下面给出了一个KBQA的Demo。实现依赖Python 3.6+Apache Jena FusekiSPARQLWrapperrefojiaba实例数据此知识图谱的主题为C...原创 2020-04-28 09:50:08 · 3020 阅读 · 14 评论 -
知识融合(实体对齐)笔记
本文共1132个字,预计阅读时间需要4分钟。知识融合本体匹配(ontology matching)侧重发现模式层等价或相似的类、属性或关系,也成为本体映射(mapping)、本体对齐(alignment)实体对齐(entity alignment)侧重发现指称真实世界相同对象的不同实例,也称为实体消解(resolution)、实例匹配(instance matching)知识融合(kn...原创 2020-04-07 15:30:18 · 4703 阅读 · 0 评论 -
知识图谱属性与关系区别
本文共674个字,预计阅读时间需要3分钟。知识图谱中属性和关系的区别主要是在于其面对的实体不同。实体关系分为两种,一种是属性property,一种是关系relation。其最大区别在于,属性所在的三元组对应的两个实体,常常是一个topic和一个字符串,如属性Type/Gender,对应的三元组(Justin Bieber, Type, Person),而关系所在的三元组所对应的两个实体,常常是...原创 2020-04-06 21:18:30 · 6516 阅读 · 0 评论 -
图注意力网络(GAT) TensorFlow解析
论文图注意力网络来自 Graph Attention Networks,ICLR 2018. https://arxiv.org/abs/1710.10903注意力机制代码import tensorflow as tffrom tensorflow import kerasfrom tensorflow.python.keras import activationsfrom ...原创 2020-03-29 22:35:07 · 3963 阅读 · 1 评论 -
基于LDA的文本主题聚类Python实现
LDA简介LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别大规模...原创 2020-02-24 18:48:14 · 11343 阅读 · 5 评论 -
数据分析岗位面试必备
业务逻辑数据分析遵循一定的流程,不仅可以保证数据分析每一个阶段的工作内容有章可循,而且还可以让分析最终的结果更加准确,更加有说服力。一般情况下,数据分析分为以下几个步骤:业务理解,确定目标、明确分析需求;数据理解,收集原始数据、描述数据、探索数据、检验数据质量;数据准备,选择数据、清洗数据、构造数据、整合数据、格式化数据;建立模型,选择建模技术、参数调优、生成测试计划、构建模型;评估...原创 2020-02-17 17:34:23 · 1518 阅读 · 0 评论 -
推荐系统摘要
作为一个推荐系统的门外汉,或者说是用户,我觉得推荐系统有以下几个特性。推荐系统的真实目的并不是做到让用户满意,而是提高销售能力,业务水平和收益。一个好的推荐系统并不是推荐用户最喜爱/想要的东西,量化评判一个推荐系统的好坏依然是工业界,学术界难点。相同的推荐算法应用于不同的系统,结果必然不同。简单易懂的推荐算法往往能获得意想不到的效果。论文推荐系统与普通的推荐乍一看很相似,实则有很...原创 2020-02-16 12:52:28 · 768 阅读 · 0 评论 -
可视化图布局算法简介
Fruchterman Reingold (FR)FR算法将所有的结点看做是电子,每个结点收到两个力的作用:其他结点的库伦力(斥力)fa(d)=d2kf_{a}(d)=\frac{d^{2}}{k}fa(d)=kd2边对点的胡克力(引力)。fr(d)=−k2df_{r}(d)=\frac{-k^{2}}{d}fr(d)=d−k2该算法遵循两个简单的原则:有边连接的节...原创 2020-02-01 17:02:22 · 7349 阅读 · 0 评论 -
用户身份链接方法——DeepLink
论文:DeepLink: A Deep Learning Approach for User Identity Linkage**UIL(User Identity Linkage):**用户身份链接,通过方法发现跨社交平台上同一用户或者实体。即跨社交平台的同对象识别,UIL在用户行为预测、身份识别和隐私保护方面有很大的作用。摘要目前为了处理用户身份链接采用了依赖多社交平台相关特征提取的基...原创 2020-01-27 20:00:33 · 2073 阅读 · 0 评论 -
知识图谱嵌入的应用场景
In-KG应用(在 KG 范围内的应用)链接预测(Link prediction)链接预测任务有时也称为实体预测或实体排序,用来预测两个实体之间是否有特定的关系。即已知头实体h和关系r,预测尾实体t;或者尾实体t和关系r,预测头实体h。它的本质是一个KG补全的任务,即将缺失的知识添加到图谱中。同时也可以预测两个给定实体之间的关系,即已知头尾实体,求r。以预测头实体为例,可以将 KG 中每个...原创 2020-01-15 09:01:16 · 2017 阅读 · 0 评论 -
NSGA-II资料合集
关于NSGA-II的一些资料NSGA-II中文翻译MATLAB代码NSGA-II的解释简介关于演化计算生物系统中,进化被认为是一种成功的自适应方法,具有很好的健壮性。基本思想:达尔文进化论是一种稳健的搜索和优化机制。大多数生物体是通过自然选择和有性生殖进行进化。自然选择决定了群体中哪些个体能够生存和繁殖,有性生殖保证了后代基因中的混合和重组。自然选择的原则是适者生存,优胜劣汰。演化...原创 2019-10-29 15:47:27 · 3242 阅读 · 2 评论 -
计算机领域顶级会议、期刊、人物与国家排名2019
原文地址:最近浏览到一个网站:http://www.guide2research.com/这是一个根据谷歌学术排名的计算机领域各类会议、学术期刊、人物、国家、组织的排名查询网站。时间2019年3月会议按照Hindex排名。显然第一名就是大名鼎鼎的CVPR了,第二名为NIPS。学术期刊人物(全球排名)灯塔国还是强啊!人物(中国大陆排名)我好像只知道周志华!国家排...原创 2019-03-01 11:04:02 · 2995 阅读 · 0 评论 -
经典蝙蝠算法MATLAB实现
为什么会有这么多基于群智能的算法,蚁群、粒子群、鱼群、烟花、炮竹、猪群、牛群、马群、羊群、猴群、鸡群。。。算法。??????黑人问号.jpg蝙蝠算法( BA) 是 Yang 教授于 2010 年基于群体智能提出的启发式搜索算法,是一种搜索全局最优解的有效方法。该算法是一种基于迭代的优化技术,初始化为一组随机解,然后 通过迭代搜寻最优解,且在最优解周围通过随机飞行产生局部新解,加强了局部搜索。...原创 2019-02-24 21:19:42 · 24005 阅读 · 50 评论 -
遗传算法解决TSP问题MATLAB实现(详细)
问题定义:巡回旅行商问题给定一组n个城市和俩俩之间的直达距离,寻找一条闭合的旅程,使得每个城市刚好经过一次且总的旅行距离最短。TSP问题也称为货郎担问题,是一个古老的问题。最早可以追溯到1759年Euler提出的骑士旅行的问题。1948年,由美国兰德公司推动,TSP成为近代组合优化领域的典型难题。TSP是一个具有广泛的应用背景和重要理论价值的组合优化问题。 近年来,有很多解决该问题的较为有效...原创 2019-02-01 15:49:05 · 84215 阅读 · 69 评论 -
反世代距离评价指标IGD
反世代距离评价指标(Inverted Generational Distance, IGD) 是一个综合性能评价指标。它主要通过计算每个在真实 Pareto前沿面上的点(个体)到算法获取的个体集合之间的最小距离和,来评价算法的收敛性能和分布性能。值越小,算法的综合性能包括收敛性和分布性能越好。公式:其中,P 为均匀分布在真实 Pareto 面上的点集,|P|为分布在真实 Pareto 面上的...原创 2019-02-01 15:41:42 · 22253 阅读 · 9 评论 -
蚁群算法最短路径规划多出口情况及问题答疑
最近好多人问我蚁群算法最短路径规划如何设置多出口情况,原来2019年美赛D题“拯救卢浮宫”需要用到。本人没有看过美赛的题目,下面给出一些不成熟的代码。蚁群算法简介:蚁群算法最早是由Marco Dorigo等人在1991年提出,他们在研究新型算法的过程中,发现蚁群在寻找食物时,通过分泌一种称为信息素的生物激素交流觅食信息从而能快速的找到目标,据此提出了基于信息正反馈原理的蚁群算法。单出口情况:...原创 2019-02-01 15:26:26 · 3278 阅读 · 4 评论 -
NLTK在python中文字所表达的情感预测
NLTK是python环境下NLP工具包,包含了丰富的文本处理和文本挖掘API。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。自然语言工具箱(NLTK,Natural Language Toolkit) 是一个基于Python语言的类库,它也是当前最为流行的自然语言编程与开发工具。在进行自然语言处理研究和应用时, 恰当利用NLTK中提供的函数可以大幅度地提高效率。本文就将通过一些实原创 2017-12-16 18:22:51 · 1216 阅读 · 0 评论 -
基于迭代局部搜索和随机惯性权重的BA算法MATLAB实现(ILSSIWBA)
BA算法简介http://www.omegaxyz.com/2019/02/12/ba-matlab/该论文修改作者在原有BA算法上进行3个修改跳出局部最优(扰动个体)使得算法变得稳定脉搏和响度修改,平衡局部与全局搜索主要思想流程图function [bestMin, bestID] = ILSSIWBA()%A new bat algorithm based on i...原创 2019-03-04 14:35:17 · 2590 阅读 · 5 评论 -
NSGA2算法中文详解与MATLAB实现整理
NSGA2算法NSGA-II多目标遗传算法概述http://www.omegaxyz.com/2017/04/14/nsga-iiintro/NSGA2算法MATLAB实现(能够自定义优化函数)http://www.omegaxyz.com/2018/01/22/new_nsga2/NSGA2算法特征选择MATLAB实现(多目标)http://www.omegaxyz.co...原创 2019-03-07 20:55:25 · 20847 阅读 · 12 评论 -
DBSCAN聚类算法Python实现
原理DBSCAN是一种基于密度的聚类算法,这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。通过将紧密相连的样本划为一类,这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别,则我们就得到了最终的所有聚类类别结果。一些概念x1是核心对象,x2由x1密度直达,x...原创 2019-03-30 20:26:54 · 35862 阅读 · 19 评论 -
对极大似然估计的理解
参数估计(parameter estimation)统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。参数估计的目的利用样本的已知信息,反推样本的具体环境,即反推参数值。举例来说,一堆离散的样本点,需要拟合,拟合出的函数的w系数,即是反推的参数值。这点便是...原创 2019-04-06 12:22:07 · 656 阅读 · 0 评论