智慧的旋风-优快云博客

原创 2021-MAXP-DGL图机器学习大赛-Graph@ICT-复盘与总结【rank6】

2021-MAXP-DGL图机器学习大赛-Graph@ICT-复盘文章目录2021-MAXP-DGL图机器学习大赛-Graph@ICT-复盘写在前面初赛：超长战线前期：顺风顺水到阶段性受挫中期：柳暗花明后又遭受打击后期：人都被卷没了到又重新燃起希望复赛：决定命运的48hday1day2复赛放榜总结写在前面时间真快，遥想刚开始搞这个比赛的时候，我还是刚从字节离职。一晃几个月就过去了，我的研一上学期也接近了尾声。这个比赛奖金贼多，总奖金18w，但是根据我从小到大围棋比赛的经验来看，有奖金特别是奖金丰厚的

2022-01-15 16:58:05 2022 2

原创 git的一些使用心得

git使用总结关于回滚git add filname如果错误add的某文件（后悔了），则可以通过以下命令进行撤回git reset filname之后可以提交代码到本地仓库。git commit -m "message"如果错误commit，想回到上一次的版本，则可以通过以下命令进行回滚# 查看commit idgit log # 回滚并保持修改的文件（未跟踪状态）git reset commit_id# 强制回滚到指定版本，不保存修改git reset --hard co

2021-09-25 11:15:05 463

原创 ROC-AUC的理解

ROC-AUCAUC就是ROC曲线下面的面积，是评价二分类任务的重要指标。ROC曲线x轴是FPR=FP / (FP+TN)——就是预测为正（1）但是预测错了的数量 / 全部负样本（0）数量，FP / NegNum。y轴是TPR=TP / (TP+FN)——就是预测为正并且预测正确 / 全部正样本（1）的数量，TP / PosNum。ROC曲线是阶梯状的。计算AUC把p从高到低排序，然后从前往后以此作为threshold来判断预测为正还是负。依次描点计算面积。伪代码：参考https://zhu

2021-09-17 08:48:53 938

原创 node2vec简单总结

node2vec参考博客：https://zhuanlan.zhihu.com/p/56542707伪代码def node2vec_walk(G, u, walk_length): walk = [u] for l in range(walk_length): V = get_neighbors(G, walk[-1]) s = alias_sample(V, pi) # 核心的采样策略 walk.append(s) return walk def node2vec(..

2021-09-17 08:46:41 669

原创【使用技巧与心得】vscode ssh远程连接服务器、调试python代码等

使用vscode远程连接开发机有一段时间了，逐渐熟悉之后，我的感想也很简单——vscode，真香！vscode ssh远程连接开发机本地文件上传到开发机vscode远程调试python代码vscode支持内置的tensorboard

2021-09-16 18:48:57 4297 1

原创 PyTorch学习笔记（5）——Kaggle猫狗分类问题数据集读取和构建

Kaggle猫狗分类问题数据集处理数据集官方下载：https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition/data参考资料：https://github.com/ytchx1999/Pytorch-Camphttps://github.com/greebear/pytorch-learningimport torchimport osfrom PIL import Imagefrom torch.utils.data imp

2021-08-31 14:49:41 782

原创 PyTorch学习笔记（4）——常用方法和细节

参考：https://github.com/JansonYuan/Pytorch-Camphttps://github.com/greebear/pytorch-learning方法功能 / 注意事项id()可以打印变量的内存地址y = x直接赋值，两个变量共享内存torch.full((3, 2), 2)tensor([[2, 2], [2, 2], [2, 2]])torch.arange(1, 10, 1)tensor([1, 2, 3, 4,

2021-08-29 09:22:45 250

原创【Graphormer阅读笔记、实验与刷榜】《Do Transformers Really Perform Bad for Graph Representation?》

Graphormer阅读笔记——chxpaper：https://arxiv.org/abs/2106.05234code：https://github.com/microsoft/Graphormer （main分支）Graphormer主要策略1. Transformer结构主要有Transformer layer组成，每一层包括MHA（多头自注意）和FFN（前馈）模块，并增加了LN。h′(l)=MHA(LN(h(l−1)))+h(l−1)h(l)=FFN(LN(h′(l)))+h′(

2021-08-09 09:05:36 5292 1

原创【字节（北京）AML图计算算法实习生】面试经历

前言某一天，我偶然在群里发现了一个字节AI Lab图算法的实习生内推，于是便整了整简历，投了过去。字节hr小姐姐的速得很快，1小时候就给我打电话了，约了一下一面的时间。和亚马逊不太一样，必须是一面通过之后才是二面。一面（2021.7.13 18:00~18:45）面试是在牛客平台上的视频面试，面试官是个精神小伙。一开始先进行了自我介绍。然后面试官马上就开始问OGB冲榜的事情了。先让我简单介绍了一下这个项目，显然是比较感兴趣，问了一些细节问题。有一个问题是，node2vec Embedding能够提升

2021-07-17 11:08:28 3299 4

原创【亚马逊（上海）-AI Lab-DGL】实习生投递+面试（凉经）

前言简历过了之后，HR会和你约面试时间。一共是两轮面试，一块约好时间，无论一面过没过都要参加二面，最后应该是两个面试官讨论之后决定是否发offer。简历投递我实在牛客上偶然看到的DGL招实习生，就想着试一试，于是便投递了简历。第一版简历只写了本科学校，没写研究生学校，遂卒，建议直接被筛掉了。。第二版简历写上了计算所，于是简历就过了，ICT，yyds！这里说一下为什么两次投的不一样——因为牛客上面一个项目被拒了之后就没法重新投递了，这两个简介一样，都是DGL，所以就换了一个。HR约面试7.2简历

2021-07-15 19:57:46 2585 7

原创【DGL学习5】DGL消息传递API详解

DGL消息传递API详解参考：https://docs.dgl.ai/guide_cn/message-api.htmlMPNN的实例请参考：【DGL学习2】编写自己的GNN模型（MPNN）import dglimport torchimport dgl.function as fnUsing backend: pytorchg = dgl.graph((torch.tensor([0, 0, 0, 1, 1]), torch.tensor([1, 2, 3, 2, 3])))pri

2021-05-28 16:05:55 407

原创【DGL学习4】使用DGL构造异构图

使用DGL都早异构图参考：https://docs.dgl.ai/guide_cn/graph-heterogeneous.htmlimport dglimport torchUsing backend: pytorch使用DGL创建异构图下面一个异构图示例。该图具有两种类型的节点(“用户”和”游戏”)和两种类型的边(“关注”和”玩”)。我们将按照这个例子来创建一个异构图。graph_data = { ('user', 'follows', 'user') : (torch.t

2021-05-27 18:03:44 3609 4

原创【DGL学习3】自己构造和使用简单图

使用DGL构造和使用简单图。参考：https://docs.dgl.ai/guide_cn/graph-graphs-nodes-edges.htmlimport dglimport torchimport numpy as npUsing backend: pytorch使用DGL建简单图创建一个 DGLGraph 对象的一种方法是使用 dgl.graph() 函数。它接受一个边的集合作为输入。DGL推荐使用Tensor作为DGL API的输入。不过大部分的DGL API也支持Pyth

2021-05-27 15:16:53 2220

原创【DGL学习2】编写自己的GNN模型（MPNN）

使用DGL的消息传递API编写自己的GNN模型。参考：https://docs.dgl.ai/tutorials/blitz/3_message_passing.htmlhttps://docs.dgl.ai/api/python/udf.html#apiudfhttps://docs.dgl.ai/generated/dgl.function.copy_u.htmlimport dglimport torchimport torch.nn as nnimport torch.nn.fu

2021-05-27 10:01:44 1943

原创【DGL学习1】GCN example

DGL学习用DGL实现一个简单的GCN-cora的例子。参考：https://docs.dgl.ai/tutorials/blitz/1_introduction.html#sphx-glr-tutorials-blitz-1-introduction-pyimport dglimport torchimport torch.nn as nnimport torch.nn.functional as FUsing backend: pytorchimport dgl.datadata

2021-05-26 10:40:35 2423

原创【资料整理】论文写作+近期会议论文投稿

论文写作智源论坛·论文写作专题报告会中国科学院计算技术研究所研究员兰艳艳《论文写作小白的成长之路》中国人民大学副教授赵鑫《谈如何写一篇合格的国际学术论文》北京大学研究员施柏鑫《计算机视觉会议论文从投稿到接收》近期会议论文投稿会议名称DDL分类PRICAI5.23ccf-cACML6.25ccf-cICONIP6.30ccf-cSpringer LNAI latex template。Call4Papers。...

2021-05-01 18:32:20 461 1

原创 DGL学习资料

准备开始学习DGL了，不知道有PyG的基础，学得会怎么样。DGL-paper：https://arxiv.org/pdf/1909.01315.pdfgithub项目地址：https://github.com/Espylapiza/dgl官方文档与指南：https://docs.dgl.ai/en/latest/OGB数据集代码：https://github.com/Espylapiza/dgl/tree/master/examples/pytorch/ogb准备先上知乎看看，然后再看一下DGL-

2021-04-14 08:56:14 472 2

原创 GNN Tricks《Bag of Tricks of Semi-Supervised Classification with Graph Neural Networks》

Wang Y. Bag of Tricks of Semi-Supervised Classification with Graph Neural Networks[J]. arXiv preprint arXiv:2103.13355, 2021.我在浏览OGB排行榜代码的时候偶然发现了一篇关于GNN的Tricks的文章，作者是DGL Team的大佬，这篇貌似还没有被会议接受，不过已经在Arxiv上preprint出来了。本文改进后的几个模型在几个OGB数据集上的表现都不错。所以就赶快拿过来看看，学.

2021-04-14 08:43:36 756 2

原创 vscode ssh中让程序在服务器后台运行并将结果保存到log中

参考：https://cloud.videojj.com/help/docs/faq.html#id10假设这里要训练的目标文件是gcn_res_cs.py。1、将程序放到后台运行，将标准输出和错误输出写入到 .log 文件中nohup python gcn_res_cs.py > ./gcn_res_cs.log 2>&1 &2、查看实时日志中的输出结果。注意，在 Python 3 中需要使用 print("", flush=True) 让日志实时的写到文件中。t

2021-03-31 16:33:13 4357 1

原创 C&S《Combining Label Propagation and Simple Models Out-performs Graph Neural Networks》理论与实战

C&SHuang Q, He H, Singh A, et al. Combining Label Propagation and Simple Models Out-performs Graph Neural Networks[J]. arXiv preprint arXiv:2010.13993, 2020.本文主要提出了一种图上更好更快的技巧 Correct and Smooth (C&S)，以纠正和平滑预测值。搭配这种技巧，很多「不使用图结构」的baseline模型在（直推式

2021-03-29 16:30:42 1322 2

原创 CentOS8安装NVIDIA显卡驱动、CUDA和Anaconda

CentOS8安装NVIDIA显卡驱动和CUDA参考：CentOS nvidia+cuda+cudnn 安装安装英伟达显卡驱动1、检查是否安装了NVIDIA的GPU（硬件层面）：lspci | grep -i nvidia2、安装GCC、kernal组件、dkms等sudo yum install gccsudo yum install gcc-c++sudo yum -y install kernel-develsudo yum -y install kernel-headerss

2021-03-26 09:32:52 11963 4

原创 CNN中2d卷积算子的分析与实验

CNN中2d卷积算子的分析与实验为了和之前的GNN中图卷积算子的实验相对应，本次实验主要对CNN中的2d卷积进行了分析。在CNN中，2d卷积作为一种基本的算子，广泛应用于很多模型当中，例如LeNet、AlexNet、GoogleNet、ResNet。和GNN不同，各种不同CNN模型的卷积操作都是一致的，即（在pytorch中）都是用函数torch.nn.Conv2d为基础来构建整个模型（只不过卷积的参数略有区别），具体模型结构可以。因此，使用何种模型进行实验反而不那么重要了。经典的模型结构可以参考：h

2021-03-15 17:34:52 1420 2

原创计算机保研Q&A——by chx

计算机保研Q&A——by chx又要到了保研季了，很多学弟学妹们已经开始摩拳擦掌了。最近，陆续收到了一些本校和外校的一些学弟学妹们的一些计算机保研相关的问题，也在知乎和保研人等平台和机构对一些问题进行了付费答疑。很多学弟学妹们提出的一些问题很有意义且具有共性，因此进行了Q&A的整理，使更多小伙伴们从中受到启发。以下的回答只代表我个人的想法，不喜勿喷。如果您有不同的理解，也请在评论区批评指正；如果您觉得这篇文章有点用，也请帮我点个赞。废话不多说，直接上干货。Q：在准备面试的过程中

2021-03-09 15:11:26 1144

原创从DeepGCNs到DeeperGCN，关于深层GCN需要知道的事【系列论文阅读】

DeeperGCNLi G, Muller M, Thabet A, et al. Deepgcns: Can gcns go as deep as cnns?[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9267-9276.Li G, Xiong C, Thabet A, et al. Deepergcn: All you need to train deeper gcns[

2021-03-01 16:10:29 4937 3

原创 GCNII《Simple and Deep Graph Convolutional Networks》阅读笔记

GCNIIChen M, Wei Z, Huang Z, et al. Simple and deep graph convolutional networks[C]//International Conference on Machine Learning. PMLR, 2020: 1725-1735.本文主要是针对GNN模型的过平滑（over-smooth）问题展开研究与讨论，回顾之前的一些解决方案，并且借鉴ResNet设计了GCNII模型。过平滑问题以及其相关工作其实到现在为止，大部分G

2021-02-27 10:02:45 2198

原创《Flag: Adversarial data augmentation for graph neural networks》阅读笔记【FLAG】

FLAGKong K, Li G, Ding M, et al. Flag: Adversarial data augmentation for graph neural networks[J]. arXiv preprint arXiv:2010.09891, 2020.本文主要是提出了GNN的数据增强方法——FLAG，在增强模型鲁棒性的同时，研究其对模型准确率的影响。我将FLAG方法也运用到了我自己设计的模型当中，在减少标准差的同时也让模型的准确率有了小幅度的提升。此外，FLAG方法使用起来灵

2021-02-26 09:26:33 2874 2

原创我向OGB排行榜提交代码的经历

ogbn_arxiv_GCN_resThis is an improvement of baesline on the ogbn-arxiv dataset.我的代码：https://github.com/ytchx1999/ogbn_arxiv_GCN_resogbn-arxivThe framework is shown in the figure.Improvement Strategy：add skip-connection inspired by DeeperGCNadd ini

2021-02-21 12:55:04 1867 5

原创引文网络数据集PyG代码

PyG-citation-networkGNN模型在引文网络数据集上的代码，包括Cora、Citeseer、Pubmed、ogbn-arxiv我的代码：https://github.com/ytchx1999/PyG-citation-network参考代码：https://github.com/snap-stanford/ogb/blob/master/examples/nodeproppred/arxiv/gnn.pyhttps://github.com/rusty1s/pytorch_ge

2021-02-20 10:02:58 1148

原创 OGB数据集的加载与处理【基于PyG】

GNN-Dataset典型图数据集的加载与使用（基于PyG）。OGB数据集ogbn-arxivogbn-products我的代码：https://github.com/ytchx1999/GNN-Dataset/blob/main/OGBn.ipynbfrom ogb.nodeproppred import PygNodePropPredDataset, Evaluatorimport torch_geometric.transforms as Togbn-arxiv1、加载数

2021-02-19 09:33:18 8696 7

原创 OGB数据集《Open Graph Benchmark: Datasets for Machine Learning on Graphs》

OGB数据集之前一直在几个玩具数据集上跑模型，发现了很多问题。看了OGB论文里的一些描述，我也深有体会，感觉很多东西都说到我心里去了。预计再发展几年吧，OGB也能像ImageNet那样，成为图表示学习领域中的一个统一的标准。Hu W, Fey M, Zitnik M, et al. Open graph benchmark: Datasets for machine learning on graphs[J]. arXiv preprint arXiv:2005.00687, 2020.数据集是模

2021-02-11 09:54:57 5291 3

原创《Fast graph representation learning with PyTorch Geometric》阅读笔记【PyG-paper】

这篇文章是PyG的官方paper，里面提供了很多有价值的信息，在这里进行一下汇总和思考。Fey M, Lenssen J E. Fast graph representation learning with PyTorch Geometric[J]. arXiv preprint arXiv:1903.02428, 2019.PyG主要是利用消息传递框架的思想来「提供API接口」以及「实现高GPU吞吐量」（加速）的。图数据结构G=(X,(I,E)),X∈RN×F,I∈N2×E,E∈RE×DG=

2021-02-08 10:17:03 1008 2

原创 GNN各阶段执行时间实验【Citeseer、Pubmed、Reddit、OGB数据集】

数据集介绍数据集图节点边特征标签(y)Citeseer13327473237036Pubmed119717443385003Reddit12329651160691960241ogbn-arxiv1169343116624312840ogbn-products124490296185914010047实验结果Citeseer各阶段的执行时间/msSampleLinearMessag

2021-02-07 10:07:25 6710 8

原创 GNN各阶段与BFS算法的联系

GNN各阶段与BFS算法的联系之前把GNN的各阶段细分为Linear、Message、Aggregate、Update，再加上最开始的Sample阶段，进行了实验。汇报的时候老师提出了「哪个阶段用到了图遍历中BFS算法的思想」这个问题，让我再去确认一下，下次再说一下。和师姐又讨论了一下，大致得出了如下的结论。图遍历从广义上其实可以理解为中心节点去访问自己邻居的过程，而BFS算法核心的逻辑/流程也就是从一个节点出发，访问其邻居节点并将其加入队列（活节点表）。所以从访问邻居节点（属性）这个角度来看，Samp

2021-02-05 19:11:23 471

原创《图处理加速架构研究》第四章部分阅读感想

第 4 章多模混合图神经网络加速架构HyGCN具体的实现那一部分暂时还没看，主要是看了一部分加速架构的设计动机（4.1）、设计理念（4.2）、实验评估（4.5）、结果分析（4.6）、相关工作（4.7），想找一些和PyG相关的内容先看一下，也和之前在PyG上做的实验进行一个对比分析，检验一下之前想的和这里面写的是否一致。Aggregate阶段和Combine阶段的特性分析在第二章中，主要将GNN分为了Aggregate阶段和Combine阶段，一开始感觉有点不太对劲，因为他说的和MPNN中的好像不太一

2021-02-03 15:21:25 273

原创 Graphcore-IPU的一些资料

《Dissecting the Graphcore IPU Architecture via Microbenchmarking》《解密又一个xPU：Graphcore的IPU》

2021-01-31 17:26:39 551

原创 GNN与VCPM编程模型各阶段运算的对比分析

GNN各阶段运算的分析这里，我们将GNN主要分为Message、Aggregate和Update这三个阶段。具体细节可以参考我的这篇博客：《GNN典型模型的各阶段执行时间与算子分析》。Message阶段主要是对邻居节点的特征进行变换。Aggregate阶段主要是聚合（scatter）上一步处理好的每个节点的邻居节点特征（生成一条消息）。Update阶段主要是通过当前节点表示和上一步生成的消息，更新当前层节点的嵌入表示。图计算编程模型（以VCPM为例）各阶段运算的分析文章中将VCPM主要分

2021-01-26 10:09:58 508

原创 GNN典型模型的各阶段执行时间与算子分析

GNN模型的阶段划分图卷积算子（operator）可以被表示为消息传递机制。xi′=Update(xi,Aggregatej∈N(i)(Message(xi,xj,ej,i)))\mathbf{x}_i^{\prime} = \mathbf {Update} \left( \mathbf{x}_i, \mathbf {Aggregate}_{j \in \mathcal{N}(i)} \left( \mathbf{Message} \left(\mathbf{x}_i,

2021-01-25 16:08:20 2551 2

原创 JK-Nets实验记录

1、准备工作按照JK-Nets的paper中的划分方式，训练集（60%）、验证集（20%）、测试集（20%）。数据集划分（数量）训练集（60%）验证集（20%）测试集（20%）Cora1624542542Citeseer1995666666Pubmed1182939443944超参数也严格遵循了paper中的取值。超参数等训练因素取值/范围loss_funcNLLLossoptimizerAdamlr0

2021-01-23 11:41:28 1424 2

原创 JK-Nets在引文网络上的应用【jumping knowledge】

JK-Nets在引文网络上的应用Xu K, Li C, Tian Y, et al. Representation learning on graphs with jumping knowledge networks[J]. arXiv preprint arXiv:1806.03536, 2018.虽然JK-Nets的paper中还讲到了其他的内容（random walk）和数据集（Reddit、PPI），但是我关注的重点还是在引文网络上。关键词：citation network、jumping

2021-01-21 17:10:30 957

原创 GraphSAGE模型实验记录（简洁版）【Cora、Citeseer、Pubmed】

1、准备工作数据集数据集图节点边特征标签(y)Cora12708542914337Citeseer13327473237036Pubmed119717443385003数据集划分方式：https://github.com/kimiyoung/planetoid (Zhilin Yang, William W. Cohen, Ruslan Salakhutdinov, Revisiting Semi-Supervised Lear

2021-01-18 15:46:14 2584 2

空空如也

空空如也