- 博客(28)
- 收藏
- 关注
原创 SQL组队学习之初识数据库
本文主要参考DataWhale组队学习SQL1. 初识SQL本文以MySQL8.0数据库进行学习。在数据库中,行称为记录,它相当于一条记录,列称为字段,它代表了表中存储的数据项目。根据指令种类的不同,SQL 语句可以分为以下三类.DDLDDL(Data Definition Language,数据定义语言) 用来创建或者删除存储数据用的数据库以及数据库中的表等对象。DDL 包含以下几种指令。- CREATE : 创建数据库和表等对象- DROP : 删除数据库和表等对象- ALTE
2021-08-17 11:08:06
233
原创 Java组队学习task02
本文主要参考DataWhale组队学习Java。Java中的运算符和表达式算术运算符说明+加-减*乘/除%取余数数学函数与常量假设 x = 4MathValueMath.sqrt(x)2Math.pow(x,3)64Math.expe4e^{4}e4Math.sinsin(4)sin(4)sin(4)运算符输出x=4二元运算符+=48-=40
2021-07-15 21:42:00
245
原创 Java组队学习task01
本文主要参考DataWhale组队学习Java。基本数据类型类型符号最小值最大值整型byte-128(-2的7次方)127(2的7次方-1)int-32768(-2的15次方)32767(2的15次方-1)short-2147483648(-2的31次方)2147483647(2的31次方-1)long-9223372036854774808(-2的63次方)9223372036854774807(2的63次方-1)浮点型floa
2021-07-13 15:20:44
276
原创 图神经网络task_07
图预测任务实践本文主要参考DataWhale图神经网络组队学习图分类例如预测化学分子的标签通过将获取到的节点表示经过池化得到图级别的表示,再利用图级别的表示进行损失函数的构造。模型搭建由于设备的关系,在对教程中的PCQM4M数据集处理存在一定问题,因此采用GIN模型对MUTAG数据集进行实验。import os.path as ospimport torchimport torch.nn.functional as Ffrom torch.nn import Sequential,
2021-07-09 19:27:31
546
原创 图神经网络task_06
基于图神经网络的图表征学习方法本文主要参考DataWhale图神经网络组队学习文中有两类任务:节点分类和图分类。对于节点分类问题,节点在最后一层的表示hv(L)h_{v}^{(L)}hv(L)就可以用于预测。对于图分类问题,需要将graph中所有节点特征转变成graph特征,整个图的表示hGh_{G}hG如下:hG=READOUT({hv(L)∣v∈G})h_{G}=\operatorname{READOUT}\left(\left\{h_{v}^{(L)} \mid v \in G\ri
2021-07-05 19:08:39
221
原创 图神经网络task_05
超大图上的表征学习本文主要参考DataWhale图神经网络组队学习主要介绍的模型是Cluster-GCN。模型主体思想Cluster-GCN提出:1.利用图节点聚类算法将一个图的节点划分为 个簇,每一次选择几个簇的节点和这些节点对应的边构成一个子图,然后对子图做训练。2.由于是利用图节点聚类算法将节点划分为多个簇,所以簇内边的数量要比簇间边的数量多得多,所以可以提高表征利用率,并提高图神经网络的训练效率。3.每一次随机选择多个簇来组成一个batch,这样不会丢失簇间的边,同时也不会有batc
2021-07-01 16:38:53
510
原创 图神经网络task_04
本文主要参考DataWhale图神经网络组队学习三个数据集的统计信息如下:数据集CoraCiteSeerPubMed节点数2708332719717边数5278455244324训练节点数14012060验证节点数500500500测试节点数100010001000节点类别数763特征维度14333703500边密度0.00140.00080.0002边密度计算公式:p=2mn2p =
2021-06-27 14:02:16
444
原创 图神经网络_task03
经典图神经网络学习本文主要参考DataWhale图神经网络组队学习首先本文主要是利用图网络模型进行节点级别的任务,如节点分类。Cora数据集介绍Cora是一个论文引用网络,节点代表论文,共有2708篇论文,如果两篇论文存在引用关系,则对应的两个节点之间存 在边,各节点的属性都是一个1433维的词包特征向量。from torch_geometric.datasets import Planetoidfrom torch_geometric.transforms import NormalizeF
2021-06-21 20:51:53
411
原创 图神经网络_task02
1.消息传递范式本文主要参考DataWhale图神经网络组队学习。消息传递范式是一种聚合邻居节点信息来更新中心节点信息的范式。此范式包含三个步骤:(1)邻接节点的信息变换(2)邻接节点信息聚合到中心节点(3)聚合信息变换。PyG文档中给出消息传递图神经网络的公式描述如下:creating message passing networks.对于一个图(添加自环):消息传递步骤1(ϕ(k)\phi^{(k)}ϕ(k))如下:上图体现边上的源节点(0,1,2)进行线性变换后往目标节点(0)
2021-06-18 15:52:41
291
原创 图神经网络_task01
图神经网络学习图基本知识图的分类图的度和邻居图的邻接矩阵PyG学习Data类首先,假设给定如下一张图:该图是无权无向图,图中共有5个节点,每个节点用一个三维向量来表示。我们构建一个表示该图数据的Data对象。首先将所需要的包导入import torchfrom torch_geometric.data import Data其次,构建节点特征矩阵:x = [[0,1,0],[1,1,3],[2,1,0],[3,1,3],[4,2,3]]x = torch.tenso
2021-06-15 13:59:40
991
1
原创 pandas第七章 缺失数据
本文章为DataWhale组队学习pandas第七章缺失数据的习题解答练一练对一个序列以如下规则填充缺失值:如果单独出现的缺失值,就用前后均值填充,如果连续出现的缺失值就不填充,即序列[1, NaN, 3, NaN, NaN]填充后为[1, 2, 3, NaN, NaN],请利用fillna函数实现。(提示:利用`limit``参数)s = pd.Series([1, np.nan , 3, np.nan, np.nan])s首先利用ffill方法进行前向填充构造一个新序列s1,limit设置
2021-01-03 12:30:05
1076
2
原创 pandas综合练习
练习题出处参考博文任务一.企业收入的多样性数据链接 密码:u6fdimport pandas as pdimport numpy as np读取文件df1 = pd.read_csv('../data/company.csv')df2 = pd.read_csv('../data/company_data.csv')DataFrame展示df1.head()-证券代码日期0#00000720141#00040320152#000408
2021-01-01 13:45:05
408
2
原创 pandas 连接学习
本文是DateWhale组队学习Pandas连接部分的学习心得。方向连接之concat在concat中,最常用的有三个参数,它们是axis, join, keys,分别表示拼接方向,连接形式,以及在新表中指示来自于哪一张旧表的名字。这里需要特别注意,join和keys与之前提到的join函数和键的概念没有任何关系。在默认状态下的axis=0,表示纵向拼接多个表,常常用于多个样本的拼接;而axis=1表示横向拼接多个表,常用于多个字段或特征的拼接。例如,纵向合并各表中人的信息:df1 = pd.Da
2020-12-29 12:51:31
277
1
原创 pandas 变形学习
本文是DataWhale组队学习pandas变形部分的学习总结。练习1:美国非法药物数据集现有一份关于美国非法药物的数据集,其中SubstanceName, DrugReports分别指药物名称和报告数量:df =pd.read_csv('../data/drugs.csv').sort_values(['State','COUNTY','SubstanceName'],ignore_index=True)df第一问 将数据转为如下的形式:首先利用pivot将DataFrame转为行多级索
2020-12-27 14:19:00
312
原创 pandas 分组学习(利用MovieLens数据集)
本文是DataWhale组队学习pandas的总结。一、分组模式及其对象1. 分组的一般模式想要利用pandas实现分组操作,必须明确三个要素: 分组依据 、 数据来源 、 操作及其返回结果 。同时从充分性的角度来说,如果明确了这三方面,就能确定一个分组操作,从而分组代码的一般模式即:df.groupby(分组依据)[数据来源].使用操作这里利用MovieLens-1M数据集做分析。原始数据集部分展示如下:import numpy as npimport pandas as pd读取文
2020-12-25 12:53:01
373
原创 pandas 索引部分
import numpy as npimport pandas as pd一、索引器1. 表的列索引列索引是最常见的索引形式,一般通过[]来实现。通过[列名]可以从DataFrame中取出相应的列,返回值为Series,例如从表中取出姓名一列:df = pd.read_csv('../data/learn_pandas.csv', usecols = ['School', 'Grade', 'Name', 'Gender', 'Weight', 'Transfer'])df['Name'].h
2020-12-21 17:10:02
291
原创 Matplotlib 绘图第三回
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False一.子图1.使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表,第一个数字为行,第二个为列figsize 参数可以指定整个画布的大小sharex 和
2020-12-20 23:17:32
122
原创 pandas基础
一.文件的读写数据获取地址1.文件的读取pandas可以读取的文件格式有很多,这里主要介绍读取csv, excel, txt文件。df_csv = pd.read_csv('../data/my_csv.csv') # 读取csv文件df_csvdf_txt = pd.read_table('../data/my_table.txt') # 读取txt文件df_txtdf_excel = pd.read_excel('../data/my_excel.xlsx') # 读取exce
2020-12-19 22:03:32
329
2
原创 Matplotlib 绘图第二回
1.绘制2DLinesclass matplotlib.lines.Line2D(xdata, ydata, linewidth=None, linestyle=None, color=None,……)xdata:需要绘制的line中点的在x轴上的取值,若忽略,则默认为range(1,len(ydata)+1)ydata:需要绘制的line中点的在y轴上的取值linewidth:线条的宽度linestyle:线型color:线条的颜色……直接在plot()函数中绘制import matpl
2020-12-18 16:04:57
282
原创 pandas预备知识
一.Python基础1. 列表推导式与条件赋值def my_func(x): return 2*x[my_func(i) for i in range(5)]列表表达式还支持多层嵌套,如下面的例子中第一个for为外层循环,第二个为内层循环:[m+'_'+n for m in ['a', 'b'] for n in ['c', 'd']]除了列表推导式,另一个实用的语法糖是带有if选择的条件赋值,其形式为value = a if condition else b:L = [1, 2
2020-12-16 16:17:43
190
1
原创 Matplotlib初相识
import matplotlib.pyplot as pltimport numpy as npfig, ax = plt.subplots() # 创建一个包含一个axes的figureax.plot([1, 2, 3, 4], [1, 4, 2, 3]) # 绘制图像还可以通过一种更简单的方式绘制图像,matplotlib.pyplot方法能够直接在当前axes上绘制图像,如果用户未指定axes,matplotlib会帮你自动创建一个。所以上面的例子也可以简化为以下这一行代码。pl
2020-12-14 23:36:37
77
原创 零基础入门新闻推荐系统(排序)
排序模型通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到了最
2020-12-05 14:14:16
694
2
原创 零基础入门新闻推荐系统(特征工程)
制作特征和标签, 转成监督学习问题我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征, 比如W2V等用户的设备特征信息上面这些
2020-12-03 21:41:09
311
2
原创 零基础入门新闻推荐系统(多路召回)
多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。传统的标准召回结构一般是多路召回,如上图所示。如果我们根据召回路是否
2020-11-30 21:37:59
1138
原创 图神经网络学习过程心得总结
图的概述图(Graph)就是节点(Vertices/Nodes)以及边(Edge)图的举例社交网络节点:人边:人与人之间的各种联系,如父母关系、朋友关系、同事关系等等。化学分子节点:原子边: 原子之间的相互作用力,也称为化学键知识图谱节点:各种实体边:实体之间所具有的各种关系(实体的属性特征)推荐系统节点:用户和商品边: 用户、商品之间的购买、点击等关系图学习由于图数据本身结构的复杂性,直接定义出一套支持可导的计算框架并不直观。与图数据相对应的有图像、语音与文本,这些数据
2020-11-28 16:07:53
1319
原创 零基础入门新闻推荐 数据分析
数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。导包%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn
2020-11-25 19:39:23
297
原创 零基础入门推荐系统(新闻推荐)
零基础入门推荐系统(新闻推荐)比赛介绍本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第五场 —— 零基础入门推荐系统之新闻推荐场景下的用户行为预测挑战赛。赛题简介此次比赛是新闻推荐场景下的用户行为预测挑战赛, 该赛题是以新闻APP中的新闻推荐为背景, 目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章, 这道赛题的设计初衷是引导大家了解推荐系统中的一些业务背景, 解决实际问题。数据概况该数据来自某新闻APP平台的用户交互
2020-11-24 20:18:10
3948
14
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人