自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 问答 (2)
  • 收藏
  • 关注

原创 Datawhale 学习笔记

2021-10-31 01:16:14 246

原创 Datawhale 决策树与集成学习 Task01 决策树

练习题:知识回顾1. ID3、C4.5与CART算法之间有什么异同算法异同ID3其核心是在决策树的各级节点上,使用信息增益方法的选择标准,来帮助确定生产每个节点时所对应采用的合适属性, 不能自动分箱, 不能剪枝。C4.5相对于ID3改进是使用信息增益率来选择节点属性。 克服ID3点不足: ID3只适用于离散的描述属性; C4.5可以处理连续和离散属性; 可以剪枝。CART通过构建树、修剪树、评估树来构建一个二叉树。 通过控制树的结构来控制模型: 当终节点是

2021-10-14 23:45:24 359

原创 ubuntu20.04 开机引导后黑屏 光标闪现 无法进入图形桌面的解决方案

ubuntu20.04之前更新了n卡的显卡驱动,关机的时候就发现黑屏同时左上角光标闪烁,持续一段时间才关机,当时也没当回事。然而第二天再开机的时候发现,图形桌面进不去了。先说下配置,win10+ubuntu20.04双系统,rtx2060的显卡好吧开始问度娘和查论坛,发现有n种解决方案grub文件添加nomodeset,不管用。。。blacklist nouveau,不管用。。。还有说硬盘用满了,很显然也不是这个原因当然还有说引导分区不明确,我的情况也不符合后来一个偶然,在ctrl+alt

2021-08-25 10:45:00 36013 21

原创 Datawhale 图神经网络 Task05 超大图上的节点表征学习

超大图上的节点表征学习注:此节文章翻译并整理自提出Cluster-GCN的论文:Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Network引言图神经网络已经成功地应用于许多节点或边的预测任务,然而,在超大图上进行图神经网络的训练仍然具有挑战。普通的基于SGD的图神经网络的训练方法,要么面临着随着图神经网络层数增加,计算成本呈指数增长的问题,要么面临着保存整个图的信息和每一层每个节

2021-07-01 23:40:14 258 1

原创 Datawhale 图神经网络 Task04 数据完整存储于内存的数据集类+节点预测与边预测任务实践

数据完全存于内存的数据集类引言对于占用内存有限的数据集,我们可以将整个数据集的数据都存储到内存里。PyG为我们提供了方便的构造数据完全存于内存的数据集类,简称为InMemory数据集类,的方式,在此小节我们就将学习构造InMemory数据集类的方式。内容安排如下:首先,我们将学习PyG规定的使用数据的一般过程;其次,我们将学习InMemoryDataset基类;接着,我们将学习一个简化的InMemory数据集类;最后,我们将学习一个InMemory数据集类实例,以及使用该数据集类时会发生的一

2021-06-27 17:33:40 354

原创 Datawhale OfficeAutomation Task05 爬虫入门与综合应用

Task5 爬虫入门与综合应用对于自动化办公而言,网络数据的批量获取完数据可以节约相当的时间,因此爬虫在自动化办公中占据了一个比较重要的位置。因而本节针对爬虫项目进行一个介绍,力求最大程度还原实际的办公场景。1.Requests简介Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。安装方法:pip install requests或者conda安装conda install requests

2021-06-26 18:31:53 387

原创 Datawhale OfficeAutomation Task04 Python操作PDF

Python 操作 PDFPDF 操作是本次自动化办公的最后一个知识点,初级的 PDF 自动化包括 PDF 文档的拆分、合并、提取等操作,更高级的还包括 WORD与PDF互转等初级操作一般比较常用,也可以解决较多的办公内容,所以本节将会主要介绍 PDF 的初级操作,具体内容将会从以下几个小节展开:相关介绍批量拆分批量合并提取文字内容提取表格内容提取图片内容转换为PDF图片添加水印加密与解密下面直接开始本节内容。1. 相关介绍Python 操作 PDF 会用到两个库,分别是:

2021-06-23 22:53:12 161

原创 Datawhale OfficeAutomation task02 Python自动化之Excel

Excel读取读取对应表格打开已经存在的Excel表格from openpyxl import load_workbookexl = load_workbook(filename = 'test.xlsx')print(exl.sheetnames)根据名称获取表格sheet = exl_1['work']'若只有一张表则:'sheet = exl_1.active获取Excel 内容占据的大小print(sheet.dimensions)读取单元格获取某个

2021-06-18 16:31:46 233

原创 datawhale图神经网络 task1 图数据结构 PyG环境配置

一、图的表示定义一(图):一个图被记为G={V,E}\mathcal{G}=\{\mathcal{V}, \mathcal{E}\}G={V,E},其中 V={v1,…,vN}\mathcal{V}=\left\{v_{1}, \ldots, v_{N}\right\}V={v1​,…,vN​}是数量为N=∣V∣N=|\mathcal{V}|N=∣V∣ 的结点的集合, E={e1,…,eM}\mathcal{E}=\left\{e_{1}, \ldots, e_{M}\right\}E={e1​,…,

2021-06-14 22:35:30 533 2

原创 Datawhale知识图谱 Task05 Neo4j 图数据库查询

一、 Neo4介绍1.1 Neo4介绍Neo4j是一个世界领先的开源图形数据库,由Java编写。图形数据库也就意味着它的数据并非保存在表或集合中,而是保存为节点以及节点之间的关系;Neo4j的数据由下面3部分构成:节点边和属性;Neo4j除了顶点(Node)和边(Relationship),还有一种重要的部分——属性。无论是顶点还是边,都可以有任意多的属性。属性的存放类似于一个HashMap,Key为一个字符串,而Value必须是基本类型或者是基本类型数组。在Neo4j中,节点以及边都能够包含

2021-01-17 18:51:43 250

原创 Datawhale 知识图谱 Task04 用户输入 知识库的查询语句

一、引言本部分任务主要是将用户输入问答系统的自然语言转化成知识库的查询语句,因此本文将分成两部分进行介绍。第一部分介绍任务所涉及的背景知识;第二部分则是相应的代码和其注释二、什么是问答系统?2.1 问答系统简介问答系统(Question Answering System,QA System)是用来回答人提出的自然语言问题的系统。根据划分标准不同,问答系统可以被分为各种不同的类型。问答系统从知识领域划分:封闭领域:封闭领域系统专注于回答特定领域的问题,由于问题领域受限,系统有比较大的发

2021-01-15 22:19:59 259

原创 Datawhale 知识图谱 Task03 Neo4j图数据库导入数据

一、引言在计算机科学中,图形作为一种特定的数据结构,用于表达数据之间的复杂关系,如社交关系、组织架构、交通信息、网络拓扑等等。在图计算中,基本的数据结构表达式是:G=(V,E),V=vertex(节点),E=edge(边)。图形结构的数据结构一般以节点和边来表现,也可以在节点上增加键值对属性。图数据库是 NoSQL(非关系型数据库)的一种,它应用图形数据结构的特点(节点、属性和边)存储数据实体和相互之间的关系信息。Neo4j 是当前较为主流和先进的原生图数据库之一,提供原生的图数据存储、检索和处理。它由

2021-01-13 23:14:12 578

原创 Datawhale Pandas 综合练习2

【任务四】显卡日志下面给出了3090显卡的性能测评日志结果,每一条日志有如下结构:Benchmarking #2# #4# precision type #1##1# model average #2# time : #3# ms其中#1#代表的是模型名称,#2#的值为train(ing)或inference,表示训练状态或推断状态,#3#表示耗时,#4#表示精度,其中包含了float, half, double三种类型,下面是一个具体的例子:Benchmarking Inference f

2021-01-13 22:56:22 145

原创 Datawhale 知识图谱 Task2 基于医疗知识图谱的问答系统操作介绍

一、引言该项目主要分为两部分:第一部分:搭建知识图谱。该部分的具体讲解将在 Datawhale 知识图谱组队学习 之 Task 3 Neo4j图数据库导入数据进行介绍;第二部分:启动问答测试。构建一个简单的基于 知识图谱 的对话系统,该部分的具体讲解将在 Datawhale 知识图谱组队学习 之 Task 4 用户输入->知识库的查询语句 和 Datawhale 知识图谱组队学习 之 Task 5 Neo4j 图数据库查询 进行分别介绍;本节的核心目标是 从 全局对项目的运行过程进行介绍和

2021-01-13 00:58:56 495

原创 Datawhale知识图谱 Task01 知识图谱介绍

一、知识图谱简介1.1 引言从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。早在 2010 年微软就开始构建知识图谱,包括 Satori 和 Probase;2012 年,Google 正式发布了 Google Knowledge Graph,现在规模已超 700 亿。目前微软和 Google 拥有全世界最大的通用知识图谱,Facebook 拥有全世界最大的社交知识图谱,而阿里巴巴和亚马逊则分别

2021-01-11 21:42:30 778

原创 Datawhale Pandas task10 时序数据

一、时序中的基本对象时间序列的概念在日常生活中十分常见,但对于一个具体的时序事件而言,可以从多个时间对象的角度来描述。例如2020年9月7日周一早上8点整需要到教室上课,这个课会在当天早上10点结束,其中包含了哪些时间概念?第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-710:00:00’这两个时间点分别代表了上课和下课的时刻,在 pandas 中称为 Timestamp 。同时,一系列的时间戳可以组成 DatetimeIndex ,而将

2021-01-10 19:43:35 233

原创 Datawhale Pandas Task09 分类数据

一、cat对象1. cat对象的属性在 pandas 中提供了 category 类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用 astype 方法。df = pd.read_csv('data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight'] s = df.Grade.astype("category")s

2021-01-07 21:49:53 150

原创 Datawhale Pandas Task08 文本数据

一、str对象1. str对象的设计意图str 对象是定义在 Index 或 Series 上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其 str 对象。在Python标准库中也有 str 模块,为了使用上的便利,有许多函数的用法 pandas 照搬了它的设计,例如字母转为大写的操作:var = 'abcd'str.upper(var) # Python内置str模块'ABCD's = pd.Series(['abcd', 'efg',

2021-01-06 10:05:05 238

原创 Datawhale Pandas Task07 缺失数据

一、缺失值的统计和删除1. 缺失信息的统计缺失数据可以使用 isna 或 isnull (两个函数没有区别)来查看每个单元格是否缺失,结合 mean 可以计算出每列缺失值的比例:df = pd.read_csv('data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer'])df.isn

2021-01-02 12:45:23 212

原创 Datawhale Pandas 综合练习

【任务一】企业收入的多样性拿到数据后首先对数据进行观察:df1 = pd.read_csv("practice_data/company.csv")df2 = pd.read_csv("practice_data/company_data.csv")df1.head()df2.head()可以直观的发现有两组数据有这么几点区别:证券代码格式不同,一组为字符串格式,一组为整形格式日期不同,一组是以年为单位,一组是每年的最后一日收入额的格式需要确认对于证券代码,具体来观察:由

2021-01-01 23:44:57 246 1

原创 Datawhale Pandas Task06 连接

一、关系型连接1. 连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,例如学生期末考试各个科目的成绩表按照 姓名 和 班级 连接成总的成绩表,又例如对企业员工的各类信息表按照 员工ID号 进行连接汇总。由此可以看出,在关系型连接中, 键 是十分重要的,往往用 on 参数表示。另一个重要的要素是连接的形式。在 pandas 中的关系型连接函数 merge 和 join 中提供了 how 参数来代表连接形式,分为左连接 left 、右连接 right 、内连接 inner 、外连接

2020-12-28 16:46:57 195

原创 Datawhale Pandas Task05 变形

一、长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:pd.DataFrame({'Gender':['F','F','M','M'], 'Height':[163, 160, 175, 180]}) pd.DataFrame({'Height: F':[163,

2020-12-27 22:40:47 242

原创 Datawhale 可视化 Task06 - 场景案例显神通

数据可视化的图表种类繁多,各式各样,因此我们需要掌握如何在特定场景下使用特定的图表。数据可视化是为业务目的服务的,好的可视化图表可以起到清晰准确反映业务结果的目的,在选择使用何种图表时,通常我们需要首先考虑你想通过可视化阐述什么样的故事,受众是谁,以及打算如何分析结果。关于如何利用数据创造出吸引人的、信息量大的、有说服力的故事,进而达到有效沟通的目的,可以进一步阅读这本书《用数据讲故事》 4学习。本章将介绍不同场景适合的可视化图表类型,使用注意事项,以及如何用现成的绘图接口来呈现。我们将常见的场景分

2020-12-27 21:33:27 514

原创 Datawhale Pandas Task04 分组

import pandas as pdimport numpy as np一、分组模式及其对象1. 分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据 性别 分组,统计全国人口 寿命 的 平均值依据 季节 分组,对每一个季节的 温度 进行 组内标准化依据 班级 分组,筛选出组内 数学分数 的 平均值超过80分的班级从上述的几个例子中不难看出,想要实现分组操作,必须明确三个要素:分组依据 、 数据来源 、 操作及其返回结果 。同时从充分性的角度来说,如果明确了这三方面,就能确定一

2020-12-25 17:21:54 200 1

原创 Datawhale 可视化 Task05 - 样式色彩秀芳华

一、matplotlib的绘图样式(style)在matplotlib中,要想设置绘制样式,最简单的方法是在绘制元素时单独设置样式。但是有时候,当用户在做专题报告时,往往会希望保持整体风格的统一而不用对每张图一张张修改,因此matplotlib库还提供了四种批量修改全局样式的方式1.matplotlib预先定义样式matplotlib贴心地提供了许多内置的样式供用户使用,使用方法很简单,只需在python脚本的最开始输入想使用style的名称即可调用,尝试调用不同内置样式,比较区别import m

2020-12-24 14:55:27 223

原创 Datawhale Pandas Task03 索引

import numpy as npimport pandas as pd一、索引器1. 表的列索引列索引是最常见的索引形式,一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列,返回值为 Series ,例如从表中取出姓名一列:df = pd.read_csv('../data/learn_pandas.csv',usecols = ['School', 'Grade', 'Name', 'Gender','Weight', 'Transfer'])df["Na

2020-12-22 18:57:57 354

原创 Datawhale可视化 task04 文字图例尽眉目

一、Figure和Axes上的文本Matplotlib具有广泛的文本支持,包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。下面的命令是介绍了通过pyplot API和objected-oriented API分别创建文本的方式。1.textpyplot API:matplotlib.pyplot.text(x, y, s, fontdict=None, **kwargs)OO API:Axes.text(self, x, y, s

2020-12-21 09:53:20 345

原创 Datawhale可视化 Task03 布局格式定方圆

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False一、子图1. 使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表,第一个数字为行,第二个为列figsize 参数可以指定整个画布的大小sharex

2020-12-20 10:39:26 169 2

原创 Datawhale Pandas Task02 Pandas基础

请保证 pandas 的版本号不低于1.1.5,否则请务必升级!一、文件的读取和写入1. 文件读取pandas 可以读取的文件格式有很多,这里主要介绍读取 csv, excel, txt 文件。df_csv = pd.read_csv('data/my_csv.csv')df_txt = pd.read_table('data/my_table.txt')df_excel = pd.read_excel('data/my_excel.xlsx')这里有一些常用的公共参数:header=N

2020-12-19 17:40:24 230

原创 Datawhale Pandas Task01 预备知识

一、Python基础1. 列表推导式与条件赋值在生成一个数字序列的时候,在 Python 中可以如下写出:L = []def my_func(x): return 2*xfor i in range(5): L.append(my_func(i))L[0, 2, 4, 6, 8]事实上可以利用列表推导式进行写法上的简化: [* for i in *] 。其中,第一个 * 为映射函数,其输入为后面 i 指代的内容,第二个 * 表示迭代的对象。[my_func(i) fo

2020-12-15 18:05:18 419

原创 Datawhale可视化 Task01Matplotlib初相识

一、认识matplotlibMatplotlib是一个Python 2D绘图库,能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形,用来绘制各种静态,动态,交互式的图表。Matplotlib可用于Python脚本,Python和IPython Shell、Jupyter notebook,Web应用程序服务器和各种图形用户界面工具包等。Matplotlib是Python数据可视化库中的泰斗,它已经成为python中公认的数据可视化工具,我们所熟知的pandas和seaborn的绘图接口其实也

2020-12-14 09:59:04 188

原创 天池新闻推荐入门赛之 task05 排序模型+模型融合

排序模型通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到

2020-12-06 13:28:20 285 2

原创 天池新闻推荐入门赛之 task04 特征工程

特征工程(制作特征和标签, 转成监督学习问题)我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征, 比如W2V等用户的设备特征

2020-12-03 22:57:37 185

原创 天池新闻推荐入门赛之 task03 多路召回

多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。上图只是一个多路召回的例子,也就是说可以使用多种不同的策略来获取用户

2020-11-30 22:40:21 237

原创 天池新闻推荐入门赛 task02 数据分析

数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。建议:当特征工程和模型调参已经很难继续上分了,可以回来在重新从新的角度去分析这些数据,或许可以找到上分的灵感导包# 导入相关包%matplotlib inlineimport pandas as pdimpo

2020-11-27 22:31:18 207

原创 天池新闻推荐入门赛 task01 赛题理解+baseline

赛题简介此次比赛是新闻推荐场景下的用户行为预测挑战赛, 该赛题是以新闻APP中的新闻推荐为背景, 目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章, 这道赛题的设计初衷是引导大家了解推荐系统中的一些业务背景, 解决实际问题。赛题理解根据赛题简介,我们首先要明确我们此次比赛的目标: 根据用户历史浏览点击新闻的数据信息预测用户最后一次点击的新闻文章。主要有两点:首先是目标上, 要预测最后一次点击的新闻文章,也就是我们给用户推荐的是新闻文章,并

2020-11-25 00:52:04 394

原创 vmware虚拟机能ping通外网,但无法上网

主机正常上网,vmware虚拟机能ping通外网,nslookup也能正常解析域名,baidu能正常搜索,但是其他网站都上不了。。。虚拟机是bridge模式,dns服务器开始用的跟主机一样的,后来换了114,发现都不行。。。虚拟机是xp和2003server,也都这毛病是哪里有什么问题嘛?...

2020-04-05 10:28:17 1451 1

原创 python中,字符串时间格式转化为DatetimeIndex时的一个tip

@python中,字符串时间格式转化为DatetimeIndex时的一个tip举个栗子,str_date = [“2016, 8, 1”, “2016, 8, 2”]转化为DatetimeIndex时,datetime_dates = pd.DatetimeIndex(str_dates)如果list中每个时间字符串的逗号后面没有空格会报错。。。作为小白我也不知道为啥会是这样不过记住...

2020-03-20 13:37:36 962

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除