- 博客(76)
- 收藏
- 关注
原创 Website for News from different brands
【代码】Website for News from different brands。
2023-05-09 22:42:34
246
原创 Image Zooming Application
please write an application, in which I can zoom in or zoom out the picture, using pysimpleguiChatGPTTo create a simple application that allows you to zoom in or zoom out an image using PySimpleGUI, you’ll need to install the required packages first:Copy
2023-05-05 00:32:12
751
原创 Datawhale OCR竞赛实践 Task01:Baseline学习实践(4天)
学习课程:gitee_PaddleOCR学习论坛:Datawhale CLUB天池比赛:“英特尔创新大师杯”深度学习挑战赛 赛道1:通用场景OCR文本识别任务OCR比赛的概况如下图,大家加油为了五万!!!奥里给!OCR的英文全称是Optical Character Recognition,非常古老的计算机命题。在1202年,各种AI大行其道的时代,这个古老的命题又被挖出来了。如果说之前是从环境中找文字给计算机读,现在是让计算机自己从环境中找读有意思的信息,让计算机行万里路顺便读个万卷书。tes
2021-07-14 13:55:52
243
原创 Datawhale 图神经网络 Task07 图预测任务实践
非常感谢“天国之影”共享的结果文件,让我们得以看到最终的结果。我尝试了很久之后,已经放弃跑图预测任务实践的代码了。首先用tensorboard预览最终的结果:tensorboard --logdir=GINGraphPooling可以从tensorboard里看到训练了五个多小时,最终曲线比较平稳。我们来从代码看看本次实践的任务:首先是run.sh,linux里bash命令即可,windows的话没有也没关系,因为run.sh里只是运行了python main及task_name,devi
2021-07-09 16:29:58
301
2
原创 Datawhale 图神经网络 Task06 基于图神经网络的图表示学习
学习课程:gitee_Datawhale_GNN学习论坛:Datawhale CLUB公众号:DatawhaleWL:
2021-07-05 16:29:44
352
2
原创 Datawhale 图神经网络 Task05 超大图上的节点表征学习
学习课程:gitee_Datawhale_GNN学习论坛:Datawhale CLUB公众号:Datawhale本次学习的内容是有关于超大图的,具体的论文是Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks。根据论文标题猜测,使用聚类的算法将图分成小块,步步为营的解决超大图的问题。我们知道,图与传统机器学习最大的不同就是边的存在,将图一块块扯开来就像是藕断丝连一样,是很
2021-07-01 14:55:47
168
原创 Datawhale 图神经网络 Task04数据完整存储与内存的数据集类+节点预测与边预测任务实践
学习课程:gitee_Datawhale_GNN学习论坛:Datawhale CLUB公众号:Datawhale1.node_classfication对于节点分类的任务,GAT的得分是0.765,GCN的得分是0.779。不同的层数和不同的out_channels通过更改hidden_channels_list的数值。2.edge_classification由于之前的学习已经保存了"Cora"数据集,所以将Planetoild中的路径修改。参考代码<code: node_cl
2021-06-27 17:47:03
281
1
原创 Datawhale 图神经网络 Task03基于图神经网络的节点表征学习
基于图神经网络的节点表征学习引言在图节点预测或边预测任务中,需要先构造节点表征(representation),节点表征是图节点预测和边预测任务成功的关键。在此篇文章中,我们将学习如何基于图神经网络学习节点表征。在节点预测任务中,我们拥有一个图,图上有很多节点,部分节点的预测标签已知,部分节点的预测标签未知。我们的任务是根据节点的属性(可以是类别型、也可以是数值型)、边的信息、边的属性(如果有的话)、已知的节点预测标签,对未知标签的节点做预测。我们将以Cora数据集为例子进行说明,Cora是一个论文
2021-06-23 14:20:38
284
原创 Datawhale 图神经网络 Task02消息传递图神经网络
这次我一开始真的看懵了,不知道我要干什么,消息传递图神经网络读起来也怪怪的。直到快要交作业的时候,我貌似有些明白标题的意思了(好多次都是这样,到节点才开始……)我的理解是这样的,所谓消息传递(MessagePassing)的目的是为了将每个节点生成node embedding,这就很像transformer里的注意力机制了。这个embedding的过程大约是:我是我,我不是我,我还是我。即一开始,图中的节点从描述了实际的情况,但是这么直白的描述所包含的信息太孤立了,这种情况下做图训练和做CV估
2021-06-19 23:11:42
383
1
原创 Datawhale 图神经网络 Task01简单图论与环境配置与PyG库
“工欲善其事,比先厉其器”。先来讲环境配置吧,https://zhuanlan.zhihu.com/p/94865421pytorch linux和win环境配置
2021-06-15 23:00:15
528
2
原创 Datawhale集成学习 Task12 Blending集成学习算法
Blending的意思是“混合”,其作为算法也非常好理解,即将多种结果混合在一起。具体来说呢,Blending是Stacking的基础,分为两层,第二层以第一层的predict为数据进行预测。对于一般的blending,主要思路是把原始的训练集先分成两部分,比如70%的数据作为训练集,剩下30%的数据作为测试集。第一轮训练: 我们在这70%的数据上训练多个模型,然后去预测那30%测试数据的label。第二轮训练,我们就直接用第一轮训练的模型在这30%数据上的预测结果做为新特征继续训练。一个最重要的优点
2021-05-12 00:01:16
214
原创 Datawhale 集成学习 Task11:XGBoost算法分析与案例调参实例
最近又给bagging和boosting绕迷糊了,再来复习下,首先bagging聚焦方差的减小,boosting聚焦偏差的减小。然后bagging采用了自助采样bootstrap和投票的方法进行集成学习,但是boosting类似于以前的错题本,类似于三个臭皮匠赛过诸葛亮,聚焦错误给“好”分类器更大的权重,致力于减小错误也就是降低偏差。xgboost的本质还是boosting,但是优点是计算快并且可以并行计算,其很重要的一点就是创造性的用泰勒级数近似损失函数,并且只取泰勒级数的前两项,从而降低目标函数的优化
2021-04-26 19:52:41
212
原创 Datawhale 集成学习 Task10:前向分步算法与GBDT梯度提升决策树
GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回顾下Adaboost,我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同。在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x),让本轮的损失
2021-04-24 00:17:21
193
原创 Datawhale 集成学习 Task09:Boosting的思路和Adaboost算法
boosting的英文解释为:使增长;推动;改进;使兴旺。放在机器学习里是是一种可以用来减小监督式学习中偏差的机器学习算法。将弱学习器团结起来形成强学习器。Boosting的基本概念在PAC框架下,一个概念如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么就称这个概念为强可学习的;一个概念如果存在一个多项式的学习算法能够学习它但正确率仅比随机猜测高一点,那么久城这个概念为弱可学习的。强可学习与弱可学习已被证明是等价的。Adaboost算法进行建模:AdaBoost算法是Adaptive
2021-04-20 22:38:08
194
原创 Datawhale 集成学习 Task09:Boosting的思路和Adaboost算法
1. 导论在前面的学习中,我们探讨了一系列简单而实用的回归和分类模型,同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们也从前面的探讨知道:Bagging主要通过降低方差的方式减少预测误差。那么,本章介绍的Boosting是与Bagging截然不同的思想,Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型
2021-04-20 22:25:57
168
原创 Datawhale 集成学习 Task08:Bagging的原理和案例分析
关于bagging,这是一种集成学习的方法,它的老对手是boosting。他俩有个原始的祖宗是投票法(因为投票法最好想到也最好理解)。我经常把他俩弄混,主要是这两个英文单词总是让我浮想联翩。今天来捋一捋,表达了两种先进的集成学习思路,bagging一条是大家一起干活大佬随机翻牌翻到谁“叼”谁,boosting还有一条是大家流水线干活大佬在线旁边“叼”人。明显前者适合并行。本次学习bagging的主要代码为以下,import numpy as npfrom sklearn import datasets
2021-04-17 22:35:59
268
原创 Datawhale 集成学习 Task07:投票法原理和案例分析
投票法顾名思义,主要分为人人平等的硬投票和充分考虑身份地位的软投票。分类的机器学习算法输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(Soft voting)。 sklearn中的VotingClassifier是投票法的实现。老规矩,把这次学习的代码跑一遍:...
2021-04-14 23:53:21
213
2
原创 Datawhale 集成学习 Task07:投票法的原理和案例分析
投票法的思路投票法是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。举个例子,在航空航天领域,每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号:11101100100111001011011011011在传输过程中第二位发生了翻转10101100100111001011011011011这导致的结果可能是致命的。一个常用的纠错方法是重复多次发送数据,并以少数服从多数的方法确定正确的传输数据。一般情况下,错误总是发生在局部,因此融合多个数据
2021-04-14 23:44:40
379
2
原创 Datawhale 集成学习 Task06:掌握分类问题的评估及超参数调优
超参数调优,主要有GridSearchCV和RandomizedSearchCV,主要是因为上一个task代码少,我就和之前的写在一起了。回忆一下,Grid和Randomized共用了param_range和param_grid,其他的和回归中的很相近,都是先fit,然后就可以输出best_score_,以及best_params_这一节呢,主要是两个实操练习,一个是https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cance
2021-03-29 16:11:39
189
1
原创 Datawhale 集成学习 Task05:掌握基本的分类模型
我发现对于我这种记性不太好的学生,学习还是要用笨方法,就想读书时候“死记硬背”课文,很多年后脱口而出,然后竟恍然大悟。“死记硬背”就像是给自己的“缓存”加东西,形成肌肉的记忆后,然后再慢慢消化(据说睡觉的时候都可以想起,那就是“写进缓存”了)。毕竟“缓存”有限,我把课程的代码精简了下。哈哈这么看来,就代码层面来说,分类和回归真的好像。套路很相近,这次背代码主要成了背单词了。from sklearn import datasetsiris = datasets.load_iris()X = iris.d
2021-03-27 23:22:44
158
原创 Datawhale 集成学习 Task04:掌握回归模型的评估以及超参数调优
先来撸代码:import numpy as npfrom sklearn import datasetsfrom sklearn.svm import SVRfrom sklearn.pipeline import Pipelinefrom sklearn.pipeline import make_pipelinefrom sklearn.preprocessing import StandardScaler from sklearn.model_selection import GridSe
2021-03-24 22:59:29
262
原创 Datawhale 集成学习 Task03:掌握偏差与方差理论
先默写本次学习的代码:一段代码是aic的前向选择,还有两小段是Lasso回归和Ridge回归。aic指的是赤池信息准则,与其同类还有bic,即贝叶斯信息准则,其属于特征提取的范畴。前向选择这段代码的作用是,对于一个数据集,有一些特征与自变量相关性不大,过于纠结这些特征会作茧自缚,使得模型的泛化能力弱,不能达到预测的鲁棒性。所以从逐个挑选优质的特征,当特征的增加使得aic的值不是逐渐减小,说明该特征及以后的特征对于预测很可能有反作用,故取其精华去其糟泊。import numpy as npimpor
2021-03-22 21:03:18
166
原创 Datawhale 集成学习 Task02:掌握基本的回归模型
这次学习的内容自我总结下,就是三个回归方法(in_reg,tree_reg,svr_reg),两个数据集(iris_data,boston_data),一个聚类方法(make_moons,哈哈因为这个好看,所以要背下来)。其实机器学习的内容也看了很多书,始终觉得看了忘,忘了看,讲的很有道理,却总觉得有些飘渺,这次,我用笨办法把他记下,啥也不说了,把代码默写一遍。导包:iris数据集make_moonsboston_datalin_regtree_reg如果省略划红线这些
2021-03-18 23:29:46
137
原创 Datawhale 集成学习 Task02:集成学习之投票法与bagging
投票法的思路投票法是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。举个例子,在航空航天领域,每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号:11101100100111001011011011011在传输过程中第二位发生了翻转10101100100111001011011011011这导致的结果可能是致命的。一个常用的纠错方法是重复多次发送数据,并以少数服从多数的方法确定正确的传输数据。一般情况下,错误总是发生在局部,因此融合多个数据
2021-03-16 10:47:24
508
原创 Datawhale 集成学习 Task01:熟悉机器学习的三大主要任务
如同熊猫属于熊而不属于猫所以更应该叫做猫熊一样,机器学习应该叫做学习机器,或者“会学习”的机器,而不是机器会学习,因为机器到底没有情感,没有主观能动性,在机器背后的始终是操控它的人。既然是器,就有其限制,不能像人一样随心所欲。机器学习所解决的问题,归纳起来可以是这三种:分类、回归、聚类,其衍生的功能实质上也没有超出这个范围。既然是器,就有其锋利之处。如果人类拥有了火,人类会用工具,机器学习也是人的技能的延展。数据爆炸的今天,如果人类还在1+1的数数,就如同从北京到纽约选择徒步。工具让我们走的更远,工具让
2021-03-15 23:43:11
212
原创 Datawhale时间序列实践 Task01:比赛全流程体验
1.Docker安装因为搬家,所以只有一台13年的mac pro可以用来学习了,目前我的mac的系统版本是10.12,很老旧啦按照苹果公司的风格赶快淘汰买新的,但是我不服,因为这mac我还没怎么用过。群里各种讨论docker是什么,docker不好装。说实话,我也对docker一知半解,知道它是一个容器。那么问题来了,它和虚拟机比如VMware,比如Java虚拟机有什么区别呢?终于在百度之后,我大概明白了docker的前世今生,它与虚拟机的最大区别是虚拟机会虚拟硬件,创造虚拟的OS,而docker不会,
2021-02-20 23:18:52
254
原创 Datawhale 知识图谱组队学习 之 Task 5 Neo4j 图数据库查询
Datawhale 知识图谱组队学习 之 Task 5 Neo4j 图数据库查询文章编写人:我是大好人github 地址:特别鸣谢:QASystemOnMedicalGraph目录Datawhale 知识图谱组队学习 之 Task 5 Neo4j 图数据库查询目录一、 Neo4介绍二、 Neo4j 介绍3.1 Cypher 介绍3.2 Neo4j 图数据库 查询四、 基于知识图谱的问题系统 主体类 AnswerSearching 框架介绍五、 代码分模块介绍参考资料
2021-01-10 10:22:12
189
原创 Datawhale 知识图谱组队学习之Task 4 用户输入->知识库的查询语句
Datawhale 知识图谱组队学习 之 Task 4 用户输入->知识库的查询语句文章编写人:王翔github 地址:特别鸣谢:QASystemOnMedicalGraph目录Datawhale 知识图谱组队学习 之 Task 4 用户输入->知识库的查询语句目录一、引言二、什么是问答系统?2.1 问答系统简介2.2 Query理解2.2.1 Query理解介绍2.2.2 意图识别2.2.3 槽值填充三、任务实践四、 主体类 EntityE
2021-01-10 10:21:41
763
原创 Datawhale 知识图谱组队学习 之 Task 3 Neo4j图数据库导入数据
Datawhale 知识图谱组队学习 之 Task 3 Neo4j图数据库导入数据文章编写人:芙蕖github 地址:特别鸣谢:QASystemOnMedicalGraph目录Datawhale 知识图谱组队学习 之 Task 3 Neo4j图数据库导入数据目录一、引言二、Neo4j简介2.1 基本概念2.2 索引2.3 Neo4j的优势2.4 环境部署2.4.1 运行环境2.4.2 neo4j安装及使用三、Neo4j 数据导入3.1 数据集简介3.2
2021-01-10 10:09:38
1928
原创 Datawhale 知识图谱组队学习 之 Task 2 基于医疗知识图谱的问答系统操作介绍
Datawhale 知识图谱组队学习 之 Task 2 基于医疗知识图谱的问答系统操作介绍文章编写人:芙蕖github 地址:特别鸣谢:QASystemOnMedicalGraph目录Datawhale 知识图谱组队学习 之 Task 2 基于医疗知识图谱的问答系统操作介绍目录一、引言二、运行环境三、搭建知识图谱四、启动问答测试参考资料一、引言该项目主要分为两部分:第一部分:搭建知识图谱。该部分的具体讲解将在 Datawhale 知识图谱组队学习 之 Tas
2021-01-10 10:08:40
197
原创 Datawhale 知识图谱组队学习 之 Task 1 知识图谱介绍
Datawhale 知识图谱组队学习 之 Task 1 知识图谱介绍文章编写人:吴晓均、康兵兵github 地址:目录Datawhale 知识图谱组队学习 之 Task 1 知识图谱介绍目录一、知识图谱简介1.1 引言1.2 什么是知识图谱呢?1.2.1 什么是图(Graph)呢?1.2.2 什么是 Schema 呢?1.3 知识图谱的价值在哪呢?二、怎么构建知识图谱呢?2.1 知识图谱的数据来源于哪里?2.2 信息抽取的难点在哪里?2.3 构建知识图谱所
2021-01-10 10:07:44
957
原创 Datawhale go语言学习 12并发编程
12.并发编程12.1 并发与并行Erlang 之父 Joe Armstrong曾经以下图解释并发与并行。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u21Pi0Ef-1608215197628)(./img/cor.jpg)]并发在图中的解释是两队人排队接咖啡,两队切换。并行是两个咖啡机,两队人同时接咖啡。“Concurrency is about dealing with lots of things at once. Parallelism is abou
2020-12-17 22:27:09
281
原创 Datawhale go语言学习 11.单元测试
11.单元测试本节代码样例见code/utest文件夹在日常开发中,我们通常需要针对现有的功能进行单元测试,以验证开发的正确性。在go标准库中有一个叫做testing的测试框架,可以进行单元测试,命令是go test xxx。测试文件通常是以xx_test.go命名,放在同一包下面。11.1 初探Go单元测试现在假设现在需求是:完成两个复数相加,我们只需要一个函数便可以完成该任务。在开发中,我们需要对该函数进行功能测试,如何快速进行单元测试呢?鼠标放在函数上右键,选择GO:Generat
2020-12-17 22:26:22
151
原创 Datawhale go语言学习 10反射机制
10.反射机制10.1 反射是什么反射的概念是由Smith在1982年首次提出的,主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。Go 语言提供了一种机制在运行时更新变量和检查它们的值、调用它们的方法,但是在编译时并不知道这些变量的具体类型,这称为反射机制。10.2 反射的作用1.在编写不定传参类型函数的时候,或传入类型过多时典型应用是对象关系映射type User struct { gorm.Model Name string Age
2020-12-17 22:25:43
211
原创 Datawhale go语言学习 9.异常处理
9.异常处理9.1 errorGo语言内置了一个简单的错误接口作为一种错误处理机制,接口定义如下:type error interface { Error() string}它包含一个 Error() 方法,返回值为stringGo的error构造有两种方式,分别是第一种:errors.New()err := errors.New("This is an error")if err != nil { fmt.Print(err)}第二种:fmt.Errorf()err :=
2020-12-17 22:25:07
114
原创 Datawhale go语言学习 8.包管理
8.包管理8.1 Go Modules是什么?Go语言通过包管理来封装模块和复用代码,这里我们只介绍Go Modules管理方法Go Modules于Go语言1.11版本时引入,在1.12版本正式支持,是由Go语言官方提供的包管理解决方案Modules是相关Go包的集合,是源代码交换和版本控制的单元。go命令直接支持使用Modules,包括记录和解析对其他模块的依赖性8.2 Go Modules的使用方法8.2.1 环境变量首先需要设置环境变量,可以使用go env命令查看当前配置。$ go
2020-12-17 22:24:33
90
原创 Datawhale go语言学习 7.结构体、方法、接口
7.结构体、方法、接口7.1.结构体Go 语言中没有“类”的概念,也不支持像继承这种面向对象的概念。但是Go 语言的结构体与“类”都是复合结构体,而且Go 语言中结构体的组合方式比面向对象具有更高的扩展性和灵活性。7.1.1 结构体定义结构体一般定义如下:type identifier struct { field1 type1 field2 type2 ...}例如我们想声明一个学生的结构体类型:type Student struct { Name string Age
2020-12-17 22:23:55
110
原创 Datawhale go语言学习 6.函数
6.函数6.1 函数定义在go语言中函数定义格式如下:func functionName([parameter list]) [returnTypes]{ //body}函数由func关键字进行声明。functionName:代表函数名。parameter list:代表参数列表,函数的参数是可选的,可以包含参数也可以不包含参数。returnTypes:返回值类型,返回值是可选的,可以有返回值,也可以没有返回值。body:用于写函数的具体逻辑例1:下面的函数是用于求两个数的
2020-12-17 22:22:49
107
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人