Andrew_zjc-优快云博客

转载 Dash Bootstrap Theme Explorer

【代码】Dash Bootstrap Theme Explorer。

2024-02-06 11:33:40 262

原创 Website for News from different brands

【代码】Website for News from different brands。

2023-05-09 22:42:34 300

原创 PDF转高清图片的方法

好像是要调PyMuPDF里的zoom参数。

2023-05-07 10:15:51 367

please write an application, in which I can zoom in or zoom out the picture, using pysimpleguiChatGPTTo create a simple application that allows you to zoom in or zoom out an image using PySimpleGUI, you’ll need to install the required packages first:Copy

2023-05-05 00:32:12 816

原创 Datawhale OCR竞赛实践 Task01:Baseline学习实践(4天)

学习课程：gitee_PaddleOCR学习论坛：Datawhale CLUB天池比赛：“英特尔创新大师杯”深度学习挑战赛赛道1：通用场景OCR文本识别任务OCR比赛的概况如下图，大家加油为了五万！！！奥里给！OCR的英文全称是Optical Character Recognition，非常古老的计算机命题。在1202年，各种AI大行其道的时代，这个古老的命题又被挖出来了。如果说之前是从环境中找文字给计算机读，现在是让计算机自己从环境中找读有意思的信息，让计算机行万里路顺便读个万卷书。tes

2021-07-14 13:55:52 293

原创 Datawhale 图神经网络 Task07 图预测任务实践

非常感谢“天国之影”共享的结果文件，让我们得以看到最终的结果。我尝试了很久之后，已经放弃跑图预测任务实践的代码了。首先用tensorboard预览最终的结果：tensorboard --logdir=GINGraphPooling可以从tensorboard里看到训练了五个多小时，最终曲线比较平稳。我们来从代码看看本次实践的任务：首先是run.sh，linux里bash命令即可，windows的话没有也没关系，因为run.sh里只是运行了python main及task_name,devi

2021-07-09 16:29:58 352 2

原创 Datawhale 图神经网络 Task06 基于图神经网络的图表示学习

学习课程：gitee_Datawhale_GNN学习论坛：Datawhale CLUB公众号：DatawhaleWL:

2021-07-05 16:29:44 399 2

原创 Datawhale 图神经网络 Task05 超大图上的节点表征学习

学习课程：gitee_Datawhale_GNN学习论坛：Datawhale CLUB公众号：Datawhale本次学习的内容是有关于超大图的，具体的论文是Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks。根据论文标题猜测，使用聚类的算法将图分成小块，步步为营的解决超大图的问题。我们知道，图与传统机器学习最大的不同就是边的存在，将图一块块扯开来就像是藕断丝连一样，是很

2021-07-01 14:55:47 197

原创 Datawhale 图神经网络 Task04数据完整存储与内存的数据集类+节点预测与边预测任务实践

学习课程：gitee_Datawhale_GNN学习论坛：Datawhale CLUB公众号：Datawhale1.node_classfication对于节点分类的任务，GAT的得分是0.765，GCN的得分是0.779。不同的层数和不同的out_channels通过更改hidden_channels_list的数值。2.edge_classification由于之前的学习已经保存了"Cora"数据集，所以将Planetoild中的路径修改。参考代码<code: node_cl

2021-06-27 17:47:03 329 1

原创 Datawhale 图神经网络 Task03基于图神经网络的节点表征学习

基于图神经网络的节点表征学习引言在图节点预测或边预测任务中，需要先构造节点表征（representation），节点表征是图节点预测和边预测任务成功的关键。在此篇文章中，我们将学习如何基于图神经网络学习节点表征。在节点预测任务中，我们拥有一个图，图上有很多节点，部分节点的预测标签已知，部分节点的预测标签未知。我们的任务是根据节点的属性(可以是类别型、也可以是数值型)、边的信息、边的属性（如果有的话）、已知的节点预测标签，对未知标签的节点做预测。我们将以Cora数据集为例子进行说明，Cora是一个论文

2021-06-23 14:20:38 314

原创 Datawhale 图神经网络 Task02消息传递图神经网络

这次我一开始真的看懵了，不知道我要干什么，消息传递图神经网络读起来也怪怪的。直到快要交作业的时候，我貌似有些明白标题的意思了（好多次都是这样，到节点才开始……）我的理解是这样的，所谓消息传递（MessagePassing）的目的是为了将每个节点生成node embedding，这就很像transformer里的注意力机制了。这个embedding的过程大约是：我是我，我不是我，我还是我。即一开始，图中的节点从描述了实际的情况，但是这么直白的描述所包含的信息太孤立了，这种情况下做图训练和做CV估

2021-06-19 23:11:42 422 1

原创 Datawhale 图神经网络 Task01简单图论与环境配置与PyG库

“工欲善其事，比先厉其器”。先来讲环境配置吧，https://zhuanlan.zhihu.com/p/94865421pytorch linux和win环境配置

2021-06-15 23:00:15 601 2

原创 Datawhale集成学习 Task12 Blending集成学习算法

Blending的意思是“混合”，其作为算法也非常好理解，即将多种结果混合在一起。具体来说呢，Blending是Stacking的基础，分为两层，第二层以第一层的predict为数据进行预测。对于一般的blending，主要思路是把原始的训练集先分成两部分，比如70%的数据作为训练集，剩下30%的数据作为测试集。第一轮训练: 我们在这70%的数据上训练多个模型，然后去预测那30%测试数据的label。第二轮训练，我们就直接用第一轮训练的模型在这30%数据上的预测结果做为新特征继续训练。一个最重要的优点

2021-05-12 00:01:16 274

原创 Datawhale 集成学习 Task11：XGBoost算法分析与案例调参实例

最近又给bagging和boosting绕迷糊了，再来复习下，首先bagging聚焦方差的减小，boosting聚焦偏差的减小。然后bagging采用了自助采样bootstrap和投票的方法进行集成学习，但是boosting类似于以前的错题本，类似于三个臭皮匠赛过诸葛亮，聚焦错误给“好”分类器更大的权重，致力于减小错误也就是降低偏差。xgboost的本质还是boosting，但是优点是计算快并且可以并行计算，其很重要的一点就是创造性的用泰勒级数近似损失函数，并且只取泰勒级数的前两项，从而降低目标函数的优化

2021-04-26 19:52:41 246

原创 Datawhale 集成学习 Task10：前向分步算法与GBDT梯度提升决策树

GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。回顾下Adaboost，我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失

2021-04-24 00:17:21 229

原创 Datawhale 集成学习 Task09：Boosting的思路和Adaboost算法

boosting的英文解释为：使增长；推动；改进；使兴旺。放在机器学习里是是一种可以用来减小监督式学习中偏差的机器学习算法。将弱学习器团结起来形成强学习器。Boosting的基本概念在PAC框架下，一个概念如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念为强可学习的；一个概念如果存在一个多项式的学习算法能够学习它但正确率仅比随机猜测高一点，那么久城这个概念为弱可学习的。强可学习与弱可学习已被证明是等价的。Adaboost算法进行建模：AdaBoost算法是Adaptive

2021-04-20 22:38:08 222

原创 Datawhale 集成学习 Task09：Boosting的思路和Adaboost算法

1. 导论在前面的学习中，我们探讨了一系列简单而实用的回归和分类模型，同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是：通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集，对不同的子集使用同一种基本模型进行拟合，然后投票得出最终的预测。我们也从前面的探讨知道：Bagging主要通过降低方差的方式减少预测误差。那么，本章介绍的Boosting是与Bagging截然不同的思想，Boosting方法是使用同一组数据集进行反复学习，得到一系列简单模型

2021-04-20 22:25:57 243

原创 Datawhale 集成学习 Task08：Bagging的原理和案例分析

关于bagging，这是一种集成学习的方法，它的老对手是boosting。他俩有个原始的祖宗是投票法（因为投票法最好想到也最好理解）。我经常把他俩弄混，主要是这两个英文单词总是让我浮想联翩。今天来捋一捋，表达了两种先进的集成学习思路，bagging一条是大家一起干活大佬随机翻牌翻到谁“叼”谁，boosting还有一条是大家流水线干活大佬在线旁边“叼”人。明显前者适合并行。本次学习bagging的主要代码为以下，import numpy as npfrom sklearn import datasets

2021-04-17 22:35:59 305

原创 Datawhale 集成学习 Task07：投票法原理和案例分析

投票法顾名思义，主要分为人人平等的硬投票和充分考虑身份地位的软投票。分类的机器学习算法输出有两种类型：一种是直接输出类标签，另外一种是输出类概率，使用前者进行投票叫做硬投票(Majority/Hard voting)，使用后者进行分类叫做软投票(Soft voting)。 sklearn中的VotingClassifier是投票法的实现。老规矩，把这次学习的代码跑一遍：...

2021-04-14 23:53:21 253 2

原创 Datawhale 集成学习 Task07：投票法的原理和案例分析

投票法的思路投票法是集成学习中常用的技巧，可以帮助我们提高模型的泛化能力，减少模型的错误率。举个例子，在航空航天领域，每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号：11101100100111001011011011011在传输过程中第二位发生了翻转10101100100111001011011011011这导致的结果可能是致命的。一个常用的纠错方法是重复多次发送数据，并以少数服从多数的方法确定正确的传输数据。一般情况下，错误总是发生在局部，因此融合多个数据

2021-04-14 23:44:40 416 2

原创 Datawhale 集成学习 Task06：掌握分类问题的评估及超参数调优

超参数调优，主要有GridSearchCV和RandomizedSearchCV，主要是因为上一个task代码少，我就和之前的写在一起了。回忆一下，Grid和Randomized共用了param_range和param_grid，其他的和回归中的很相近，都是先fit，然后就可以输出best_score_，以及best_params_这一节呢，主要是两个实操练习，一个是https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cance

2021-03-29 16:11:39 221 1

原创 Datawhale 集成学习 Task05：掌握基本的分类模型

我发现对于我这种记性不太好的学生，学习还是要用笨方法，就想读书时候“死记硬背”课文，很多年后脱口而出，然后竟恍然大悟。“死记硬背”就像是给自己的“缓存”加东西，形成肌肉的记忆后，然后再慢慢消化（据说睡觉的时候都可以想起，那就是“写进缓存”了）。毕竟“缓存”有限，我把课程的代码精简了下。哈哈这么看来，就代码层面来说，分类和回归真的好像。套路很相近，这次背代码主要成了背单词了。from sklearn import datasetsiris = datasets.load_iris()X = iris.d

2021-03-27 23:22:44 182

原创 Datawhale 集成学习 Task04：掌握回归模型的评估以及超参数调优

先来撸代码：import numpy as npfrom sklearn import datasetsfrom sklearn.svm import SVRfrom sklearn.pipeline import Pipelinefrom sklearn.pipeline import make_pipelinefrom sklearn.preprocessing import StandardScaler from sklearn.model_selection import GridSe

2021-03-24 22:59:29 305

原创 Datawhale 集成学习 Task03：掌握偏差与方差理论

先默写本次学习的代码：一段代码是aic的前向选择，还有两小段是Lasso回归和Ridge回归。aic指的是赤池信息准则，与其同类还有bic，即贝叶斯信息准则，其属于特征提取的范畴。前向选择这段代码的作用是，对于一个数据集，有一些特征与自变量相关性不大，过于纠结这些特征会作茧自缚，使得模型的泛化能力弱，不能达到预测的鲁棒性。所以从逐个挑选优质的特征，当特征的增加使得aic的值不是逐渐减小，说明该特征及以后的特征对于预测很可能有反作用，故取其精华去其糟泊。import numpy as npimpor

2021-03-22 21:03:18 210

原创 Datawhale 集成学习 Task02：掌握基本的回归模型

这次学习的内容自我总结下，就是三个回归方法（in_reg,tree_reg,svr_reg），两个数据集（iris_data,boston_data），一个聚类方法（make_moons，哈哈因为这个好看，所以要背下来）。其实机器学习的内容也看了很多书，始终觉得看了忘，忘了看，讲的很有道理，却总觉得有些飘渺，这次，我用笨办法把他记下，啥也不说了，把代码默写一遍。导包：iris数据集make_moonsboston_datalin_regtree_reg如果省略划红线这些

2021-03-18 23:29:46 165

原创 Datawhale 集成学习 Task02：集成学习之投票法与bagging

投票法的思路投票法是集成学习中常用的技巧，可以帮助我们提高模型的泛化能力，减少模型的错误率。举个例子，在航空航天领域，每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号：11101100100111001011011011011在传输过程中第二位发生了翻转10101100100111001011011011011这导致的结果可能是致命的。一个常用的纠错方法是重复多次发送数据，并以少数服从多数的方法确定正确的传输数据。一般情况下，错误总是发生在局部，因此融合多个数据

2021-03-16 10:47:24 570

原创 Datawhale 集成学习 Task01：熟悉机器学习的三大主要任务

如同熊猫属于熊而不属于猫所以更应该叫做猫熊一样，机器学习应该叫做学习机器，或者“会学习”的机器，而不是机器会学习，因为机器到底没有情感，没有主观能动性，在机器背后的始终是操控它的人。既然是器，就有其限制，不能像人一样随心所欲。机器学习所解决的问题，归纳起来可以是这三种：分类、回归、聚类，其衍生的功能实质上也没有超出这个范围。既然是器，就有其锋利之处。如果人类拥有了火，人类会用工具，机器学习也是人的技能的延展。数据爆炸的今天，如果人类还在1+1的数数，就如同从北京到纽约选择徒步。工具让我们走的更远，工具让

2021-03-15 23:43:11 239

原创 Datawhale时间序列实践 Task01：比赛全流程体验

1.Docker安装因为搬家，所以只有一台13年的mac pro可以用来学习了，目前我的mac的系统版本是10.12，很老旧啦按照苹果公司的风格赶快淘汰买新的，但是我不服，因为这mac我还没怎么用过。群里各种讨论docker是什么，docker不好装。说实话，我也对docker一知半解，知道它是一个容器。那么问题来了，它和虚拟机比如VMware，比如Java虚拟机有什么区别呢？终于在百度之后，我大概明白了docker的前世今生，它与虚拟机的最大区别是虚拟机会虚拟硬件，创造虚拟的OS，而docker不会，

2021-02-20 23:18:52 300

空空如也

空空如也