Doodlera-优快云博客

原创 application.properties文件写入map及中文乱码

配置文件中写入map，及存在中文乱码的解决方案。亲测有效。

2022-07-21 09:47:10 1163

原创模型可视化工具

参考：https://blog.youkuaiyun.com/zandaoguang/article/details/120963786hiddenlayer：1.安装Graphviz： sudo yum -y install graphviz ， pip install graphviz2.pip install hiddenlayer,报错安装pip install matplotlib，pip install Ipython。 import hiddenlayer成功。3.可用。只有网络结构，没有数据尺

2022-04-01 16:00:51 1261

原创《文哥的学习笔记——推荐系统遇上深度学习》笔记（10~20）

原地址文哥的学习笔记本文仅从个人角度进行记录学习，很多内容记录不全面，并且原文提供了代码，建议有需要的读者阅读大佬原文进行学习。第十篇 GBDT+LR融合方案实战1、为什么建树采用GBDT而非RF：RF也是多棵树，但从效果上有实践证明不如GBDT。且GBDT前面的树，特征分裂主要体现对多数样本有区分度的特征；后面的树，主要体现的是经过前N颗树，残差仍然较大的少数样本。优先选用在整体上有区分度的特征，再选用针对少数样本有区分度的特征，思路更加合理，这应该也是用GBDT的原因。2、GBDT用于提取特征

2022-02-23 16:48:43 812

原创浮点数的精度损失

由于计算机的存储原因，浮点数（float，double）等类型计算时存在精度损失。如：为什么会出现浮点数：定点格式在知道这些数不会超过预先确定的内存单元，且没有太多小数位的场合比较合适用，在数可能很大或可能很小的场合定点格式完全不适用。用浮点数表示一些极大和极小的数值比较方便，但是在处理浮点数的时候经常会发生精度损失的问题。源自知乎解决方法：1、转换为整数运算2、python的第三方库decimal，scala里面也有BigDecimal...

2022-02-11 08:59:59 922

原创《文哥的学习笔记——推荐系统遇上深度学习》笔记（1~9）

原地址文哥的学习笔记本文仅从个人角度进行记录学习。第一篇 FM模型理论和实践：1、CTR预估(click-through rate)2、FM：考虑了高阶的特征组合（一般只用二阶），通过矩阵分解用辅助向量求解特征组合的权重矩阵。好处：参数数量减少；参数因子化使得xhxi的参数和xhxj的参数不再相互独立，因为有了xh特征关联，减少数据稀疏性造成的影响。第二篇 FFM模型理论和实践：1、在FFM中，每一维特征 xi，针对其它特征的每一种field fj，都会学习一个隐向量 v_i,fj。主要用于解决

2022-02-10 10:31:27 675

原创 PyTorch bindings for Warp-ctc: cannot stat ‘libwarpctc.dylib‘: No such file or directory

安装步骤按照github即可。项目地址如果导入报错，作者给出了这样的办法cd ../pytorch_bindingpython setup.py installcd ../buildcp libwarpctc.dylib /Users/$WHOAMI/anaconda3/lib但是我的build文件夹下没有libwarpctc.dylib文件，只有libwarpctc.so文件。在项目的issue里找了一下，发现将该文件拷贝过去即可。cd ../buildcp libwarpctc.so

2022-01-29 09:44:38 652

原创在镜像中安装gmpy2

在镜像中直接使用pip安装gmpy2会报错。apt-get upgrade后报错解决。FROM COPY ./aaa/ /myapplicationWORKDIR /myapplicationRUN apt-get updateRUN apt-get upgrade -yRUN apt-get install libgmp-devRUN apt-get install libmpfr-devRUN apt-get install libmpc-devRUN pip install gmp

2022-01-11 16:29:34 564

原创《文哥的学习笔记——推荐系统实战》笔记

发现了大神的学习笔记文哥的学习笔记。简单记录下知识点。第一篇1、评测指标：满意度，准确度，覆盖率，多样性，新颖性，惊喜度，信任度，实时性，健壮性，商业目标。第二篇：1、基于邻域的方法包括基于用户的协同过滤算法，基于物品的协同过滤算法2、新闻网站一般使用UserCF，而图书、电商网站一般使用ItemCF3、UserCF给用户推荐那些和他有共同兴趣爱好的用户喜欢的物品，而ItemCF给用户推荐那些和他之前喜欢的物品类似的物品。UserCF的推荐更社会化，反映了用户所在的小型兴趣群体中物品的热门程度

2022-01-11 09:56:18 760

原创 ill-defined and being set to 0.0 in labels with no true samples

测试时计算精度遇到提醒如下。y_true中的某些标签未出现在y_pred中，永远不会预测标签。不影响计算结果。解决方法：增大测试时从DataLoader读取数据的batch_size。因为在一个batch_size的测试时没有读取到全部类别的数据，因此会进行提示。增大batch_size即可避免这个warning。E:\anaconda\lib\site-packages\sklearn\metrics\_classification.py:1221: UndefinedMetricWarning:

2021-12-09 11:05:15 2800

原创 PyTorch加载模型报错ModuleNotFoundError

没想到还有这样的坑。在远程服务器使用PyTorch训练好模型后，使用torch.save(local_model, file_name, _use_new_zipfile_serialization=False)将模型保存，原以为这种保存方法可以将模型结构和参数一起保存。但是本地torch.load报错：ModuleNotFoundError: No module named '***'（并没有显式导入模型结构）。经过查阅，虽然是保存了模型结构，但仍然需要将“目录结构得和保存时一模一样”，具体来说就是模

2021-12-08 14:49:35 3557

原创数据中心竞赛方案（Data-Centric AI Competition: KAIST – AIPRLab）

garbage in, garbage out方法：1.手动筛除噪声，标记错误数据2.数据增强，扩展，收集3.严格保证类别均衡（同一个罗马字母的大小写数量也一致）4.“增加”一个特定训练点的少量权重，并在推断时观察这对模型预测的影响，删除有负面影响的数据5.增强数据后使用聚类判断是否数据变换带来问题（附近点的标签都与该数据不同）6.增加边缘点7.对于每个错误分类的验证图像，使用提取的特征从一组增强图像中检索出最近邻(基于余弦相似度)。把这些最近的邻居增强图像添加到训练集...

2021-11-16 21:53:53 539

原创 spark ml

1.ml中提供的评估器（Estimator）的输入输出均有预设的列名，如默认的Y值列名是“label”。若需更改，在定义评估器时使用.setLabelCol(“target”)。类似的，预测输出时使用setPredicionCol（“”）修改。2.可以使用explainParams来查看可用参数，默认值和简要文档。new LogisticRegression().explainParams参数说明：该部分来自于如下链接：https://blog.youkuaiyun.com/weixin_40161254

2021-11-08 18:40:29 208

原创 FATE联邦学习笔记（一）

学习联邦学习的概念及方法，尝试微众银行FATE框架。单机版教程参考：横向联邦学习实践集群版教程参考：使用FATE进行图片识别的深度神经网络联邦学习实际使用中提出了这样一个问题：在案例中，mnist数据集是随机划分的，即每一个数据集内同时存在0~9全部标签。但是生产中存在这样一种情况：不同参与者拥有的标签完全不同，比如一方拥有0 ~4，另一方拥有 5 ~9。模拟这种情况进行尝试。在不改变算法配置的情况下报错。...

2021-09-28 09:21:19 1765

原创 Centos装机+GPU驱动

实际进行了一次装机，有的坑网上解决方案较少，聊做记录。1.禁用2.下载https://developer.nvidia.com/cuda-10.2-download-archive?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7&target_type=runfilelocal3.报错Unable to find the kernel source tree for t

2021-04-14 14:35:35 534

原创 XGBoost预排序算法的疑问（求大佬解答）

在XGBoost中，使用预排序的方法来处理节点分裂，会先对每个特征按照特征值大小进行排序，然后保存为block结构，后面的迭代中会重复地使用这个结构，使计算量大大减小。对这一点存在一些疑问：举例说明，假设一个样本有“年龄”，“身高”两个特征，取值分别为[23,24,25,26,27,99],[244,180,181,175,172,168]。预排序后分别为[23,24,25,26,27,99],[168,172,175,180,181,244]。假设第一次选择“年龄”为26进行分裂，分裂后节点左

2021-04-13 13:30:33 1739 5

原创联邦学习纵向逻辑回归公式推导

原文链接【技术博客】纵向联邦学习简介及实现——MomodelAI在研究纵向联邦学习时，为了对细节有更深入的理解，查询了一些资料并对图中的公式（出自上文引用）进行了推导。推导过程如下。其中，1.未加入正则化项。2.对B求导与A的结果类似，改变相应下标即可3.推导过程中，Xθ的相乘顺序经常混淆，这一点和原图中的公式稍有不同。同时完成了《联邦学习》一书中的纵向联邦线性回归（P78）的公式推导。思路类似，相对来说比较简单，就不再列出了。...

2021-03-09 14:01:37 1925 1

原创 Spark学习记录

1.下载。官网下载地址。但是我在这个页面无法看到下载的下拉单，尝试了多个浏览器问题依旧。所以从下载地址直接下载。目录下有多个包，区分SparkR，pyspark，不同hadoop版本，不带hadoop等。查阅资料得知，spark-3.0.1-bin-without-hadoop可以适配任何版本的hadoop，当预先安装好hadoop时选择此包。我这里下载的是spark-3.0.1-bin-hadoop3.2.tgz。2.安装单机版安装简单，步骤包括解压缩，修改配置文件，设置环境变量。置环境变量

2021-02-21 16:44:15 91

原创 Attention理解（未完待续）

总结、记录一下对Attention的理解。不保证正确。Attention的流程，我觉得这一篇讲解的比较易于理解，根据公式过一遍就可以有一个简单的认知。整理流程与seq2seq一样。区别在于，在每一个时间点i，得到不同的编码向量C。使用不同的编码向量再进行解码，得到y。Q,K,V的含义 Q代表输入，K代表被查找的全部，V就是内容。打个不一定恰当的比方，在数据库中搜索，Q就是从输入提取出的关键字，K就是全部数据的索引，通过Q和K的相似度找到目标。这三者不一定要一致，只是现在常用的K和V是相同的。Atte

2020-12-24 16:03:47 208

原创 PyTorch dataloader里的shuffle=True

对shuffle=True的理解：之前不了解shuffle的实际效果，假设有数据a,b,c,d，不知道batch_size=2后打乱，具体是如下哪一种情况：1.先按顺序取batch，对batch内打乱，即先取a,b，a,b进行打乱；2.先打乱，再取batch。证明是第二种。shuffle (bool, optional): set to ``True`` to have the data reshuffled at every epoch (default: ``False``).if shu

2020-11-05 15:58:13 13278 4

原创 FATE联邦学习笔记（二）——如何在FATE上使用卷积

学习自定义算法模块。根据github教程和官方视频学习。原计划编写一个reshape模块。目前的理解：FATE上传的数据格式支持有限。数据是一维的，无法使用神经网络的卷积等操作。原打算通过：数据上传（一维数据）——数据转换（转换为多维数据）——算法模块（卷积神经网络）这样的流程实现。目前的问题在于FATE使用的数据格式DTable。...

2020-06-18 16:44:13 1174 1

原创 python调用elasticsearch的常用命令

调用Python中的elasticsearch库对ES进行操作。1.安装pip install elasticsearch导入from elasticsearch import Elasticsearch, helpers3.连接es = Elasticsearch(hosts=es_host,port=port,timeout=100)es.ping() #验证是否连接成功4.操作#创建索引，若存在即忽略#指定建立的类型，所用分词器，是否建立索引等，即预先定义好字段body =

2020-06-16 13:38:42 567

原创有趣的python库

记录一下遇到的有趣的库，聊以慰藉。逐渐扩充。html5lib 地址有趣之处：版本号里的9终于写不下了。2013.9.10 版本号：0.992013.12.23 0.9992015.4.29 0.99992015.4.30 0.99999…2016.7.15 0.999999999终于，2017.12.7，1.0版本发布，可喜可贺！...

2020-05-28 16:33:26 204

原创 L1为什么有稀疏化的功能

终于找到一个从公式而不是画图的角度的答案。终于理解了一些。https://blog.youkuaiyun.com/f156207495/article/details/82794151?utm_source=copy

2020-04-19 11:15:05 295

原创 Python解析PDF（我对亚瑟王一心一意）

可支持的工具有：pdfplumber、pdfminer3k以及Camelot。亲身尝试了pdfplumber、Camelot。Camelot可以将PDF直接解析为文本，前期尝试时乍一看效果很好。遂用之。（然而实际坑很多。）遇到的问题：1.安装。pip install camelot后还需要安装其他的依赖包，比如ghostscript。同样pip install ghostscript后报错...

2020-02-20 15:50:51 1570

原创马氏距离

马氏距离可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量X与Y的差异程度。独立变量的协方差cov(x,y)=0，协方差矩阵转化为对角矩阵。样本分布也会影响分类。疑惑是，马氏距离和经过标准化后的欧式距离的差别。各类距离度量及python实现：https://www.cnblogs.com/denny402/p/7027954.html如果维度间不独立同分布（即存在相关性），样...

2019-12-04 14:41:07 199

原创紧致预测树（CPT）笔记

https://blog.youkuaiyun.com/tmb8z9vdm66wh68vx1/article/details/80288291CPT用于做序列预测。通过比对已经出现过的序列，对目标序列进行预测。对文中预测阶段的理解：对目标序列的下一状态进行预测，因此首先在预测树中查找与目标序列相似的序列，得到相似序列的后续序列。对后续序列中的每个值计算得分目标序列=[‘A’,’B’,’C’]...

2019-11-12 11:35:15 503

原创小记（1）

1.尝试调用祖父类的属性。发现了两种方法（虽然感觉都不是正确方法==）：a.显式调用父类及祖父类；b.只显式调用父类，在方法中实例化祖父类。第一种方法：class class_3(class_2): def __init__(self,*arges, **kwarges): '''两种方法：1.显示调用父类及祖父类''' class_2.__init...

2019-11-12 10:04:07 113

原创学习记录

1.宽度学习（BLS）2.故障系统检测：高斯分布；Isolation Forest；OneClassSVM。3.残差网络4.RNN5.BERT、transformer

2019-11-05 15:20:07 81

原创 RNN学习笔记（疑惑点）

1.RNN中的input:batch_size,time_steps,input_size.batch_size是数据的批次，将全部数据划分为n批进行训练；time_steps为时间步，比如输入为一句话，每一步则为每一个字；input_size为输入数据本身的维度；(1) 1行数据 * batch = 全部数据(2) 1行数据被分为了 n个timestep所以要把输入数据转化为三维。...

2019-10-25 10:24:13 581

原创 Assignment #1.1 Softmax 分类算法

简单的实现Softmax 。本以为十分简单，不想还是遇到了各种问题。最终的程序如下，如果还有问题再做修正。 def softmax(x): orig_shape = x.shape if len(x.shape) &gt; 1: # Matrix x=np.exp(x-np.max(x,1).reshape(-1,1))/np.sum(np....

2018-12-05 17:03:00 380

原创学习NLP，权作纪录

观看斯坦福CS224n视频学习NLP。欠缺的东西太多，补充知识，跟着廖雪峰老师的Git教程学习。权作纪录，坚持下来。

2018-12-04 10:46:50 135

Doodlera的博客