
基础知识
静静_jingjing
重庆理工大学在读研究生萌新一枚~~~还需要多多学习~~希望大家多多指教 自己开心顺利地毕业 欧耶~~~~
展开
-
pyspark udf returnType=ArrayType中是不同数据类型
pyspark udf returnType=ArrayType中是不同数据类型然后id_list collect_list之后还能按照第一个位置的元素进行排序。原创 2023-02-22 16:16:21 · 670 阅读 · 2 评论 -
今日spark服务器端执行报错经验总结
一样的代码,服务器端的处理逻辑是,读hive表,经过一些逻辑处理,然后存到hive表中,应该是数据出问题了,查看源头hive表,发现列存在错乱情况,终于排查到错误所在,是数据的问题,不是写的代码的逻辑的问题。首先做了本地运行工程的排错,也做了print输出排错, (本地工程的流程就是 读本地csv文件,然后一些处理逻辑,然后输出保存到本地文件), 没什么错误。题目起的不好,这篇类似于日记一样,记录一下排错过程吧~~spark报错信息体现的就是函数的入参在函数内部错乱,原创 2022-12-30 16:52:28 · 273 阅读 · 0 评论 -
正则表达式教程
带有语法高亮的、支持PHP / PCRE 和 JS 语言、 上下文解释、 备忘单、参考 和 正则表达式社区的正则表达式测试工具。RegExr: 学习、构建 和 测试 正则表达式 Test RegEx。练习网站,很有意思叫编程胶囊。原创 2022-12-14 22:04:05 · 359 阅读 · 0 评论 -
wget jdk下载
wget jdk下载 访问这个网址 : https://repo.huaweicloud.com/java/jdk/原创 2022-12-08 16:41:03 · 608 阅读 · 0 评论 -
TypeError: Invalid returnType: returnType should be DataType or str but is <‘pyspark.sql.types.Integ
@F.udf(returnType=IntegerType)错了应该是@F.udf(returnType=IntegerType())原创 2022-12-05 15:17:37 · 525 阅读 · 0 评论 -
df真值替换 / df label替换 / df.loc赋值/两列赋值
踩坑记录: loc到某行某列.values 是列表。原创 2022-11-25 15:03:44 · 408 阅读 · 0 评论 -
df 取某两列值不一致的行
df 取某两列值不一致的行必须保证 作比较的这两列的数据类型一样 也就是label 和 groundtruth的数据类型要一样, 不一样的话 df_external[df_external['label']!= df_external['groundtruth']] 就会不起作用!这是我踩得一个坑,记录一下~~~例如我要取df_external的df_external['label']!= df_external['groundtruth'] 的行。原创 2022-11-24 17:42:02 · 425 阅读 · 0 评论 -
lgbm查看特征重要性
lgbm查看特征重要性原创 2022-11-14 17:40:42 · 1370 阅读 · 0 评论 -
python dataframe 字符串 转换为 字典
python dataframe 字符串 转换为 字典 eval() 可以把参数当做表达式执行。原创 2022-10-27 21:54:49 · 813 阅读 · 0 评论 -
深度学习之BatchNorm(批量标准化)
对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数不停在变化,所以每个隐层都会面临covariate shift的问题,也就是在训练过程中,隐层的输入分布老是变来变去,这就是所谓的“Internal Covariate Shift”,Internal指的是深层网络的隐层,是发生在网络内部的事情,而不是covariate shift问题只发生在输入层。那么这又意味着什么?,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。转载 2022-09-25 20:58:36 · 1526 阅读 · 0 评论 -
tensorflow改写torch的AdaptiveAvgPool2d
通过对比pytorch的tensor和tensorflow的tensor可以验证改写成功,只不过精度有点区别。原创 2022-07-19 11:33:54 · 1020 阅读 · 0 评论 -
【学习笔记】GoogLeNet
看B站视频5.1 GoogLeNet网络详解_哔哩哔哩_bilibili(此up主很强)做了点笔记,以后随时翻翻看看。目录序正篇GoogLeNet亮点:各层模型参数1×1的卷积核降维(降低模型参数)辅助分类器Inception结构GoogLeNet(不包含辅助分类器)模型参数 V.S. VGGNet模型参数序up主和GoogLeNet的作者都是有情怀的人,我之前一直都不知道还有这回事。正篇GoogLeNet亮点:引入了Incepti...原创 2021-06-21 09:43:56 · 169 阅读 · 1 评论 -
图卷积 沈华伟老师的视频笔记
https://www.bilibili.com/video/av667610549/图卷积神经网络-沈华伟拉普拉斯矩阵的谱分解,谱图卷积,图卷积演变过程 https://zhuanlan.zhihu.com/p/272767872空域图卷积和谱图卷积 https://zhuanlan.zhihu.com/p/122968925图卷积神经网络GCN---谱图卷积层代表作https://blog.youkuaiyun.com/weixin_35505731/article/details/105...原创 2021-05-20 19:02:51 · 793 阅读 · 0 评论 -
pytorch学习笔记---CNN
在做全连接的时候,图像所有行都给拉平成一行,使得俩个距离比较远的值实际在图上上可能是离得比较近的,所以全连接不能保留原始空间信息,丧失原始空间信息。下采样Subsampling后 通道数不会变,W,H会变。Subsampling的目的是减少元素数量,降低计算量每一个filter的channel和原始输入的channel一致filter的个数和输出通道的个数一致torch.Size([1,5,100,100]) 1是batch,...原创 2021-06-01 20:31:40 · 240 阅读 · 0 评论 -
pytorch笔记---CNN(高级)
减少代码冗余: 封装成 函数/类GoogleNet将Incetion Model单独拿出来看因为它不知道哪种尺寸的卷积核的效果比较好,所以它将各种尺寸的卷积核都包含在内,作为候选。将来哪种尺寸的卷积核效果好的话,它的权重就会比价大。经过每种尺寸的卷积核后,应保证除了C不一样外,其他维度一致。尤其是W,H1×1的conv就是为了改变通道数(卷积后的某位置上的值是相同位置上值信息融合的结果)network in network各分支代码实现沿着通道拼接到一起.原创 2021-06-01 23:19:54 · 131 阅读 · 0 评论 -
pytorch学习笔记---RNN(基础)
CNN的卷积层只和输入输出通道、还有卷积核的大小有关。全连接层和图像的大小有关CNNzh原创 2021-06-02 21:30:10 · 336 阅读 · 0 评论 -
【学习笔记2】【dropout / 模型正则 / 超参数调优】--《计算机视觉与深度学习 北京邮电大学 鲁鹏》
应对过拟合弹幕补充的很好L2正则化形成的分界面不会那么极端。分界面更平滑,形不成很复杂的分界面,考虑的是大多数人的利益。随机失活解释2:鼓励神经元学习更多类型的特征,不要只是学习单一特征(鼓励神经元做个不是样样精通的全才,而不是只精通一样的专才)解释3:小网络的集成,使得网络更稳定一些。投票法。使得鲁棒性强。这样做的好处是可以给他弄成一个dropout层,不用管预测阶段了。!!!H'=dropout(p,H)...原创 2021-06-16 10:18:01 · 288 阅读 · 0 评论 -
【学习笔记1】【梯度计算 / 数据集划分 / 交叉熵与KL散度 / 各种优化器 / 权值初始化和批归一化】--《计算机视觉与深度学习 北京邮电大学 鲁鹏》
L2正则项梯度计算(数值法、解析法)数据集划分K折交叉验证(数据集小的情况用)打乱顺序的重复K着验证(随机性强,结果更稳定)数据预处理交叉熵one-hot向量的熵为0势均力敌熵最大梯度爆炸(梯度裁剪)激活函数梯度下降法存在的问题动量法μ建议设成0.9,如果设成1的话,即使g=0,它还是会往前走,一直往前走停不下来。μ<1的话迭代个几轮,连乘,μ->0,会停下来。动量法还有什...原创 2021-06-15 22:36:35 · 366 阅读 · 7 评论