- 博客(62)
- 收藏
- 关注
原创 Siamese Network -- Triplet
三元组损失通过设定一个锚点,并组织该锚点的正负样本对,旨在通过对比的方式显式拉开对于锚点来说的正样本与负样本距离锚点的距离。
2025-07-02 16:53:58
963
原创 Siamese Network -- Contrastive
数据,设有数据集有N个样本,则创建N个样本对(随机生成正负样本对),两个相似样本构成的为正样本对,两个不相似样本构成的为负样本对,正样本对标记为0, 负样本对标记为1。:假设训练样本共计有M个类,每一类随机抽取K个样本,构成共计有 M * K 的支持集。: 通过比较未知样本与支持集中样本之间的关系、距离等,对未知样本进行分类。训练过程主要是注意如何调用对比损失函数即可,其它的都和普通网络没区别。一个样本对有两个样本,则有两个前向传播,封装在一个函数内即可。:用于将未知样本和支持集样本转换为嵌入特征。
2025-07-02 16:52:50
941
原创 SMOTER解决回归类别不均衡问题
2.选择合适的bins作为样例观察核密度估计得到的概率密度函数的表现情况。核密度估计使用核函数曲线表示每一个数据点,然后进行函数相加得到最后的概率密度函数。需要明白的是:gene是训练的样本,计算一个样例g的K近邻,是指gene中离g最近的k个邻居。带宽表示当前数据点对应的核函数的宽度是多少**:以当前数据为中心,向左右各分出。对于分类问题,标签直接是少数类样本的类别即可,而回归问题则不存在样本类别的概念,可以使用。基于K近邻距离的加权求和公式如下:计算每一个邻居与生成的样本特征之间的距离。
2024-07-27 16:32:47
811
原创 处理表格时pandas的常见操作
缺陷是:前向填充无法处理某一列中第一个数据是空值的情况;当按行方向合并时,不同的df之间存在不同的列名,会自动扩充列的数量,并以NaN填充其它df的数据。来分别指定,但是合并后两个key都会保留在DataFrame中,可以使用。:指定了连接方式是左连接、右连接、内连接还是外连接,默认使用内连接。当按列方向合并时,如果不同的列之间存在相同的列名可以使用。如果作为关键key的列在不同的df中列名不同可以使用。前后向填充是指使用空值列的上一个或下一个数据填充空值。处理数据时发现,表格中可能存在不标准的NaN,
2024-07-20 18:07:01
928
原创 awk命令
如果想要输出每一行的部分列,并且输出在不同行里面,由于print自动换行的特性会比较困难,会选择使用。**正则表达式:**awk按行处理数据,将每一行进行正则匹配,输出需要的行中的列数据,每完成一次输出后不会自动进行换行,而且更偏向于格式化输出。**使用逗号连接:**输出时相邻变量间使用空格分开。的各变量、文本之间除格式化输出外不能使用逗号分隔。**使用字符连接:**输出时会根据字符内容分割。**不添加任何字符时:**会紧贴输出。:表示对输出的结果进行序号编辑。成立时输出A,否则输出B。
2024-07-17 19:36:01
423
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
2