- 博客(164)
- 资源 (3)
- 问答 (3)
- 收藏
- 关注
原创 论文阅读 Popularity prediction for marketer-generated content A text-guided attention neural network ...
定义若干符号表示,描述问题为给定一组 MGC,提取特征后,学习一个函数去预测流行度得分。假设存在一个包含DDD个营销者生成内容(MGC)的集合。对于索引为iii的 MGC,其由文本描述diwi1wi2⋯win⋯wiNidiwi1wi2⋯win⋯wiNi表示,对应图像集IiI_i=Iipi1pi2⋯pim⋯piMipi1pi2⋯pi。
2025-02-24 20:28:54
652
1
原创 分词 tokenization
子词(subword)的粒度介于字和词之间,常见的 subword 分词方法有:Byte Pair Encoding(BPE)、Wordpiece 等。这些方法通过统计文本中的字串频率,自动生成一种分词词典,能够有效应对未登录词(OOV)问题,同时保持一定的语义完整性。如果有些文章只提到中国、科学等次,那么当粒度增加,就会有更多的文章被检索到,因为总的数量是固定的,所以召回率就会增加。召回率的计算公式:真正相关的结果(正确找到的相关结果)/真正相关的结果+假负相关的结果(为找到的相关结果)
2025-02-21 22:32:32
447
原创 文本表示方法
其中,CBOW 是根据上下文来预测中心词,而 Skip-Gram 是根据中心词来预测上下文。如果上下文窗口为 1,对于 CBOW 来说,you say goodbye 中的目标预测词为 say,上下文为 you goodbye。单词在特定文本中的重要性得分表示为:单词在文本出现的频率和出现改单词的文本数量在语料库中的频率。独热编码会根据语料库中的单词个数,来确定词向量的维度。分布式表征,预先确定词向量的维度,生成的词向量。中每个单词在文本中出现的次数来表示文本。,将文本视为词的集合,通过。
2025-02-15 22:19:15
358
原创 论文阅读 Lexicon information in neural sentiment analysis: a multi-task learning approach
阅读这篇论文的目的是了解这篇论文如何结合情感词典实现句子级别的情感预测,所以对论文中的「引言」、「文献综述」部分略读。
2025-02-13 09:54:11
949
1
原创 论文阅读 A Distributional Framework for Data Valuation
本论文解决的问题量化数据价值(机器学习模型训练中各个数据点的贡献)避免数据价值受到其所处数据集的影响,使数据点的估值更加稳定、一致。
2024-06-06 11:50:05
1169
1
原创 论文阅读 Explainable Image Similarity Integrating Siamese Networks and Grad-CAM
给出论文(Explainable Image Similarity Integrating Siamese Networks and Grad-CAM)的内容解读、代码运行说明。
2024-06-03 11:50:27
972
2
原创 Data Shapley Value 笔记
本文为 Data Shapley: Equitable Valuation of Data for Machine Learning 的阅读笔记,涉及论文中的 Data Shapley Value 计算公式、两种实现算法、实验应用部分的梳理。为理解 Data Shapley Value,本文首先讨论 Shapley Value的相关内容,利用一个具体实例计算 Shapley Value 并讨论其计算公式。而后,解释一脉相承的 Data Shapley Value 计算公式、两种实现算法的伪代码。
2024-04-07 10:38:34
1009
原创 基于WSL的Ubuntu命令行美化
本文旨在通过安装 Zsh、oh-my-zsh,并应用 Powerlevel10k 主题来解决 ubuntu 命令行代码缺乏高亮的问题
2024-01-17 15:19:05
1726
原创 Git 配置与理解
简述 Git 在 Windows 和 Ubuntu 中的配置,以及对 Git 工作区域划分和 Git 中对于文件状态划分的理解。
2024-01-16 23:41:32
1057
原创 LaTeX 数学公式
摘要:数学公式根据其位置可以分为行内公式和行间公式。行内公式更加紧凑,而行间公式富于变化,可以为其编号、引用、换行等操作。本文对数学公式的 LaTex 做简单记录和整理。
2024-01-05 22:11:00
1412
原创 线性规划中解的关系
本文从两个角度对线性规划中的解做划分,角度一是将解划为基解、基可行解、可行解;角度二是将解划分为无可行解、无界解、最优解(唯一和无穷多)。同时,详细描述各种解的定义、判定、几何意义及其联系。
2024-01-02 23:51:49
765
博客资源 生成词云图 样例文件
2021-11-08
如何选择spark版本?(操作系统-ubuntu)
2022-03-11
请问如何选择sqoop版本?
2022-03-09
HDFS查看文件命令 `hadoop fs -ls .` 的理解
2021-11-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人