- 博客(17)
- 收藏
- 关注
翻译 大语言模型检索增强生成(RAG):综述
大型语言模型(LLM)展示了重要的能力,但面临着幻觉、过时的知识以及不透明、不可追踪的推理过程等挑战。通过整合外部数据库的知识,检索增强生成(RAG)已成为一种有前景的解决方案。这提高了模型的准确性和可信度,特别是对于知识密集型任务,并允许持续的知识更新和特定领域信息的集成。 RAG 将LLM的内在知识与外部数据库的庞大动态存储库协同融合。这篇综合综述论文详细研究了 RAG 范式的进展,包括朴素 RAG、高级 RAG 和模块化 RAG。它仔细研究了 RAG 框架的三方基础,包括检索、生成和增强技术。该论文重
2024-07-16 17:30:40
200
原创 LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection
LogFormer是一个用于日志异常检测的预训练和调整流水线,包括预训练阶段和基于适配器的调整阶段。在预训练阶段,模型使用预训练语言模型(具体来说是Sentence-BERT)在源域数据集上提取日志序列的特征。随后,模型通过轻量级适配器将预训练的编码器模块转移到目标域,同时冻结预训练编码器和日志注意力层的参数。在HDFS、BGL和Thunderbird数据集上进行了实验,比较了LogFormer与DeepLog、LogAnomaly等方法的性能。实验中使用了二元交叉熵(BCE)损失进行训练。
2024-07-08 19:50:27
932
原创 STAMINA: Scalable Deep Learning Approach for Malware Classification
STAMINA模型I在测试集上达到了99.07%的准确率,假阳率为2.58%,精确率为99.09%,召回率为99.66%,F1分数为0.9937。在Microsoft数据集上进行分析,共有220万个恶意软件二进制文件的哈希值。
2024-07-03 11:51:51
306
原创 Non-Negative Networks Against Adversarial Attacks
本研究针对神经网络的对抗攻击问题,通过引入非负权重约束,展示了在特定场景下改善抵抗能力的方法,并展示了在二元分类问题(如恶意软件或垃圾邮件检测)以及图像分类中的有效防御潜力。
2024-07-01 17:33:01
355
翻译 STAMINA,微软和英特尔推出的新型恶意软件检测方法
静态恶意软件图像网络分析 (STAMINA) 是微软和英特尔提出的一种新型恶意软件检测方法。该研究基于英特尔研究人员之前通过深度迁移学习进行静态恶意软件分类的研究,其成果随后应用于微软提供的真实数据集,以评估其效率。
2024-06-28 15:50:51
128
原创 Adversarial EXEmples: A Survey and Experimental Evaluation of Practical Attacks on Machine Learning
a. 理论背景:b. 技术路线:a. 详细的实验设置:b. 详细的实验结果:
2024-06-07 11:29:34
904
原创 AGDB: A Dictionary-based Malicious Domain Detection Method based on Representation Fusion
随着网络设备数量的增加,网络攻击者利用域名生成算法(DGAs)生成恶意域名,为了有效打击这些恶意域名,本研究探索了字典恶意域名生成算法,并提出了一种新的检测方法。原文实验部分的最后一段提到表三的实验结果是展示了训练集和测试集的比例关系,但原文的表三是四个方法的F1比较,怀疑是作者放错图了。以前的检测方法对字典恶意域名效果不佳,传统的检测方法主要基于分布、机器学习和深度学习技术,但在字典恶意域名检测方面表现不佳。,不过是将这个域名所包含的单词所属于的每个连通子图中的特征值的均值作为这个域名的特征值。
2024-05-11 15:45:57
1027
1
原创 EMBER数据集特征
原文:EMBER: An Open Dataset for Training Static PE Malware Machine Learning Models原文地址:https://arxiv.org/pdf/1804.04637特征集描述3.2.1 解析特征一般文件信息。通用文件信息组中的特征集包括从PE头获取的文件大小和基本信息:文件的虚拟大小、导入导出函数的个数、文件是否有调试段、线程本地存储、资源、重定位或签名,以及符号的数量。 头部信息。从 COFF 头中,头中的时间戳、目
2024-05-10 16:12:23
1093
原创 MalConv2: Classifying Sequences of Extreme Length with Constant Memory Applied to Malware Detection
原文链接:https://arxiv.org/pdf/2012.09390a. 理论背景:b. 技术路线:a. 详细的实验设置:b. 详细的实验结果:
2024-05-10 14:38:18
977
原创 LTE Network Quality Analysis Method Based on MR Data and XGBoost Algorithm
特征变量包括:服务小区的EARFCN(E-UTRAN绝对射频信道数)、PCI(物理小区标识符)、CRS RSRP(小区特定参考信号接收功率)、CRS SINR(信号干扰加噪声比)、nrsrp1(相邻参考信号接收功率),以及相邻小区的NCell EARFCN#x(X相邻小区的EARFCN)、NCell PCI#x(X相邻小区的PCI)、NCell RSRP#x(X相邻小区的RSRP)。通常,算法模型中的参数较多,并且每个参数没有明确的限制,因此通过手动调参很难找到最优的参数组合。不同分类算法的预测精度如下。
2024-01-19 14:34:50
898
1
原创 Predicting Quality of Services Based on a Two-Stream Deep Learning Model With User and Service Graph
用户每次调用服务时,都会得到一个服务的QoS值,该值表示用户观察到的服务性能。因此,为了充分利用已有的QoS值,深入发现用户与服务之间的各种关系,我们构建了用户和服务图,呈现了用户与服务之间的直接关系和诱导关系,以获取更多关于用户和服务的信息,包括用户-用户关系、服务-服务关系和用户-服务关系。它们是两种类型的三层图,用于从现有数据中获取直接和诱导的深度用户-服务关系,包括用户-用户、服务-服务和用户-服务关系。它使用基于覆盖的聚类方法来查找相似的用户/服务和用户/服务的邻域信息,以提高预测精度。
2024-01-18 15:45:47
909
1
原创 Mobile network quality of experience using big data analytics approach
传统上,体验质量主要在实验室实验中进行检查,以实现固定的上下文因素。虽然结果显示了代表感知 QoE 的估计平均意见分数。当务之急是利用从移动网络收集的大数据(大数据)来估计平均意见得分,这些数据包括不同用户的位置和特定服务的时间。因为时间和地点会对用户感知的体验质量产生巨大影响。因此,本文提出了一个通过大数据分析对感知QoE进行建模的框架。拟议的框架描述了估计感知体验质量的过程,以帮助移动网络运营商有效地管理网络性能并帮助提供令人满意的移动互联网服务。
2024-01-18 10:20:58
1107
1
原创 torch 载入Dataloader报错raise KeyError(key) from err
sklearn的train_test_split函数在接收输入数据和标签时,返回的数据类型为各自的数据类型即xTrain和xTest的数据类型同datas,yTrain和yTest数据类型同labels如果datas和labels数据类型不同就会出错(当时因为输入数据需要处理,所以datas类型为numpy.ndarray,而labels数据类型为pandas.core.series.Series导致出错)
2023-08-25 11:51:07
785
1
原创 获取顶级域函数tld.get_tld参数解释
如果是坏URL或没有匹配到TLD可能抛出TldBadUrl或TldDomainNotFound异常。:如果设置为True,则缺少或错误的协议会被忽略(取而代之是添加https)。:如果设置为True,则返回tld.utils.Result对象。设置为False)或tld.utils.Result对象(如果。:如果设置为True,则不引发异常,None 失败时返回。失败时返回None。:设置为True时,在公共域中搜索。:设置为True时,在私有域中搜索。:带有顶级域的字符串(如果。:获取顶级域名的url。
2023-08-11 16:17:05
129
1
原创 导入sklearn时ModuleNotFoundError: No module named ‘scipy.sparse‘
【代码】导入sklearn时ModuleNotFoundError: No module named ‘scipy.sparse‘
2023-08-04 11:25:27
457
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人