- 博客(28)
- 收藏
- 关注
原创 EvaluLLM: LLM Assisted Evaluation of Generative Outputs论文阅读
随着大型语言模型(LLM)能力的迅速提升,衡量自然语言生成(NLG)系统输出质量变得越来越困难。传统的指标如BLEU和ROUGE依赖于参考数据,通常不适用于需要创造性或多样化输出的任务。人工评估是一种选择,但手动评估生成文本既难以做好,又昂贵,难以随着需求和质量标准的变化进行规模化和重复评估。近期的研究集中在使用LLMs作为可定制的NLG评估器,初步结果令人鼓舞。在本次展示中,我们介绍EvaluLLM,这是一个旨在帮助从业者设置、运行和审查NLG输出集评估的应用,使用LLM作为定制评估器。
2024-06-15 12:55:36
1182
1
原创 A Prompt Learning Framework for Source Code Summarization 论文阅读笔记
他们设计了几个启发式问题/指示,以收集ChatGPT的反馈,从而找到一个适当的提示来指导ChatGPT生成分布式代码摘要。然而,他们在大规模CSN-Python数据集上的实验结果表明,这个提示未能促使ChatGPT生成满意的摘要。我们也在CSN-Java数据集上尝试了这个提示,并得到了类似的结果,详见第3节。这些结果表明,手工制作有效的提示是一项具有挑战性的任务,要求用户不仅具备专业领域知识,还需要对所使用的LLMs有深入的了解[59, 67]。
2024-03-30 13:05:14
2305
1
原创 Automatic Code Summarization via ChatGPT: How Far Are We?论文阅读笔记
基于精心设计的启发式问题和ChatGPT的反馈(包括对随机选择的50个样本的初步结果),我们找到了一个合适的提示,可以指导ChatGPT生成符合分布的注释。
2024-03-26 12:35:32
756
1
原创 LLMs are Few-Shot Summarizers: Multi-Intent Comment Generation via In-Contex Learning论文阅读
作者的实证调查表明,LLM能够生成具有多种意图的高质量代码注释。结果显示,在两个数据集上,表现最佳的模型变体,即基于语义选择和基于标记的重新排序的Codex-10-shot,远远优于现有技术的DOME方法(例如,在Funcom/TLC数据集上,相对于BLEU指标,比DOME分别提高了128%/210%)。这表明,在实践中,开发人员可以参考LLM来帮助他们自动生成具有不同意图的注释。因此,LLM具有促进程序理解活动的巨大潜力。对于研究人员来说,这也表明在评估新提出的代码摘要方法时,与LLM进行比较是必要的。
2024-03-18 11:29:53
1792
1
原创 论文阅读笔记Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models
作者精心策划了44个开源项目(总共包含11,475,734行代码),这些项目编译成了在4个体系结构(即x86、x64、ARM和MIPS)和4个优化级别(O0-O3)上的二进制文件。通过作者的注释提取和函数-注释匹配,作者获得了557,664个基于注释的地面实况摘要的二进制函数。作者还生成了四种二进制代码表示,包括原始字节、汇编代码、中间表示(IR)以及反编译代码(带和不带调试符号),以及它们的源代码。
2024-01-03 19:54:48
3144
3
原创 CodeGen4Libs: A Two-Stage Approach for Library-Oriented Code Generation论文阅读笔记
自动代码生成在最近的文献中得到了广泛的研究。在这项工作中,我们首先对66名参与者进行调查,以激发更实用的代码生成场景,即面向库的代码生成,其中生成的代码应实现自然语言查询的功能。作者重新审视现有的基于学习的代码生成技术,并发现它们在这种面向库的代码生成场景中的效果有限。为了解决这个问题,我们提出了一种新的面向库的代码生成技术CodeGen4Libs,它包括两个阶段:导入生成和代码生成。导入生成阶段为给定的第三方库的自然语言查询生成导入语句,而代码生成阶段则基于生成的导入和查询生成具体代码。
2023-11-06 16:25:23
424
原创 Detecting Logical Bugs of DBMS with Coverage-based Guidance论文阅读笔记
数据库管理系统(DBMS)是现代数据密集型应用的关键组件。开发者采用了许多测试技术来检测DBMS的错误,如崩溃和断言失败。然而,大多数以前的工作无法检测导致DBMS返回错误结果的逻辑错误。最近的工作提出了几种oracle来识别错误结果,但它们依赖于基于规则的表达式生成来合成查询,没有任何指导。在本文中,作者提出了将基于覆盖率的指导、面向有效性的变异和oracle相结合来检测DBMS系统中的逻辑错误。
2023-10-30 16:39:58
278
1
原创 论文文献写作课-整理笔记1
=》宗旨:Basic word order in English关键规则:尽可能地让主语、谓语、直接宾语和间接宾语靠近彼此。原文:Place the various elements in the most logical order possibleNot Good:The figure shows, for each curve, the throughput converges around the 3000 episode.读者需要打破句子的流畅性才能理解句子Good:For each curve
2023-10-21 00:06:12
81
1
原创 Understanding_the_Threats_of_Upstream_Vulnerabilities_to_Downstream_Projects 论文阅读笔记
现代软件系统越来越依赖于生态系统中的依赖关系。最近的一项估计显示,一个开源项目的代码中约有35%来自其依赖的库。不幸的是,开源库经常受到各种漏洞问题的威胁,而且公开的漏洞数量也在逐年增加。这些漏洞不仅对脆弱的库本身,而且对相应的下游项目都会造成重大的安全威胁。许多软件组成分析(SCA)工具已经被提出,旨在检测参考现有漏洞数据库的脆弱库或组件。然而,最近的研究报告称,这些工具经常产生大量的误报。特别是,高达73.3%依赖于脆弱库的项目实际上是安全的。
2023-10-18 19:45:41
138
原创 error: Setup script exited with error: Microsoft Visual C++ 14.0 is required报错
在pip文件时报错,参考了一下发现缺少C++编译器,因为有些程序需要使用,没有C++接口会报错,查阅相关资料及自己的解决方案。
2023-09-23 20:24:32
354
1
原创 Transformer项目的学习与复现-Multi-Head Attention理论部分
根据月来客栈的文档进行学习并通过博客记录一下学习Transformer的过程。
2023-09-14 19:23:35
157
1
原创 DexBert: Effective, Task-Agnostic and Fine-grained Representation Learning of Android Bytecode论文阅读笔记
DexBert论文阅读
2023-09-11 17:30:38
394
3
原创 APIContext2Com:Code Comment Generation by Incorporating Pre-Defined API Documentation论文阅读笔记
一种利用预定义API文档生成代码注释的方法. 该方法使用一个序列到序列的神经网络模型,结合了源代码、抽象语法树、API定义和API描述四种输入,来提高生成注释的效果和质量。. API文档包括API的名称、参数类型和名称、功能定义和描述,可以提供有关代码功能的有用信息。作者认为,将API文档整合到模型中,可以帮助模型更好地理解代码的含义和目的。. 作者提出了一种基于参数相似度的排名机制,来筛选出与代码功能最相关的API,从而减少无关或干扰性的API对模型的影响。
2023-09-04 00:14:34
92
1
原创 Why My Code Summarization Model Does Not Work: Code Comment Improvement with Category Prediction论文阅读
代码摘要旨在生成给定源代码块的代码注释,通常通过在现有代码块-注释对上训练机器学习算法来执行。代码注释在实践中有不同的意图。例如,一些代码注释可能解释方法是如何工作的,而另一些注释解释为什么要编写某些方法。以前的工作已经表明,在代码块和与其关联的注释类别之间存在关系。在本文中,我们的目标是研究我们可以在多大程度上利用这种关系来提高代码汇总性能。我们首先将注释分为六个意图类别,并手动标记20,000个代码-注释对。这些类别包括“什么”、“为什么”、“如何使用”、“如何完成”、“属性”和“其他”。
2023-06-11 23:19:54
222
1
原创 论文阅读《A Neural Model for Generating Natural Language Summaries of Program Subroutines》
在本文中,作者提出了一个用于总结子程序的神经模型。我们的模型结合了关于源代码的两种类型的信息:1)将代码视为文本的单词表示,以及2)抽象语法树(AST)表示。与早期方法相比,我们的模型的一个区别因素是我们分别处理这两种表示。先前的技术通过用AST信息对单词表示进行了注释[22],虽然有一定的可行性,但最终注释的表示通过标准seq2seq模型作为单个序列发送。相反,模型接受两个输入,一个用于单词表示,另一个用于AST。
2023-03-26 18:56:15
298
1
原创 论文阅读《Summarizing Source Code with Transferred API Knowledge》
《Summarizing Source Code with Transferred API Knowledge》论文阅读笔记
2022-12-16 16:02:44
397
1
原创 论文阅读《API2Com: On the Improvement of Automatically Generated Code Comments Using API Documentations》
API2Com: On the Improvement of Automatically Generated Code Comments Using API Documentations论文阅读笔记
2022-12-01 02:02:21
378
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人