常鸿宇-优快云博客

原创 AI Agent项目探索与实践记录

本文对近期工作中AI Agent部分进行总结和介绍，是一篇项目实践记录，也可以看作是技术报告。本项目主要以微软TaskWeaver项目作为参考，TaskWeaver项目的特点是其以python作为Agent各个步骤之间的粘合剂，利用LLM的代码能力，实现各类子任务动作直接的协作，最终达成一个相对复杂的动作。

2024-07-21 12:25:00 1152

原创自制RAG工具：docx文档读取工具

在RAG相关的工作中，经常会用到读取docx文档的功能，为了更好地管理文档中的各个分块，以提供更高质量的prompt给LLM，本文是我在去年实现了一个轻量好用的docx管理工具。主要应用到python模块docx。

2024-05-05 17:46:15 1219 2

原创 TaskWeaver使用记录

本文记录一下taskweaver项目的使用过程，其中遇到的问题，以及带来的启发。Taskweaver是最近比较火的一个AI Agent项目，由微软开发，目前在git上已经有4.6k Star。Taskweaver的特点是，能够按照用户的指示，自动生成并执行代码，以完成一些更复杂的任务。在执行过程中，不仅保留了对话历史，还将代码执行的结果（包括报错信息）保留下来，以便解决代码执行过程中的问题。

2024-04-19 21:44:40 2018 1

原创使用本地文件创建resnet50模型

使用本地权重文件创建resnet50模型，避免timm建立过程中联网下载文件。

2024-04-10 18:04:48 955 1

原创多模态——使用stable-video-diffusion将图片生成视频

近期，stabilityAI发布了一个新的项目，是将图片作为基础，生成一个相关的小视频，本文主要是体验一下stable-video-diffusion的使用，以及对其使用方法进行简单的介绍。

2023-11-24 21:55:08 9407 4

原创 NLP实践——LLM生成过程中防止重复循环

本文介绍如何使用LogitsProcessor避免大模型在生成过程中出现重复的问题。

2023-11-23 20:37:35 7607 3

原创 NLP实践——中文指代消解方案

本文介绍如何使用经典的s2e-coref方法，在Ontonotes 5.0数据集上训练一个中文实体共指模型，主要介绍训练和推理方法。

2023-10-28 19:02:35 3446 2

原创 NLP实践——使用Llama-2进行中文对话

在之前的博客 [NLP实践——Llama-2 多轮对话prompt构建] 中，介绍了如何构建多轮对话的prompt，本文将介绍如何设计logits processor，从而实现使用Llama-2进行中文对话。

2023-08-05 20:41:24 5978 1

原创以Llama-2为例，在生成模型中使用自定义LogitsProcessor

在上一篇文章以Llama-2为例，在生成模型中使用自定义StoppingCriteria中，介绍了怎样在生成的过程中，使用stopping criteria来控制生成过程的结束，本文将继续这一话题，结合具体的场景，介绍如何实现自定义的logits processor，并以此来控制生成的过程。

2023-08-04 22:29:44 4567 1

原创以Llama-2为例，在生成模型中使用自定义StoppingCriteria

在之前的文章中，介绍了使用transformers模块创建的模型，其generate方法的详细原理和使用方法，其中提到了用户参与生成过程的两个关键组件，logits_processor和stopping_criteria。本文将结合实际应用场景，介绍用户如何根据自己的需求来设计并实现一个自定义的`stopping_criteria`，来控制生成过程提前结束。

2023-08-03 23:22:05 7340 4

原创 torch显存分析——对生成模型清除显存

本文主要针对生成场景下，如何方便快捷地清除当前进程占用的显存。文章的重点不止是对显存的管理，还包括怎样灵活的使用自定义组件来控制生成过程。

2023-08-02 23:05:17 2255

原创以beam search为例，详解transformers中generate方法（下）

在上一篇博客中，对generate方法的基本流程逻辑进行了介绍，本文将继续之前的内容，介绍最常用的采样策略beam search是如何实现的。

2023-08-02 22:28:32 3768 6

原创以beam search为例，详解transformers中generate方法（上）

在transformers模块中，模型推理预测时，一个核心的语句就是model.generate()，本文就来详细介绍一下generate方法是如何运作的，本文将以最常用的beam search为例，尽可能详细地展开介绍。

2023-08-01 22:56:42 7850 5

原创 NLP实践——Llama-2 多轮对话prompt构建

本文介绍了使用Llama-2模型进行对话时，如何构建多轮对话的prompt，以及对话的背景信息如何与当前对话内容相结合。

2023-07-28 22:56:17 19843 4

原创论文阅读《Open-Domain Hierarchical Event Schema Induction by Incremental Prompting and Verification》

论文阅读记录——利用LLM实现开放域场景事件schema构建。

2023-07-28 22:43:57 614

原创 torch显存分析——如何在不关闭进程的情况下释放显存

torch显存占用分析，以及如何在不关闭进程的情况下，利用代码释放不再占用的显存。

2023-05-18 20:52:34 14367 6

原创 RuntimeError: “LayerNormKernelImpl“ not implemented for ‘Half‘

RuntimeError: “LayerNormKernelImpl“ not implemented for ‘Half‘

2023-04-12 22:10:48 16851 2

原创大模型训练——PEFT与LORA介绍

本文针对大模型的低资源训练策略LORA的原理和代码实现进行了介绍。

2023-03-29 23:16:31 59403 23

原创 NLP实验记录——事件编码表征方法探索

前段时间在做事件共指相关的工作，做了一部分实验简单的记录一下。本篇算是一个实验记录，没有确定性的结论，也不会放出完整的代码和模型，把它写下来只是为了给从事相关工作和研究的朋友们提供一点参考和思路。

2023-03-12 22:29:15 1042

原创 Meta最新模型LLaMA细节与代码详解

本文对Facebook Meta AI最新提出的大语言模型LLaMA进行简单的介绍，以及对其开源出的代码和细节进行了详细的说明。

2023-03-06 19:36:40 46169 21

原创 NLP实践——VQA/Caption生成模型BLIP-2的应用介绍

本文介绍最新的图文生成模型BLIP-2，从下载安装到简单的应用。

2023-02-16 23:17:01 10075 21

原创 NLP实践——知识图谱问答模型FiD

知识图谱问答模型FiD的简单使用。

2023-02-15 19:54:11 2838 2

原创 One-shot就能做事件抽取？ChatGPT在信息抽取上的强大应用

近期，OpenAI发布的chat GPT可谓是各种刷屏，很多人都在关注这种模式是否可以应用于搜索引擎，这给做搜索的朋友们带来了很大的危机感。然而，我尝试用它做信息抽取，也得到了让我感到非常害怕的结果。本文就结合一个简单的例子，来聊一聊chat GPT在信息抽取上的使用。

2022-12-07 20:07:05 11672

原创高版本transformers-4.24中的坑

transformers-4.24中的一个坑

2022-12-05 23:03:59 2580 3

原创（杂谈）世界上本没什么prompt，有的只是加权平均——关于NLP中embedding的一点思考

这篇文章是我近期学习积累的一些感悟，讨论了NLP任务中为什么可以用某些特殊token进行表征，其表征了什么，以及其与prompt又有什么关联。

2022-11-19 12:03:21 2936 9

原创 NLP实践——Bert转onnx格式简介与踩坑记录

本文是一篇实验性的记录，主要记录了近期对transformer模型转化onnx研究时，格式转化的过程，以及其中遇到的问题。由于并没有深入的调研，本文的所有结论还请选择性参考。

2022-11-08 22:27:14 6445 2

原创共指消解评测方法详解与python实现

共指消解任务中，常见评测指标（MUC，B3，CEAF、BLANC等）计算方法介绍，及python版代码实现。

2022-10-26 20:23:43 2584 4

原创 NLP实践——文本生成中停不下来的问题

解决seq2seq任务中，某个token连续重复出现的问题。

2022-10-25 20:01:37 6997 2

原创（跨模态）AI作画——使用stable-diffusion生成图片

自从DallE问世以来，AI绘画越来越收到关注，从最初只能画出某些特征，到越来越逼近真实图片，并且可以利用prompt来指导生成图片的风格。前不久，stable-diffusion的v1-4版本终于开源，本文主要面向不熟悉huggingface的同学，介绍一下stable-diffusion如何使用（非常简单）。

2022-09-08 22:13:44 12614 3

原创 TypeError: TextEncodeInput must be Union[TextInputSequence,Tupele[InputSequence, InputSequence]]

TypeError: TextEncodeInput must be Union[TextInputSequence,Tupele[InputSequence, InputSequence]]

2022-09-05 19:33:46 5442

原创 NLP实践——Few-shot事件抽取《Building an Event Extractor with Only a Few Examples》

今天介绍的是伊利诺伊大学Blender Lab的一个工作，发表在NAACL2022的workshop。这篇论文包含了两个部分，第一部分是介绍怎样抽取事件的触发词，第二部分是介绍怎样在已知触发词的情况下抽取事件论元。本篇博客将主要介绍第二部分，即论元抽取的部分，其主要工作是针对few-shot事件论元抽取的，致力于以少量的标注数据，建立以融合了触发词与候选论元实体的特征空间，与论元角色名称的特征空间建立一个映射，然后试图以余弦相似度的方式判断某候选论元是否与该事件的此角色相对应。

2022-09-01 23:38:35 1871

原创 NLP工具——自制zero-shot事件抽取器

在事件抽取任务中，数据的获取是一件非常关键工作，由于数据标注的成本较高，高价值数据获取较难，所以few-shot和zero-shot的任务一直是事件抽取领域研究的一个重点。今天介绍的这个工具是我利用stanza句法分析写的，写出来已经有很长的时间了。介绍这个工具的目的不是说它也是一个针对零样本学习或是小样本学习的研究，它就是一个简单的应用工具，完全是基于规则写的，没有任何技术含量，它的有效性也完全来自于stanza的句法分析功能。

2022-09-01 23:36:59 1029 1

原创条件随机场（CRF）极简原理与超详细代码解析

本文将以pytorch版本CRF的一个实现为例，尽可能详细地说明CRF是怎样实现的，对代码的解释几乎精细到每一行，相信你耐心读完本文，会从实践的角度对CRF的理解更加深刻。

2022-08-28 21:05:06 21823 7

原创 NLP实践——以T5模型为例训练seq2seq模型

T5训练摘要生成模型。

2022-08-12 21:28:42 8465 12

原创 NLP工具——自制英文时间标准化工具

自己实现的一个英文场景的时间标准化工具，可以把描述性的时间转化为标准的YYYY-MM-DD格式。

2022-08-04 00:01:27 881

原创（杂谈）关于UIE的一点感想

关于UIE的一点感想。

2022-07-30 20:10:50 3694 10

原创 NLP工具——UIE离线环境使用

UIE模型在离线环境下的使用方法。

2022-07-17 21:06:21 5652 11

原创 NLP工具——doccano标注系统自动标注功能使用

本文以序列标注为例，介绍doccano标注系统中，自动标注功能的使用。doccano是一个轻量的开源数据标注平台，采用Django实现，其主要优点在于部署和使用十分简便，个人认为比brat要方便很多。并且它支持自动标注和多人协同标注。...

2022-07-11 22:14:33 14478 43

原创 NLP实践——利用自己的语料进行Mask Language Model预训练

#!/usr/bin/env python# coding: utf-8# In[1]:import osimport jsonimport copyfrom tqdm.notebook import tqdmimport torchfrom torch.optim import AdamWfrom torch.utils.data import DataLoader, Datasetfrom transformers import BertForMaskedLM, BertTo

2021-11-27 21:30:47 12804 10

用于适配低版本transformers的tokenizer

空空如也