会飞的Anthony-优快云博客

原创基于 Python 的自然语言处理系列（69）：RAG-prompt

LangChain 是一个用于开发基于语言模型（LM）的应用程序的框架。：连接语言模型（LM）到上下文数据源（如提示指令、少样本示例、相关内容等）。：依靠 LM 进行推理（根据提供的上下文决定如何回答、采取何种行动等）。

2025-04-03 09:15:00 334

原创基于 Python 的自然语言处理系列（68）：LangChain 与 OpenAI 进行 PDF 文档处理

在本篇文章中，我们将介绍如何使用 LangChain 结合 OpenAI 进行 PDF 文档的向量化与查询。通过本教程，你将学会如何利用 LangChain 提供的工具，将 PDF 文档加载为向量，并使用 OpenAI 模型进行查询。

2025-04-02 13:45:00 166

原创 JavaScript性能优化实战 —— 深入探讨性能瓶颈与优化技巧

JavaScript的性能优化需要从多个方面入手，包括减少阻塞、优化DOM操作、减少事件监听的开销，以及合理使用数据结构和异步编程。以下是本文核心优化要点：✅减少主线程阻塞，避免长时间同步执行✅优化DOM操作，使用批量更新技术✅使用防抖/节流优化高频事件✅避免不必要的闭包，减少作用域链查询✅使用优化动画✅懒加载和按需加载，提高页面初始加载速度掌握这些优化技巧，可以帮助你编写更高效、更流畅的JavaScript代码，提高Web应用的性能和用户体验。如果本文对你有所帮助，欢迎。

2025-04-02 08:00:00 467

原创 VMware安装Ubuntu实战分享

通过本文的实战分享，相信你已经能够顺利在VMware Workstation上安装Ubuntu，并完成基本的优化配置。安装完成后，可以进一步探索Ubuntu的各种功能，比如开发环境搭建、服务器配置等。希望这篇文章对你有所帮助，欢迎在评论区交流经验！欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

2025-04-01 20:15:00 353

原创基于 Python 的自然语言处理系列（67）：使用 OpenAI Functions 进行结构化输出

在本篇文章中，我们探讨了如何利用 OpenAI Function Calling API 结合 LangChain 进行结构化数据提取。主要内容包括：使用 Pydantic 及 JSON Schema 强制 LLM 返回结构化数据。处理多种数据类型，例如“人”和“狗”的信息提取。结合 Python 自定义函数，让 OpenAI 自动选择适合的函数进行执行。这一技术适用于聊天机器人、智能问答系统、信息提取等多个 NLP 任务场景。希望本文能对你的实际应用有所帮助！

2025-04-01 15:15:00 233

原创 IS论文分享Content Length Limit: How Does It Matter for aConsumer-to-Consumer Media Platform?

这篇论文《Content Length Limit: How Does It Matter for a Consumer-to-Consumer Media Platform?》由 Zheyin (Jane) Gu 和 Xuying Zhao 撰写，发表于《Information Systems Research》2024年第35卷第4期。

2025-03-31 13:00:00 1350

原创 C 盘爆满？教你 5 招高效清理，释放超多存储空间！

掌握这 5 个技巧，C 盘至少能腾出。

2025-03-31 08:15:00 312

原创基于 Python 的自然语言处理系列（66）—— 标签标注（Tagging）与实体记忆（Entity Memory）

在 NLP 任务中，Tagging 指的是为文本添加结构化的标签信息。例如，我们可以标注文本的情感倾向（积极/消极）、攻击性等级（1-5）以及语言类型（英语、西班牙语等）。在对话系统中，通常需要记住对话中的实体信息。Chaky & Gun 正在开发一个 NLP 课程。这听起来是个不错的项目！他们在做什么类型的 NLP 研究？当用户后续询问“Chaky 是谁？时，系统应该能记住之前的对话内容，而不是忘记所有上下文。Tagging：利用LangChain进行文本标签标注，包括情感分析、语言识别、攻击性检测等。

2025-03-30 13:45:00 858

原创创意 Python 爱心代码

Python 不仅可以用来处理数据、开发应用，还能用来创造美丽的艺术。希望这些爱心代码能激发你的编程灵感，尝试用 Python 设计属于自己的创意作品！如果你有更有趣的 Python 代码创意，欢迎在评论区分享！😊欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

2025-03-30 08:00:00 142

原创基于 Python 的自然语言处理系列（65）：合成数据生成

在生成合成数据之前，需要定义数据的结构。

2025-03-29 14:15:00 360

原创 DeepSeek：提升工作效率的AI助手

DeepSeek 作为一款智能 AI 助手，能够在多个行业领域发挥重要作用，帮助从业者节省时间，提高工作效率。如果你希望在工作中更好地利用人工智能，不妨尝试 DeepSeek，让 AI 赋能你的职业发展！欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

2025-03-29 08:00:00 399

原创 AI 与 IT 从业者：共舞还是取代？

在当今数字化浪潮的汹涌冲击下，AI 的出现犹如一颗划破夜空的璀璨星辰，照亮了科技发展的新方向，也引发了无数关于未来职业走向的讨论。尤其是对于 IT 从业者而言，仿佛站在了一个十字路口，前方是机遇与挑战交织的未知旅程，而那个令人揪心的问题始终盘旋在心头——AI 会成为“职业终结者”吗？

2025-03-28 15:45:00 1342

原创 IS论文分享Do “Likes” in a Brand Community Always Make YouBuy More?

这篇论文《Do “Likes” in a Brand Community Always Make You Buy More?》由Chen Liang、Ji Wu和Xinxin Li撰写，发表于2024年的《Information Systems Research》杂志第35卷第4期。

2025-03-28 09:45:00 1208

原创基于Python的自然语言处理系列（64）：Step-Back Prompting 问答技术

在复杂问题的问答任务中，一种名为（回退提示）的方法能够提高回答的准确性。该技术的核心思想是。这一方法可以与检索增强问答（Retrieval-Augmented Question Answering，RAG）结合，以提升信息检索的质量。在本教程中，我们将复现 Step-Back Prompting 的实现，并调整提示词使其更适用于聊天模型。

2025-03-27 16:00:00 393

原创基于Python的自然语言处理系列（63）：使用LangChain进行SQL查询

Structured Query Language (SQL) 是用于管理和查询数据库的标准语言。借助LangChain，可以使用自然语言生成SQL查询，实现如下功能：生成基于自然语言问题的SQL查询创建可以基于数据库数据回答问题的聊天机器人构建基于用户分析需求的自定义仪表盘。

2025-03-27 09:30:00 286

原创 IS论文分享Crowdworking: Nurturing Expert-Centric AbsorptiveCapacity

吸收能力是指组织从环境中获取有价值机会和知识的能力。它可以被视为组织资源（组织在特定时间点所拥有的相关知识存量）或组织能力（吸收知识的能力）。在与外部专家合作的背景下，持续吸收知识的能力更为重要。吸收能力可以是单维度的，也可以是多维度的。本文将吸收能力视为多维度的，重点关注其三个维度：识别（identification）、同化（assimilation）和利用（exploitation）外部知识。这种多维度的划分有助于明确各个维度背后的流程及其相互关系。

2025-03-26 16:00:00 1572

原创基于 Python 的自然语言处理系列（62）：Rewrite-Retrieve-Read

(重写-检索-阅读) 是一种改进 RAG（Retrieve-and-Read）流程的方法，最早由论文提出。在现实世界中，用户的原始查询往往并不适合直接用于检索，尤其是在 LLM 任务中。为了解决这个问题，该方法首先利用 LLM 重写查询，使其更加适合检索，进而提升最终回答的准确性。本篇文章将展示如何使用来实现。

2025-03-26 10:30:00 417

原创基于 Python 的自然语言处理系列（61）：RAG Fusion介绍

该检索链的执行流程如下：生成多个查询。使用检索器查询每个子查询。使用互惠排序融合 (RRF)对结果重新排名。注意：此过程不会执行最终的生成步骤，仅进行检索和融合。# 假设检索结果已按相关性排序# 执行查询。

2025-03-25 09:29:39 479

原创基于Python的自然语言处理系列（60）：使用 LangChain 构建 Multi-Vector Retriever 进行文档检索

在 NLP 和 AI 领域，基于嵌入（Embeddings）进行文档检索已成为一种高效的解决方案。本文介绍如何使用构建 Multi-Vector Retriever，实现对长文档的分块索引和高效检索。

2025-03-25 09:25:17 555

原创 IS论文分享Longitudinal Impact of Preference Biases on Recommender Systems’ Performance

文章通过模拟方法研究了偏好偏差对推荐系统性能的纵向影响，探讨了偏好偏差的大小对系统预测性能以及用户消费结果的影响，并提出了减少偏好偏差的方法。进一步分析发现，偏差用户和无偏差用户之间存在溢出效应，偏差用户的反馈会影响无偏差用户的推荐，反之亦然。高偏差导致消费项目的评分膨胀加速，这些膨胀的评分被添加到系统训练数据中，削弱系统学习用户真实偏好的能力。推荐平台可通过获取用户暴露于推荐信息的记录和估计用户群体的偏差水平，采用全局或个体去偏差方法处理用户提交的评分，从而提高系统的预测准确性和用户的消费体验。

2025-03-11 10:47:17 898

原创 IS论文分享How human–AI feedback loops alter human perceptual, emotional and social judgements

这篇文章发表在《Nature Human Behaviour》2025年2月刊，题为《How human–AI feedback loops alter human perceptual, emotional and social judgements》，作者是Moshe Glickman和Tali Sharot。文章探讨了人类与人工智能（AI）之间的交互如何通过反馈循环改变人类的感知、情感和社会判断，并放大人类的偏见。

2025-02-26 23:04:47 937

原创 DeepSeek：情智机器人的“情感引擎”与未来变革者

DeepSeek正以其强大的情感计算能力和多模态交互技术，成为情智机器人发展的关键推动力。它不仅为情智机器人提供了强大的“情感引擎”，还通过开源策略加速了行业的发展。未来，随着技术的不断进步，情智机器人将在更多领域展现其价值，成为人类生活中不可或缺的温暖伙伴。然而，我们也必须面对技术发展带来的伦理挑战，确保情智机器人能够真正服务于人类的情感需求。在这个充满机遇和挑战的时代，DeepSeek正引领情智机器人走向一个更加智能、更加温暖的未来。

2025-02-18 13:49:15 653

原创国内情智机器人：从“通情达理”到温暖陪伴的跨越

国内情智机器人的研究和应用正在快速推进，从情感计算技术的突破到人形机器人的高度仿真设计，都展现出巨大的发展潜力。虽然仍面临多模态感知和个性化交互等挑战，但随着技术的不断优化和应用场景的拓展，情智机器人将成为未来智能生活的重要组成部分。让我们期待它们为人类带来更多温暖和便利。

2025-02-16 23:22:18 473

原创国内情智机器人：从“通情达理”到温暖陪伴的跨越

2025-02-16 23:17:19 566

原创情智机器人：未来已来，温暖的智能伙伴正向我们走来

情智机器人的未来充满希望。它们不仅代表着人工智能技术的前沿方向，更承载着人类对温暖、情感化陪伴的渴望。从多模态情感识别到情感生成与交互，从医疗护理到教育服务，情智机器人正逐步走进我们的生活。或许在不久的将来，我们每个人都能拥有一位真正“通情达理”的智能伙伴。欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

2025-02-15 17:17:42 647

原创 AI赋能电商：创新应用与未来展望

AI技术正在全方位重塑电商行业的运营模式。从个性化购物推荐到精准会员分类，再到动态商品定价，AI技术为电商平台带来了更高的销售效率和更好的用户体验。然而，随着技术的不断进步，电商行业也面临着数据安全、隐私保护等挑战。未来，AI技术将继续推动电商行业的数字化转型，为用户和企业带来更多价值。我们期待DeepSeek等新兴技术在电商领域的应用，为行业带来新的突破。在AI的加持下，电商行业正迈向智能化、个性化的未来。让我们共同探索AI技术的新应用，推动行业的持续发展，为消费者创造更加便捷和美好的购物体验。

2025-02-15 16:41:24 1024

原创技术文档的艺术：打造精准航海图，引领团队与产品成功

在技术文档中，适当使用专业术语有助于提升文档的专业性和准确性。然而，过度使用或未定义的术语可能导致理解困难。建议在首次出现专业术语时进行定义，或在文档的术语表中提供详细解释。一份优秀的技术文档不仅仅是信息的集合，更是团队智慧的结晶和产品成功的基石。通过科学的规划布局、精准的语言表达以及持续的更新维护，技术文档能够成为开发者和用户之间的重要桥梁，推动技术的传播与应用。在技术飞速发展的今天，技术文档的作用愈发凸显。

2024-12-16 20:02:51 870

原创基于Python的自然语言处理系列（59）：MultiRetrievalQAChain 实现

是 LangChain 提供的一种方法，允许我们使用多个不同的检索器（Retriever），并在不同的数据源之间自动选择最相关的检索器。无论是文本文档、个人信息还是不同主题的资料，系统都可以智能地判断最合适的回答来源，并高效地返回相关信息。设置不同的数据源名称、描述和相应的Retriever，以便系统在查询时进行选择。},},本文介绍了如何利用来构建一个多数据源的问答系统。在此系统中，用户的查询可以被路由到最相关的数据源，从而生成更准确和上下文相关的回答。通过设置多个Retriever。

2024-11-11 07:45:00 714

原创基于Python的自然语言处理系列（58）：多模态检索生成问答（RAG）

为了提升检索效率，我们对图像和文本内容生成简要摘要。图像摘要生成利用GPT-4V来解析图像的关键信息，同时通过OpenAI Embeddings将文本、表格和图像摘要嵌入到向量空间中，用于相似性检索。# 定义图像编码和摘要生成方法# 图像和文本摘要在我们的测试中，多模态RAG有效地融合了文本、图像和表格信息，能根据用户问题返回更加全面、详细的答案。多模态信息的融合：在原生RAG基础上，增加了图像信息的检索和分析能力，使得问答系统能够更好地应对包含图像和文本的复杂文档。准确性和高效性。

2024-11-10 07:30:00 919

原创基于Python的自然语言处理系列（57）：使用最佳表示向量法实现整本书的高效摘要

选取的文本块包含了书籍各部分的代表性信息，为了进一步压缩内容，我们可以对这些文本块生成较长的摘要。通过MapReduce链将每个文本块的摘要整理并生成最终的长摘要。你将看到书中的一个片段，该片段包含在三重反引号 (```) 中。请为该片段生成一个全面的总结，内容应包含至少三段。总结:"""最后，将所有文本块的摘要组合起来，通过更高级的模型（如GPT-4）进一步生成书籍的综合摘要。这一过程可以帮助我们在总结的层面上保留全书的整体信息和主要情节。

2024-11-09 07:15:00 823

原创基于Python的自然语言处理系列（56）：面试对话摘要与多种文档合并策略

本文详细介绍了如何基于LangChain构建面试对话总结系统，通过MapReduce、Stuffing和Refine三种文档合并策略实现高效内容提炼。每种策略在文档长度、上下文需求和并行能力上各具优势。对于长篇访谈或会议记录等内容，可以结合MapReduce或Refine策略实现有效的信息总结；对于较短或高精度需求的内容，Stuffing策略则更为适合。这些方法不仅提升了内容处理的效率，还为文本内容分析提供了重要工具，应用前景广泛。

2024-11-08 07:30:00 878

原创基于Python的自然语言处理系列（55）：图像文本生成和索引

通过和，我们能够从图像中提取文本描述，便于将图像内容组织成结构化数据。这种文本化的图像描述不仅为信息检索和查询系统提供了基础，还为多模态数据融合提供了新思路。在构建图像索引时，这些工具将为数据的可查询性和搜索效率带来极大的便利。欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

2024-11-07 08:15:00 307

原创基于Python的自然语言处理系列（54）：Neo4j DB QA Chain 实战

通过这篇文章，我们详细介绍了如何使用Neo4j和LangChain中的问答链工具，通过大语言模型动态生成Cypher查询来实现图数据库的自然语言问答。Neo4j的图数据库结构适合存储复杂的关系，而结合LangChain和LLM后，能够通过自然语言直接查询图数据库中的信息，大大提升了数据查询的灵活性和便捷性。这种方法适用于知识图谱、推荐系统、社交网络分析等需要灵活查询和信息获取的场景。希望本文能够帮助大家更好地理解如何在项目中应用Neo4j图数据库问答链，为您的数据应用增添新的交互方式和智能化处理能力。

2024-11-06 08:15:00 1673

原创当AI遇上代码：大模型如何重塑软件开发的未来？

未来的全栈开发者不仅需要掌握多种编程语言和技术栈，还需要具备基本的数据科学知识和AI模型调优能力。AI模型逐渐渗透到开发流程的各个环节，开发者如果能够掌握AI模型的应用与调优，将会成为市场上极具竞争力的全栈人才。

2024-11-05 10:59:25 553

原创基于Python的自然语言处理系列（53）：多种提示技术

在本篇博文中，我们深入探讨了不同提示技术在自然语言处理中的应用，包括链式思维、零样本链式思维和树式思维。这些提示方法各自有独特的优势：链式思维适用于需要逐步推理的场景，零样本链式思维在没有具体示例时也能实现分步解答，而树式思维可以在复杂问题中探索多种解答路径。通过合理选择并组合这些提示技术，我们可以更高效地利用语言模型解决复杂问题，使其在推理和逻辑分析方面表现得更加智能。未来，我们可以继续探索如何将这些提示技术与其他NLP技术结合，以进一步提升模型的应用能力。

2024-11-04 08:15:00 451

原创基于Python的自然语言处理系列（52）：NLP中的Agent

本篇文章介绍了LangChain框架下的Agent结构及其实现过程。通过构建一个NLP Agent，可以灵活实现动态问答，为复杂的任务提供更智能的解决方案。Agent的灵活性和高效的工具调用机制，使其在各种NLP应用中展现出强大的潜力。欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

2024-11-03 07:00:00 1020

原创基于Python的自然语言处理系列（51）：Weight Quantization

浮点数的设计允许表示范围广泛的数值，同时保持一定的精度。浮点数表示的基本公式为：在深度学习中，常见的浮点数格式有：float32（FP32）、float16（FP16）和bfloat16（BF16）。每种格式的具体特性如下：格式总位数符号位指数位数尾数位数精度计算成本FP32321823高精度较高FP16161510减少精度较低BF1616187中等精度较低本文介绍了几种主流的8位量化方法，并通过实验展示了量化对存储和计算成本的影响。

2024-11-02 06:30:00 681

原创基于Python的自然语言处理系列（50）：Soft Prompt 实现

Soft Prompt 技术来源于论文。它通过在模型输入嵌入层添加可训练的软提示嵌入（soft prompt embeddings），使得我们可以仅微调这些新增嵌入，达到适应新任务的目的。这种方法不仅保留了原始模型的完整性，还大幅减少了训练所需的参数和时间成本。为了实现 Soft Prompt，我们定义一个类，该类包含一个可训练的嵌入层，用于存储软提示。通过将这层嵌入与输入嵌入拼接，我们可以在保持预训练模型不变的情况下，为模型提供额外的信息。

2024-11-01 08:15:00 979

原创基于Python的自然语言处理系列（49）：适配器和参数高效微调技术

PEFT技术如适配器、软提示调优、前缀调优和LoRA在减少微调成本和内存需求方面表现突出。它们适合在计算资源有限的环境中应用，同时避免了模型的“灾难性遗忘”。这些方法的应用将大大提升预训练模型的可扩展性和泛化能力，为自然语言处理和其他领域的应用提供了强有力的支持。希望本文的代码示例能帮助大家理解和掌握PEFT技术的实现。欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

2024-10-31 07:15:00 457

原创基于Python的自然语言处理系列（48）：参数高效微调（PEFT）

参数高效微调（PEFT）是一种高效且灵活的模型微调方法，特别适用于计算资源有限的场景。通过选择性地调整一小部分参数，PEFT不仅显著减少了训练成本，还有效避免了“灾难性遗忘”，实现了出色的域内和域外泛化能力。希望本文的详细讲解和代码示例能够帮助大家更好地理解和应用PEFT技术。欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

2024-10-30 08:00:00 902

2016-2023年主要城市居民国庆月消费价格指数

指标：城市居民消费价格指数(上年同月=100)(%) 我国CPI每五年进行一次基期轮换。每次基期轮换后，调查分类目录、代表规格品和调查网点均有调整，分类权数也有变化，以反映居民消费结构的最新变动。 2016年1月-2020年12月编制和发布的是以2015年为基期的CPI。“食品”、“烟酒”合并为“食品烟酒”，“医疗保健和个人用品”拆分至“生活用品及服务”、“医疗保健”和“其他用品和服务”中，“娱乐教育文化用品及服务”拆分至“教育文化和娱乐”、“其他用品和服务”中，“家庭设备用品及维修服务”拆分至“生活用品及服务”和“其他用品及服务”中。 2021年1月开始编制和发布以2020年为基期的CPI。本轮基期仍分为食品烟酒、衣着、居住、生活用品及服务、交通通信、教育文化娱乐、医疗保健、其他用品及服务8个大类，基本分类增加至268个。主要城市：北京天津石家庄太原呼和浩特沈阳大连长春哈尔滨上海南京杭州宁波合肥福州厦门南昌济南青岛郑州武汉长沙广州深圳南宁海口重庆成都贵阳昆明拉萨西安兰州西宁银川乌鲁木齐

2024-09-09

生命科学siRNA药物药效预测数据集

train_data.csv train_data.csv的每行为一条训练记录，包含数据记录的id、siRNA裸序列、相应的siRNA修饰序列、目标mRNA序列、siRNA浓度、细胞系、转染方法等实验室条件以及对应的实验室测量的mRNA Remaining值等总计19个字段。其中mRNA Remaining值为我们模型的训练目标，其余18个字段的全部或部分可以作为模型的输入特征。Remaining值代表了经过siRNA的沉默之后，mRNA的剩余百分比（相对于对照组）。Remaining值越低，siRNA的沉默效率越好，药效就越好。Remaining值一般位于0-100的区间内，100表示完全没有沉默效果，0表示该mRNA被彻底沉默，但是由于实验室测量的误差，可能存在少量训练记录的mRNA Remaining值在这个范围之外，这是正常的数据。

2024-09-04

论文MWEC支撑数据.zip

数据分析与知识发现期刊论文MWEC:一种基于多语义词向量的中文新词发现方法，论文支撑数据，包括： [1] 张乐，冷基栋，袁梦龙. Newworddiscovery_data.zip. 新浪产经、搜狐体育、马蜂窝旅游和网易云音乐网络文本数据121.9M [2] 张乐，冷基栋，袁梦龙. Random2000.zip. 新浪产经、搜狐体育、马蜂窝旅游和网易云音乐四个领域分别随机选取的2000条网络文本数据 [3] 张乐，冷基栋，袁梦龙. annotations.zip. 新浪产经、搜狐体育、马蜂窝旅游和网易云音乐四个领域分别随机选取的2000条网络文本数据的人工标注结果

2021-09-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人