- 博客(26)
- 收藏
- 关注
原创 非结构化文本预处理与 TextCL 应用综述
通过TextCL这种系统化的预处理手段,开发者可以大幅降低非结构化数据中的噪声,解决重复与异构问题,最终为 NLP 模型的构建奠定坚实的数据基础。
2026-01-04 14:34:39
565
原创 如何构建自己高质量语料库?
无论是在平常的翻译练习还是在学术研究中,语料库作为学习工具或是研究方法都不可或缺。那么,在做基于语料库方法的研究时应该如何建立自己的语料库呢?看完这篇,一定能对你有所启发!
2025-12-30 15:37:13
517
原创 如何利用LLM处理非结构化数据
大型语言模型(LLMs)解决了非结构化数据(如文本、图片和音频文件)带来的重大挑战,使得从大量数据中提取有价值的见解或信息成为可能。
2025-12-29 17:01:22
1292
原创 人工智能项目成功的9个标准
大多数人工智能项目失败并不是因为模型不好;它们失败是因为过于追求新奇,并且成功了。你需要一个可行的论点,一种衡量进展的方法,一种推动进展的方法
2025-12-23 14:24:56
922
原创 为什么人工智能评估很重要?
通过采用全面的功能测试方法——包括单元测试、回归测试和基于情景的评估——组织可以确保其LLM模型始终符合用户期望,并保持高质量标准。内在指标,如困惑度,关注模型的内部一致性和文本预测能力,而外在指标——如准确性、F1分数、语义相似度和精确匹配——则衡量模型在现实任务和基准中的表现。有效的评估依赖于多样、具代表性且精心策划的数据集,这些数据集反映了真实的用例和潜在的边缘场景。稳健的评估数据集有助于揭示模型的泛化能力、其如何处理歧义或偏见,以及在不同领域或用户群体中的表现。简而言之,可靠的评估始于可靠的数据。
2025-12-22 14:20:19
615
原创 企业如何安全地使用大型语言模型(LLM)的非结构化数据
生成式人工智能(GenAI)的采用不再是选择,而是每个希望在全球竞争激烈经济中生存和发展的大型组织的必经之路。
2025-12-11 09:21:39
778
原创 如何通过动态生成元数据,显著提高了语义表示和检索准确性
利用大型语言模型(LLM)进行元数据丰富化的系统框架,旨在增强RAG系统中的文档检索能力通过动态生成文档片段的元数据,提高语义表示和检索准确性。
2025-12-10 09:44:10
1046
原创 介绍Docs2KG框架旨在从非结构化文档中提取多模态信息
Docs2KG是一个统一知识图谱构建框架,它能从邮件、网页、PDF和Excel等异构文档中提取多模态信息,并动态生成统一知识图谱,以实现文档数据湖的有效查询和探索。
2025-12-09 10:41:11
940
原创 企业如何对非结构数据进行盘点
非结构化数据工作流程在现代数据管理中发挥着重要作用,对于生成和使用大量非结构化数据的组织至关重要。通过实施有效的非结构化数据工作流程,组织可以确保数据在正确的时间出现在正确的位置,以满足各种企业和部门的需求。
2025-12-05 14:41:56
713
原创 非结构化元数据如何管理?
非结构化元数据是有关非结构化数据(电子邮件、文档、视频、图像、PDF 等)的信息,不遵循严格的预定义格式。它提供有助于识别、理解或管理数据的上下文或描述性详细信息。
2025-12-02 09:23:05
1469
原创 非结构化数据价值
创造非结构化数据价值本质上是数据资产化的过程,体现在数据的共享交换与服务开放。这里从价值实现技术角度关注非结构化数据协作、流转、服务和洞察。
2025-12-01 10:35:14
1200
原创 非结构化数据管理(二)
非结构化数据管理作为组织的重要职能,是落实非结构化数据顶层设计及治理的关键。主要包括非结构化数据标准、元数据、数据质量、数据安全、数据合规和数据集成等六个方面内容。
2025-11-27 14:44:18
720
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅