nianfa的博客

知识源于不断学习

  • 博客(18)
  • 收藏
  • 关注

原创 大模型实战项目中部署资源的需求

大模型实战项目中部署资源的需求,GPU服务器所需情况,大模型及ocr需要多少节点

2025-06-21 21:27:10 371

原创 知识库智能应用在大项目中落地实战总结(不喜勿喷)

大模型实战应用,知识库智能应用才是王道,怎么用到极致。重点是片段加问题,一起输入给模型。片段是由问题在嵌入模型搜索出来的,经过排序模型排序的结果。真正问题=前缀要求+搜索内容+返回格式。规避模型长度限制。

2025-06-17 21:56:13 81

原创 大模型应用实战架构设计图

大模型在实战中的架构设计,需要底稿的可以找我

2025-06-17 21:18:17 130

原创 PaddlePaddle,PyTorch,TensorFlow主流深度学习技术的对比分析

大模型技术很多思想来源于深度学习,PaddlePaddle,PyTorch,TensorFlow主流深度学习技术的对比分析。

2025-05-14 22:20:58 1520

原创 pdf文件既有图片又有文字的解析方案,混合使用OCR技术(含源代码)

本文针对混合PDF(文本+图片)的解析需求,提出了一种高效准确的动态处理方案。通过PDFBox判断页面类型——文本页直接提取内容,图片页则渲染为高清图像后调用PaddleOCR识别,实现精准的混合解析。文章详细分析了三类处理场景(纯文本、纯图片、混合型),给出完整的Java实现代码,包含页面类型检测、文本提取、OCR集成等核心模块,并附Maven依赖配置。同时提供两种PaddleOCR集成方案(Python调用或Java SDK),建议通过图像预处理和并行计算优化性能。该方案兼顾了结构化文本的解析效率与图像

2025-05-14 22:08:02 1184

原创 大模型项目实战应用心得,在大型国央企应用心得分享

大模型这么多,没有大型项目实战使用过就没有话语权,本人从事java,python,代码,架构10来年,写点近几年大模型实战心得吧,这里通过大模型实战应用心得,在大型国央企应用心得分享。主要包括模型选择,服务器选型(一般需要国产化,不能使用A100,T4等英伟达系列),PDF解析,业务接入,知识库抽取,结果呈现,运维云计算。重点是知识库抽取,难点是pdf解析准确性。如有问题欢迎互相交流

2025-05-11 19:03:54 574

原创 使用python库时,利用canda管理如何更高效的避免pip包的冲突

使用python库时,利用canda管理如何更高效的避免pip包的冲突

2025-05-11 18:19:30 427

原创 为什么大模型能够回答我们输入的问题

大模型为什么能回答我们的问题

2025-05-11 17:49:10 511

原创 文件查重算法的思路,对论文查重,文件比对

文件查重算法的思路,对论文查重,文件比对

2025-05-11 13:22:47 770

原创 对深度学习及大模型的技术选型策略(含混合应用)

对深度学习及大模型的技术选型策略(含混合应用)

2025-05-11 12:53:54 718

原创 如何提高分类模型的准确性,如飞浆等开源模型应用的准确性

如何提高分类模型的准确性,如飞浆等开源模型应用的准确性

2025-05-11 12:43:16 526

原创 如何编写提示词,提高大模型接口的准确性(提示工程)

如何编写提示词,提高大模型接口的准确性(提示工程)

2025-05-11 12:28:05 717

原创 如何应用大模型提问辅助开发人员开发代码,并提高代码准确性

如何应用大模型提问辅助开发人员开发代码,并提高代码准确性

2025-05-11 12:17:07 395

原创 如何应用大模型辅助开发人员开发代码让代码直接融入系统

如何应用大模型辅助开发人员开发代码让代码直接融入系统

2025-05-11 12:06:03 590

原创 本地部署deepseek之后,python接口进行调用知识库

本地部署deepseek之后,python接口进行调用知识库

2025-05-10 22:57:18 696

原创 解析PDF文本,需要将PDF跨页按需合并处理

解析PDF文本,需要将PDF跨页按需合并处理,java进行处理

2025-05-10 22:50:39 1998

原创 PDF解析,java动态获取页眉及页脚

PDF解析,动态获取页眉及页脚,用于文本分析

2025-05-10 22:41:46 1552

原创 如何使用RAGFlOW知识库模型,调用RAGFlOW接口

使用RAGFlOW知识库模型,调用RAGFlOW接口,通过调用RAGFlOW的API,进行调用

2025-05-07 23:29:31 2164

针对论文文件查重进行比对,且OCR识别图片,并进行排除题目,算法经过优化的源代码

针对论文文件查重进行比对,且OCR识别图片,并进行排除题目,算法经过优化的源代码。

2025-05-15

比对文件查重进行排除文件的策略,源代码

比对文件查重进行排除文件的策略注意事项 • PDF内容提取的准确性: • `PDFTextStripper`提取的文本可能不完全准确,尤其是对于包含复杂排版或图片的PDF文件。如果提取结果不理想,可以尝试其他PDF处理库,如`Apache Tika`。 • 性能优化: • 对于大型PDF文件,读取和处理内容可能会比较耗时。可以考虑使用多线程或异步处理来提高性能。 • 边界情况处理: • 确保处理边界情况,例如排除文件中的短语在待比对文件中可能有轻微的

2025-05-12

解析PDF文本,需要将PDF跨页按需合并处理

解析PDF文本,需要将PDF跨页按需合并处理 PDF跨页合并处理(如将多页合并为单页或重新组织页面内容)面临多个技术挑战

2025-05-11

如何使用RAGFlOW知识库模型,调用RAGFlOW接口

如何使用RAGFlOW知识库模型,调用RAGFlOW接口。 使用RAGFlOW知识库模型,调用RAGFlOW接口,通过调用RAGFlOW的API,进行调用 (1)自行部署RAGFLOW,详见官方文档,并且详细了解RAGFlOW的API接口 (2)选择适合自己使用的API接口,比如根据知识库进行接口调用   (3)通过pdf,或者外部文件,上传,调用RAGFlOW的API接口,并达到创建问答助手,创建会话,提问的能力 (4)封装API接口提供外部服务使用

2025-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除