自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 TiDB Vector抢先体验之用TiDB实现以图搜图

前有专门的向量数据库阻击,后有各种传统数据库追赶,这注定是一个惨烈的赛道,希望 TiDB 能深度打磨产品,突围成功。向量就是一组浮点数,在编程语言中通常体现为 float 数组,数组的长度叫做维度(dim),维度越大精度越高,向量的数学表示是多维坐标系中的一个点。这里的distance就是两个向量之间的相似度,这个相似度是用vec_cosine_distance函数计算出来的,意味着两个向量之间的夹角越小相似性越高,夹角大小用余弦值来衡量。近期,TiDB宣布即将引入向量化技术,以提高数据处理的效率和性能。

2024-08-13 11:50:37 1637

原创 如何在本地运行大型语言模型?

除此之外,在Workspace页,可以添加提示词(Prompt),在聊天界面通过@,#等命令引用对应的文档,提示词,让用户可以更高效的和大模型沟通。再看应用程序对应的文件,相应目录下确实存在webiu.db文件,存的是交互的数据,包含聊天记录,授权信息等,前面演示聊天上传的文件也在另外一个目录下。启动成功,浏览器访问 http://localhost:3000/,首次注册的用户为系统管理员,登录之后页面如下图,开始聊天之前选择想要的模型,就可以开始和大模型对话了。数据都存储在本地,也不用担心安全问题。

2024-08-06 14:44:29 1026

原创 玩转提示工程,优化LLM的实践指南

经过大训练出来的大模型已经能够执行零样本任务,即不提供任何示例,模型依然会输出相对符合期望的结果,这源于 RLHF 技术在深度学习时让模型更好地适应人类偏好。链式提示在构建 LLM 驱动的对话助手时特别有用,它能在多轮对话中不断优化输出性能,在这个过程中也会涉及到提示词技术中的“生成知识提示”,可以人为地将一部分知识作为提示词输入给模型,从而优化质量。比较现实的是,工程师个人难以拥有深度学习所需的算力,无法提供模型训练和微调所需的资源,在某些特定场景下提示工程可能是门槛较低的优化大型模型方案之一。

2024-08-06 10:04:22 930

原创 神州鲲泰DCN信息安全实训基地建设方案

通过整合四个关键部分,神州鲲泰DCN信息安全实训基地建设方案为学生提供真实操作环境,为教师提供尖端的教学资源,并向公众提供信息安全教育展示场景。通过综合真实环境实训,将显著提升学生就业竞争力并积极推动院校信息安全专业的建设和发展,为职业人才培养提供更加行而有效的教育教学方式,为国家和企业培养具备真才实学的高素质技术技能人才。通过提供的专业实训设备,不仅能够模拟真实的信息安全环境,同时对往年大赛真题进行解析提炼,形成针对性的实训教学资源,确保学生能够在实训中获得与竞赛相匹配的技能和经验。

2024-08-05 11:46:21 377

原创 AI驱动的业务创新-神州鲲泰问学一体机

此外,企业数字化转型场景众多,需要分清优先级和统一规划,同时需要正确的路径,通过生态合作降低试错成本,提高投资回报率。展望未来,神州数码将与360等伙伴进一步深化合作,共同构建更为广泛的生态体系,携手推动中国乃至全球的信息安全和人工智能产业发展,共创安全、智能的未来。结合丰富的自主品牌算力服务器产品,神州鲲泰为客户打造了一个多云异构绿色的智算底座,与360等安全厂商紧密合作,共同保障客户的数据安全与AI安全。这不仅提升了企业智能化转型的技术支撑,也为企业的数字化进程加速提供了新的动力。

2024-08-04 10:21:10 456

原创 神州鲲泰“电网变电站边缘计算解决方案

神州鲲泰能向客户提供KunTai A222边缘计算服务器,该产品深度较常规2U机型小40%,在保证算力资源充足的前提下,更小的体积能节省出更大的空间,让它可以更灵活的配置在业务场景中,搭载昇腾AI处理器,最高可支持560 TOPS INT8算力,高并发解析功能最高支持512路高清视频实时分析,让细微的错漏和异常都无所遁形,实现了对电力设备的实时监测和故障诊断。神州鲲泰服务器具有高可靠性的硬件和软件设计,可以有效提升电网解决方案中的设备和系统的稳定性和数据安全性,降低运行风险和故障率。

2024-07-22 14:31:09 866

原创 一文了解大模型会话QA增强

'), AIMessage(content='RAG中的检索召回环节包括以下操作:\n1. 数据读取与预处理\n2. 数据切片环节,包括按Token长度切片、按中文各符号递归分割、Markdown格式切片、HTML格式切片、按不同语言的代码规则切片、表格切片等\n3. 数据语义级预处理环节,包括关键信息抽取和自动生成问题\n4. 向量化环节,包括Embedding Model选型和embedding model微调\n5. 数据入库环节\n6. 内容检索,包括输入向量化、相似度计算和文档召回')

2024-07-22 11:29:58 916

原创 基于Joint BERT模型的意图识别技术实践

意图识别在诸多领域已经有了非常广泛的应用,例如各个品牌的智能语音助手,如今多模态模型能力迅猛增长,与LLM交流方式变得多样化,为了给LLM提供高质量有价值的上下文嵌入信息,引入意图识别变得尤为重要,其不仅能够过滤掉大部分无用但又不得不加入pipline的工具,还可以极大优化整个pipline的响应时间以获得更好的用户体验。对于有含义的槽位标签,又分为以'B_'开头的槽位开始的标签, 以及以'I_'开头的其余槽位标记两种。SEP标记的主要作用是分隔不同的输入序列,使BERT模型能够同时处理多个输入序列。

2024-07-11 14:22:17 2425 1

原创 实践干货!实现tiup与prometheus迁移

(2)admin用户登录grafana ---> Confguration ---> Data Sources ---> 查看数据源prometheus地址是否是当前的,如果不是则将其地址更改为新的prometheus,查看监控数据是否完整。(1)使用root用户登录dashboard ---> 点击root ---> Prometheus 数据源 ---> 使用自定义地址(新的prometheus)--->查看监控数据是否完整。本文分两部分:tiup迁移和prometheus迁移。

2024-07-11 14:10:59 349

原创 Open Interpreter利用Code Interpreter实现本地化

去年7月,OpenAI推出了Code Interpreter插件,它能够根据自然语言指令生成并执行代码,以完成数据分析、图表制作和文件编辑等任务。尽管GPT-4代码解释器功能强大,但存在一些限制,如托管运行、无法访问互联网、预安装软件包有限、最大上传限制100MB、运行时间限制120秒,以及环境终止时文件或链接丢失的问题。为解决这些问题,开源项目Open Interpreter应运而生,支持本地运

2024-07-01 10:42:39 881

原创 RAG文本溯源的PDF高亮显示,让知识一目了然!

在网页中集成PDF文档的显示功能并实现RAG文本溯源的高亮处理,是一个并不常见的需求,因此相关的指导资料和教程较少。本篇文章通过介绍两种工具,来分享一下笔者是如何完成此需求的。

2024-07-01 10:29:13 592

原创 以ChatGPT为例,浅析AI究竟能干什么?

AI因为黑盒的深度学习对执行认知有着天然限制,同样的提示词,同样的问题可能第一次回答准确,第二次则无法得出期望的结果,这是大模型所产生的"幻觉"。关于AI的安全方面也存在疑虑,由于训练需要大量优质样本,可能包含了一部分敏感信息,关于版权与滞后的监管与审查,无法推断AI会存在怎样的风险。这可能会面临被黑客恶意攻击。深度学习人工智能技术正在以爆发式发展,预训练+微调的方式促进了神经网络训练资源的共享,从上文来看深度学习所需要的算力才是关键,谁掌握更多的算力谁训练出来的模型也就相对优质,这既是门槛也是瓶颈。

2024-06-24 13:51:30 876

原创 一文了解Milvus2.4新特性和多向量搜索体验

比如:先提取人员A的脸部照片向量、声纹向量,然后在 Milvus 中,把人员A的脸部照片向量在众多人员的脸部向量中进行搜索,并且把人员A的声纹向量在众多人员的声纹向量中搜索,最后根据设定的两个模态向量的权重,对两个向量搜索结果重新排序,这样得到的结果,要比单向量搜索的更加准确。多向量搜索的时候,我使用的还是同一张图片,并且我是用同一张图片在两个向量中搜索的,权重设置的是,第一张照片的向量占60%,第二张照片的向量占40%。说明多向量搜索,能弥补单向量搜索的不足,让搜索的结果准确度更高。

2024-06-18 11:10:37 2136

原创 Open Interpreter利用Code Interpreter实现本地化

作为一个可以在本地环境中运行的工具,Open Interpreter可以访问互联网,没有文件大小和运行时间的限制,并且可以利用任何包或库。去年7月,OpenAI发布了一个强大的插件,名为Code Interpreter(代码解释器),它可以根据用户的自然语言需求生成并执行代码解决方案,帮助完成各种任务,如数据分析、图表创建和文件编辑等。Open Interpreter不仅是一个编码解释器,它还是一个强大的工具,专注于处理复杂任务,将GPT-4代码解释器的强大功能与本地开发环境的灵活性完美结合在一起。

2024-06-13 15:52:24 1183

原创 AGI 远不止 ChatGPT!一文入门 AGI 通识及应用开发

模型层的代理层其实就是一个脚手架,通过代理机制利用大模型理解用户的需求,并将其切分为多个小任务,然后调用各种已知的工具来完成任务,当然这些工具需要事先告知给代理层。这是整个过程的最后一步,引入专家或其他人在不同时间点问同样的问题,观察回答的差异,尽管可能有些微差别,但意思可能是一样的。最底层是模型的能力,它是不可或缺的,而它的算力则是由CPU支撑,在这之上还有一些框架。在企业场景中,大量的数据都是私有的,无论是结构化还是非结构化的,例如企业文档、规章制度、报告等都可以存储在向量数据库中。

2024-06-12 16:23:34 901

原创 一文讲清楚精益数据方法论在数据治理中的应用

通过明确分析目标、优化数据流程、提升数据质量等步骤,精益数据方法论帮助企业更加精准地洞察市场趋势、优化产品策略、提升运营效率。通过明确分析目标、优化数据流程、提升数据质量等步骤,精益数据方法论帮助企业更加精准地洞察市场趋势、优化产品策略、提升运营效率。通过收集和分析数据,企业可以更好地了解其业务流程,并找到改进的机会,从而实现更高效、更灵活、更满足客户需求的运营。在数据驱动的时代,如何从海量的信息中提取有价值的见解,并将其转化为实际的业务成果,是每个企业和决策者面临的挑战。

2024-06-04 18:08:32 911

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除