- 博客(9)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 向量索引及相似度计算
图数据库擅长推理能力,但是图实体模型建立本身门槛高,需要大量专业人员。向量数据库人工介入较少,但是结果准确度就差一些,各有各合适空间。下面是两者的对比:向量数据库+大模型图数据库+知识图谱性能数据量大,性能更好数据量大,性能受挑战复杂问题复杂问题,查询结果不一定完整复杂问题,可以取得更可靠的内容建模难度适合处理非结构化数据,文本转换成高维向量实体关系建模,构建知识图谱建模工作难度和工作量很大适合场景智能推荐系统:找出相似的,不需要精确。
2024-07-11 21:46:04
689
原创 4、大模型之AI Agent
控制端处于核心地位,承担记忆、思考以及决策制定等基础工作,感知模块则负责接收和处理来自外部环境的多样化信息,如声音、文字、图像、位置等,最后行动模块通过生成文本、API 调用、使用工具等方式来执行任务以及改变环境。AI Agent 就是以大语言模型为核心控制器的一套代理系统。
2024-06-30 01:27:25
205
原创 6、大模型之RAG,即检索增强式生成(Retrieval Augmented Generation)
检索出来的结果在给大模型之前,还要 prompt 优化,包括 prompt 加上 step by step ,针对场景的加上相应的提示词等。
2024-06-30 01:24:16
1105
原创 5、大模型之提示词工程
提示=任务+上下文+范例+角色+格式+语气任务模块:从动作动词开始,无论简单还是复杂,都要明确说明目标,来有效指导输出。上下文模块:为大模型提供足够的背景信息,描述清楚用户环境,来缩小可能性,同时可以定义生成任务需要的步骤。范例模块:利用范例或框架可以显著提高各种任务的输出质量。角色模块:定义大模型应该效仿的人,例如技术专家、营养师、专业运动员等。(混合专家模型MoE)格式模块:无论是表格、电子邮件、项目符号、代码块、段落,还是期望的输出长度,我们都可以把所需的输出格式可视化,来有效地适应任务。
2024-06-30 01:22:15
518
原创 4、大模型应用开发框架
LangSmith:生产级LLM应用开发平台LangChain:LLMs应用开发框架LangChain-Community:第三方集成LangChain-Core:LCEL等协议LangChain Templates:开箱即用APP示例LangServe:Chains生产部署(REST API)
2024-06-30 01:20:10
1298
原创 3、大模型重要参数解析top_k、top_p、temperature
温度越低,概率分布差距越大,越容易采样到概率大的字。温度越高,概率分布差距越小,增加了低概率字被采样到的机会。
2024-06-30 01:16:39
1512
原创 1、深度学习基础之优化算法、激活函数
在Adam优化器中,权重衰减通常通过在损失函数中添加正则化项来实现。这意味着正则化项会影响梯度的计算。而在AdamW(Adam with Weight Decay)中,权重衰减是通过直接在参数更新步骤中减去权重的一部分来实现的,而不影响梯度计算。使用AdamW而不是Adam的主要原因在于其改进的权重衰减机制,这种机制能够提高训练的稳定性和模型的泛化能力,同时简化了超参数的调节过程。这些优势使得AdamW在大规模深度学习模型的训练中表现更为优越,因此被广泛采用,包括在GPT-4的训练过程中。非线性。
2024-06-30 01:11:19
1055
原创 2、Attention、Transformer、GPT架构
查询(Query, Q):需要注意的信息,代表当前时间步或位置的输入数据。键(Key, K):输入序列中每个时间步或位置的特征,用于与查询向量匹配。值(Value, V):与键向量相关联的信息,实际需要获取的内容。注意力机制通过计算查询和键之间的相似度分数,利用这些分数加权求和值向量,从而确定哪些输入部分对当前输出最重要。多头注意力机制进一步增强了模型的表示能力,能够更好地捕捉输入序列中的复杂关系。GPT-4只使用了解码器部分,而没有使用完整的编码器-解码器结构。
2024-06-30 00:58:10
1027
原创 7、大模型微调技术
PEFT旨在通过最小化微调参数数量和计算复杂度,实现高效的迁移学习。它仅更新模型中的部分参数,显著降低训练时间和成本,适用于计算资源有限的情况。
2024-06-29 21:08:53
972
1
SolrPhpClient
2015-01-28
如何快速从PC端网站开发一个APP
2015-12-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人