- 博客(13)
- 收藏
- 关注
原创 提示词工程是什么
提示词工程(Prompt Engineering)是一门通过设计和优化输入指令(Prompt)来引导大语言模型(LLM)生成高质量输出的技术。· 上下文(Context):提供背景信息,帮助模型理解场景和用户需求(如“面向科技爱好者的科普文章”)。· 格式与语气(Format & Tone):指定输出结构(如表格、代码块)和语言风格(如专业、活泼)。· 多模态适配:针对文本、图像等多模态输入设计提示词(如结合图片生成描述)。· 指令(Task):明确动词引导的任务目标(如“生成”“总结”等)。
2025-03-05 08:26:06
1204
原创 怎么选择合适的大模型
选择大模型需以业务需求为核心,结合数据、资源、合规等约束,通过实验验证(如A/B测试)确定最优解。同类模型对比时,需重点关注任务表现、响应速度、成本及行业适配性。例如,在中文场景下,豆包系列因高性价比和并发能力突出,适合企业级应用;而国际模型(如GPT-4)在复杂任务中仍具优势,但成本较高。根据实际业务场景或需求选择合适的大模型,需要综合考虑任务类型、数据特性、资源限制及模型性能等多个维度。
2025-03-01 12:07:34
1759
原创 RAG和智能搜索的区别
RAG(Retrieval-Augmented Generation,检索增强生成)与智能搜索(Intelligent Search)都是提升信息获取效率的技术,但两者的核心目标、技术架构和应用场景存在显著差异。二者并非对立,而是可协同构建更强大的信息处理系统——
2025-02-28 07:52:23
1450
原创 智能搜索如何做到更加精准
传统搜索可能匹配“Python”“MySQL”关键词,但智能搜索会理解用户需要代码示例,优先返回Stack Overflow的高赞回答或官方文档片段。系统结合用户位置(北京)、时间(周末)、历史行为(曾搜索亲子活动),并通过知识图谱关联“公园”“博物馆”等实体,推荐颐和园、科技馆等结果。智能搜索之所以能够提供更加精准的结果,主要依赖于多种前沿技术的综合应用。其本质是通过算法、数据和算力的协同进化,将“搜索”从关键词匹配升级为“理解-推理-推荐”的智能闭环。:用户搜索“周末北京哪里适合带孩子玩?
2025-02-27 07:46:42
1332
原创 大模型的训练策略有哪些?
掩码语言建模(MLM):随机掩盖输入文本中的部分词汇,模型通过上下文预测被掩盖的词,学习语义关联(如BERT)。· 原理:将模型拆分到多个设备,例如将不同层分配到不同GPU,通过通信传递中间结果(如Megatron-LM)。· 原理:结合数据并行和模型并行,例如在Transformer层内使用模型并行,层间使用数据并行。· 原理:为不同层分配差异化的学习率,底层使用较小学习率保留通用知识,顶层使用较大学习率适配任务。· 原理:将硬标签(0/1)替换为软标签(如0.9/0.1),缓解模型过度自信。
2025-02-26 08:07:10
1006
原创 什么是RAG
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了**检索(Retrieval)生成(Generation)**的混合模型架构,旨在通过引入外部知识库来增强生成模型的输出效果。它的核心思想是:在生成回答前,先从大规模文档库中检索与输入相关的信息,再将检索到的内容和原始输入结合,生成更准确、更可靠的输出。。
2025-02-25 08:01:56
582
原创 DeepSeek大模型的训练过程是什么
通过上述技术优化,大模型从“原始数据”到“可用产品”的每一步都需平衡质量、效率与成本,而DeepSeek的实践体现了国内团队在这一领域的创新突破。
2025-02-24 08:14:10
1447
原创 6个大模型的核心技术
大模型(Large Language Model, LLM)是基于海量数据预训练的深度学习模型,通常采用Transformer架构,参数规模达千亿级别。其核心优势在于通过自注意力机制捕捉长距离语义依赖,具备强大的泛化能力和上下文推理能力,可处理文本生成、翻译、问答等多样化任务。与传统AI模型不同,大模型无需针对特定任务重新设计架构,而是通过调整输入(如提示词)和微调即可适应新场景。提示词工程通过设计优化的输入文本(Prompt)引导大模型生成预期输出。:人类大脑,具备思考和推理能力,解决未知问题。
2025-02-23 09:28:50
1259
原创 机器学习框架有哪些?我们也能用它做什么?
机器学习框架是开发者用于构建、训练和部署机器学习模型的工具库,它们简化了算法实现、数据处理和模型优化的流程。
2025-02-22 10:04:29
1692
原创 Java的Ai框架
Spring AI已支持大模型API调用,Langchain能让Java对接DSGPT这类模型,Jlama可使Java在本地运行百亿参数模型,掌握这三个框架将更具求职优势。做新项目:避免重复做商城、外卖等被用滥的项目,建议使用Java和Spring AI搭建本地知识库系统,完成数据清洗、模型微调、API封装和前端展示的全流程开发,突出Java在并发处理和内存管理方面的优势,此类项目能提升简历竞争力。Java在AI时代将重新主导AI应用领域。
2025-02-21 07:54:52
158
原创 DEEPSEEK的市场应用
DeepSeek的市场应用已从技术验证转向规模化落地,核心驱动力包括技术降本、行业场景适配和全球化布局。未来需重点关注其在金融、能源、虚拟经济等领域的深度渗透,同时应对地缘政治和产能过剩等风险。投资者可优先关注端云协同、储能智能化和新兴场景(如低空经济)中的头部企业合作机会。
2025-02-20 07:58:58
585
原创 DeepSeek为什么这么火爆,对普通人,企业有什么冲击
DeepSeek的火爆不仅是技术创新的胜利,更是AI普惠化与行业变革的标志。对普通人而言,它既是职业替代的威胁,也是技能跃迁的机遇;对企业而言,它推动效率革命的同时重构了竞争规则。未来,随着端侧部署普及和开源生态完善,DeepSeek或将成为智能社会的核心基础设施,但其发展仍需攻克成本、伦理与商业化等多重挑战。
2025-02-19 08:11:23
1585
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅