培训
文章平均质量分 94
AI仙人掌
NLP算法专家|深耕智能文本处理领域,专注用AI技术驱动金融与政务场景的数字化转型
技术核心能力
领域专长
• 金融政务场景:10年+垂直领域经验,聚焦智能风控、政务文档解析、高精度信息抽取
• 文本智能处理:构建金融合同解析、监管文件结构化、政务问答系统等20+行业解决方案
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从强化学习基本概念到LLM的RL
策略函数(Policy):决定在状态(State)下选择什么动作(Action),定义了智能体的行为准则,决定了智能体如何在环境中行动。类比:就像游戏中的玩家,根据当前局面选择下一步操作。奖励函数(Reward):环境对动作的反馈,告诉策略“好坏”,定义了智能体的目标信号,是强化学习的“驱动力”。类比:游戏的得分系统,玩家行为对应加分或扣分。价值函数(Value):预测长期累积奖励,衡量了状态或状态-动作对的未来累积奖励的期望,帮助智能体评估环境中的不同选择。。类比。原创 2025-02-28 10:14:22 · 1308 阅读 · 0 评论 -
【大模型术语破冰之旅:从新手到懂行】面向销售内勤等文科背景人员的大模型术语讲解
公司内部全体员工大模型基础知识普及,大模型术语破冰之旅:从新手到懂行,销售与后勤的智能赋能课原创 2025-02-18 09:00:04 · 1322 阅读 · 0 评论 -
【AI赋能课】基于OpenAI官方文档《提升推理能力的最佳实践》等资料整理了一份公司内部员工DeepSeek使用指南
推理模型(如O1、DeepSeek-R1)适用于需要多步骤推理、深度分析和复杂决策的任务。这些任务可能涉及数学推导、逻辑推理、代码生成、复杂问题的解决方案制定等。原创 2025-02-15 00:15:00 · 1118 阅读 · 0 评论
分享