EllenShen123-优快云博客

以{某著名诗人}的风格，写一首关于Open AI的鼓舞人心的短视，主题要集中在最近推出的DALL-E产品上（DALL-E时是一种根据文本生成图形的机器学习模型）**正确示范：**以下是客服与客户之间的对话。**错误示范：**以下是客服与客户之间的对话。当我们把AI的输出定义的十分明确时，就有很大概率得到一个能用代码解析的数据。**错误示范：**给这个产品的描述应该要很短，就是呢只有几句话，不要太多了。我们给AI的小样本提示中不仅包含正确的结果，还包含中间的推理步骤。将下面的文本总结为最终药店的要点列表。

2025-08-13 13:38:15 582

原创 AI计费token数的获取方式

token计数

2025-08-13 11:48:24 342

原创 LLM学习笔记 -聊天模型发送请求

模型类型 messages 里面存放传给AI模型对话容，是一个列表，具体的消息用字典表示，一个字典代表一条消息。role为用户的时候是user，表示AI的时候是assistant，表示系统的时候为system。messages里面可以包含用户的提示，也可以包含AI的回答。从这里我们可以看出OpenAI返回的是一个ChatCompletion，AI的回复存储在choices[0].messages.content 中。total_tokens：本条消息的token总数，包含用户输入及AI回答。

2025-08-13 10:40:41 301

原创 SQL导致数据异常的一些总结

需要注意的是LATERAL VIEW explode函数在处理空字符串或空数组时可能导致数据异常丢失，主要原因是该函数要求输入参数必须为非空值。使用Lateral View explode后对数，会发现用户u001缺失。当我们判断一个数据在火不在某个集合的时候，经常用到in 、not in。但是此方式会导致空值的结果异常。使用此函数时，需要判断拼接的字符串是否有NULL，如果有的话会导致整个拼接结果异常，都是NULL。CONCAT(province, city, district) 后，最终结果NULL。

2025-08-12 09:42:10 203

原创实体表设计积累

【代码】实体表设计案例参考。

2025-08-11 10:33:14 125

原创 AI规划随想

比如说绘制钢企行业生产场景。那么我们做规划的时候就需要从这五个维度出发，结合AI经典技术（机器学习、计算机视觉、语义分析、语音识别等）来考虑AI能解决什么问题。设备 | 场景A1 场景B1 场景C1。质量 | 场景A2 场景B2 场景C2。问题一：绘制场景蓝图时，某些场景既可以属于A，又可以归属于B。结果：导致AI规划不是很顺利，很多场景是基于以往行业经验设计。Eg: 战略目标是5A：A+生产，A+治理、A+ 绿色…

2025-08-09 15:30:44 206

原创数据管理--省市区清洗

若匹配不到相应数据，则继续用原信息中的市与city_ref 表中的市、区作比较，结果唯一时取ref表中的省；依旧匹配不上数据的情况下再用原信息中的区，逻辑同上一步。4.清洗市字段时，需将原信息中省、市、区均与city_ref 表中的市做比较，若结果唯一则进行赋值；若匹配不到相应数据，则继续用原信息中的市与city_ref 表中的市、区作比较，结果唯一时取ref表中的市；若匹配不到相应数据，则继续用原信息中的市与city_ref 表中的市、区作比较，结果唯一时取ref表中的区；将江阴填写在区这一栏。

2025-08-09 11:10:44 129

原创数据质量监控表+字段选择的一些小方法

刚接到要做数据质量监控的时候，有点懵，不知道从何做起，就选了几张自己设计的表及之前开发过程中频繁出问题的字段做监控。客户问选择的原因，答不上来。后来跟组里小伙伴讨论了一下，定了一个字段选取逻辑评分标准。1.表所处的层级（ODS、DWS、DWD、ADS）层级分。2.血缘关系，被引用的次数 – 血缘分。做任何事情都必须有据可依，不能随心所欲。6.字段被引用的次数 – 字段使用分。3.表所处的业务领域 – 业务域分。5.字段出问题的频次 — 频率分。4.是否主数据 — 主数据分。

2025-08-08 18:34:12 240

原创 Spark核心参数及线程安全问题

‌–conf‌：设置配置参数，如spark.default.parallelism（默认分区数）和spark.sql.orc.impl（ORC表处理模式）。‌–deploy-mode‌：部署模式，cluster（集群部署）或client（客户端部署）。‌–executor-cores‌：设置每个Executor的CPU核数，建议2-4核。‌–executor-memory‌：设置每个Executor的内存，通常4-8G。‌–num-executor‌：设置Executor数量，需根据资源队列容量调整。

2025-08-08 17:52:00 230

原创 DAMA数据管理体系

仅记录学习心得，不对的地方后续完善

2025-08-08 16:32:44 178

原创 Row_number（） Rank() Dense_rank

Row_number（）, Rank() ,Dense_rank() 主要用于排序ROW_NUMBER()函数作用就是将select查询到的数据进行排序，每一条数据加一个序号Rank（）RANK()函数，顾名思义排名函数，可以对某一个字段进行排名，这里为什么和ROW_NUMBER()不一样那，ROW_NUMBER()是排序，当存在相同成绩时，ROW_NUMBER()会依次进行排序，他们序号不相同，而Rank()则不一样出现相同的，他们的排名是一样的。DENSE_RANK()函数也是排名函数，和RA

2020-07-09 15:14:57 225

原创 Spark的LeftOuterJoin详解

一、RDD的LeftOuterJoin操作 1.1 RDD的LeftOuterJoin方法定义在Spark中，LeftOutJoin的方法源码定义如下：/** * Perform a left outer join of `this` and `other`. For each element (k, v) in `this`, the * resulting RDD will either contain all pairs (k, (v, Some(w))) for w in `

2020-07-09 14:35:46 5210

原创 linux 查找pid并kill

linux 查找pid并killeg:sh upload.sh >ellen.log ellen.log路径 /data/Ellen/ellen.log需求：要有一个脚本去kill并重新执行 upload.sh实现：#!bin/bashPID=(psx∣grepupload.sh∣sed′2,(ps x |grep upload.sh |sed &#x27;2,(...

2018-12-11 14:33:39 2377

weixin_42881395的博客

原创 databricks jobs使用记录

原创（Azure）PGSQL和redis 连通性测试 --code 备份

原创 databricks secrets 设置及获取

原创常用Agent及工具箱组装

原创给AI模型工具的能力

原创 Azure 使用记录

原创 LangChain RAG-给AI模型读文件（三）

原创 LangChain RAG-给AI模型读文件（二）

原创 LangChain RAG-给AI模型读文件（一）

原创 LangChain Memory - 给AI增加记忆（三）

原创 LangChain Memory - 给AI增加记忆（二）

原创 LangChain Memory - 给AI增加记忆（一）

原创 Langchain基础学习 - 链Chain

原创 Langchain基础学习 - AI模型的输出（Model O)

原创 Langchain基础学习 - AI模型的输入（Model I)

原创函数封装学习

原创提示词工程