- 博客(439)
- 资源 (9)
- 收藏
- 关注
原创 Snowflake Core (COF-CO2 ) 认证最新考点
本文是《SnowPro Core考试新考点总结》的姐妹篇,记录了2025年11月考试中出现的新知识点。重点内容包括:Hybrid Tables实现OLTP/OLAP统一处理;MFA仅支持密钥、TOTP和Duo三种验证方式;Resource Monitor的五种重置周期;DELETE操作需要Virtual Warehouse支持;临时表优先于同名永久表;Snowsight中字符类型统一显示为VARCHAR;REPEATABLE子句确保SAMPLE结果可重复;以及Iceberg表支持Secure Data Sh
2025-12-01 11:44:54
752
原创 在Azure webapp中搭建 基于chroma的 RAG agent
本文记录了在Azure应用服务上部署基于ChromaDB的RAG系统时遇到的两个问题及解决方法。首先针对OpenTelemetry导入错误,通过添加azure-monitor-opentelemetry包解决;其次针对Azure Web App中SQLite版本过低的问题,通过安装pysqlite3-binary包并重定向模块引用来兼容。最终成功实现了ChromaDB客户端的正常调用。这些解决方案为在Azure环境部署向量数据库应用提供了实用参考。
2025-10-31 18:40:42
255
原创 SnowPro Core Certification
《Snowflake跨版本功能对比与核心配置参数解析》摘要:本文系统梳理了Snowflake四大版本(Standard/Enterprise/BusinessCritical/VPS)在安全功能、数据回溯等关键功能的差异,重点对比了列级安全、时间旅行等企业级功能支持情况。同时详解了平台默认配置参数,包括查询缓存24小时、2天超时限制、10分钟自动挂起等核心机制,并补充了数据加载、任务调度等扩展功能要点,为SnowPro Core认证备考者提供清晰的技术参数参考。全文通过表格化对比呈现近20项关键指标差异,帮
2025-09-10 14:57:36
834
原创 Azure AI Search构建RAG的优化点
常用技能注意事项输入字段需为text类型。输出字段需在索引中定义为searchable或facetable。Skillset 的执行顺序影响最终结果,建议使用图形化界面或 JSON 明确配置。Azure AI Search 是一个高度可定制的搜索平台,适合构建从文档解析到语义问答的完整链路。明确索引 schema 与字段类型,避免后期重构。Skillset 配置应结合数据结构与业务目标,避免冗余处理。向量搜索与语义排序需结合 embedding 策略统一规划。
2025-09-01 12:01:19
621
原创 AI Deep Research 思维链简介
本文介绍了AI平台DeepResearch功能的两种实现方式:1)分类讨论法,通过将问题拆解为子问题并逐步完善答案,适用于学术报告撰写;2)Chain of RAG法,通过层层递进的追问完善知识库检索,适合事实查询。两种方法都采用思维链提示词模板,分别实现问题的分解细化与知识的迭代深化。
2025-08-19 14:33:55
1047
原创 Azure AI Search 探索总结
Azure AI Search 原名 Azure Cognitive Service,是Azure中用来给AI项目构建知识库的组件。比如并不是知识库的每一列都可以用来过滤、检索或group by,而是要根据实际情况配置。1. Azure AI Search Free-tier 只支持16MB以下的文档。3. Storage Blob里配置文件的元属性,AI Search也能自动读到。知识库本质和数据库很像,但是内部的存储结构和检索算法不一样。不支持自定义index结构,复杂场景还是要写代码导入。
2025-08-16 22:12:15
438
原创 Snowflake GenAI 即 Cortex 初识
本文介绍了在SNOWFLAKE平台检查Cortex功能权限的方法。要确认Cortex权限,可检查角色是否拥有CORTEX_USER权限,或直接尝试执行AI_COMPLETE函数测试。文章还指出Cortex本质是SNOWFLAKE数据库的schema,并提供了查看相关函数的SQL语句。文末标注了文档参考来源和查询日期(2025-07-28)。
2025-07-28 15:58:56
420
原创 Trulens 开发指南和踩坑记
摘要:Trulens是一个本地化开源的LLM追踪调试工具,提供可视化Dashboard(基于Streamlit),区别于LangSmith的云端方案。当前与LangChain存在兼容性问题(如仅支持字符串输出,字典格式报错)。2025年6月版本升级至1.5.2后API发生重大变化(如移除trulens_eval模块)。使用需配置Streamlit环境,通过TruChain记录运行链数据,TruSession启动Dashboard查看追踪结果,支持重置SQLite数据库。开发者需注意版本更新带来的适配挑战。
2025-06-27 15:35:41
404
原创 langchain 开发实战
我的开发环境是 windows + python3.8 langchain版本:# langchain 0.2.17# langchain-community 0.2.19# langchain-core 0.2.43# langchain-openai 0.1.25# langchain-text-splitters 0.2.4# langs
2025-06-20 20:52:26
426
原创 Windows安装Docker Desktop(WSL2模式)和Docker Pull网络问题解决
装完Docker Desktop以后,Docker Engine stopped状态。看日志(l路径:%LOCALAPPDATA%\Docker\)发现是WSL报错。
2025-04-12 10:33:31
1428
原创 机器学习的专业术语 和 各种技巧
专业术语Churn = 客户流失,退订 Accuracy = 模型预测的总体(阴性+阳性)的正确比率 Precision = 模型预测中,阳性的预测正确比率 ROC = 体现分类算法中不同阈值对分类效果的影响 Softmax = 神经网络中将输出转换成概率分布 Rectofoed linear units(ReLU) = 神经网络的激活函数 Area under the curve= 曲线下面积,ROC曲线中体现模型分类能力 Horovod = Distributed training f
2024-03-20 19:01:10
1207
原创 AWS Sagemaker详解
图片语义分析= Amazon SageMaker Ground Truth semantic segmentation labeling task。
2024-03-20 18:59:31
1630
原创 机器学习算法大全(MLS-C01)
将图像中的每个像素分配到特定的类别,需要大量训练。时序预测,效果比DeepAR差,适用于小数据集。Word embedding,NLP文章分类。利用已知样本,找最邻近的样本的分类算法。推荐算法,准确度更高,不会误打扰。多智能强化学习,比如处理交通问题。时序预测,适用于季节强相关的序列。回归RNN预测时序分布的模型。卷积神经网络,常用于图像领域。回归算法,常用于填补缺失值。基于CNN的物体识别算法。时序预测,适用于小数据集。CNN的一种,图像识别。循环神经网络,时序预测。主成分分析,常用于降维。
2024-03-18 18:09:55
440
原创 Python SDK 访问S3, Error(403) when calling the Heading Object Operation: forbidden
2. 检查桶的ACL设置,是否桶的ACL被配置成上传者所拥有。导致桶的AWS Account下的IAM User和Role无法访问来自其他AWS Account上传的文件。1. 检查桶加密配置,是否使用KMS加密桶。
2024-03-05 18:34:23
741
原创 AWS EC2使用 instance profile 访问S3
AWS EC2 instance可以使用instance profile 配置访问S3的权限。然后就可以直接在EC2上执行 python代码或者AWS CLI去访问S3了。唯一需要注意的地方是,申明region。
2023-12-04 17:46:07
1023
原创 AWS EC2 如何 使用 SSM会话管理器登陆
其次EC的instance role必须有一个叫“AmazonSSMManagedInstanceCore”的策略。首先只有特定版本的OS会默认附带SSM Agent。
2023-11-30 19:24:18
1469
原创 AWS IAM User assume IAM Role的示例代码
一段示例代码,如何用Python boto3先使用某个IAM User的AK SK登陆sts。最后执行某个具体操作,比如代码中的 上传文件到S3 bucket。然后继承某个IAM Role。
2023-09-26 19:31:36
2188
原创 https SSL证书使用 git bash 解密
下载下来的证书压缩包中, 后缀名为key的文件是加密的,密码就是你在上面图片对话框里的输入的密码。需要使用openssl解密。注意,由于使用git bash才会需要在前面加上“winpty”,正常版本openssl不需要。在使用时,比如在AWS ACM中使用时,不能用加密的证书。所以这里讲下怎么解密。填写密码,下载证书,并解压。首先,加密一般加密的是公私钥中的私钥,即private.key。这里使用git bash自带的openssl解密。申请域名证书后,有些证书下载时强制加密。cd到证书解压放置的目录。
2023-09-22 18:11:12
838
原创 Redshift 新表 自动赋权
"grant all on all tables" 只会将已有的对象进行赋权。对于未来新建的对象,不会赋权。为了解决这个问题, Redshift 中有一个 "DEFAULT PRIVILEGES" 的概念。可以让新建的对象自动赋权给某个Role或User。中的所有Table对象的所有权限。
2023-08-08 10:17:21
439
原创 AWS Lambda timeout原因总结
AWS Lambda不能放在public subnet中。Lambda本身没有NAT能力,无法获取公网IP。所以Lambda必须置于 private subnet中。并且为其配置NAT Gateway并添加route。其次检查security group。
2023-04-07 18:25:18
1061
原创 AWS Sign-URL的过期时间设置
2. 在浏览器按F12进入源代码模式。在网络中找到名为creds的链接。点击creds,在Cookie中找到“aws-creds”,根据过期时间即可计算得知当前登陆链接的有效时间。如上链接, AWS支持自己写代码生成登陆链接( Sign-URL)来登陆的模式。每个登陆链接都有一个过期时间,最小15min,最大36hours。1. 打开链接登陆AWS Console。那么如何判断自己登陆链接的有效时间呢?在企业中这种方式比较常见。
2023-03-10 19:18:08
1212
原创 AWS Auto Scaling Group中的Instance如何重启
一般情况下Auto Scaling Group中的Instance如果重启,会被ASG的健康检查发现,导致ASG立刻新建新机器。把 Launch和Health Check暂时关闭,再去重启instance就OK啦,不用担心ASG多此一举啦。办法很多,一个最简单的办法就是暂时关闭ASG的Launch和Health Check。本文要讲的是在这种情况下,如何避免ASG新建新机器。(有的时候单纯想重启一下机器)
2023-03-03 18:56:24
830
原创 AWS CodeDeploy的疑难问题小记
76bdfdd2-91c7-4d88-84e0-6ebe4d25bfa6/d-6BTWU2CDK/”这部分每个人都不一样,不要照抄。如果appspec.yml中location的值是“a.sh”,那么CodeDeploy Agent就会去找一个全路径为。当指定runas的时候,CodeDeploy Agent会以runas的值作为用户,去执行脚本。CodeDeploy Agent执行location指定脚本的执行路径是根目录: /。具体source的配置文件,根据实际情况调整。
2023-01-16 12:33:40
1346
原创 网站开发跨域名iFrame嵌入之SameSite&CSRF
简而言之,就是这种攻击手段利用了iframe或其他一些技术,是A域名的网站能访问B域名的session和cookie,进而甚至于能让A域名的网站利用session和cookie中的信息伪装成用户向B域名发起请求。想象一下A域名是一个银行网站,那么B域名就能伪装成用户请求银行转账了。当SameSite等于Lax或Strict时,iframe中的不同域名的页面不会被允许访问session。最近使用Flask开发了一个网站的应用,要实现在iframe中嵌入一个来自不同域名的页面。
2023-01-10 22:18:13
1923
原创 AWS DAS认证考点整理(EMR QuickSight Lakeformation等)
AWS DAS认证考点整理(EMR QuickSight Lakeformation等)
2022-11-27 22:07:09
1486
原创 AWS DAS认证考点整理(Kinesis篇)
KDSKDS重复数据:1. Producer有网络延迟,2. Shards、Record Processors有增减。由于网络等不可抗力造成的KDS数据重复可以通过加入唯一码(Unique ID)来去重解决。
2022-11-27 22:02:07
1553
原创 AWS DAS认证考点整理(Redshift篇)
Copy命令优化手段: 压缩, 2. 对大文件进行分割,一次copy多个文件。(文件数对应slice个数)3. 使用temporary staging table(这种方法的本质利用table的drop和create代替delete, update,insert,因为后者是DML会触发事务。)
2022-11-27 21:51:57
1322
原创 AWS DAS认证考点整理(Athena&Glue篇)
AWS DAS认证考点整理(Athena&Glue篇)Athena查询隔离=Work Group, 可以control per-query data usage limit.Athena查询速度优化:1. 压缩 2. 列式存储 3. S3和Athena同一个RegionAthena查询成本优化:1.Partition by,2. 列式存储,3.合并小文件Athena partition快速生成or恢复=MSCK REPAIR TABLE,Athena使用hive style partition。
2022-11-17 12:09:35
1462
原创 AWS China Elastic Beanstalk 填坑记(Python Flask)
本文记述的事发生在2022年11月,环境是AWS China Region,不是AWS Gobal。 Elastic Beanstalk简称EB。尝试把一个Python Flask Web部署到Elastic Beanstalk上去,过程中发现了AWS无论是中国区还是全球区的文档和实际情况不符。具体情况:EB会把你上传代码放到EC2服务器上的 /var/app 路径下。
2022-11-04 21:33:16
1035
原创 Power BI 的 各种限制 和 DataFlow模式
当大量Dataset同时刷新时,会导致Gateway节点内存不足。可以使用PowerBI Data Flow对DataSet进行分段刷新来绕开这个问题。Direct Query不再有DataSet相关的限制,但是它有一个100万行的数据量查询限制。分页报表的交互性能比较差,且直连某些数据源(比如Redshift)时性能较差。
2022-09-05 16:24:37
2189
原创 SSAS 疑难杂症 解决过程小记
远程连不上:先从任务管理器里找到SSAS(MSOLAP)进程号或者运行命令行:tasklist | findstr msmdsrv.exe找出SSAS监听端口(7052是上面得到的进程号):netstat -ano | findstr 7052在windows防火墙里, 打开端口...
2022-09-05 15:54:45
523
1
原创 一个动力密集型产业的预算的数据分析建模过程
对于一个劳动力密集型产业来说,做预算判断未来的财月的运营成本,往往可以简化成下面这个公式:成本= 员工数目 * 人均开销其中人均开销包括薪资,培训费用和办公费用,这个些费用往往比较固定或者易于计算,可以视为定量.于是,剩下的变量就是员工数目又叫HeadCount. 预测成本的关键就在于预测员工数目.员工数目取决于工作量,比如售后行业都会对员工的工作进展通过一个软件记录追踪,
2022-09-05 15:52:39
485
原创 AWS Athena针对CSV文件切换SerDe Lib
这个引擎默认使用双引号所谓封闭符,逗号作为CSV的分隔符。不用配置任何Serde parameters就能用。但是如果CSV用双引号作为封闭符的话,这个引擎会把双引号当作数据的一部分,不能正确识别出封闭符。解决办法就是把一些可能是空的列,点击“Edit Schema”改成string类型。作为CSV文件的解析引擎。...
2022-08-16 11:29:16
732
原创 git merge 时忽略配置文件文件
日常开发时经常会遇到某些配置文件,不希望在branch merge时被包含在内。怎么处理?步骤如下:步骤一:定义一个虚拟的合并策略,全局配置不依赖任何项目任何分支git config --global merge.ours.driver true步骤二:在你项目中根目录(与.gitignore同级)添加一个配置文件.gitattributes注意这个".gitattributes"在必须要放到merge的目标branch中,而不是源branch。步骤三:在.gitattri
2022-05-15 14:42:55
2149
3
原创 Python打包Wheel包的傻瓜式一站教程
1. setup.py 文件示例:from setuptools import find_packagesfrom setuptools import setupsetup( name="name", author="xxxx", version="0.0.1", author_email="r@e.com", description="desc", long_description="long desc", license='Apache
2022-03-01 18:10:45
2929
原创 AWS Lambda 部署 Python (Lambda Layer)
AWS Lambda支持Python的多个版本作为runtime在Lambda上使用Python的常用问题:1. Python libraryAWS Lambda Runtime只支持原生的runtime,并没有预装任何library。在Lambda中引入library,利用 “pip install -t”, 将library安装到项目工程中。然后打成zip包上传。2. Handler在每个Python Lambda中,可以定义如下这个函数作为Lambda调用的Handler。
2022-03-01 10:20:35
4794
sping.net 2.0M1 和 NHiernate3.3结合的一个小例子
2012-09-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅