自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rav009的专栏

大数据相关 Python相关

  • 博客(439)
  • 资源 (9)
  • 收藏
  • 关注

原创 Snowflake Core (COF-CO2 ) 认证最新考点

本文是《SnowPro Core考试新考点总结》的姐妹篇,记录了2025年11月考试中出现的新知识点。重点内容包括:Hybrid Tables实现OLTP/OLAP统一处理;MFA仅支持密钥、TOTP和Duo三种验证方式;Resource Monitor的五种重置周期;DELETE操作需要Virtual Warehouse支持;临时表优先于同名永久表;Snowsight中字符类型统一显示为VARCHAR;REPEATABLE子句确保SAMPLE结果可重复;以及Iceberg表支持Secure Data Sh

2025-12-01 11:44:54 752

原创 在Azure webapp中搭建 基于chroma的 RAG agent

本文记录了在Azure应用服务上部署基于ChromaDB的RAG系统时遇到的两个问题及解决方法。首先针对OpenTelemetry导入错误,通过添加azure-monitor-opentelemetry包解决;其次针对Azure Web App中SQLite版本过低的问题,通过安装pysqlite3-binary包并重定向模块引用来兼容。最终成功实现了ChromaDB客户端的正常调用。这些解决方案为在Azure环境部署向量数据库应用提供了实用参考。

2025-10-31 18:40:42 255

原创 SnowPro Core Certification

《Snowflake跨版本功能对比与核心配置参数解析》摘要:本文系统梳理了Snowflake四大版本(Standard/Enterprise/BusinessCritical/VPS)在安全功能、数据回溯等关键功能的差异,重点对比了列级安全、时间旅行等企业级功能支持情况。同时详解了平台默认配置参数,包括查询缓存24小时、2天超时限制、10分钟自动挂起等核心机制,并补充了数据加载、任务调度等扩展功能要点,为SnowPro Core认证备考者提供清晰的技术参数参考。全文通过表格化对比呈现近20项关键指标差异,帮

2025-09-10 14:57:36 834

原创 Azure AI Search构建RAG的优化点

常用技能注意事项输入字段需为text类型。输出字段需在索引中定义为searchable或facetable。Skillset 的执行顺序影响最终结果,建议使用图形化界面或 JSON 明确配置。Azure AI Search 是一个高度可定制的搜索平台,适合构建从文档解析到语义问答的完整链路。明确索引 schema 与字段类型,避免后期重构。Skillset 配置应结合数据结构与业务目标,避免冗余处理。向量搜索与语义排序需结合 embedding 策略统一规划。

2025-09-01 12:01:19 621

原创 AI Deep Research 思维链简介

本文介绍了AI平台DeepResearch功能的两种实现方式:1)分类讨论法,通过将问题拆解为子问题并逐步完善答案,适用于学术报告撰写;2)Chain of RAG法,通过层层递进的追问完善知识库检索,适合事实查询。两种方法都采用思维链提示词模板,分别实现问题的分解细化与知识的迭代深化。

2025-08-19 14:33:55 1047

原创 Azure AI Search 探索总结

Azure AI Search 原名 Azure Cognitive Service,是Azure中用来给AI项目构建知识库的组件。比如并不是知识库的每一列都可以用来过滤、检索或group by,而是要根据实际情况配置。1. Azure AI Search Free-tier 只支持16MB以下的文档。3. Storage Blob里配置文件的元属性,AI Search也能自动读到。知识库本质和数据库很像,但是内部的存储结构和检索算法不一样。不支持自定义index结构,复杂场景还是要写代码导入。

2025-08-16 22:12:15 438

原创 Snowflake GenAI 即 Cortex 初识

本文介绍了在SNOWFLAKE平台检查Cortex功能权限的方法。要确认Cortex权限,可检查角色是否拥有CORTEX_USER权限,或直接尝试执行AI_COMPLETE函数测试。文章还指出Cortex本质是SNOWFLAKE数据库的schema,并提供了查看相关函数的SQL语句。文末标注了文档参考来源和查询日期(2025-07-28)。

2025-07-28 15:58:56 420

原创 Trulens 开发指南和踩坑记

摘要:Trulens是一个本地化开源的LLM追踪调试工具,提供可视化Dashboard(基于Streamlit),区别于LangSmith的云端方案。当前与LangChain存在兼容性问题(如仅支持字符串输出,字典格式报错)。2025年6月版本升级至1.5.2后API发生重大变化(如移除trulens_eval模块)。使用需配置Streamlit环境,通过TruChain记录运行链数据,TruSession启动Dashboard查看追踪结果,支持重置SQLite数据库。开发者需注意版本更新带来的适配挑战。

2025-06-27 15:35:41 404

原创 langchain 开发实战

我的开发环境是 windows + python3.8 langchain版本:# langchain 0.2.17# langchain-community 0.2.19# langchain-core 0.2.43# langchain-openai 0.1.25# langchain-text-splitters 0.2.4# langs

2025-06-20 20:52:26 426

原创 Windows安装Docker Desktop(WSL2模式)和Docker Pull网络问题解决

装完Docker Desktop以后,Docker Engine stopped状态。看日志(l路径:%LOCALAPPDATA%\Docker\)发现是WSL报错。

2025-04-12 10:33:31 1429

原创 机器学习的专业术语 和 各种技巧

专业术语Churn = 客户流失,退订 Accuracy = 模型预测的总体(阴性+阳性)的正确比率 Precision = 模型预测中,阳性的预测正确比率 ROC = 体现分类算法中不同阈值对分类效果的影响 Softmax = 神经网络中将输出转换成概率分布 Rectofoed linear units(ReLU) = 神经网络的激活函数 Area under the curve= 曲线下面积,ROC曲线中体现模型分类能力 Horovod = Distributed training f

2024-03-20 19:01:10 1207

原创 AWS Sagemaker详解

图片语义分析= Amazon SageMaker Ground Truth semantic segmentation labeling task。

2024-03-20 18:59:31 1631

原创 机器学习算法大全(MLS-C01)

将图像中的每个像素分配到特定的类别,需要大量训练。时序预测,效果比DeepAR差,适用于小数据集。Word embedding,NLP文章分类。利用已知样本,找最邻近的样本的分类算法。推荐算法,准确度更高,不会误打扰。多智能强化学习,比如处理交通问题。时序预测,适用于季节强相关的序列。回归RNN预测时序分布的模型。卷积神经网络,常用于图像领域。回归算法,常用于填补缺失值。基于CNN的物体识别算法。时序预测,适用于小数据集。CNN的一种,图像识别。循环神经网络,时序预测。主成分分析,常用于降维。

2024-03-18 18:09:55 440

原创 AWS中所有与数据科学有关的服务一览表(MLS-C01)

AWS中所有与数据科学有关的服务一览表(MLS-C01)

2024-03-18 16:39:55 824

原创 Python SDK 访问S3, Error(403) when calling the Heading Object Operation: forbidden

2. 检查桶的ACL设置,是否桶的ACL被配置成上传者所拥有。导致桶的AWS Account下的IAM User和Role无法访问来自其他AWS Account上传的文件。1. 检查桶加密配置,是否使用KMS加密桶。

2024-03-05 18:34:23 741

原创 AWS EC2使用 instance profile 访问S3

AWS EC2 instance可以使用instance profile 配置访问S3的权限。然后就可以直接在EC2上执行 python代码或者AWS CLI去访问S3了。唯一需要注意的地方是,申明region。

2023-12-04 17:46:07 1023

原创 AWS EC2 如何 使用 SSM会话管理器登陆

其次EC的instance role必须有一个叫“AmazonSSMManagedInstanceCore”的策略。首先只有特定版本的OS会默认附带SSM Agent。

2023-11-30 19:24:18 1469

原创 AWS IAM User assume IAM Role的示例代码

一段示例代码,如何用Python boto3先使用某个IAM User的AK SK登陆sts。最后执行某个具体操作,比如代码中的 上传文件到S3 bucket。然后继承某个IAM Role。

2023-09-26 19:31:36 2190

原创 https SSL证书使用 git bash 解密

下载下来的证书压缩包中, 后缀名为key的文件是加密的,密码就是你在上面图片对话框里的输入的密码。需要使用openssl解密。注意,由于使用git bash才会需要在前面加上“winpty”,正常版本openssl不需要。在使用时,比如在AWS ACM中使用时,不能用加密的证书。所以这里讲下怎么解密。填写密码,下载证书,并解压。首先,加密一般加密的是公私钥中的私钥,即private.key。这里使用git bash自带的openssl解密。申请域名证书后,有些证书下载时强制加密。cd到证书解压放置的目录。

2023-09-22 18:11:12 838

原创 AWS DynamoDB浅析

AWS DynamoDB是一个NOSQL数据库。可以通过IAM直接控制权限,和AWS其他服务连用非常方便。

2023-09-04 10:25:51 1760

原创 Redshift 新表 自动赋权

"grant all on all tables" 只会将已有的对象进行赋权。对于未来新建的对象,不会赋权。为了解决这个问题, Redshift 中有一个 "DEFAULT PRIVILEGES" 的概念。可以让新建的对象自动赋权给某个Role或User。中的所有Table对象的所有权限。

2023-08-08 10:17:21 439

原创 AWS Lambda timeout原因总结

AWS Lambda不能放在public subnet中。Lambda本身没有NAT能力,无法获取公网IP。所以Lambda必须置于 private subnet中。并且为其配置NAT Gateway并添加route。其次检查security group。

2023-04-07 18:25:18 1061

原创 AWS ALB ELB导出日志到S3 没权限错误

ELB ALB logs 日志

2023-03-13 19:25:57 1687

原创 AWS Sign-URL的过期时间设置

2. 在浏览器按F12进入源代码模式。在网络中找到名为creds的链接。点击creds,在Cookie中找到“aws-creds”,根据过期时间即可计算得知当前登陆链接的有效时间。如上链接, AWS支持自己写代码生成登陆链接( Sign-URL)来登陆的模式。每个登陆链接都有一个过期时间,最小15min,最大36hours。1. 打开链接登陆AWS Console。那么如何判断自己登陆链接的有效时间呢?在企业中这种方式比较常见。

2023-03-10 19:18:08 1212

原创 AWS Auto Scaling Group中的Instance如何重启

一般情况下Auto Scaling Group中的Instance如果重启,会被ASG的健康检查发现,导致ASG立刻新建新机器。把 Launch和Health Check暂时关闭,再去重启instance就OK啦,不用担心ASG多此一举啦。办法很多,一个最简单的办法就是暂时关闭ASG的Launch和Health Check。本文要讲的是在这种情况下,如何避免ASG新建新机器。(有的时候单纯想重启一下机器)

2023-03-03 18:56:24 830

原创 AWS CodeDeploy的疑难问题小记

76bdfdd2-91c7-4d88-84e0-6ebe4d25bfa6/d-6BTWU2CDK/”这部分每个人都不一样,不要照抄。如果appspec.yml中location的值是“a.sh”,那么CodeDeploy Agent就会去找一个全路径为。当指定runas的时候,CodeDeploy Agent会以runas的值作为用户,去执行脚本。CodeDeploy Agent执行location指定脚本的执行路径是根目录: /。具体source的配置文件,根据实际情况调整。

2023-01-16 12:33:40 1346

原创 网站开发跨域名iFrame嵌入之SameSite&CSRF

简而言之,就是这种攻击手段利用了iframe或其他一些技术,是A域名的网站能访问B域名的session和cookie,进而甚至于能让A域名的网站利用session和cookie中的信息伪装成用户向B域名发起请求。想象一下A域名是一个银行网站,那么B域名就能伪装成用户请求银行转账了。当SameSite等于Lax或Strict时,iframe中的不同域名的页面不会被允许访问session。最近使用Flask开发了一个网站的应用,要实现在iframe中嵌入一个来自不同域名的页面。

2023-01-10 22:18:13 1923

原创 AWS DAS认证考点整理(EMR QuickSight Lakeformation等)

AWS DAS认证考点整理(EMR QuickSight Lakeformation等)

2022-11-27 22:07:09 1487

原创 AWS DAS认证考点整理(Kinesis篇)

KDSKDS重复数据:1. Producer有网络延迟,2. Shards、Record Processors有增减。由于网络等不可抗力造成的KDS数据重复可以通过加入唯一码(Unique ID)来去重解决。

2022-11-27 22:02:07 1553

原创 AWS DAS认证考点整理(Redshift篇)

Copy命令优化手段: 压缩, 2. 对大文件进行分割,一次copy多个文件。(文件数对应slice个数)3. 使用temporary staging table(这种方法的本质利用table的drop和create代替delete, update,insert,因为后者是DML会触发事务。)

2022-11-27 21:51:57 1322

原创 AWS DAS认证考点整理(Athena&Glue篇)

AWS DAS认证考点整理(Athena&Glue篇)Athena查询隔离=Work Group, 可以control per-query data usage limit.Athena查询速度优化:1. 压缩 2. 列式存储 3. S3和Athena同一个RegionAthena查询成本优化:1.Partition by,2. 列式存储,3.合并小文件Athena partition快速生成or恢复=MSCK REPAIR TABLE,Athena使用hive style partition。

2022-11-17 12:09:35 1462

原创 AWS China Elastic Beanstalk 填坑记(Python Flask)

本文记述的事发生在2022年11月,环境是AWS China Region,不是AWS Gobal。 Elastic Beanstalk简称EB。尝试把一个Python Flask Web部署到Elastic Beanstalk上去,过程中发现了AWS无论是中国区还是全球区的文档和实际情况不符。具体情况:EB会把你上传代码放到EC2服务器上的 /var/app 路径下。

2022-11-04 21:33:16 1035

原创 Power BI 的 各种限制 和 DataFlow模式

当大量Dataset同时刷新时,会导致Gateway节点内存不足。可以使用PowerBI Data Flow对DataSet进行分段刷新来绕开这个问题。Direct Query不再有DataSet相关的限制,但是它有一个100万行的数据量查询限制。分页报表的交互性能比较差,且直连某些数据源(比如Redshift)时性能较差。

2022-09-05 16:24:37 2189

原创 SSAS 疑难杂症 解决过程小记

远程连不上:先从任务管理器里找到SSAS(MSOLAP)进程号或者运行命令行:tasklist | findstr msmdsrv.exe找出SSAS监听端口(7052是上面得到的进程号):netstat -ano | findstr 7052在windows防火墙里, 打开端口...

2022-09-05 15:54:45 523 1

原创 一个动力密集型产业的预算的数据分析建模过程

对于一个劳动力密集型产业来说,做预算判断未来的财月的运营成本,往往可以简化成下面这个公式:成本= 员工数目 * 人均开销其中人均开销包括薪资,培训费用和办公费用,这个些费用往往比较固定或者易于计算,可以视为定量.于是,剩下的变量就是员工数目又叫HeadCount. 预测成本的关键就在于预测员工数目.员工数目取决于工作量,比如售后行业都会对员工的工作进展通过一个软件记录追踪,

2022-09-05 15:52:39 485

原创 AWS Athena针对CSV文件切换SerDe Lib

这个引擎默认使用双引号所谓封闭符,逗号作为CSV的分隔符。不用配置任何Serde parameters就能用。但是如果CSV用双引号作为封闭符的话,这个引擎会把双引号当作数据的一部分,不能正确识别出封闭符。解决办法就是把一些可能是空的列,点击“Edit Schema”改成string类型。作为CSV文件的解析引擎。...

2022-08-16 11:29:16 732

原创 AWS RHRL8.3 安装Codedeploy Agent

研究了一天的ruby编译和安装,最后发现SSM安装一键搞定:

2022-06-19 21:54:50 405

原创 git merge 时忽略配置文件文件

日常开发时经常会遇到某些配置文件,不希望在branch merge时被包含在内。怎么处理?步骤如下:步骤一:定义一个虚拟的合并策略,全局配置不依赖任何项目任何分支git config --global merge.ours.driver true步骤二:在你项目中根目录(与.gitignore同级)添加一个配置文件.gitattributes注意这个".gitattributes"在必须要放到merge的目标branch中,而不是源branch。步骤三:在.gitattri

2022-05-15 14:42:55 2149 3

原创 Python打包Wheel包的傻瓜式一站教程

1. setup.py 文件示例:from setuptools import find_packagesfrom setuptools import setupsetup( name="name", author="xxxx", version="0.0.1", author_email="r@e.com", description="desc", long_description="long desc", license='Apache

2022-03-01 18:10:45 2929

原创 AWS Lambda 部署 Python (Lambda Layer)

AWS Lambda支持Python的多个版本作为runtime在Lambda上使用Python的常用问题:1. Python libraryAWS Lambda Runtime只支持原生的runtime,并没有预装任何library。在Lambda中引入library,利用 “pip install -t”, 将library安装到项目工程中。然后打成zip包上传。2. Handler在每个Python Lambda中,可以定义如下这个函数作为Lambda调用的Handler。

2022-03-01 10:20:35 4794

AWS Redshift Kinesis.zip

AWS Redshift & Kinesis Data Stream/MSK/Flink 开发教程文档

2022-01-16

CLOSET+ 算法简论

CLOSET+ 算法简论

2013-05-27

详解python实现FP-TREE进行关联规则挖掘

详解python实现FP-TREE进行关联规则挖掘 python3.2实现,可以生成每一步fp树的图片(需要安装PIL)

2013-05-26

python实现FP-TREE挖掘算法

python3.2实现FP-TREE挖掘算法,可以显示每一步FP树的图片

2013-05-24

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子 注意,请自行根据hbm.xml建立数据库,默认配置用的是mssql2005

2012-09-26

visual C#网络编程(郑阿奇编)同步通信程序的源代码

visual C#网络编程(郑阿奇编)同步通信程序的源代码

2012-05-14

visual C#网络编程(郑阿奇编)异步通信程序的源代码

visual C#网络编程(郑阿奇编)异步通信程序的源代码

2012-05-21

数据仓库pdf 合并版

数据仓库pdf 合并版 其他的版本是有多个pdf文件,一章一个,看起来不方便,做了合并成为一个pdf

2013-05-08

codesmith用的根据数据库生成NHibernate资源的模板

codesmith用的根据数据库生成NHibernate资源的模板

2012-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除