- 博客(36)
- 收藏
- 关注
原创 20250412 机器学习ML -(3)数据降维(scikitlearn)
数学小白一枚,看推理过程需要很多时间。好在有大神们源码和DS帮忙,教程里的推理过程才能勉强拼凑一二。* 留意: 推导过程中X都是向量组表达: shape(feature, sample_n);和numpy中的默认矩阵正好相反。
2025-04-12 23:49:54
207
原创 20250409-大数据-python数据处理平台/接口平台(DFF)
AI智能体(工作流/多智能体)都以来大量的工具才能高效完成计算密集及结果确定的任务。知名的notebook/jupyterlab是不错的选择。这里有个综合能力强且开源的python在线开发部署一体平台DataFlux-Func,同时具有python微服务开发/部署,定时任务调度,可弹性扩容,安全鉴权,虚拟路径等生产级能力,可以作为接口平台/数据处理平台,满足小规模的产品应用需求。开源。
2025-04-09 10:12:59
692
原创 20250330 Pyflink with Paimon
python -m pip install apache-flink==1.20.1启动成功:Paimon的本地数据文件:1. Flink2.0 + Paimon//没有配套的Paimon库,会报Sink不匹配异常。
2025-03-23 22:01:36
366
原创 20250319-Ragflow智能体框架实验
总结Ragflow智能体工作流:- 主要还是基于RAG的智能体。(思维协议:COT,PlanAndExec 等;CodeInterpretor等;自定义函数让agent自己决定调用工具,这些暂时没有)- Agent的一些模式可以通过ragflow的流程0代码实现。模型:- 本地的deepseek不稳定。满血API版验证结果较好。数据无机密:直接用API。有机密:用coder模型。
2025-03-19 20:51:40
705
原创 20250315-OpenAI-AgentSDK实验
凑热闹。可以用GLM跑。这里暂时用GLM底座“魔鬼修改”,代码库仅供参考(共同进步吧)openai-agents-python-glm: 基于GLM底座运行SDK,学习实验SDK内的mAGT功能。
2025-03-15 12:49:05
965
原创 202250311-WINDOWS本地4G显存Docker运行vLLM
需要去huggingface注册账号获取token:HUGGING_FACE_HUB_TOKEN。*显存不足,可以通过参数减少最大上下文并采用量化版本。
2025-03-11 20:33:54
459
原创 20241231 机器学习ML -(2)KNN(scikitlearn)
递推创建Tree;当前维度找中位数分割 数据集 left set,Node(mid), right set.* 循环维度(当log(Nsample)>featureSize)
2024-12-31 22:13:16
624
原创 20241230 基础数学-线性代数-(2)线性方程求解(numpy, scipy,scikitlearn)
线性代数理论及证明过程请参考教材。* 练习代码的实现很粗(极度简化,甚至在某些条件下错误的),目的是帮助自己(AI幼儿园水平)练习,验证,理解理论。* 开源库scipy/scikit-lean的实现是严谨非常强大的,同时API使用起来非常简单。
2024-12-07 21:40:36
56
原创 202410/202501 基础数学-线程代数-(0)(numpy.linealg.*实验)
由于(sparkx&flink)图的SVD++推荐算法,GNN转换,ML中的ASL,都涉及到了矩阵的计算。1. 当且仅当无向图是连通的时候,拉普拉斯矩阵才是非奇异矩阵。所以“三角形”图的L矩阵是非奇异,应该有逆矩阵。叉积,corss(vec_a,vecb)/|vec_a,veb_b| = sin(theta)?dot 主要用来计算vector(of the same size)内积。//2.为什么不直接算矩阵内积?ALS分别解出U的特征向量和I的特征向量;//很灵活(用的时候需要很小心参数类型)
2024-10-14 21:35:51
548
原创 20241001 大数据流式计算 - SPRAK3.5与FLINK1.20 (实践)
两款流行的大数据计算引擎都在流批计算方面不断进化;看来流批一体是趋势。两者都将SQL发挥的淋漓精致,开发效率将来必然会有更大的提升。
2024-09-27 23:47:38
259
原创 20240901 大数据流式计算 - SPRAK3.5与FLINK1.19(入门)
sourceflink SQLsourceflink SQLsourcesourceN/AsinkfileappendsinkkafkaAppend,基于SQL语义自动判断:1. 当simple source to sink ETL, append mode, 可以写KAFKA2. 当agg, 有update语义,可以写upsert-kafkasinkredis sink支持A,U,C;但需要通过foreach自定义实现(间接调用普通的df.write)
2024-09-01 00:50:55
1172
原创 20240803 大数据批处理- SPARK3.5-Pyspark环境安装配置及正确启动
3. 遇到【错误记录】Python 中使用 PySpark 数据计算报错 ( SparkException: Python worker failed to connect back. )运行3.12后, dataframe创建失败, python与java直接的序列化反序列化错误.1. 打开任务就basic.py, IDEA 会提示安装pythonSDK。打开project配置,模块下创建Python 3.10执行环境。2. 工作目录设置为project根目录,否则找不到resources下的数据文件.
2024-08-03 21:30:18
433
原创 20240801 大数据批处理-SPRAK3.5(高效率)
通过API方式可以灵活的实现业务需求,复用现有代码,搭建自定义的应用框架,有其不可替代的应用场景。在API的基础上,日常的简单的业务需求应该通过更加高效的方式实现, SPARK SQL。(*各大厂商通过SQL已经成功改变了大数据的开发范式)
2024-08-02 22:37:27
1013
原创 20240801 大数据SCALA语言
ClassCase classobjectclassClassClass*不一定有Class*不一定有Class通过Implicit 实现CLASS继承多个类(JAVA只能继承1个类)测试代码运行结果:(a,hw)(a,hw)(a,hw)
2024-08-02 20:46:13
413
原创 20240801 大数据批处理-SPRAK3.5 (API)
df1.show()ds1.show()list += p})})ds3.show()
2024-08-02 00:25:07
297
原创 【四阶魔方】基于Transformer的大语言模型+智能体
2023年被认为是AI元年(也许有不同的意见)。无论如何,AI的影响力已经扩大到了普通人的生活中,而且也许在不久的将来会迎来更多的突破。若干年后,回首今天,也许Transformer的大语言模型算法,框架,模型,智能体都将成为“经典”,共孩子们娱乐,成为他们(她们)的四阶魔方。
2024-06-30 00:04:18
240
原创 【三阶魔方】深度学习+深度强化学习
2023年被认为是AI元年(也许有不同的意见)。无论如何,AI的影响力已经扩大到了普通人的生活中,而且也许在不久的将来会迎来更多的突破。若干年后,回首今天,也许深度学习算法,框架,模型都将成为“经典”,共孩子们娱乐,成为他们(她们)的三阶魔方。
2024-06-29 23:57:07
235
原创 【二阶魔方】ML+RL
2023年被认为是AI元年(也许有不同的意见)。无论如何,AI的影响力已经扩大到了普通人的生活中,而且也许在不久的将来会迎来更多的突破。若干年后,回首今天,也许这些算法,框架,模型都将成为“经典”,共孩子们娱乐,成为他们(她们)的二阶魔方。
2024-06-29 23:47:03
298
原创 20240901 大数据流式计算 -FLINK1.19(时序信号转事件场景)
对于时序信号数据(常见的IOT信号数据,比如最简单的:有无序列 000011110001010101 );需要将乱序有延时的信号,转换为时序按一定业务pattern识别后的有意义的(一段段不同状态的开始到结束范围)。并将事件结果同时向Mysql和redis输出(也可以是其他sink connector)。
2024-03-31 18:32:54
432
原创 在IDEA 中直接运行spark任务,需要勾选 Add dependencies with “provided“ scope to classpath.
在IDEA 中直接运行spark任务,需要勾选 Add dependencies with "provided" scope to classpath.
2024-01-12 23:06:40
1252
原创 Openssl+Python脚本获得本地证书的到期日期
Openssl+Python脚本获得本地证书的到期日期from datakit_framework import DataKitFrameworkimport psutilimport reimport osimport timefrom datetime import datetimeclass ReadCertAndReport(DataKitFramework): __name = 'ReadCertAndReport' interval = 3600 # trigg
2022-03-23 22:05:09
1424
原创 MySQL特殊字符过滤替换
MySQL特殊字符过滤替换打印特殊字符/ 简单转换 /* MYSQL 特殊字符*/ select '中', HEX('中'), substring('中',1,1) , char_length('中'), length('中'), char(0xE4B8AD using utf8mb4) union all select '????', HEX('????'), substring('????',1,1) , char_length('????'), length('????'), cha
2021-11-22 11:12:13
932
原创 Git Daily Command
Git Daily Commandgit clone URI //download the repository from server into current foldergit init --bare //initialize local folder as a new Git Repository, --bare: without working tree--------...
2020-03-11 14:58:37
147
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人