- 博客(34)
- 资源 (8)
- 收藏
- 关注
原创 向量数据库Milvus简单介绍
传统的数据库(如MySQL)擅长处理结构化的数值和文本,通过精确匹配(如)或范围查询来检索数据。而向量数据库是专门设计用于存储、索引和检索向量的数据库。向量:本质上是一长串数字,例如。在AI领域,非结构化数据(如图片、文本、音频、视频)通过深度学习模型(如BERT、ResNet)被转换为高维向量(也称为“嵌入”)。向量的意义:这个向量代表了原始数据的“语义”或“特征”。语义相近的数据,其向量在空间中的距离也更近。Milvus是全球最流行的开源向量数据库之一。
2025-11-21 10:45:26
932
原创 Flink 2.x 独立集群(Standalone) 的部署
Apache Flink 2.x 独立集群(Standalone Cluster) 的部署
2025-09-22 10:40:42
612
原创 AI大模型的研发流程
明确目标与范围你要解决什么问题?(例如:通用对话、代码生成、生物医学文献理解、金融报告分析)目标用户是谁?(开发者、普通消费者、特定行业专家)资源预算是多少?(这是最重要的约束条件,决定了模型的规模)明确的目标可以帮助你决定模型规模、数据构成和训练策略。知识储备机器学习基础: 深度学习、梯度下降、损失函数、过拟合等。核心技术: 掌握Transformer 架构(特别是Decoder-only模型,如GPT),这是当前大模型的基础。
2025-09-15 10:03:49
882
原创 基于 Apache Doris 的用户画像数据模型设计方案
blood_pressure_high` SMALLINT REPLACE_IF_NOT_NULL, -- 替换式聚合。`is_high_blood_pressure` BOOLEAN REPLACE, -- 是否高血压,根据指标计算得出。:支持按时间分区,便于数据管理(如淘汰旧数据)和查询时剪枝。
2025-09-11 15:40:14
1208
原创 Elasticsearch 8 中 Nested 数据类型的使用方法
Elasticsearch 8 中 Nested 数据类型的使用方法,包括完整的示例和最佳实践
2025-09-04 13:16:25
642
原创 数据建模案例
这是最常用的粒度,能同时满足订单分析和商品销售分析的需求。WHERE c.city = '北京' AND c.member_level = '黄金会员'这种设计能够支持大多数交易分析场景,包括销售分析、客户行为分析、商品绩效分析、门店运营分析等。这是数据仓库中最重要的维度之一,用于按时间进行切片和切块分析。,将订单级别的属性从事实表中分离出来,减少事实表冗余。该模型以一个中心事实表为核心,周围连接多个维度表。这是星型模型的核心,存储可度量的业务数据。:可以轻松添加新的维度属性或新的维度表。
2025-08-27 11:30:12
686
原创 大数据建模思路
在构建大数据模型的过程中,首先需要进行数据采集,这是收集大量数据的基础步骤,包括从各种来源获取信息,如数据库、网络日志或传感器数据。然后,对收集的数据进行清洗和预处理,去除无效或错误的数据,确保数据的质量。在这个过程中,可能需要进行特征工程,例如创建新的特征或转换现有的特征,以更好地反映数据的真实情况。模型选择是关键步骤之一,根据数据集的特点,选择合适的模型类型,比如线性回归、决策树或神经网络等。每种模型都有其适用场景和局限性,因此,需要综合考虑数据的性质以及建模目标,做出最合适的选择。
2024-11-26 11:32:37
477
原创 大数据模型建模构建思路
特征提取需要从海量、多维的数据资源中提取能够描述分析对象的信息,通常将这些特征组织成向量或矩阵形式。数据清洗旨在去除数据中的噪声和不一致性,确保数据的准确性。训练阶段是根据已知的结果进行学习,建立模型的过程。模型的选择和调优需要根据具体问题来决定,以保证模型的准确性和泛化能力。:模型训练完成后,需要进行评估,确保模型的准确性和可靠性。:在大模型应用中,选择一款合适的基座模型非常关键。是一个优秀的开源基座模型,它在不同数据集上测评中表现优异,并且支持多轮对话、工具调用等复杂场景。
2024-11-21 16:22:33
965
原创 elasticsearch和mongodb命令对比
更新文档:db.my_collection.updateOne({_id: ObjectId("1")}, {$set: {name: "Jane"}})删除文档:db.my_collection.deleteOne({_id: ObjectId("1")})获取文档:db.my_collection.findOne({_id: ObjectId("1")})搜索文档:db.my_collection.find({name: "John"})删除文档:DELETE /my_index/_doc/1。
2024-06-20 10:57:46
494
原创 mysql 存储过程 多个BEGIN
如果你的意图是在逻辑上将存储过程的不同部分划分为多个事务,你应该重新考虑你的逻辑是否真的需要这样做。通常,一个事务应该包含完成一个完整工作单元所需的所有操作。语句,它们实际上会创建多个事务边界,这可能会导致一些意想不到的副作用,例如数据一致性问题或性能问题。通常情况下,你只需要一个。如果你的确需要在存储过程中使用多个事务,你应该确保每个事务都有对应的。在MySQL中,如果你在一个存储过程中使用了多个。语句来开始一个事务。
2024-05-17 15:09:34
507
原创 一个简单的hadoop mr例子
一、建立Maven工程pom.xml文件的 dependencies内加入 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId>.
2022-04-19 17:06:05
364
原创 一个简单的微服务拓扑图
由于项目突发,时间急迫,初步构建了一个基于微服务的平台架构,涉及到了springcloud和alibaba的一些技术框架,因为新启盘,先弄个简单点的吧。就一个visio,图画的实在是有点糙啊,好在意思表达清楚了!!项目结构(一)拓扑图(二)服务器清单(三)好久没有搭建架构了,算是小试牛刀一把。...
2022-01-11 09:37:27
4784
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅