- 博客(117)
- 资源 (1)
- 收藏
- 关注
原创 基于Python 和 DeepSeek API 实现文本分类
本文介绍使用 Python 结合 DeepSeek API 实现文本分类的技术博客。先阐述代码实现文本分类的功能,包括创建 DeepSeek 类、classifier 函数及 main 函数的运作。详细分析代码各部分,还探讨利用大模型进行文本分类,对比传统方法在特征工程、数据需求等方面的差异,总结该方法简单易用,却需注意 API 费用与提示优化。
2025-03-05 17:21:42
1062
原创 Milvus 数据批量导入实战:Python代码解析
在数据安全要求高或网络受限的离线场景下,如金融、科研机构内部,常需进行安全的数据迁移。本文介绍用 Python 向 Milvus 数据库批量导入数据的方法。通过导入sys等库,解析命令行参数获取关键信息,定义函数将数据列表转为DataFrame后插入集合。为使用者提供了在离线及其他场景下,利用 Python 和 Milvus 实现高效数据存储与管理的实用指导。
2025-03-05 15:46:53
1029
原创 Milvus 数据批量导出实战:Python 代码解析
由于 Milvus 在单次查询中所能返回的数据量存在固有约束,当处理数据量庞大的 Collection 时,需采用多次查询的策略。本文详细阐述了如何运用多次查询的方式,将 Milvus 中的数据进行分批导出,以有效应对数据量过大带来的挑战 。
2025-03-04 16:50:56
612
原创 ElasticSearch dense_vector向量查询-Java实现
本文介绍如何使用ElasticSearch的Java High Level API执行向量查询,向量类型为dense_vector。
2023-05-31 19:53:50
2163
原创 ElasticSearch dense_vector向量写入-Java实现
本文介绍了如何使用Java High level API 完成dense_vector类型向量的写入,内容包含了单个文档的索引和批量文档的索引。
2023-05-31 19:30:36
1355
原创 SeaweedFS学习笔记:服务自启动
SeaweedFS官方仅提供了一个可以执行的weed程序包, 如果希望实现SeaweedFS相关服务在主机启动的时候跟随启动的话,则需要做额外的配置。SeaweedFS相关服务的自启动在Linux可通过systemd来实现。
2023-05-17 22:00:00
1278
原创 SeaweedFS学习笔记:Volume 管理
本文介绍了SeaweedFS Volume的修复和重平衡,以及如何通过脚本的方式定时执行修复和重平衡的操作
2023-05-11 07:00:00
1506
原创 SeaweedFS学习笔记:Replication(复制)
在SeaweedFS中, 所有写入请求都是强一致性的,所有的副本写成功才算成功。只要有其中一个副本写失败,则正写入请求都是失败的。这使得读请求非常的快。SeaweedFS的存储层可以支持Replication,但不是以文件为粒度,而是以Volume为粒度来进行。x,y,z的取值可以为0,1,2。每一种复制类型会产生的volume副本数是 x+y+z+1。修改完之后,与复制类型不匹配的volume会变成只读的状态,执行。命令可使这些volume的副本数与复制类型一致。: 指定datacenter。
2023-05-09 08:00:00
959
原创 SeaweedFS学习笔记:Filer服务,目录与文件
本文介绍了SeaweedFS Filer服务基本用法,启动命令,读写流程,Filer Store以及数据加密
2023-05-08 19:00:00
2774
原创 Apache Doris 系列: 自动分桶(Auto Bucket)
本来介绍了分桶不规范,分桶数过多和过少带来的问题;分桶数规范的建议;以及自动分桶功能的使用。
2023-03-29 15:59:05
1028
原创 Apache DophinScheduler 定时调度Python脚本
本文通过定时调度Python的例子演示了Apache DophinScheduler 的基本操作:* 创建租户* 指定用户的租户* 创建Python环境* 创建项目* 创建工作流* 上线项目* 设置调度时间* 上线定时管理* 查看日志
2023-03-20 16:51:11
892
原创 Apache DophinScheduler Standalone(单机)模式部署
本文介绍Apache DolpinScheduler Standalone 的部署流程Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG)流式方式组装任务,可以及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。
2023-03-17 17:45:13
1865
原创 Flink SQL 性能优化记录
在处理流式数据时, Flink SQL的ROW_NUMBER,Group by等操作会产生大量的回撤数据,对下游的算子产生巨大的压力,下游算子处理不过来便会产生反压,造成延迟。如下图,前面两个SQL算子产生的回撤流,给下游的KeyedProcess和Sink算子带来的巨大的压力。
2023-03-13 15:00:49
985
原创 Flink SQL UDF自定义函数collect_list实现及其泛型化
Flink SQL1.10 没有collect_list函数,可以通过自定义函数的方式实现。文章最后介绍自定义函数的泛型化。
2023-02-23 18:49:13
1347
原创 Flink SQL使用Row_number去重是否会导致状态无限增长
在Flink SQL中使用ROW_NUMBER去重是一个比较常见的场景,那么这种去重方式是否把所有的历史数据都缓存在状态中导致状态无限增长?Flink SQL使用Row_number去重时,状态中只会保留最新的1或者n条数据,单个主键的状态不会无限增长。观察一段时间, 发现状态的大小稳定在186KB, 不再增长。状态只保留了最新的2000条数据。接下来,通过以下实验观察状态的增长来解答以上的问题。
2023-02-23 17:02:44
1203
1
原创 Apache Doris 系列:Bucket(分桶)数量设置建议
Apache Doris集群上线运行一段时间后,随着越来越多的数据增长,集群每次重启后一周左右,读写就会开始变得越来越慢,直到无法正常进行读写。注:表的数据量可以通过 SHOW DATA。命令查看,结果除以副本数,即表的数据量。
2023-02-09 10:26:46
2526
原创 Flink官方例子解析:带窗口的WordCount
本篇介绍的是带窗口的WordCount,使用窗口函数countWindow。countWindow是一种计数窗口,有固定窗口和滑动窗口两种用法。学习更多Flink的相关知识。
2023-02-01 18:11:02
584
原创 Flink官方例子解析:WordCount
今天介绍的是官方子项目flink-examples-streaming里面的WordCount例子。WordCount ,中文:单词统计,是大数据计算常用的例子。
2023-01-31 17:40:39
2037
原创 Flink官方例子解析:工具类CLI
CLI(org.apache.flink.streaming.examples.wordcount.util.CLI) 这个工具类在官方的大多数例子中都会使用到, 因此本文先对这个类进行介绍。这个类比较简单,主要用于封装传入的参数,如–input, --output。
2023-01-30 16:10:32
417
原创 Apache Doris 系列: 基础篇-使用BitMap函数精准去重(2)
Apache Doris 原有的BitMap函数虽然比较通用, 但在亿级别的BitMap大基数并交计算性能较差,解决方案:将bitmap列的值按照范围划分,不同范围的值存储在不同的bucket上,确保在不同bucket的bitmap值是正交的。在查询的时候,先对不同bucket的bitmap值完成聚合计算,上层的FE节点只需合并聚合过的数据并输出即可。如此会极大的改善计算效率,和解决FE节点成为计算瓶颈的问题。
2023-01-28 16:55:40
2070
原创 Apache Doris 系列: 基础篇-BitMap索引
本文基于SSB测试数据创建BitMap索引,对比索引创建前后的性能,并给出使用的建议
2023-01-13 16:15:05
1770
原创 Apache Doris 系列: 基础篇-单独更新一列
本文举例说明Apache Doris如何实现单独更新一列,数据表使用 Aggregate 聚合模型。需要更新的字段使用关键字REPLACE_IF_NOT_NULL。
2023-01-10 15:59:03
2363
3
原创 使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris
使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris, Apache Doris使用唯一模型,实现更新/删除操作
2023-01-07 14:11:48
1898
1
原创 Apache Doris 系列: 基础篇-Flink SQL写入Doris
本文介绍 Flink SQL如何流式写入 Apache Doris
2022-09-22 22:38:35
5300
7
原创 Apache Doris 系列: 基础篇-Flink DataStream 读写Doris
本来介绍Flink Doris connector 通过 DataStream API 读写 Apache Doris
2022-09-18 19:13:41
3408
1
原创 Apache Doris 系列: 基础篇-Routine Load
Routine Load 支持用户提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 Doris 中。目前仅支持通过无认证或者 SSL 认证方式,从 Kakfa 导入 CSV 或 Json 格式的数据。接下来通过一个案例介绍 Routine Load 的使用。部署单节点Kafka准备测试数据并导入kafka导入数据到 Doris。
2022-09-17 17:40:30
2249
小文件存储SeaweedFS技术指南
2023-05-06
大数据Spark面试题汇总
2023-04-12
SeaweedFS 架构说明文档 英文版
2023-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人