- 博客(80)
- 收藏
- 关注
原创 大模型管理工具:LLaMA-Factory
LLaMA-Factory 是一个开源的大语言模型(LLM)微调框架,旨在简化大规模模型的训练、微调和部署流程。它支持多种主流模型(如 LLaMA、Qwen、ChatGLM 等),提供命令行和可视化 WebUI 两种交互方式,并集成了 LoRA、QLoRA 等高效微调技术,显著降低了模型定制化的技术门槛。
2025-03-04 16:17:40
450
原创 Doris:垃圾数据管理
RemoteDataSize: remote storage(hdfs或对象存储)的数据量. 如果元数据类型是database, 该值包含了database下在回收站中的所有table和partition的remote storage数据量。DataSize: 数据量. 如果元数据类型是database, 该值包含了database下在回收站中的所有table和partition的数据量。be.conf 中的配置项会在 BE 进行启动时被读取。BE 重启后该配置将失效。
2024-12-27 15:41:15
1090
原创 PostgreSQL:pg_stat_statements
pg_stat_statements是 PostgreSQL 的一个扩展,它用于收集关于执行的 SQL 语句的统计信息。这可以帮助你分析查询性能,识别慢查询,并优化数据库。
2024-12-19 10:49:19
1436
原创 StarRocks:存算一体模式部署
StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协议,支持标准 SQL,用户可以轻松地通过 MySQL 客户端连接到 StarRocks 实时查询分析数据。同时 StarRocks 具备水平扩展,高可用、高可靠、易运维等特性。
2024-12-18 15:12:15
1893
原创 Flink:入门介绍
Apache Flink是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态计算。Flink 提供了数据分发以及并行化计算的能力,并且可以部署在各种集群环境中,如Hadoop YARN、Kubernetes或独立集群。。
2024-12-04 17:12:11
1412
原创 前端:nodejs简介
Node.js 是一个开源、跨平台的JavaScript运行环境,它允许开发者用JavaScript编写命令行工具和服务端应用程序。
2024-12-03 09:58:52
447
原创 Hadoop:单节点配置YARN
Hadoop YARN(Yet Another Resource Negotiator)是Hadoop的资源管理层,负责管理和分配集群中应用程序的资源。
2024-11-06 11:04:06
682
原创 大模型:JTokkit 分词
JTokkit 是一个专为 Java 开发者设计的高效文本分词库,主要适用于与 OpenAI 模型进行集成。它提供了一种简单易用的接口,使开发者能够轻松地对输入文本进行编码和解码,尤其是在准备向 GPT-3.5 等模型发送请求时。这个库的设计初衷是为了在 JVM 生态系统中实现类似 Python 中 tiktoken 库的功能。
2024-09-25 16:08:22
363
原创 Doris:数据库建表最佳实践
Doris 数据表模型上目前分为三类:DUPLICATE KEY, UNIQUE KEY, AGGREGATE KEY。因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。
2024-09-20 17:54:36
1830
原创 Doris:基于 Catalog 与 Job Scheduler 的数据自动同步
通过Job Scheduler 可与数据湖能力 Multi Catalog 配合,高效完成跨数据源的定期数据同步
2024-09-20 11:06:00
1195
原创 ClickHouse:单机安装
ClickHouse是由Yandex开源的一个高性能、面向列的SQL数据库管理系统(DBMS),用于在线分析处理(OLAP)。它既可作为开源软件单独部署,也可作为云服务提供。
2024-08-06 15:28:02
881
原创 FoundationDB基本使用
FoundationDB是一个分布式数据库,设计用于在大量普通服务器组成的集群上处理大规模的结构化数据。它将数据组织为有序的键值存储,并对所有操作采用ACID事务来确保数据的完整性。
2024-07-24 17:02:44
1655
原创 Linux:Supervisor进程管理
Supervisor是一个开源的进程管理工具,主要用于在类Unix系统(包括Linux和macOS等)上监控和管理长时间运行的进程(守护进程)。Supervisor通过一个简易的INI风格的配置文件提供了诸多针对单个进程的选项进行配置,比如自动重启失败的进程和自动日志轮转。同时,Supervisor还提供本地或远程的命令行和Web界面来启动、停止和监控进程。
2024-07-18 15:02:09
1549
原创 PostgreSQL主从同步
PostgreSQL的主从同步主要基于其预写日志(Write-Ahead Log, WAL)机制和流复制(Streaming Replication)功能来实现数据的高可用性和一致性。
2024-07-02 16:08:32
2873
1
原创 PostgreSQL分区表
分区表是一种数据库优化技术,它允许将一个大表逻辑上划分为多个较小的、可管理的部分,这些部分被称为分区或子表。分区表在物理上是分开存储的,但在逻辑上仍作为一个整体呈现给用户。这一特性特别适用于处理大量数据的场景,旨在提高查询性能、管理和维护大数据集的效率。
2024-06-29 16:18:58
3193
原创 Doris:倒排索引
倒排索引,是信息检索领域常用的索引技术,将文本分成一个个词,构建 词 -> 文档编号 的索引,可以快速查找一个词在哪些文档出现。从 2.0.0 版本开始,Doris 支持倒排索引,可以用来进行文本类型的全文检索、普通数值日期类型的等值范围查询,快速从海量数据中过滤出满足条件的行。
2024-06-28 15:57:16
1844
原创 Docker:Harbor基本使用
Docker Harbor 是由 VMware 公司开源的一款企业级的 Docker Registry 项目,旨在为用户提供一个便捷的方式来搭建和管理私有 Docker 镜像仓库。
2024-06-17 17:13:28
876
原创 大模型:文本分割模型
BERT文本分割-中文-通用领域(nlp_bert_document-segmentation_chinese-base),该模型基于wiki-zh公开语料训练,对未分割的长文本进行段落分割。提升未分割文本的可读性以及下游NLP任务的性能。
2024-06-13 00:01:55
3413
1
原创 Doris:跨集群数据同步(CCR)
CCR(Cross Cluster Replication) 是跨级群数据同步,能够在库/表级别将源集群的数据变更同步到目标集群,可用于在线服务的数据可用性、隔离在离线负载、建设两地三中心。CCR 通常被用于容灾备份、读写分离、集团与公司间数据传输和隔离升级等场景。
2024-06-08 16:52:09
1364
原创 阿里通义千问:本地部署Qwen1.5开源大模型
通义千问为阿里云研发的大语言系列模型。千问模型基于Transformer架构,在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在预训练模型的基础之上,使用对齐机制打造了模型的chat版本。
2024-06-06 23:07:44
7192
原创 OceanBase:列存储
OceanBase 4.3 版本基于LSM-Tree 架构基础进行扩展,正式推出列存引擎,在一个架构、一个数据库上,实现了列存和行存数据存储一体化,兼顾 TP 和 AP 查询性能。
2024-05-28 19:06:05
1818
原创 大模型框架:vLLM
vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」,提供易用、快速、便宜的LLM服务。
2024-05-24 16:56:07
11713
1
原创 大模型管理工具:Ollama
Ollama 是一个基于 Go 语言开发的可以本地运行大模型的开源框架,同时提供 REST API 管理和使用大模型。
2024-05-13 20:53:58
3252
1
原创 大模型管理工具:SWIFT
SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是魔搭ModelScope开源社区推出的一套完整的轻量级训练、推理、评估和部署工具,支持200+大模型、15+多模态大模型以及10+轻量化Tuners,让AI爱好者能够使用自己的消费级显卡玩转大模型和AIGC。
2024-05-13 20:53:41
6743
2
原创 向量数据库:Chroma
Chroma是一个开源的嵌入式数据库。Chroma通过使知识(knowledge)、事实(facts)和技能(skills)可插拔,从而简化了大型语言模型(LLM)应用程序的构建。
2024-05-11 09:55:25
5203
1
原创 智谱AI通用大模型:本地部署ChatGLM3-6B开源大模型
ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。
2024-04-23 17:16:59
5232
原创 Python 环境管理工具:Conda
Conda 是一个开源的跨平台包管理器和环境管理系统,主要用于 Python 和 R 等数据科学与机器学习相关的编程语言环境。它是由 Anaconda 分发版提供的,但也可以独立安装。
2024-04-23 09:13:16
15848
3
原创 百度文心一言:官方开放API开发基础
文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,其基础是文心大模型。文心大模型基于大规模训练数据进行预训练,结合有监督精调、人类反馈的强化学习、Prompt 机制,构建生成式人工智能大模型,具备知识增强、检索增强和对话增强的技术特色。
2024-04-18 10:55:01
4240
原创 阿里通义千问:官方开放API开发基础
通义千问是由阿里云自主研发的大语言模型,用于理解和分析用户输入的自然语言,在不同领域、任务内为用户提供服务和帮助。您可以通过提供尽可能清晰详细的指令,来获取符合您预期的结果。
2024-04-17 00:29:57
11163
4
原创 智谱AI通用大模型:官方开放API开发基础
GLM-4是智谱AI发布了新一代基座大模型,整体性能相比GLM3提升60%,支持128K上下文,可根据用户意图自主理解和规划复杂指令、完成复杂任务。
2024-04-17 00:29:42
2350
原创 Apache MINA SSHD
Apache MINA SSHD(Secure Shell Daemon)是基于Apache MINA(Multipurpose Infrastructure for Network Applications)开发的一个开源的Java库,专门用于提供SSH(Secure Shell)服务。
2024-04-09 21:12:50
1679
1
原创 计算机系统结构(02325)
计算机系统=硬件/固件+软件。从使用语言的角度,一台软、硬件组成的通用计算机系统可以被看成是按功能规划的多层机器组成的层次结构。
2024-03-28 20:19:04
2858
原创 openGauss:极简版安装
openGauss是一款支持SQL2003标准语法,支持主备部署的高可用分布式数据库系统,业务数据存储在单个物理节点上,数据访问任务被推送到服务节点执行,通过服务器的高并发,实现对数据处理的快速响应。同时通过日志复制可以把数据复制到备机,提供数据的高可靠和读扩展。
2023-12-20 16:17:26
3021
2
原创 Spark-03: Spark SQL 基础编程
Spark SQL是Apache Spark的一个模块,用于处理结构化数据。它提供了两种编程抽象:DataFrame和DataSet,并作为分布式SQL查询引擎。
2023-12-05 10:19:30
790
广西壮族自治区自然灾害应急能力提升工程预警指挥项目-数据治理系统和现场应急感知技术装备采购需求
2024-06-05
北海市数据治理项目软件开发及服务
2023-10-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人