- 博客(18)
- 收藏
- 关注
原创 DEEPSEEK本地化安装
在软件设置中的 LLM首选项 界面,选择提供商为 Ollama,在 Ollama Model 中选择前面下载的 DeepSeek-R1 系列模型,点击 Save changes 保存更改。在 代理配置 界面,将 工作区代理LLM提供商 选择为 Ollama,将 工作区代理模型 选择为 deepseek-r1,点击 Update workspace agent 更新工作区代理。打开新的CMD窗口,输入命令并按回车键,下载nomic-embed-text嵌入式模型(此模型将在后续数据投喂中使用)。
2025-03-04 14:50:08
582
原创 kafka小白基础知识
Kafka 是一个开源的分布式流处理平台,最初由 LinkedIn 开发,后来贡献给了 Apache 软件基金会。它被设计用于处理实时数据流,具有高吞吐量、可扩展性、持久性和容错性等特点。Kafka 主要用于构建实时数据管道和流式应用程序,如日志收集、消息系统、事件驱动架构等。
2025-02-24 10:27:08
1820
原创 Prometheus 和 Grafana:功能、部署搭建、使用全解析
Prometheus 是一款开源的系统监控和告警工具包,由 SoundCloud 开发,后成为独立开源项目并加入 CNCF。它以其强大的多维数据模型、灵活的查询语言等特性,广泛应用于云原生环境、微服务架构以及传统应用监控等场景。Grafana 是一个开源的可视化和分析平台,支持与多种数据源集成,能将数据以直观的图表、仪表盘等形式展示出来,帮助用户更好地理解和分析数据。
2025-02-22 07:45:00
1011
原创 国产化数据库选型比较
高度兼容 ANSI SQL 标准,支持 Oracle SQL 语法和功能。兼容 ANSI SQL 标准,对 Oracle SQL 语法兼容性高。有可视化运维工具,支持自动化部署、监控和调优,社区支持丰富。分布式架构,支持分布式事务和数据分片,能自动均衡和恢复故障。分布式架构,计算与存储分离,支持多副本冗余和自动故障转移。自动化运维工具和可视化监控平台,支持实时监控和智能诊断。多模存储架构,支持行、列存储,有智能查询优化器。高度兼容 SQL 标准,扩展 ANSI SQL。
2025-02-21 10:24:50
561
原创 一文说清数据库选型
为助力您在数据库选型的迷宫中找到方向,本文全面对比各类主流数据库的优缺点,从传统的关系型数据库到新兴的非关系型数据库,从数据存储到数据处理,从事务支持到扩展性,全方位解析每种数据库的特性,旨在一文说清各种数据库的优缺点,为您的选型决策提供坚实可靠的依据。传统 Hive 对 ACID 支持有限,不过从 Hive 2.0 开始引入了对 ACID 事务的支持,通过使用不同的存储格式(如 ORC)和事务管理机制,可在一定程度上满足 ACID 特性,但性能和功能与传统关系型数据库的 ACID 支持仍有差距。
2025-02-21 07:00:00
611
原创 MySQL 面试总结
经历了一场面试,虽然在过往的经验中,一直在处理MySQL出现的各种问题和各种优化,但对于MySQL的相关知识一直没有进行系统的学习,暴漏了对于底层逻辑的认知浅和基础知识的薄弱,汇总了一下基础知识内存,特供后续学习和参考。
2025-02-20 10:56:46
921
原创 zookeeper从入门到精通
ZooKeeper 是一个开源的分布式协调服务,由雅虎创建,后成为 Apache 的顶级项目。它为分布式应用提供了高效、可靠的协调服务,例如统一命名服务、配置管理、分布式锁、集群管理等。ZooKeeper 的数据模型类似文件系统,以树形结构存储数据,每个节点称为 Znode,每个 Znode 可以存储数据和子节点。
2025-02-20 08:30:00
1549
原创 深入浅出数据中台:概念、架构与应用
数据中台是一套可持续 “让企业的数据用起来” 的机制,是一种战略选择和组织形式。它借助数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,形成大数据资产,并提供服务化的数据接口,以满足前台应用和业务创新的需求。简单来说,数据中台就像是企业的数据 “中央厨房”,将各类数据原材料进行清洗、切配、加工,制作成一道道 “数据菜肴”,供前台业务部门随时取用。数据中台架构通常由数据采集层、数据存储与计算层、数据处理与建模层、数据服务层、数据治理层以及数据安全保障体系构成。
2025-02-19 10:53:48
1118
原创 Spark SQL 使用及进阶详解
Spark SQL 是 Apache Spark 中的一个模块,它提供了一种统一的方式来处理结构化和半结构化数据。Spark SQL 允许用户使用 SQL 语句或者编程接口(如 Scala、Java、Python 和 R)来查询数据,同时支持多种数据源,包括 Hive 表、JSON 文件、Parquet 文件等。它将 SQL 查询与 Spark 的分布式计算能力相结合,能够高效地处理大规模数据。可以创建自定义函数来满足特定的业务需求。python# Python 示例scala// Scala 示例。
2025-02-19 10:06:48
1222
原创 大数据治理:解锁数据价值的关键
在数字化浪潮席卷而来的当下,数据已然成为企业和组织最具价值的资产之一。随着大数据规模呈指数级增长,大数据治理的重要性愈发凸显。它不仅关乎数据的质量与安全,更是释放数据潜能、驱动业务创新的核心所在。
2025-02-18 10:09:45
990
原创 Hive SQL 使用及进阶详解
Hive 是建立在 Hadoop 之上的数据仓库基础架构,它提供了类似于 SQL 的查询语言 Hive SQL(也称为 HQL),用于对存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据进行数据查询和分析。Hive 将 SQL 查询转换为 MapReduce、Tez 或 Spark 等分布式计算任务,使得不熟悉 Java 编程的数据分析人员也能方便地处理大规模数据。可以编写自定义函数来满足特定的业务需求。以下是一个简单的 Java 自定义函数示例:java。
2025-02-18 10:00:07
1177
原创 PostgreSQL 安装、常用命令及优化
,选择合适的版本。创建一个启动脚本,方便后续启动和管理 PostgreSQL 服务。根据实际业务需求和系统资源情况,还可以进一步调整优化参数。替换为你实际的 CentOS/RHEL 版本(如。首先,访问 PostgreSQL 官方下载页面(编译和安装过程可能需要一些时间,取决于系统性能。在编译之前,需要配置一些编译选项。保存并退出文件,然后重新加载。替换为实际的磁盘设备名。
2025-02-17 10:28:26
1301
原创 数据治理DAMA方法论:数字化转型的数据驱动引擎
每季度对数据治理策略和流程进行全面复盘评估,根据业务发展动态和数据变化趋势,灵活调整数据治理措施,确保数据治理工作始终契合企业发展需求,持续提升数据治理水平。数据清洗与监控:充分利用专业的数据质量管理工具,定期对数据进行全面清洗,有效去除重复数据,精准修正错误数据。同时,构建严密的数据质量监控机制,实时跟踪数据质量指标,如数据准确性、完整性等关键指标,及时察觉并预警潜在的数据质量问题,确保数据始终处于高质量状态。管理关于数据的数据,包括数据定义、数据关系、数据来源等信息,帮助用户理解和使用数据。
2025-02-16 09:15:00
1139
原创 MySQL安装与优化
-datadir 指定数据目录。此方式灵活性高,可自定义安装路径和配置,但安装过程相对复杂,需手动处理依赖和配置。:sudo systemctl stop mysql 或 /usr/local/mysql/bin/mysqladmin -u root -p shutdown。:sudo systemctl start mysql 或 /usr/local/mysql/bin/mysqld_safe --user=mysql &:线程缓存大小,缓存空闲线程,减少线程创建和销毁开销,适当增大可提高并发性能。
2025-02-15 09:00:00
1050
原创 Oracle 小白安装部署
oracle.install.crs.config.asm.diskGroup.redundancy:指定 ASM 磁盘组的冗余级别,EXTERNAL 表示外部冗余,即不使用 ASM 提供的冗余功能,需要依赖外部存储设备的冗余机制。kernel.shmmni:指定了系统中共享内存段的最大数量。TEMPLATENAME:指定创建数据库时使用的模板名称,General_Purpose.dbc 是一个通用目的的数据库模板,它包含了常见的数据库对象和配置,适用于大多数业务场景,可在此基础上进行定制化配置。
2025-02-14 09:54:53
911
原创 Linux 基础学习文档
Linux 是一套免费使用和自由传播的类 Unix 操作系统,其内核由林纳斯・托瓦兹(Linus Torvalds)在 1991 年首次发布。它以开源、稳定、安全、高效且可定制性强等特点,广泛应用于服务器、嵌入式系统、移动设备以及个人计算机等领域。
2025-02-13 12:35:11
1034
原创 Ansible 小白学习文档
Ansible 无需在远程节点上安装客户端,通过简单的 YAML 格式的剧本(Playbook)就可以实现批量系统配置、软件部署、任务执行等操作,具有简单易用、无代理、高效等特点。Ansible 的核心思想是通过剧本将多个任务组合在一起,按照预定的顺序在目标主机上执行。剧本可以包含多个 “剧本段”(Play),每个剧本段可以针对不同的主机组执行不同的任务。默认的主机清单文件是 /etc/ansible/hosts,也可以通过 -i 参数指定自定义的主机清单文件。" > /tmp/hello.txt 命令。
2025-02-12 14:57:12
674
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人