- 博客(1064)
- 资源 (2)
- 收藏
- 关注
原创 tidb 和 oceanbase 哪个未来更有竞争力分析推理
基于 Google Spanner/F1 论文设计,HTAP(混合事务分析)架构,计算-存储分离,兼容 MySQL 协议。互联网、全球化企业、云原生和中长尾市场。:自研分布式架构,强一致性优先,共享存储(Paxos 协议),兼容 Oracle/MySQL 双模式。:国际化程度高(北美/东南亚客户),但可能受美国技术制裁牵连(如 GitHub 限制)。重点突破:云化(OB Cloud)、多模数据库(时序/图)、Oracle 替代加速。:主打国产化替代,政策红利(信创目录),但出海困难(仅东南亚试点)。
2025-04-03 16:31:26
629
原创 国内发展最好的开源数据库是 pingCAP吗
在技术先进性、社区活跃度、商业化落地等方面均处于国内领先地位,并在全球范围内与 MongoDB、CockroachDB 等国际开源数据库竞争。:存算分离架构,可线性扩展至数百节点,支撑 PB 级数据(阿里云、美团等企业用于核心业务)。推出金融级 TiDB(通过 PCI-DSS 认证)、时序数据库扩展(TiDB + IoT)。:同时支持 OLTP(高并发事务)和 OLAP(实时分析),减少 ETL 流程。国内:中国平安、知乎、美团、京东等用于支付、订单、用户画像等核心场景。
2025-04-03 16:29:24
467
原创 deepseek 能生成应用级代码 原理详细分析 依赖哪些技术栈(2)
(Segment-Level Recurrence),支持超过8K token的上下文窗口,可捕捉跨文件的代码依赖(如函数调用链)。使用LoRA(Low-Rank Adaptation)在基础模型上适配垂直领域(如Web开发、数据科学),仅训练0.1%的参数。在自注意力层中注入抽象语法树(AST)的结构偏置,强制模型关注语法相关的token(如变量作用域、括号匹配)。调用Pyright(Python)或ESLint(JS)作为后处理步骤,自动修正低级错误(如未闭合的括号)。
2025-04-03 14:40:11
585
原创 本地化部署大模型 需要的硬件条件 和 技术人员
Intel Xeon Silver 4310(16核)或 AMD EPYC 7302(16核):NVIDIA A100 80GB(单卡)或 2×RTX 4090(通过NVLink并联):NVIDIA RTX 3090(24GB显存)或 A4000(16GB显存)可运行70B参数模型(INT4量化)或13B参数模型(FP16全量):根据模型规模选择GPU显存(7B需≥16GB,70B需≥80GB)可运行7B参数模型(FP16全量)或13B参数模型(INT4量化)
2025-04-03 13:11:13
564
原创 deepseek 为啥推出本地化部署方案 ?这不是和自己的利益冲突吗
通过开源核心模型(如DeepSeek-7B)吸引开发者,同时闭源企业版工具链(如量化压缩工具),掌控生态话语权。:DeepSeek企业版本地部署方案售价50万起,年维护费50万起,年维护费10万,毛利率超60%。本地化客户逐步接入DeepSeek联邦学习平台,参与全局模型优化,形成“分散部署-集中进化”网络。:某跨国银行因监管限制,仅采购支持本地化部署的AI解决方案,DeepSeek借此打入高端市场。:本地化客户对价格敏感度低,更关注安全与定制化,避免卷入云端API价格竞争。
2025-04-03 12:57:52
178
原创 本地部署开源模型 deepseek 需要哪些硬件以及详细成本分析
使用GGML(CPU推理)或GPTQ(GPU推理)将70B模型显存需求从160GB降至40GB(INT4)。单卡RTX 3090(350W满载):每小时约¥0.4,月均¥300(24/7运行)。(如GPTQ/GGML)可降低显存需求(例如7B-INT4仅需6GB显存)。GPU:NVIDIA A100 80GB(全新约¥8万,二手¥4万)67B参数模型:显存≥160GB(FP16),推理需≥80GB。7B参数模型:显存≥16GB(FP16),推理需≥8GB。
2025-04-03 11:53:04
300
原创 本地部署开源模型 deepseek 那么算力出在哪里
中小模型(7B~70B 参数):NVIDIA A100/A800、H100/H800、RTX 4090(消费级)。若使用 DeepSeek 的云端 API(非本地部署),则算力由 DeepSeek 公司提供,按调用量收费。如 DeepSeek-Coder 1B/6B 可在高端 CPU(如 AMD EPYC)运行,但速度较慢。:阿里云(PAI)、腾讯云(TI-ONE)、华为云(ModelArts)。大模型(130B+ 参数):需多卡并行(如 8×H100)。云服务:阿里云 PAI(8×A100 实例)。
2025-04-03 11:40:16
531
原创 2024年 中国软件开发人员有多少
75%开发者集中在长三角(上海/杭州)、珠三角(深圳/广州)、京津冀(北京/天津),中西部企业招聘成本增加40%。:云原生(K8s/Docker)、大模型微调(Llama3、文心一言API)、全栈开发(React+Go)。:制造业、金融业对云原生、AI集成的需求爆发,如比亚迪、宁德时代等企业自建IT团队规模年增30%+。(BOSS直聘、拉勾):2024年1-6月,软件开发岗位招聘需求同比增加18%,新增岗位约。:2024年政府加大对信创(信息技术应用创新)、工业软件等领域的投入,催生大量开发岗位。
2025-04-03 11:28:17
252
原创 大厂面试 红黑树?主要使用在哪些场景呢
在大厂面试中,红黑树(Red-Black Tree)是高频考点,尤其是考察候选人对数据结构实际应用场景的理解。大厂面试中,回答时应结合具体技术栈(如Java集合、Redis、Linux内核),并对比AVL树、B+树、跳跃表的优缺点,展现深度思考。早期版本用红黑树,后改为跳跃表(SkipList),但红黑树仍用于内部事件调度(如定时任务)。答:红黑树的删除操作更高效(堆删除需O(n)查找,红黑树删除O(log n))。若查询远多于插入/删除(如字典库),选AVL树(更严格平衡,查询更快)。
2025-04-03 11:03:13
522
原创 红黑树 redis数据库用到了吗
在Rehash期间,Redis使用红黑树对旧表中的键进行排序,确保遍历时的顺序一致性(避免因Rehash导致客户端遍历结果重复或遗漏)。(基数树/压缩Trie树)的结构,用于某些内部场景(如Stream数据结构的消息ID管理)。,红黑树仅在必要场景出现,而跳跃表、哈希表、压缩列表等结构更常用。跳跃表天然支持顺序遍历(类似链表),而红黑树需中序遍历。跳跃表的代码更易维护(红黑树的旋转和平衡逻辑复杂)。跳跃表的锁粒度更细(红黑树平衡操作可能需全局锁)。Rax Tree中的子节点管理(非核心路径)。
2025-04-03 11:01:34
158
原创 b/b+树很快为什么还要用红黑树? 红黑树? Mysql中有红黑树吗
在数据库和数据结构的设计中,B/B+树和红黑树各有其独特的优势和适用场景。3层B+树可管理数十亿数据,而红黑树管理相同数据需要约30层,导致30次I/O(不可接受)。若数据完全在内存中且规模较小(如几千条),红黑树的等值查询性能与B+树相当,但实现更简单。B+树的节点通常设置为磁盘块大小(如16KB),一次I/O可读取多个键值,减少寻道时间。B+树单个节点可存储数百个键值(如16KB页存储1000个键),树横向扩展能力强。:使用B+树(聚簇索引和二级索引均为B+树)。
2025-04-03 11:00:15
217
原创 InnoDB存储引擎的B+树实现 谈谈你的理解
InnoDB的B+树实现通过聚簇索引、高扇出节点、页分裂/合并机制,平衡了查询效率与写入性能,成为关系型数据库索引的黄金标准。其设计充分考虑了磁盘特性(顺序访问、I/O优化)、事务需求(行锁、MVCC)和大数据量场景(树高度控制),是OLTP场景下高效稳定运行的核心保障。(InnoDB页的默认大小),键值+指针占位决定了每个节点的子节点数量(扇出)。二级索引的叶子节点不包含完整数据,仅存储索引字段值和对应的主键。从根节点开始,二分查找定位子节点,逐层下探至叶子节点,获取数据行。
2025-04-03 10:58:04
463
原创 证劵公司 核心系统分析
证券公司的核心系统是其业务运营的技术基石,支撑着开户、交易、清算、风控、客户服务等全流程业务。如需进一步分析某家券商的具体实践(如华泰证券的云原生改造)或细分技术领域(如FPGA在极速交易中的应用),可提供更具体方向。:接收客户委托订单(股票、债券、基金、期权等),支持限价单、市价单、条件单等。自然语言处理(NLP):研报自动摘要、智能客服(如中信证券“小信”)。:客户持仓集中度监控、两融杠杆控制、异常交易预警(如大额频繁撤单)。:整合交易、行情、客户行为数据(Hadoop+Iceberg)。
2025-04-03 10:29:07
527
原创 金融行业 保险和银行用的多的数据库哪些 分别在哪些业务场景
银行/保险核心系统逐步从 Oracle、Db2 迁移至 OceanBase、TiDB、GoldenDB 等国产分布式数据库。:中小型银行的非核心系统(如客户管理、渠道系统)、互联网银行业务(高并发查询)。:核心银行系统(账户管理、存款、贷款、支付清算)、联机交易处理(OLTP)。:支付宝、网商银行等互联网金融核心交易系统,支持“双十一”级别的高并发。:中小保险公司核心业务系统、内部管理系统(如HR、财务)。:银行历史数据存储、监管报表生成、客户行为分析。:银行实时风控、交易流水查询、客户画像分析。
2025-04-03 10:05:36
706
原创 HTAP(Hybrid Transactional/Analytical Processing,混合事务/分析处理)
通过分片(Sharding)和副本(Replication)实现水平扩展,支持海量数据和高并发。:通过日志(如 CDC)或双写机制保持行列数据一致性(如 TiDB 的 TiFlash)。数据常驻内存(如 SAP HANA),减少磁盘 I/O,加速事务和分析响应。对事务和分析任务进行资源隔离(如 CPU、内存分配),避免互相干扰。强实时分析需求(如金融风控)→ TiDB、SAP HANA。交易实时处理(如支付)与反欺诈分析(如用户行为模式检测)。海量数据(PB 级)→ 分布式 HTAP(如 TiDB)。
2025-04-02 23:07:33
338
原创 一些类似于 Hive 的商业化软件或相关解决方案
是一个Hadoop上的SQL引擎,以Greenplum Database为代码基础发展而来,采用MPP架构,改进了针对Hadoop的基于成本的查询优化器,全面兼容SQL标准,适用于构建Hadoop分析型数据仓库应用。:由Facebook发起,是一个分布式SQL查询引擎,支持标准的ANSI SQL,包括复杂查询、聚合、连接和窗口函数。:由PingCAP公司开发,是一款开源分布式NewSQL数据库,结合了传统关系型数据库和NoSQL的优点,支持高并发和大规模数据存储,兼容MySQL协议,支持实时分析。
2025-04-02 22:24:30
359
原创 HBase到关系型数据库的数据迁移(参考)
在企业实践中,HBase到关系型数据库的数据迁移确实会参考类似流程,但具体实施会根据企业规模、技术栈、数据特征等因素进行调整。
2025-04-02 18:53:47
571
原创 GaussDB 200(现更名为 GaussDB for OLAP)的分布式 SQL 计算引擎设计参考
GaussDB 200 的技术定位是融合创新mermaidgraph LRA[PostgreSQL 生态] --> D[GaussDB]C[Oracle 企业级特性] --> DE[云原生架构] --> DD --> F[国产化自主创新]兼容性:100% 兼容 PostgreSQL 生态性能:分布式场景比 Greenplum 快 3-5 倍扩展性:支持 1000+ 节点集群(Greenplum 通常限制在 100 节点内)对于企业选型,若需要国产化替代或混合负载支持。
2025-04-02 18:16:17
752
原创 GaussDB 200 分布式计算引擎 学习的是哪家的
基于PostgreSQL 9.2内核深度优化,继承其SQL标准和事务特性,但分布式架构为华为自研。A[GaussDB 200] -->|兼容| B(PostgreSQL协议)弹性伸缩的分布式事务管理(不同于Greenplum的XA事务)A -->|架构参考| C(Greenplum MPP)A -->|分布式事务| E(自研GTM-Lite)的日志即数据库(Log-is-Database)设计。A -->|优化器创新| D(华为自研CBO)的共享存储理念(但实现为无共享架构)
2025-04-02 17:57:09
255
原创 AI大模型智能体开发 需要哪些技术栈呢 比如python java和网络编程。。。
一个用于构建 AI 智能体的框架,支持 Python 和 Java,提供提示工程、链式调用等功能。:一个为 Java 生态系统设计的深度学习库,适合在 Java 应用中集成深度学习功能。:一个用于 Python 的自然语言处理库,提供了丰富的文本处理功能。:一个基于 Java 的轻量级框架,用于快速开发和部署微服务。:一个强大的开源深度学习框架,支持多种类型的模型训练和部署。:一个流行的开源 NLP 库,支持多种语言的文本处理。:用于实现客户端和服务器之间的通信,是网络编程的基础。
2025-04-02 15:23:16
519
原创 熟悉了关系型数据库 为啥很难理解 nosql
HBase 不支持 JOIN 操作是由于其设计目标和底层架构的限制。如果你需要进行复杂的关联查询,可以考虑使用客户端编程、MapReduce 或 Phoenix 等工具来实现类似的功能。熟悉了关系型数据库 为啥很难理解 nosql从关系型数据库(RDBMS)转向 NoSQL 数据库确实可能会让人感到困惑,因为它们在设计理念、数据模型、使用场景和操作方式上有很大的不同。以下是导致这种理解困难的几个主要原因,以及一些建议来帮助你更好地理解和使用 NoSQL 数据库。
2025-04-02 13:51:06
439
原创 docker hbase-shell 中文乱码问题排查
get 'student', '20230101', {FILTER => "ValueFilter(=, 'binary:张三')"}get 'student', '20230101', {FILTER => "ValueFilter(=, 'binary:男')"}put 'student', '20230101', 'info:gender', '男'put 'student', '20230101', 'info:name', '张三'deepseek给出的相关的解决方案信息(没有效果)
2025-04-02 12:01:38
352
原创 docker实际网络和虚拟网络分析
外部通过此 IP 访问宿主机及映射的容器端口(如 HBase Web UI、HiveServer2 的 JDBC 端口)。创建容器时,Docker 自动生成 veth pair,一端挂载到网桥,另一端放入容器的网络命名空间。Docker 默认创建的虚拟网桥,所有未指定自定义网络的容器默认连接到此处。创建的自定义网络,用于容器间隔离通信(如 Hadoop 集群内部通信)。宿主机的真实网络接口,连接到物理网络(如路由器或交换机)。:连接容器与网桥的虚拟通道,实现网络隔离与数据转发。
2025-04-01 23:15:49
621
原创 能否给出一个 兼容稳定的hadoop 生态圈 各个组件的版本关系
必须使用 Hadoop 3.3.x,禁用 Erasure Coding 对 HBase 目录的支持(HBase 暂不支持 EC)。: 27.0-jre(需统一 Hadoop、HBase 的 Guava 版本,避免冲突): 可运行在 YARN(Hadoop 3.3.x)或 Kubernetes。: 默认 Tez 0.10.2(需与 Hadoop 3.3.x 兼容)。: 3.7.1(HBase 内置客户端兼容 3.4.x-3.7.x)。按此组合部署,可构建一个稳定、高效的大数据平台,适用于企业级生产环境。
2025-04-01 23:04:32
467
原创 Hive 能够读取 HBase 的数据库信息,是通过 Hive-HBase 集成机制实现的,其核心原理和依赖关系如下
Engine (Tez/MR) |<-------->| Handler |<-------->| (管理 Region) || (执行 HiveQL) |<-------->| (JDBC/Thrift 服务) |<-------->| (元数据存储到 MySQL) || Server |<-------->| (存储 HFile) |<-------->| (协调 HBase 元数据) |
2025-04-01 22:20:48
487
原创 Docker 容器列表的详细分析和架构图说明
该架构通过 Docker 容器化部署,整合了 Hadoop、Hive、HBase 和 MySQL,实现了数据存储、计算和查询的一体化。接收客户端查询请求,通过 YARN 调度资源执行 MapReduce 或 Spark 作业,数据存储在 HDFS 或 HBase。为 HDFS DataNode、HBase RegionServer 挂载宿主机的持久化存储卷,避免容器重启数据丢失。建议为 Web UI 端口(如 HDFS 9870、YARN 8088)配置反向代理(如 Nginx)统一访问入口。
2025-04-01 22:09:52
856
原创 cdh 大数据 最后一个开源版本是什么 其中的组件分别是什么版本集成的
HBase 2.1.0 的 Guava 版本(20.0)与 Hadoop 3.0.0 的 Guava(27.0)冲突,需手动解决。缺少新特性(如 Spark Structured Streaming 的改进、HBase 的云原生支持)。:CDH 6.3.3(2021 年发布),包含 Hadoop 3.0.0、HBase 2.1.0 等组件。开源用户:基于 Apache 社区组件自建集群,或选择其他开源发行版(如 Bigtop)。企业用户:迁移至 CDP(闭源,集成更多云原生功能)。
2025-04-01 21:38:14
728
原创 zookeeper-3.8.1,hadoop-3.3.5,hive-3.1.3,hbase-2.5.4
ZooKeeper 3.8.x 可能引入新特性(如动态配置),HBase 默认配置可能未适配,需保持 ZooKeeper 配置简洁。按照上述步骤部署和验证,可构建稳定的 Hadoop + HBase + Hive 大数据平台。,需统一版本(推荐使用 HBase 的 Guava 版本,避免 HBase 功能异常)。:建议在测试环境中验证 ZooKeeper 3.8.1 与 HBase 的长期稳定性。),Hadoop 3.3.5 是 3.x 系列的稳定版本,兼容性良好。:HBase 2.5.4 依赖。
2025-04-01 20:48:41
1038
原创 利用 vm虚拟机 3个节点 在上面安装 apache-zookeeper-3.8.1 Hadoop 3.3.5 apache-hive-3.1.3 和 hbase-2.5.4 列出详细
sudo hostnamectl set-hostname node1 # node2/node3 分别设置。jps # 应有 HMaster(node1)和 HRegionServer(node2/node3)# 4. 配置 SSH 免密登录(在 node1 执行)# 2. 格式化 HDFS(仅在 node1 执行)# 3. 安装 MySQL(node1 执行)# 3. 启动 HDFS(node1 执行)# 4. 启动 YARN(node1 执行)# 2. 配置 zoo.cfg(所有节点)
2025-04-01 18:22:40
566
原创 deepseek 让写局部代码不值钱了 未来有架构经验的工程师 deepseek暂时无法替代
AI 工具(如 DeepSeek、GitHub Copilot 等)的确在代码生成和局部功能实现上展现了强大的能力,但它们对工程师的核心价值提出了新的挑战和机遇。AI 能快速生成重复性代码(如 CRUD 接口、简单算法),降低了基础编码的门槛,但这也意味着**“搬砖式”编码的价值正在转移**。:设计一个高并发电商系统时,需要合理划分订单、库存、支付服务,并设计最终一致性方案,而非简单堆砌代码。工程师的晋升将更看重系统设计贡献(如专利、架构改进提案),而非代码行数。
2025-04-01 10:27:39
615
原创 Hbase 底层什么语言开发的啊
HBase 是 Hadoop 生态系统的一部分,依赖 HDFS(Hadoop Distributed File System)作为底层存储,而 HDFS 本身也是用 Java 开发的。Java 的多线程、NIO(非阻塞 I/O)和网络编程能力,非常适合实现 HBase 的分布式架构(如 RegionServer 的并发请求处理、WAL 日志管理等)。Java 在大数据领域占据主导地位,HBase 的开发者和用户社区也更倾向于使用 Java 生态工具(如 Maven、JMX 监控等)。
2025-04-01 09:36:18
801
原创 如何系统学习 Hbase数据库 有哪些网页资料呢
1.前言2.梳理要系统学习,建议结合官方文档、实践教程、技术博客及社区资源,逐步深入其核心原理、架构设计和实际应用。
2025-04-01 09:22:48
289
原创 hive-3.1.3 支持事务吗 and Apache Hudi 和 Apache Iceberg
Hive 3.1.3 支持事务,但需要满足特定的条件和配置。
2025-04-01 09:17:11
629
原创 为啥面试很多人不知道 Hbase 数据库
HBase 的“冷门”本质是技术场景与开发者日常工作的错配,而非技术本身的价值问题。对候选人而言,是否学习 HBase 取决于目标岗位的需求;对企业而言,清晰的技能要求和适当的培训投入是关键。
2025-03-31 23:14:31
758
原创 为啥安装 hbase 新手很难
HBase的配置文件(如hbase-site.xml)包含许多参数,新手需要了解这些参数的含义和作用,并根据自己的环境进行正确的设置。:HBase的各个组件之间需要通过网络进行通信,如果网络配置不当,如防火墙阻止了相关端口的通信,可能会导致HBase无法正常启动或通信失败。:HBase的操作相对复杂,包括表的创建、数据的插入、查询、更新和删除等,都需要通过特定的命令或API来实现。:HBase与传统的关系型数据库有很大的不同,它是一种分布式、列式存储的数据库,具有独特的数据模型和操作方式。
2025-03-31 22:59:19
384
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人