Transwarp

星环大数据杂谈

  • 博客(91)
  • 收藏
  • 关注

原创 安全认证系列 | ArgoDB通过强制性国家标准GB 18030-2022最高级别认证,无缝兼容中文环境

其适用对象为所有具备中文信息化处理及交换功能的产品,最新版于2023年8月1日起正式实施,共收录了87887个汉字及我国少数民族文字编码,比上一版增收了1.7万余个生僻汉字,覆盖中国绝大部分人名、地名用生僻字以及文献、科技等专业领域的用字,满足各类使用需求。此次通过GB18030国标认证,不仅彰显了星环科技数据库在中文字符处理领域的卓越兼容性与稳定性,更体现了星环科技在数据库产品本地化适配能力上的深厚积累,为中文场景的高效运行提供了坚实保障。

2025-08-14 15:15:10 322

原创 探索Parquet格式:实现高效数据存储与优化查询性能

在星环TDH平台中,Parquet作为开放的列式存储格式,通过深度集成支持外部数据的高效接入与分析,并与平台的多模型存储引擎协同,辅助实现从采集到分析的数据流转。每个 schema 包含多个字段,每一个字段又可以包含多个字段,每一个字段有三个属性:repetition、type 和 name,其中 repetiton 可以是以下三种:required(出现1次),repeated(出现0次或多次),optional(出现0次或1次)。在此背景下,Parquet作为一种革命性的列式存储格式正重塑数据生态。

2025-08-11 10:58:52 921

原创 五种 AI Agent:自主功能与现实应用

新的 Agent 工作流和模型不断涌现,社交媒体上也常常伴随着激动人心的声明:以前需要人类专业知识的任务,如今已经通过最新的 Agent 突破完全实现了自动化。反射代理是最简单、最基本的一类 AI Agent,它遵循预定义的规则来做出决策,类似于恒温器的工作原理。一个典型的例子是扫地机器人。随着 Agent 人工智能的不断发展,特别是学习 Agent 利用生成人工智能的进步,AI Agent 越来越擅长处理复杂的用例。基于目标的 AI Agent 在基于模型的 Agent 的基础上增加了基于目标的决策。

2025-08-08 16:30:33 367

原创 AI Agent 的 10 种应用场景:物联网、RAG 与灾难响应

整个过程是动态和迭代的,AI Agent 会根据传感器数据的实时变化不断更新计划,并从每次操作的结果中学习,以优化未来的决策。在农业领域,AI Agent 正在通过智能化的决策支持系统,帮助农民实现更高的产量和更低的资源浪费。它通过 API 获取最新的天气数据和土壤湿度读数,并结合存储在系统内存中的历史数据(例如,最后一次灌溉的时间和作物生长阶段)来生成精准的行动计划。例如,在撰写关于太阳能经济效益的部分时,AI Agent 会从数据库中提取最新的每千瓦成本统计数据,确保文章内容的准确性和时效性。

2025-08-08 16:22:52 714

原创 “芯库“共赢,ArgoDB携手国产处理器完成兼容适配,共筑数智安全根基

【摘要】国产数据库ArgoDB与主流国产处理器完成深度适配,构建全栈自主技术生态。星环科技分布式数据库ArgoDB V6.0已实现对飞腾、鲲鹏、兆芯、海光、龙芯、申威六大国产处理器架构的全覆盖兼容,形成从芯片到系统的安全闭环。通过湖仓集一体架构创新,ArgoDB实现多模数据统一处理、HTAP混合负载等能力,性能达海外竞品14倍以上。其与国产芯片的协同优化,在政务、金融、国防等高安全场景中提供端到端加密保障,满足等保合规要求

2025-08-08 11:37:44 1272

原创 ArgoDB携手国产操作系统完成兼容适配,构建数智新生态

摘要:星环科技分布式数据库ArgoDB深度适配国产操作系统生态,完成与银河麒麟V10、统信V25、openEuler 22.03、方德V4.0及天翼云CTyunOS V2.0的兼容认证,实现从基础兼容到内核级协同的突破。通过国密加密、智能调优、机密计算等核心技术,ArgoDB与国产OS构建全栈安全防护体系,支持百万级TPS吞吐与PB级实时分析,满足金融、政务等高敏场景需求。该适配显著提升国产化技术栈的自主可控能力,为信创产业提供"操作系统+数据库"一体化解决方案。

2025-08-08 11:34:22 961

原创 拥抱AIⅹData 新时代:构建企业新一代AI基础设施,重塑企业核心竞争力

星环科技湖仓集统一数据平台,基于统一的存储、统一的资源管理、统一的计算引擎和统一的接口,一个平台能够同时支持批处理、交互式分析、实时数据处理和在线数据服务四类场景。星环科技语料平台星解Corpus Studio,支持多源数据采集 ,PDF、Word 文档及其他多种格式文件,无论来自网站公布的行业动态,还是企业内部规范,都能一站式汇聚,为后续的数据处理提供丰富素材,同时可以对采集到的语料进行深度解析,精准提取标准名称、编号、发布单位等关键信息,并依据内容类别进行智能分类,形成高质量语料。

2025-05-30 14:44:13 681

原创 新一代高性能大模型一体机为企业提供从模型开发到应用落地的全生命周期解决方案

星环科技已经与多家公司、单位及机构合作,完成了金融、制造、能源、政府等行业大模型及AI智能体的研发工作,并将其融入到实际产品和服务中。(LLMops for DeepSeek一体机版本),深度融合软硬件技术,为企业提供从模型开发到应用落地的全生命周期解决方案,助力AI技术快速融入生产与业务场景。星环科技提供多种配置的大模型一体机,同时考虑到部分客户有国产化需求,大模型一体机还提供了国产卡的适配机型,,打通语料开发、模型训练、知识融合、应用部署等全链路流程,支持企业高效构建智能体与应用。

2025-03-05 11:29:34 445

原创 从开源大模型工具Ollama存在安全隐患思考企业级大模型应用如何严守安全红线

在数据、语料和知识处理和管理层面,平台支持丰富的非结构化数据解析,同时对数据进行严格的加密处理,确保数据在传输和存储过程中的安全性;目前,企业部署大模型需求非常火热,Sophon LLMOps 作为一款企业级大模型运营管理平台,构建了全方位的安全防护体系,针对AI应用输出内容的安全性,Sophon LLMOps对用户输入和模型、应用的输出进行全方位的安全防护。同时,平台还对应用的输出内容进行严格的安全审核,确保输出内容符合法律法规和企业政策,避免因输出不当而引发的法律风险和声誉损失。

2025-03-05 11:03:57 929

原创 星环科技无涯·问知 AI PC版接入DeepSeek,一键部署 让你的AI永不掉线

同时,结合本地RAG(检索增强生成)与AI-Agent功能,用户可在完全封闭的环境中处理敏感信息,彻底消除数据泄露风险,真正实现了 AI 大模型在个人电脑上的安全、稳定运行。星环科技与宏碁和Intel通力合作,从软件和硬件的结合,基于无涯·问知AI系统,实现DeepSeek大模型在个人电脑端的本地化流畅运行,开发了宏碁专属的AI助手:A星人专业版,定制开发了全新的AIPC产品:宏碁优跃PRO;其性能稳定,价格更亲民,让更多的个人和企业可以用更低的成本体验到本地大模型和AIPC带来的生产力提升。

2025-02-24 17:33:18 1042

原创 星环科技推出DeepSeek全场景解决方案:即开即用、企业级部署、端侧智能三位一体

星环科技(688031.SH)正式发布DeepSeek全场景解决方案,全面覆盖个人用户、企业客户及行业场景需求,为用户提供从个人到企业、从云端到本地的全方位AI应用支持,为不同需求的用户提供了灵活、高效且安全的AI解决方案。

2025-02-24 17:31:38 1466

原创 通过LLMOps部署DeepSeek R1,加速企业级AI应用构建

利用DeepSeek R1实现知识库和工具调用,并快速部署至企业内部,加速基于大模型的企业级应用快速落地。

2025-02-10 14:39:01 470

原创 数智化转型 | 星环科技Defensor 助力某银行数据分类分级

在数据驱动的金融时代,数据安全和隐私保护的重要性日益凸显。某银行作为数字化转型的先行者,面临着一项艰巨的任务:如何高效、准确地对分布在多个业务系统、业务库与数仓数湖中的约80万个字段进行数据分类和分级。该银行借助星环科技数据安全管理平台Defensor 的智能化数据分类分解解决方案,实现数据安全管理的革命性进步。

2025-01-17 18:12:58 868

原创 案例分享|快速了解实时湖仓集一体技术如何助力企业降本增效

某金融机构基于星环科技实时湖仓集一体平台,在一张底量数据超过20PB,日增量超500G的交易明细表上,不仅满足每日实时明细数据写入和T+0业务的数据提取,还支持每日批量数据校对和覆盖,满足历史数据的提取需求。该农商行基于星环科技实时湖仓集一体平台,替代了Teradata数仓、Oracle数据平台和Hadoop数据湖三个平台,一体化架构同时满足数据湖海量汇集、复杂数仓模型加工、高性能集市分析、实时数据处理、高并发数据检索等多种应用场景,实现降本增效的同时,建立了统一的数据管控与治理体系。

2025-01-02 10:38:17 452

原创 国产替代 | 星环科技Sophon替代SAS,助力大型国有银行智能化营销

在银行交易中,20%的头部优质客户会给银行贡献80%的利润,而赢得一个新客户的成本是保留一个老客户的5至6倍。某大型国有银行在面临此类数据挖掘的业务时,使用的是SAS产品。由于SAS是集中式的,对单台服务器要求太高,算力无法支撑需求,且无法支持可视化的机器学习,对于业务人员来说使用门槛过高。

2024-12-12 11:25:40 535

原创 案例分享| 某港口集团企业级数据管理及分析应用体系构建

某港口集团已建成多个信息化系统,充分满足集团职能管理方面的需求,但垂直化的职能管理使各职能领域的指标体系、业务流程和业务系统呈现出条状划分的鲜明特点,数据共享存在“壁垒”,缺少横向的业务流程梳理和贯通,导致港口数据标准不统一、各业务系统数据“孤岛化”明显,特别是随着对数据增值利用和精细化管理要求的逐步提高,已难以应对日趋复杂的业务需求。核心数据进行发布共享,各业务部门按需获取所需要的数据,不用再四处找数据,实现数据口径一致,确保数据准确性。

2024-12-11 15:55:55 565

原创 TDS:面向数据资产运营和语料管理的三大能力提升

为应对AI时代下对各种语料的基础管理能力,TDS资产目录提供兼具技术视角和业务视角的多重目录体系,在原来管理结构化数据的基础上,支持非结构化数据的管理,同时也覆盖API、指标、消息列队等其他类型数据的支持。因此TDS加了入湖向导和智能盘点的能力。某大型金融机构希望建立集团级的资产管理门户,该企业使用TDS建设数据资产目录,目前已有业务流程、业务对象、业务系统、数仓分层四套编目,纳管数据表上万个、API数千个、数据指标和AI模型若干,服务集团总部8个事业部超 5000人,最高支持上千业务人员同时使用。

2024-12-10 11:20:16 709

原创 技术解读 | Sophon通过“六易三仓两中心”实现新一代AI平民化

提供一键部署以及可视化的服务推理搭建部署的模式,并从模型调用情况、模型使用资源情况、模型数据偏移情况等方面提供全方位监控,同时从模型预测性能、模型可解释、模型输入输出偏移等方面提供多维度的评估,让模型易管理,全面掌握模型服务运行状态;Sophon 3.2从数据接入获取、模型构建训练、模型运维管理、模型发布迭代等AI应用全生命周期的相关流程出发,考虑用户可能遇到的问题后,从样本管理、场景开发、模型获得、模型管理、效果迭代及系统运维六大方面降低用户使用的门槛,实现新一代AI平民化。

2024-12-09 14:44:46 952

原创 产品解读 | 构建数智融合时代下的一站式大数据平台

随着智能化技术的飞速发展,尤其是以生成式AI为代表的技术快速应用,推动了数据与智能的深化融合,给数据基础设施带来了新的变革和挑战。如何简化日益复杂的系统架构,提高数据处理效率,降低开发运维成本,促进数据开放共享和创新应用,成为企业关注的核心问题。

2024-11-22 10:33:13 1075

原创 KunDB4.0:安全能力与Oracle兼容性提升,支持跨系统多租户部署

Oracle集中式架构向KunDB分布式架构迁移过程中,KunDB支持透明的哈希重新分布,对业务透明,无需业务重写应用,并重新设置了业务规则对数据分片,提升并行的吞吐处理效率。同时,KunDB提供自研CDC工具,整个过程支持完全的可视化流程监督,数据和对象的校验工作量和时长大幅缩减。各个租户之间通过云原生的调度方式将数据调度到不同的硬件上,通过业务分时作业的方式分批进行使用,同时通过硬件的部署隔离来把租户资源隔离开,通过数据的隔离和单实例中不同租户使用不同硬件的方式,使其之间互不影响。

2024-07-24 11:05:52 666

原创 TDC 5.0:多集群统一纳管,构建一体化大数据云平台

此时,如果TCOS集群是一个新建的,甚至是一个异构的,比如满足新上的ARM集群,可以把存储资源TDDMS Tabletserver在这上面增加三个副本,HDFS可以把DataNode增加副本,对应的把Executor也在这个节点上部署起来,就好像为这个集群增加扩容一样,这样就实现了计算类的组件和存储类的组件都在资源富足的集群上进行跨集群的扩容,达到这个目的之后,TDC 能在跨集群对已有的组件进行扩容,提升集群整体使用率,也均衡了不同集群之间使用率的差别。在常规部署中,存储和计算资源是预设的固定数量。

2024-07-18 17:57:40 1115

原创 Defensor 4.5:构建数据资产为中心的安全运营体系

数据安全策略中心是数据安全防护的全局策略中心,支持多维度的访问控制策略,提供基于分类分级的访问策略,行列访问控制策略,防精准查询、阻断策略等,实现精细的敏感数据访问控制。最后,结合策略智能推荐系统,根据安全事件的类型和特点智能生成并下发推荐处置策略,如访问阻断、权限降级、访问频率限制、数据动态脱敏和数据水印等多种措施,并调动各个安全组件高效执行处置策略,实现安全事件的快速响应和处理,形成整体的风险监测和数据防护能力,实现数据全生命周期全面的风险管控。5月31日“向星力”未来数据技术峰会上,

2024-07-10 14:06:52 1068

原创 Sophon AutoCV推动AI应用从模型生产到高效落地

而在长尾智能化场景中,业务导向更加明显,智能分析场景碎片化且通常传递链条较长,和业务价值高度相关,此情况下用户往往是期望通过有效的手段进行快速的从数据到人工智能模型到业务价值的验证,从而达到能够直接落地,快速提升数据价值和业务价值的目的。不仅支持存量智能场景中的模型高精度迭代,还能帮助企业快速落地新的智能化场景,解决传统智能场景中存在的模型维护、迭代效率低、建模周期长、部署成本高、数据资产积累难等应用痛点。金融行业数据资源丰富,数据依赖程度高,场景安全要求高,目前人工智能技术已成为金融行业的必备基础。

2024-03-01 15:50:41 1137

原创 白话大模型③ | 我们为何需要机器学习运营平台?

需求、数据、环境在不断扩大、变化,以机器学习和神经网络这类“数据驱动”的人工智能的运行逻辑,导致每次更新(更新大小并不是人认知的模糊的大小,而是机器能处理的数量化后的大小),都需要重新训练模型,重新采集数据,重新标注数据,重新建立模型,重新验证模型,重新上线,这个过程重来一遍是非常耗时耗力的;短期可以,长期不可以。1.减少了人工去做各类特征提取(比如测量人的瞳距),就需要大量“不同”的数据,来训练模型,得到“映射关系”,至于“什么是不同,怎么不同,要的量多少,现实中这种不同很少,能不能合成或生成?

2024-03-01 15:50:02 550

原创 白话大模型② | 如何提升AI分析的准确性?

• 数据清洗 :将明显不符合需求的数据剔除,比如:人脸不清晰、人脸不完整、人脸不在中心、人脸不是正脸、人脸不是人脸(比如是猫脸)等,再比如算法上有问题的:重复的(直接重复、有些位置移动/旋转的)、数据毒害的(故意数据投毒的、比如打印的人脸/面具而不是真实人脸的)等等,清洗出“高质量”数据实际工作远比看上去的复杂得多得多;•建立高效的查询方法:使用同样的映射关系,处理待查的图像,然后使用人脸卡片目录中的人脸嵌入向量,找到最相似的ID,然后再找到对应的人脸图像。答:用“数据驱动”的“机器学习”方法。

2024-03-01 15:49:26 705

原创 白话大模型① :AI分析能做什么?在实际落地中会碰到什么问题?

我们需要保存的“人脸卡片目录”信息包括(姑且认为):1.人脸的特征(比如眼睛、鼻子、嘴巴等):可以是相对大小、颜色等2.人脸的位置:可以是相对位置、绝对位置等3.人脸的编号:可以是身份证号、学号等实际操作中,人脸卡片目录一般都“编码”成了一串固定长度,比如说 1024,的数字(也就是“向量”),其有个特定且形象的名字“嵌入向量”:将人脸的特征(比如瞳距、鼻宽等)、位置(眼相对鼻距离等)、编号等信息,”嵌入“到这 1024 维的“向量”中。而且,更重要的是,这样提取,很难保证“准确性”和“泛化性”。

2024-03-01 15:48:54 1188

原创 技术解读 | KunDB助力头部金融机构关键系统的Oracle国产替代

通过自主原创的PL/SQL编译器,KunDB完整支持PL/SQL,如类型、控制语句,自定义数据类型等全部PL/SQL语法,并且执行性能比解释执行提升一个数量级,解决了Oracle业务迁移到国产化数据库的核心痛点。,KunDB支持基于Oracle的业务直接或者通过中间件框架进行连接,包括Java、.NET、C/C++等语言开发的应用,尤其是针对C/C++应用提供兼容Oracle的OCI/OCCI驱动,来保障业务的平滑迁移。监控告警,包括负载指标监控、SQL监控、AAS监控、告警规则设置、实时告警等。

2024-01-25 15:03:38 1237 1

原创 行业应用 | Sophon AutoCV推动AI应用从模型生产到高效落地

而在长尾智能化场景中,业务导向更加明显,智能分析场景碎片化且通常传递链条较长,和业务价值高度相关,此情况下用户往往是期望通过有效的手段进行快速的从数据到人工智能模型到业务价值的验证,从而达到能够直接落地,快速提升数据价值和业务价值的目的。Sophon AutoCV专注于打通数据、模型、应用、运营各环节,以原始数据为起点,模型训练为工具,数据价值为业务终点,通过构建“数据-模型-反馈”闭环,助力CV模型高效持续迭代并最终规模化部署落地,为企业高质量发展注入智慧动能。当前,建筑业智能化升级时机已经成熟。

2024-01-25 15:00:34 1007

原创 一年一度的星环开发者奇妙之旅招募活动开始啦

来自国内外政府、金融、交通、能源、制造等行业的超过1500名嘉宾将出席会议,共同探讨最新的大数据技术发展趋势、国产化数据库、数字化转型、数据安全、数据要素与流通等热门话题。作为特邀嘉宾出席此次峰会,共同参与数据技术讨论和交流,大会组委会将为入选同学。

2023-05-09 17:10:26 302 1

原创 【获奖案例巡展】信创先锋之星——甘肃省住房和城乡建设厅住建数据大脑

通过智慧住建大脑盘活数据资产,为各级住建部门提供数据汇聚、数据共享交换、数据治理等数据全生命周期服务,统一解决当前建设中存在的分散、孤立状态,打破信息“孤岛”,实现和提供跨地域、跨机构、跨业务领域的数据交换和资源共享服务。甘肃省住房和城乡建设厅在推进新型“智慧城市”建设,通过“智慧城市”及其相关领域的信息化建设,实现城市规划、建设、管理、服务能力提升,加快推进地方和部门“互联网+监管”系统建设并与国家“互联网+监管”系统对接联通,推动形成统一规范、信息共享、协同联动的全国“互联网+监管” 体系方面,

2023-04-19 14:15:37 776

原创 【获奖案例巡展】信创先锋之星——浙江省某市区视频能力中心

视频能力中心在项目建设过程中,已完成了平台级对接与联调工作,当前平台中的城市管理类算法产生的告警信息,可直接推送给相关部门,形成从事件识别、告警、推送、处置的整个业务通路的闭环。根据浙江省、市数字化改革总体部署,按照“统筹建设,分级部署”的原则,充分利用该市区数字化建设已有成果,运用数据、云计算等新型技术,通过建设集算法中台、视频解析平台、业务场景应用、指标评估等于一体的视频算法服务组件,构建该市区视频能力中心,实现资源申请、资源分配、算法调度、视频分析等功能,为全区视频分析应用提供能力支撑。

2023-04-19 10:00:25 1303

原创 【获奖案例巡展】科技向善之星——中航电梯5G+大数据管理平台

公司是贵州省唯一一家集电梯设计、生产、安装、改造、维保为一体的装备制造企业,产品有乘客电梯、观光电梯、载货电梯、汽车电梯等14个种类,生产车间购置了先进的机器人生产设备,引入“MES”、“ERP”信息管理系统,建成全自动化生产流水线,使生产部件达到高度的统一性,从而提高了产品质量。通过对电梯行业经营数据、生产数据、供应数据、营销数据、梯联网数据的集成、治理、融合、分析,实现了中航电梯的数字化集中管控模式,让决策有了全面的、精准的数据支撑。电梯安装过程涉及到特种作业施工,采用人工巡逻监管,人工成本高,

2023-04-18 15:20:05 642

原创 支持多模型数据分析探索的存算分离湖仓一体架构解析(下)

此外,设计上Delta Lake并不提供主键,因此高并发的update/delete不如Hudi,也不提供类似Iceberg的元数据级别的查询优化,因此查询性能上可能不如Iceberg,但是Delta Lake强调的是结合Spark形成的流批一体的数据架构以及对机器学习类应用的原生API级别的支持,可适用的业务场景有很好的普遍性。在我们的设计中,快照不需要持久化,无需增加大量的物理存储,而是一个轻量级的、全局一致的逻辑概念,在事务处理中可以快速判断数据的某版本应当包含还是排除。

2023-04-17 14:36:28 424

原创 支持多模型数据分析探索的存算分离湖仓一体架构解析(上)

传统的企业数据湖大多是基于Hadoop或云存储来建设,为数据科学和机器学习任务提供半结构化和非结构化的数据能力。企业的BI和业务分析等需要数据的加工过程有严格的一致性保障,在分析过程中有优秀的SQL性能,而开源Hadoop或云存储并不具备这些能力,因此企业需要建设独立的数据仓库系统来支撑这类业务,从而就有了“数据湖+数据仓库”的混合架构。混合架构带来了更高的建设成本、管理成本和业务开发成本。

2023-04-17 13:50:33 473

原创 灵活、快捷、低运维成本的数据集成方法:数据联邦架构

在传统的企业数据运用中,企业使用多种系统,数据散落在各个存储设备中,数据分析需求往往是跨库的,数据入湖入仓在做分析会有安全问题,或影响业务系统性能。企业需要一种灵活、快捷、低运维成本的数据集成方法,就有了数据联邦架构。本文介绍数据联邦架构。

2023-04-17 10:36:47 1021

原创 分析型数据库:MPP 数据库的概念、技术架构与未来发展方向

分析型数据库是数据库的一个分支,主要设计目标是存储、管理和分析数据,一般存储的数据类型多,时间维度长,主要配合企业的业务分析、商业智能等应用场景,驱动数据化的商业决策。由于数据分析一般涉及的数据量大,计算复杂,分析型数据库一般都是采用大规模并行计算或者分布式计算来提升它的数据处理能力。行业内从1984年开始推出基于多个关系数据库(Postgres为主)组成的MPP数据库方式来提升计算能力,代表性的产品有Teradata、Netezza、Vertica等。

2023-04-14 09:30:55 2164

原创 分布式计算技术(下):Impala、Apache Flink、星环Slipstream

实时计算的发展历史只有十几年,它与基于数据库的计算模型有本质区别,实时计算是固定的计算任务加上流动的数据,而数据库大多是固定的数据和流动的计算任务,因此实时计算平台对数据抽象、延时性、容错性、数据语义等的要求与数据库明显不同,面向实时计算的数据架构也就发展起来。Transwarp Slipstream是一款通用的实时计算引擎,使用事件驱动和批处理统一的模型,在保证毫秒级别延迟的同时,帮助用户更高效、准确的进行数据集成,同时提供更复杂的分析功能,以帮助企业挖掘实时数据的价值。

2023-04-10 17:10:03 1138

原创 分布式计算技术(上):经典计算框架MapReduce、Spark 解析

分布式计算技术按照其业务场景的不同可以分为离线计算和实时计算,本文介绍了两个具有代表性的离线计算技术MapReduce批处理引擎和Spark计算框架

2023-04-10 09:42:56 1990

原创 分布式存储技术(下):宽表存储与全文搜索引擎的架构原理、特性、优缺点解析

对于写密集型应用,每天写入量巨大,数据增长量无法预估,且对性能和可靠性要求非常高,普通关系型数据库无法满足其需求。对于全文搜索和数据分析这类对查询性能要求极高的场景也是如此。为了进一步满足上面两类场景的需求,有了宽表存储和搜索引擎技术,本文将对他们的架构、原理、优缺点做介绍。— 宽表存储—宽表存储最早来自Google的Bigtable论文,最初的定义为:A Bigtable is a sparse, distributed, persistent multidimensional s

2023-04-07 10:01:55 764

原创 分布式存储技术(上):HDFS 与 Ceph的架构原理、特性、优缺点解析

面对企业级数据量,单机容量太小,无法存储海量的数据,这时候就需要用到多台机器存储,并统一管理分布在集群上的文件,这样就形成了分布式文件系统。HDFS是Hadoop下的分布式文件系统技术,Ceph是能处理海量非结构化数据存储的对象存储技术,本文将对他们的架构原理、特性和优缺点做介绍。— 分布式文件系统HDFS—HDFS全称为Hadoop Distributed File System,在2006年由Doug Cutting发布了第一个版本,是运行在通用硬件上的分布式文件系统。它提供了一个高度

2023-04-06 16:16:59 1492

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除