
大数据
文章平均质量分 81
星环科技
星环科技致力于打造企业级大数据基础软件,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件与服务,构建明日数据世界。公司以上海为总部,以北京、南京、广州、新加坡为区域总部,在郑州、成都、重庆、济南设有支持中心,同时在深圳、西安等地设有办事机构,并在加拿大设有海外分支机构。经过多年自主研发,星环科技建立了多个产品系列:一站式大数据基础平台TDH、分布式分析型数据库ArgoDB及交易型数据库KunDB、基于容器的智能数据云平台TDC、大数据开发工具TDS、智能分析工具Sophon和超融合大数据一体机TxData Appliance 等,并拥有多项专利技术。
展开
-
内存数据库解析与主流产品对比(二)
作者:实验室小陈 / 大数开放实验室在上一篇文章《内存数据库解析与主流产品对比(一)》中,我们介绍了基于磁盘的数据库管理系统相关知识,并简述了内存数据库的技术发展。本篇文章将从数据组织和索引的角度来介绍内存数据库的特点,并介绍几款产品实际的技术实现。— 数据库管理系统中的数据组织—定长Block VS 变长Block内存数据库在内存中对数据进行管理时,虽然不再需要通过Slotted Page的形式对数据进行组织,但也不能在内存中任意为数据分配地址空间,依然需要把数据组织成块(Block.原创 2020-11-16 17:17:55 · 606 阅读 · 0 评论 -
内存数据库解析与主流产品对比(三)
作者:实验室小陈 /大数据开放实验室在上一篇文章《内存数据库解析与主流产品对比(二)》中,我们从数据组织和索引的角度介绍了内存数据库的特点和几款产品的技术实现。本文将继续解析内存数据库,从并发控制、持久化和查询处理的角度介绍几款技术,带来更多维度、更细致的内存数据库技术讨论。— 数据库管理系统中的并发控制—1. 内存数据库并发控制的两种策略a. 多版本的并发控制内存数据库中的并发控制主要采用两类策略:1. 多版本的并发控制;2. 分Partition处理。并发控制机制可以分为乐观..原创 2020-11-16 18:12:57 · 513 阅读 · 0 评论 -
那些年用星环产品解决的业务难点…
原创 2021-08-19 15:17:49 · 138 阅读 · 0 评论 -
Sophon AutoCV推动AI应用从模型生产到高效落地
而在长尾智能化场景中,业务导向更加明显,智能分析场景碎片化且通常传递链条较长,和业务价值高度相关,此情况下用户往往是期望通过有效的手段进行快速的从数据到人工智能模型到业务价值的验证,从而达到能够直接落地,快速提升数据价值和业务价值的目的。不仅支持存量智能场景中的模型高精度迭代,还能帮助企业快速落地新的智能化场景,解决传统智能场景中存在的模型维护、迭代效率低、建模周期长、部署成本高、数据资产积累难等应用痛点。金融行业数据资源丰富,数据依赖程度高,场景安全要求高,目前人工智能技术已成为金融行业的必备基础。原创 2024-03-01 15:50:41 · 1013 阅读 · 0 评论 -
白话大模型③ | 我们为何需要机器学习运营平台?
需求、数据、环境在不断扩大、变化,以机器学习和神经网络这类“数据驱动”的人工智能的运行逻辑,导致每次更新(更新大小并不是人认知的模糊的大小,而是机器能处理的数量化后的大小),都需要重新训练模型,重新采集数据,重新标注数据,重新建立模型,重新验证模型,重新上线,这个过程重来一遍是非常耗时耗力的;短期可以,长期不可以。1.减少了人工去做各类特征提取(比如测量人的瞳距),就需要大量“不同”的数据,来训练模型,得到“映射关系”,至于“什么是不同,怎么不同,要的量多少,现实中这种不同很少,能不能合成或生成?原创 2024-03-01 15:50:02 · 489 阅读 · 0 评论 -
白话大模型② | 如何提升AI分析的准确性?
• 数据清洗 :将明显不符合需求的数据剔除,比如:人脸不清晰、人脸不完整、人脸不在中心、人脸不是正脸、人脸不是人脸(比如是猫脸)等,再比如算法上有问题的:重复的(直接重复、有些位置移动/旋转的)、数据毒害的(故意数据投毒的、比如打印的人脸/面具而不是真实人脸的)等等,清洗出“高质量”数据实际工作远比看上去的复杂得多得多;•建立高效的查询方法:使用同样的映射关系,处理待查的图像,然后使用人脸卡片目录中的人脸嵌入向量,找到最相似的ID,然后再找到对应的人脸图像。答:用“数据驱动”的“机器学习”方法。原创 2024-03-01 15:49:26 · 590 阅读 · 0 评论 -
白话大模型① :AI分析能做什么?在实际落地中会碰到什么问题?
我们需要保存的“人脸卡片目录”信息包括(姑且认为):1.人脸的特征(比如眼睛、鼻子、嘴巴等):可以是相对大小、颜色等2.人脸的位置:可以是相对位置、绝对位置等3.人脸的编号:可以是身份证号、学号等实际操作中,人脸卡片目录一般都“编码”成了一串固定长度,比如说 1024,的数字(也就是“向量”),其有个特定且形象的名字“嵌入向量”:将人脸的特征(比如瞳距、鼻宽等)、位置(眼相对鼻距离等)、编号等信息,”嵌入“到这 1024 维的“向量”中。而且,更重要的是,这样提取,很难保证“准确性”和“泛化性”。原创 2024-03-01 15:48:54 · 1120 阅读 · 0 评论 -
Elasticsearch安全又双叒叕出问题? 搜索引擎该怎么选
近日,开源软件Elasticsearch被曝泄露了上亿条数据。而这不是Elasticsearch被曝安全问题的个例了,在过去几年内,Elasticsearch 数据泄露事件频发,甚至一个月被曝6次数据泄露。去年,受美国出口管制的巴林,暴露的Elasticsearch集群中近200万条信息被泄露,包含有关人员的敏感信息。而作为美国出口管制重点对象的俄罗斯,近几年发生多起Elasticsearch数据泄露事件。...原创 2022-08-18 11:31:07 · 331 阅读 · 0 评论 -
Sophon AutoCV Q&A大放送:如何加速视觉模型生产和落地(下篇)
星小环:数据有两个方面:一是原始的视频数据的采集,在我们的模型应用模块,有设备管理功能,可对接入到平台的数据进行定时定期录制保存,然后您可以把这部分数据回流到生产的样本管理,支撑模型训练。同时,平台也会初始化一部分通用的场景模板,比如工业安全生产的人员、车辆、环境等智能检测识别功能,用户仅需绑定上设备,即可完成一个智能应用的生成,并且可快速迁移复用,后期模型迭代只需要替换一下模型即可,省去了从0-1搭建的成本。对于模型应用的部分,我们还进行了国产化适配,可以在市面上主流的硬件平台上进行模型推理。...原创 2022-08-18 11:28:29 · 235 阅读 · 0 评论 -
Sophon AutoCV:助力AI工业化生产,实现视觉智能感知
感知智能将物理世界信号映射到数字世界,是AI工业化生产落地的必经之路,而其中视觉感知与物联感知已成为工业物联网领域的技术基石,通过与边缘计算的结合,能够有效解决AI在落地过程中面临的海量数据处理实时响应、原始数据价值密度低、多模态数据离散处理等问题。感知智能业务方向实现边缘智能感知的主要流程,以CV应用落地来看,主要围绕着模型生产和落地部署。典型CV应用落地所需流程长,需要经历 “12阶段”,并且需要大量人力,由5名中级工程师和5名高级工程师共同完成。目前传统CV应用的痛点:整体流程长,涉及人员多,流程各环原创 2022-06-29 15:35:20 · 481 阅读 · 0 评论 -
CDH/HDP迁移之路
图片哪些用户需要迁移图片原社区版用户社区版不再更新Cloudera(Cloudera 和Hortonworks 合并后)所有产品不再提供社区版,用户无法获取新的功能。社区版不再免费2021年1月31日开始,所有Cloudera软件都需要有效的订阅,且订阅费昂贵(50个节点,一年订阅费50万美元)。原企业版用户企业版不再更新Cloudera 和Hortonworks 合并后推出了新一代大数据平台 CDP,CDH 6和HDP 3将是CDH和HDP的最后企业版本,..原创 2022-04-02 17:49:13 · 3752 阅读 · 0 评论 -
白话大数据 | 从买菜这件小事来聊聊数据仓库
最近几个新入职的同学说被数据库,数据集市,数据仓库整的有点懵,不太清楚它们之间的关系和区别。周末小编在买菜的过程中灵光一闪,决定从买菜这件小事来聊聊数据仓库。原创 2022-03-01 15:49:06 · 1763 阅读 · 1 评论 -
白话大数据 | 元宇宙来了,但是你了解元数据吗?
元数据是对数据的描述,采集企业环境中的各类元数据并统一存储,通过分析元数据,根据业务维度、系统维度等不同维度对数据分类,并梳理出数据和数据之间的关系,将能从多种视角360°展示出企业的数据资产视图,让企业不同的员工都能方便地看到自己关心的数据情况,使大数据不再 “暗无天日”。原创 2022-01-12 16:24:49 · 1073 阅读 · 0 评论 -
租金多少才算合理?智能分析工具Sophon帮你预测房屋租金
本文将使用最近的房租数据,在智能分析工具Sophon上训练模型,并利用模型进行租金预测。原创 2021-12-17 11:52:10 · 986 阅读 · 0 评论 -
云原生的数据云,下一个十年的数字化转型趋势
数据量越庞大,数字化转型的意义也就越大,但转型这件事与企业内部多个技术部门紧密相关,它不是某一个单独的团队能够独立完成的任务,而是需要企业的业务部门、数据资产管理、开发应用等更多部门协同合作,因此,越是大型企业数字化转型的难度就越复杂。企业需要打破传统烟囱式架构设计,用全新的数据云模式来实现数字化转型。01 数据、应用、基础设施—数字化转型亟待解决的三大难题对于企业而言数字化转型包含三个要素:应用、数据和基础设施。而目前阶段,企业的每个要素都存在着不同的问题。对于企业应用而言,不同的应用原创 2021-08-13 16:37:47 · 262 阅读 · 0 评论