
大数据
文章平均质量分 83
大数据理论和实践为主
码农丁丁
码农知识的搬运工,作为工作20年的码农,分享自己实践或看到的知识
展开
-
HugeGraph 1.3.0版本发布
HugeGraph1.3.0版本发布原创 2024-04-19 16:20:39 · 1234 阅读 · 0 评论 -
【华为数据之道学习笔记】3-1 基于数据特性的分类管理框架
主数据的错误可能会导致成百上千的事务数据错误,因此主数据的管理重点是确保同源多用、重点进行数据内容的校验等。部数据和外部数据、结构化数据和非结构化数据、元数据。其中,结构化数据又进一步划分为基础数据、主数据、事务数据、报告数据、观测数据和规则数据。是描述性标签,描述了数据(如数据库、数据元素、数据模型)、相关概念(如业务流程、应用系统、软件代码、技术架构)以及它们之间的联系(关系)定义数据的数据,是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理与逻辑结构的信息。原创 2023-12-06 15:44:03 · 915 阅读 · 0 评论 -
【华为数据之道学习笔记】2-建立企业级数据综合治理体系
同时,在管理IT流程的设计规范中,明确界面的字段要遵从数据标准的定义,数据库表和字段的设计要承接信息架构的设计要求,从而达到数据治理融入IT实施流程的目标。支撑数据解决方案的角色为数据经理,数据经理统筹管理信息架构工程师、数据治理工程师、数据分析师和数据科学家,共同完成项目数据解决方案的交付和验证。公司数据Owner是公司数据战略的制定者、数据文化的营造者、数据资产的所有者和数据争议的裁决者,拥有公司数据日常管理的最高决策权。各数据Owner承担数据工作路标、信息架构、数据责任机制和数据质量的管理责任。原创 2023-12-06 12:04:26 · 996 阅读 · 0 评论 -
【数据中台】开源项目(5)-Amoro
Amoro定位是一个搭建在 Apache Iceberg之上的流式湖仓服务,流式强调向实时能力的拓展,服务则强调管理、标准化度量,以及其他可以抽象到基础软件中的湖仓一体能力。原创 2023-12-02 18:23:23 · 763 阅读 · 0 评论 -
【数据中台】开源项目(4)-BitSail
BitSail是字节跳动开源的基于分布式架构的高性能数据集成引擎, 支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案.原创 2023-12-02 18:06:31 · 968 阅读 · 0 评论 -
【数据中台】开源项目(3)-Linkis
Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的REST/WebSocket/JDBC 等标准接口,上层应用可以方便地连接访问MySQL/Spark/Hive/Presto/Flink 等底层引擎,同时实现统一变量、脚本、用户定义函数和资源文件等用户资源的跨上层应用互通,以及通过REST标准接口提供了数据源管理和数据源对应的元数据查询服务。 作为计算中间件,Linkis 提供了强大的连通、复用、编排、扩展和治理管控能力。通过将应用层和引擎层解耦,简化了复杂的网络调原创 2023-12-02 17:41:34 · 729 阅读 · 0 评论 -
【图数据库实战】gremlin语法
Gremlin 是 Apache TinkerPop 的图遍历语言。Gremlin 是一种函数式数据流语言,使用户能够简洁地表达对其应用程序属性图的复杂遍历(或查询)。每个 Gremlin 遍历都由一系列(可能嵌套的)步骤组成。步骤对数据流执行原子操作。每个步骤都是映射步骤(转换流中的对象)、过滤步骤(从流中删除对象)或副作用步骤(计算有关流的统计信息)。原创 2023-11-21 15:49:03 · 501 阅读 · 0 评论 -
【图数据库实战】HugeGraph图计算流程
2、并行加载3、并行计算4、并行输出5、算法流程6、算法开发示例原创 2023-11-20 22:38:25 · 704 阅读 · 0 评论 -
【图数据库实战】HugeGraph系列
【图数据库实战】gremlin语法。【图数据库实战】图数据库基本概念。【图数据库实战】cypher语法。原创 2023-11-20 21:16:53 · 1632 阅读 · 0 评论 -
【图数据库实战】HugeGraph架构
作为一款通用的图数据库产品,HugeGraph需具备图数据的基本功能,如下图所示。HugeGraph包括三个层次的功能,分别是存储层、计算层和用户接口层。HugeGraph支持OLTP和OLAP两种图计算类型,其中OLTP实现了框架,并支持Gremlin查询语言。OLAP计算是基于SparkGraphX实现。原创 2023-11-17 22:26:49 · 1480 阅读 · 0 评论 -
【图数据库实战】HugeGraph简介
HugeGraph是一款易用、高效、通用的开源图数据库系统(Graph Database,), 实现了框架及完全兼容查询语言, 具备完善的工具链组件,助力用户轻松构建基于图数据库之上的应用和产品。HugeGraph支持百亿以上的顶点和边快速导入,并提供毫秒级的关联关系查询能力(OLTP), 并支持大规模分布式图分析(OLAP)。原创 2023-11-15 14:35:53 · 823 阅读 · 0 评论 -
NLP资源收集
有哪些比较好的中文分词方案?https://www.zhihu.com/question/19578687LingPipe是运用计算机语言学处理文本信息的工具包,可用于如下任务:在新闻中查找人名、组织或位置,自动分类Twitter搜索结果,提供查询的正确拼写建议等。http://hao.jobbole.com/lingpipe/Elasticsearch 默认分词器和中分分词器之间的比较及使用方法...原创 2018-04-16 19:05:14 · 240 阅读 · 0 评论 -
DB2基本命令
转自http://hi.baidu.com/daiguofu/blog/item/e058b019fb64be4543a9adca.html,有待验证1.启动数据库 db2start2.停止数据库 db2stop3.连接数据库 db2 connect to o_yd user db2 using pwd4.读数据库管理程序配置 d转载 2007-06-28 09:44:00 · 744 阅读 · 0 评论 -
Oracle的SQL*PLUS命令的使用大全
Oracle的sql*plus是与oracle进行交互的客户端工具。在sql*plus中,可以运行sql*plus命令与sql*plus语句。 我们通常所说的DML、DDL、DCL语句都是sql*plus语句,它们执行完后,都可以保存在一个被称为sql buffer的内存区域中,并且只能保存一条最近执行的sql语句,我们可以对保存在sql buffer中的sql 语句进行修改,然后原创 2007-04-07 01:48:00 · 611 阅读 · 0 评论 -
在ORACLE中实现SELECT TOP N的方法
1.在ORACLE中实现SELECT TOP N 由于ORACLE不支持SELECT TOP语句,所以在ORACLE中经常是用ORDER BY跟ROWNUM的组合来实现SELECT TOP N的查询。 简单地说,实现方法如下所示: SELECT 列名1...列名n FROM (SELECT 列名1...列名n FROM 表名 ORDER BY转载 2007-05-19 13:20:00 · 731 阅读 · 0 评论 -
MYSQL和ORACLE的一些操作区别
MYSQL和ORACLE的一些操作区别有很多应用项目, 刚起步的时候用MYSQL数据库基本上能实现各种功能需求,随着应用用户的增多,数据量的增加,MYSQL渐渐地出现不堪重负的情况:连接很慢甚至宕机,于是就有把数据从MYSQL迁到ORACLE的需求,应用程序也要相应做一些修改。总结出以下几点注意事项。1. 自动增长的数据类型处理 MYSQL有自动增长的数据类型,插入记录时不用原创 2007-05-19 13:30:00 · 826 阅读 · 0 评论 -
【实战】Oracle11g用户密码不区分大小写
连接到:Oracle Database 11g Enterprise Edition Release 11.2.0.1.0 - ProductionWith the Partitioning, OLAP, Data Mining and Real Application原创 2011-08-27 14:24:47 · 758 阅读 · 0 评论 -
DB2 基础: 日期和时间的使用
介绍这篇短文是为那些刚接触 DB2 并想理解如何操作日期和时间的新手而写的。使用过其它数据库的大部分人都会很惊喜地发现在 DB2 中操作日期和时间是多么简单。基础要使用 SQL 获得当前的日期、时间及时间戳记,请参考适当的 DB2 寄存器:SELECT current date FROM sysibm.sysdummy1SELECT current ti转载 2007-06-28 14:41:00 · 734 阅读 · 0 评论 -
DB2上机操作指令指南
1. 启动实例(db2inst1):db2start2. 停止实例(db2inst1):db2stop3. 列出所有实例(db2inst1)db2ilist5.列出当前实例:db2 get instance4. 察看示例配置文件:db2 get dbm cfg|more5. 更新数据库管理器参数信息:db2 update db转载 2007-06-28 11:14:00 · 1391 阅读 · 0 评论 -
DB2 命令行处理器(CLP)中的常用命令
转自IBM( http://www.ibm.com/developerworks/cn/db2/library/techarticles/0211yip2/index.html )简介以下是最常用的 DB2 CLP 命令的快速参考。虽然不是一份完整的参考,但这篇文档对于任何刚接触 DB2 的用户来说,可以证明是案边有价值的参考材料。 方括号中的参数是可选参数,尖括号中的内容表示转载 2007-06-28 10:07:00 · 715 阅读 · 0 评论 -
Oracle10g数据库优化实用心得小结(转贴)
很多的时侯,做Oracle DBA的我们,当应用管理员向我们通告现在应用很慢、数据库很慢的时侯,我们到数据库时做几个示例的Select也发现同样的问题时,有些时侯我们会无从下手,因为我们认为数据库的各种命种率都是满足Oracle文档的建议。实际上如今的优化己经向优化等待(waits)转型了,实际中性能优化最根本的出现点也都集中在IO,这是影响性能最主要的方面,由系统中的等待去发现Oracle原创 2007-04-07 01:38:00 · 1104 阅读 · 0 评论