
大数据应用
文章平均质量分 55
马超的博客
Stay Hungry, Stay Foolish
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Neo4j如何使用Data Fabric技术编织万亿图数据
Neo4j如何使用Data Fabric技术编织万亿图数据Neo4j如何使用Data Fabric技术编织万亿图数据一、数据编织(Data Fabric)二、Neo4j Fabric简介三、Fabric数据建模3.1 数据建模3.2 数据联邦3.3 数据分片四、使用 Fabric Cypher 查询数据五、总结Here’s the table of contents:Neo4j如何使用Data Fabric技术编织万亿图数据一、数据编织(Data Fabric)原创 2022-05-07 19:53:17 · 945 阅读 · 0 评论 -
存储过程实现上亿级图数据分块ETL
图重构-重复关系重构图数据分块ETL函数与过程功能介绍完整实现案例图数据分块ETL图数据ETL的一个场景是需要将上亿条上百G的原始数据构建为图数据,在内存不够用的情况下保证数据构建过程可以平稳顺利运行,需要使用数据分块的方式进行构建。如下通过存储过程实现数据分块方案。该解决方案依赖于原始数据库的自增ID【超大CSV文件的构建可以导入MySQL之后构建】,经过测试可以在生产环境正常运行并且避免过多的内存消耗。函数与过程功能介绍从关系数据库加载数据apoc.load.jdbc函数实现数据原创 2020-12-14 22:44:36 · 524 阅读 · 1 评论 -
图重构-重复关系重构
图重构-重复关系重构图重构创建测试数据查询测试数据如何重构重构关系重构结果更多复杂重构可以使用下面的存储过程实社区问答连接推荐一下lyonwj的博客图重构今天看到社区有人提问如何进行关系重构,顺手回答了一下。在此记录下关系重构的方法。创建测试数据MERGE (A:Test {name:'A'})MERGE (B:Test {name:'B'})CREATE (A)-[:Realation {name:'属性1'}]->(B)CREATE (A)-[:Realation {name:'属性原创 2020-12-14 22:13:46 · 1262 阅读 · 0 评论 -
大数据降维打击与上帝视角下的图数据
大数据降维打击与上帝视角下的图数据大数据应用降维商业史上的降维打击用图思维降维大数据应用上帝视角下的图数据图数据的定义什么是上帝视角下的图数据什么事实图数据图数据在业务端的可能产出知识图谱和图数据的关系大数据应用降维商业史上的降维打击商业史上有哪些降维打击的经典案例用图思维降维大数据应用图数据库的高性能关系算力也许可以帮助大数据应用降维。对复杂基础数据的建模融合关联最终形成一个高度整合的图,可以为数据分析提供很好的切入点。对抽象图再做抽象形成人容易理解的图,层层剥离复杂将会变的简单!上帝视角下的原创 2020-09-13 15:48:44 · 472 阅读 · 0 评论 -
图数据库超级节点建模优化实战
图数据库超级节点建模优化实战《针对图谱超级节点的一种优化解决方案 》,在这篇文章中设计了针对图数据库中超级节点的一系列优化方案。下面介绍一个实战操作。对于地域相关的数据进行建模优化。ps:所有实战操作都基于ongdb进行。此实战优化操作,核心在于针对地域数据设计了一套标签体系,使得CYPHER更加具有表达力。从而更易于提升查询的性能。一、MySQL模型关系数据模型到图模型的设计,可以看到图模型更加富有表达力接近于人的思维。二、图数据本体建模可以看到通过标签体系的富化之后,本体模型原创 2020-05-16 16:09:08 · 1128 阅读 · 0 评论 -
Elasticsearch负载均衡策略发生死锁解决方案
Elasticsearch负载均衡策略发生死锁解决方案一、问题描述与解决方案1、问题产生的背景2、解决方案二、集群分片分配时的相关设置(译文)集群分片分配分片分配设置分片重新平衡分配设置启发式分片平衡分配一、问题描述与解决方案1、问题产生的背景es集群版本:elasticsearch-5.5.3HEAD插件索引集群显示(red/yellow)。四个节点的集群,索引有大量写入,同时有大量删除...翻译 2019-06-13 21:19:16 · 6677 阅读 · 0 评论 -
Elasticsearch解决数据版本冲突问题的策略
Elasticsearch解决数据版本冲突问题的策略一、主要请求流程(索引和删除等操作的基本流程)二、数据版本冲突的原因1、refresh的执行2、文档发生更改三、结论一、主要请求流程(索引和删除等操作的基本流程)1、集群中某节点接收到请求。2、请求转发到文档的主分片。3、在主分片上执行操作,同时将操作请求并行转发到其它节点。4、事务日志(translog )在主分片和复制分片上同步,这...原创 2019-06-06 14:32:07 · 5308 阅读 · 0 评论 -
Elasticsearch索引数据大批量删除接口优化
Elaticsearch索引数据大批量删除接口优化一、需求二、索引数据删除接口2.1使用到的elasticsearch核心接口2.2封装删除脚本2.3封装接口实现三、Lucene分段处理的优化3.1、refersh3.2、flush3.3、合并策略3.4、存储限流3.5、存储3.6、使用postman设置索引级配置四、删除接口运行效率统计分析一、需求每隔一段时间,删除N天前的数据,索引只保留最...原创 2019-06-05 19:50:47 · 3362 阅读 · 5 评论 -
NEO4J全文检索架构
NEO4J全文检索架构一、有大量存量数据(亿级以上)(并长期有增量数据进入)二、无大量存量数据或者少量存量数据(或全部为增量数据)三、架构方案选择优先级以下方案,是根据实践总结的基于NEO4J的全文检索解决方案,各有优缺点,仅供参考。以下总结全部基于neo4j-3.4.9版本,至于升级到3.5.x之后的版本索引有了大幅提升,还未做测试。一、有大量存量数据(亿级以上)(并长期有增量数据进入)...原创 2019-04-24 20:39:02 · 1759 阅读 · 0 评论 -
NEO4J亿级数据全文索引构建优化
NEO4J亿级数据全文索引构建优化一、数据量规模(亿级)二、构建索引的方式三、构建索引发生的异常四、全文索引代码优化1、Java.lang.OutOfMemoryError2、访问数据库时3、优化方案4、优化代码5、执行效率测试如果使用基于NEO4J的全文检索作为图谱的主要入口,那么做好图谱搜索引擎的优化是非常关键的。一、数据量规模(亿级)count(relationships):500...原创 2019-04-24 12:59:43 · 3251 阅读 · 6 评论 -
NEO4J中文分词全文索引自动更新解决方案
NEO4J中文分词全文索引更新解决方案一、样例数据二、英文与中文全文索引差别1、创建NEO4J默认索引2、删除索引3、创建支持中文分词的索引三、APOC自带英文全文索引过程(可自动更新索引)1、添加全文索引2、新增节点与属性3、检索四、自定义中文分词全文索引插件(自动更新索引不成功)1、添加全文索引2、新增节点与属性3、检索五、标签交叉检索六、自定义中文分词插件(自动更新索引失败单独更新节点索引)...原创 2019-04-24 09:34:28 · 1727 阅读 · 0 评论 -
图谱分析引擎跨服务器迁移
图谱分析引擎跨服务器迁移一、需求二、脚本实现方式1、压缩2、传输3、解压三、备注一、需求将服务器A的图库数据/索引/配置完整迁移到B服务器。二、脚本实现方式1、压缩在压缩时注意忽略不必要的数据文件,优化压缩/传输/解压效率。#!/usr/bin/env bash# 图谱引擎压缩nohup zip -r scj-GRAPH-ENGINE.zip neo4j-3.4.9 -x "./n...原创 2019-04-28 10:23:41 · 455 阅读 · 0 评论 -
基于NEO4J的高级检索功能
基于NEO4J的高级检索一、需求二、创建索引1、索引自动更新配置2、执行带有索引自动更新配置的过程三、查询索引1、LUCENE查询语法2、实现高级检索的核心:LUCENE QUERY语句拼接四、总结一、需求基于NEO4J实现类似万方的高级检索功能 万方链接二、创建索引1、索引自动更新配置// neo4j.conf设置此项会影响性能 开启自动更新索引(测试时数值类型字段在全文检索时无法索...原创 2019-04-18 13:06:24 · 3640 阅读 · 1 评论 -
NEO4J空间索引
NEO4J空间索引1、创建图层2、查看已经创建的图层列表3、建立空间点并将新创建的点加入到geom图层中4、查询维度在60.0到60.2之间,经度在15.0到15.3之间的空间点5、导入全国公路shp文件6、查询一个矩形内的图形语句7、查询一个多边形内的点8、WithinDistance - 查询点周边distance(0.1km)以内的点9、批量节点构建空间索引Neo4j空间索引可以对数据进...原创 2019-04-22 19:02:52 · 1409 阅读 · 3 评论 -
自定义中文全文索引
自定义中文全文索引一、中文分词插件1、分词组件的调整2、分词测试二、样例数据准备三、通过中文全文分词组件创建节点索引四、中文分词索引查询五、总结一、中文分词插件NEO4J中文全文索引,分词组件使用IKAnalyzer。为了支持高版本LUCENE,IKAnalyzer需要做一些调整。IKAnalyzer-3.0 旧版本实现参考ELASTICSEARCH-IKAnlyzer 高版本实现参考...原创 2019-04-11 10:31:31 · 1599 阅读 · 0 评论 -
社交图谱好友关系分析
基于NEO4J好友关系分析一、两两之间好友关系查询二、自定义函数实现两两关系统计三、使用UNWIND实现节点属性更新四、自定义过程实现节点属性更新一、两两之间好友关系查询使用with定义一个列表变量,里面是所有的节点ID;使用match匹配出所有的结点,将结点放到列表中。使用两个unwind将结点列表打散到行,两个unwind的结点也是以笛卡尔积的方式返回的,所以这里是两两的任意组合,甚至两个...原创 2019-03-30 22:42:13 · 3085 阅读 · 0 评论 -
日志分析系统和推荐平台的模块组成以及对应的开源技术简介
日志分析系统的模块组成以及对应的开源技术 日志分析系统有以下两类:离线日志分析系统:日志收集(scribe,flume等),日志存储(hdfs等),日志离线计算(mapreduce、hive、pig,spark sql 等)实时日志分析系统:日志收集(scribe,flume等),消息队列(RabbitMQ、kafka等),实时计算框架(storm、spark streaming等)原创 2016-06-20 15:54:52 · 1997 阅读 · 0 评论 -
5个零售业大数据带来巨大收益的实例(译文)
5个零售业大数据带来巨大收益的实例(译文)注明:此译文已经在小象公众平台发表,转载请注明-小象学院(微信号:ChinaHadoop),谢谢合作!作者:Chuck Schaeffer大数据正在为零售商们传递一些可观的成果。Macy说他们的大数据程序是一个关键的竞争优势,指出大数据作为一个强有力的贡献因素,将零售店的销售额提高了十个百分点。Sterling Jewelers把上个休假期49翻译 2015-11-15 15:51:32 · 5019 阅读 · 0 评论