NOSQL 简介

本文深入探讨了NOSQL数据库的各类数据类型,包括列、key-value、文档、全文及图形数据库的特点与应用场景。详细分析了Hbase、redis、MongoDB、ElasticSearch、Solr及Neo4j等数据库的优劣,为产品选型提供了全面指导。

NOSQL 简介

数据类型:列、key-value、文档、全文、图形数据库

  • 列:Hbase 适合大数据量写入,少量查询(字段少)
  • key-value:redis 性能高,没有原子性,不能查询value
  • 文档:MongoDB Json,Bson,可随意扩展;不支持join查询,不支持多行事务;read commit ,不可重复读
  • 全文索引:正排索引(文档到单词的索引)适用于标题查询,倒排索引(单词到文档的索引)适用于内容查询
  • elasticSearch | | solr 都基于Lucene
    查询效率高,海量数据实时处理
    集群横向扩展,支持PB级别数据
    高可用集群弹性
    读写延时;更新性能低,底层是先删除数据,然后插入;占用内存大,读索引入内存;多表关联较弱
  • 图形数据库 :Neo4j ArangoDB Titan
    用图形理论存储实体之间的关系信息

产品选型概览

  • 内部使用的管理型系统
    如运营系统,数据量少,并发量小,首选考虑关系型
  • 大流量系统
    如电商单品页,后台考虑选关系型,前台考虑选内存型
  • 日志型系统
    原始数据考虑选列式,日志搜索考虑选倒排索引
  • 搜索型系统
    例如站内搜索,非通用搜索,如商品搜索,后台考虑选关系型,前台考虑选倒排索引
  • 事务型系统
    如库存,交易,记账,考虑选关系型型+缓存+一致性型协议
  • 离线计算
    如大量数据分析,考虑选列式或者关系型也可以
  • 实时计算
    如实时监控,可以考虑选内存型或者列式数据库

转载于:https://www.cnblogs.com/paxing/p/10442357.html

(1)普通用户端(Web 交互平台) 热门话题总览: 实时榜单:展示 "热搜榜 TOP50"(每 10 分钟更新),包含话题名称、热度值、上升速度、持续时间,支持按 "社会 / 娱乐 / 科技" 等类别筛选。 话题卡片:每个话题以卡片形式展示核心信息,悬停显示 "相关话题、参与人数、情感倾向分布",点击进入详情页。 基础可视化浏览: 趋势图表:热门话题的 "热度随时间变化折线图"(支持选择 1 小时 / 24 小时 / 7 天时间范围)、"情感占比饼图"。 互动数据:展示话题相关微博的 "转发 / 评论 / 点赞总量对比" 柱状图,突出 "高互动量节点"(如某明星发布相关微博的时间点)。 (2)媒体工作者端(Web 平台) 深度分析功能: 多维度筛选:支持按 "时间范围、用户粉丝量、地域分布" 筛选话题数据,生成 "不同时段情感变化"、"各省市讨论热度" 等细分图表。 话题关联分析:展示 "核心话题与相关子话题的关联网络"(力导向图),标注 "关联强度"(线条粗细)和 "互动量占比"。 报告导出功能: 图表导出:支持将可视化图表导出为 "PNG(高清)/SVG(矢量)/PDF" 格式,保留数据来源标注(如 "数据采集时间:2024-10-01")。 分析简报:自动生成包含 "话题概述、核心发现、数据图表" 的简报文档(Word/PDF),支持添加自定义分析结论。 (3)数据分析人员端(Web+Jupyter) 高级分析工具: 自定义分析:通过 Jupyter Notebook 集成的 Python 分析环境(预装 pandas/matplotlib/seaborn),编写脚本处理原始数据,支持调用系统 API 获取指定话题数据。 模型参数调整:对情感分析模型、话题聚类算法进行参数优化(如调整 LDA 模型的主题数量),测试不同参数对分析结果的影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值