谈谈大数据的架构与算法（o~o）

最新推荐文章于 2025-05-26 14:49:41 发布

原创最新推荐文章于 2025-05-26 14:49:41 发布 · 2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #互联网 #新闻

——大数据专栏收录该内容

7 篇文章

订阅专栏

本文详细阐述了大数据架构设计的核心模块，包括数据标准、数据模型、数据管理体系，并介绍了常用算法如PageRank、K-Means及其应用。同时，讨论了数据结构、分布式处理等关键点，以及大数据面临的挑战和未来趋势。

以前就写过一些数据采集就是抓取网页新闻,用到正则滤html 。这好像跟大数据没什么关系，又离题了。

  丸子妹妹说说大数据架构设计:从功能模块可划分为：数据标准（数据标准字典，数据流程规范），数据模型（数据主题域，概念模型，主数据体系，模型选择），数据管理体系(管理规范及流程，质量控制，元数据管理，调度管理，日志监控）
从业务需求，主要要求有：灵活性，简易性，安全性，连续性，成本及时效。
数据架构原则：数据对象统一；数据，应用分离；数据异构；数据读写分离；数据库成本及管理；

常用的算法：著名的Google 网页排名算法：PageRank
                     著名的聚类算法：K-Means
                     以上两个算法，经常出现在论文  的实验部分或 example

Bloom filter （HBase），B+、B- Tree(mysql,oracle,mongodb)，Hash表+桶(redis)
，数据库索引，倒排索引(Inverted index)，外排序，分布式处理(mapreduce)等

哈希树、布隆过滤器、LSM树、map/reduce、倒排索引等
                     机器学习数据挖掘等等.

数据结构：这个应该要看是针对什么应用而言，比如大数据的存储数据库有：key-value（Hbase、Cassandra）、  列式存储（Parquet）、Redis（hase  set）、mongodb（Json ... ）
                  分布式索引中的著名数据结构：倒排索引

大数据应用的未来挑战和趋势

最大的挑战并不是技术和数据本身，而在与人们对于数据的认识和态度。这方面很多互联网公司做的比较好，它们拥有丰富的数据同时也有强烈的盈利需求，可以挖空心思的在各种数据上做文章；而对于很多传统行业，尤其是政府，首先它们还是相当重视数据的，甚至比互联网公司都要重视，但出于行政管理，组织利益和安全等的考虑数据往往会形成孤岛很难做到综合利用。
另外一方面的挑战是构建成功的大数据应用需要对业务逻辑和数据处理技术都有比较深入的理解，而且很难拆解开，因为业务的需求会直接影响到底层架构的设计以及算法和工具的选择，这一点和传统的交易型系统有很大区别，所以现在一些行业中的软件+数据库+硬件的分工模式不太适合大数据应用开发，市面上能够对各种因素通盘考虑做整体架构的公司并不多。
趋势的话我的理解，现在技术层面的工具，技术是一个百家齐放的局面，其原因一方面是开源项目的运营模式越来越成熟，另一方面是大数据的分析处理是多样化的，相信未来很长一段时间都会维持这个局面，传统的软件开发上已经逐渐向服务提供商转变，产品本身可能变得越来越不重要，贴合用户需求的定制化架构和解决方案可能更加受到欢迎，同时云计算的不断发展也将使得未来的架构设计更加轻松，部署和迁移更加便捷。

未来大数据的发展前景是巨大的，现在人们的生活已经离不开大数据了，云计算、云存储、电商等等网站的数据都是大数据，但是大数据的发展的技术还是面临挑战，技术的发展新的技术也在不断更新，所以大数据应用的挑战是结合新技术，不断优化大数据的算法。
大数据存储技术、并行计算、吞吐量
大数据的实时查询（ad-hoc）、分析（OLAP），数据挖掘等挑战

读完试读样章后对海量待挖掘数据,数据切分算法,分布式图计算了解到大数据的精深之处。是一本不错的书籍。