什么是大数据,大数据工具有那些,大数据流程是什么样的 一

什么是大数据,这里从技术层面说不应该是说什么是大数据,应该说什么是hadoop。

 

上图是hadoop常用的应用架构,初学者一看可能有点蒙,这么多,人都看晕了。下面用大数据的应用流程来说明下这些组件,看这些

组件是怎么结合起来实现大数据的技术应用。

 

 

以上图展示了平时的三种场景 全新数据采集、原有数据同步、运行时数据信息

     一般业务流程

     现在大多数爬虫都是用python和java

     python 常用是 urllib 组件。

     java 常用 WebCollector 组件。

     将爬取的数据写入mongodb或hbase中。

       从真实意义上来说mongodb并不属于hadoop体系中,但是从存储格式和使用上来说和hbase是一样的。hbase属于hadoop体系中的组件,底层是使用的hdfs分布式文件系统。

   两种数据存储方式都可以通过和mapreduce spark 结合清洗或重组数据。

   清洗完成数据以后放入solr或elasticsearch中提供给业务层调用。

### 大数据定义 大数据是指那些规模巨大、增长速度快以及种类繁多的数据集,这些特性使得传统数据处理应用软件不足以对其进行有效的管理和分析[^1]。随着信息技术的发展和互联网的普及,人类社会进入了数据时代,在这个时代里,每天都会产生海量的新鲜数据。 ### 特征描述 #### Volume(大量) 大数据的第个显著特点是其庞大的体积。现代的大数据环境下的信息量已经达到了前所未有的程度,从太字节(TB)级迅速扩展到了拍字节(PB)甚至艾字节(EB)[^4]。这种级别的数据量远远超出了常规数据库工具所能处理的能力范围。 #### Variety(多样) 除了数量上的优势外,大数据还表现出形式上的高度复杂性和多样性。这不仅限于结构化表格中的数值型字段,还包括半结构化的XML文档、非结构化的社交媒体帖子、视频流等多种形态的信息资源[^2]。 #### Velocity(速度) 第三个重要属性是数据产生的速率非常高,并且需要实时或近似实时地被捕捉并加以利用。例如金融交易记录、传感器网络传输过来的各种监测信号等都属于此类快速流动的数据源[^3]。 #### Value(价值) 尽管拥有上述三个方面的特质,但如果无法从中提取有用的知识,则再多再好的数据也毫无意义。因此,“有价值”的挖掘成为衡量个真正意义上的‘Big Data’项目成功与否的关键因素之;即通过高效算法和技术手段发现隐藏模式、趋势预测等方面的应用来实现商业和社会效益的最大化[^4]。 ```python # Python代码示例:简单模拟如何计算大规模数据集中某些特定条件的数量 def count_large_dataset(data, condition): """ 计算满足给定条件下大型数据集中的元素数目 参数: data (list): 数据列表 condition (function): 判断函数 返回: int: 符合条件的对象数 """ return sum(condition(item) for item in data) # 假设有个非常大的整数列表作为我们的'big dataset' large_numbers = range(-999999, 1000000) positive_count = count_large_dataset(large_numbers, lambda x: x > 0) print(f"正数的数量为 {positive_count}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值