
big data
slx965
爱好足球,交朋友,旅游,计算机编程,做项目
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习Learning中的代数结构的建立
Learning是一个融会多种数学于一体的领域。说起与此有关的数学学科,我们可能会迅速联想到线性代数以及建立在向量空间基础上的统计模型——事实上,主流的论文中确实在很大程度上基于它们。R^n (n-维实向量空间) 是我们在paper中见到最多的空间,它确实非常重要和实用,但是,仅仅依靠它来描述我们的世界并不足够。事实上,数学家们给我们提供了丰富得多的工具。“空间”(space),这转载 2013-12-02 15:44:50 · 1186 阅读 · 0 评论 -
网络大数据
(1)网络大数据共性问题 --对于非结构化数据的统一表示与分析,目前缺少有效地方法与工具 --数据密集型科学研究“第四范式“ --没有建立一套完整的理论体系; --缺少高效、快速的处理、分析与挖掘的算法与范式2 网络大数据带来的挑战:复杂性、不确定性和涌现性 (1)复杂性:数据类型的复杂性、数据结构的复杂性、数据内在模式的复原创 2013-12-02 15:59:39 · 1964 阅读 · 0 评论 -
brighthouse小结
1、面向即时查询的分析级开源数据仓库(An Analytic Data Warehouse for Ad-hoc Queries) (1)列存储、自动调谐(column-oriented data warehouse with automatically tuned) a1、高压缩比,特别在内容的分析、决策支持查询(in the context of ana原创 2013-12-02 15:51:22 · 1248 阅读 · 0 评论 -
关于大数据的八大热点问题
1.数据科学与大数据的学科边界这一问题综合了两个问题,即大数据的基本内涵与数据的科学问题。前者关注的是大数据的基本定义和基本结构。迄今为止,什么是大数据,在产业界、学术界并没有形成一个公认的科学定义,大数据的内涵与外延也缺乏清晰的说明。大数据区别于其他数据的关键特性是什么?IBM提出了3V的说法,即volume(体量大)、variety(模式多)和velocity(速度快)。尔后又有人提出转载 2013-12-02 15:46:06 · 4465 阅读 · 0 评论 -
DOT--A Matrix Model for Analyzing,Optimizing and Deploying Software for Big Data Analytics in Distri
1. Abstract Traditional parallel processing models, such as BSP, are “scale up” based, aiming to achieve high performance by increasing computing power, interconnection network bandwidth, and原创 2013-12-02 15:54:50 · 1735 阅读 · 0 评论 -
MapReduce小结
1、MapReduce Provides: -Automatic parallelization & distribution; -Fault-tolerance; -Status and monitoring tools; -A clean abstraction for programmers(1)map (in_key, in_va原创 2013-12-02 15:52:20 · 734 阅读 · 0 评论 -
大数据即时分析架构探讨
1、大数据是数据库的自然延伸? -忘不掉ACID,舍不得Relation,忽视实际应用 -潜意识地奉行“一招鲜”(One Size Fits All, OSFA) -非结构化数据(二八原则) -云计算与大数据(云数据) -Hadoop+ HDFS + Map/Reduce(分布式、网格计算、云计算) -NoSQL2、Brighthouse: A原创 2013-12-02 15:07:35 · 1248 阅读 · 1 评论 -
王金良发现的ESMD数据分析方法
1、“Extreme-PointSymmetric Mode Decomposition Method for Data Analysis”,lJin-LiangWang, Zong-junLi ;Advances in Adaptive Data Analysis,5(3),2013.102、数学分析基础:数学技术: -数值模拟:有成熟数学模型的问题是用原创 2013-12-02 14:45:24 · 6368 阅读 · 1 评论 -
大数据的理论基础是什么
1、大家通常都讲大数据是4V:Volume体量大、Velocity增速快、Variety类型繁多、Value价值密度低; 2、但是大数据到底是什么样子的,没有看到严格的理论定义或描述; 3、有人说可以用Hilbert space去描述大数据(无边界、无穷维、边界不清等),海量的数据和海量的流量; 4、测度理论也需要用上了;勒贝格测度是比较适用的;原创 2013-12-02 14:36:42 · 5838 阅读 · 0 评论 -
大数据分析现有技术与问题
1、数据仓库方法DW: -数据移动过程(ETL)浪费资源、性能; -随着数据载入,应用越来越小,受制于数据源2、数据云: -大量数据输入,类型是堆,结构混乱,不可用; -按来源,最近原则分发、使用; -应用上,异构数据来了后,不知道放到哪里去;3、Big data: -内容无限(海量的数据和海量的流量); -无边(边界不原创 2013-12-02 14:48:31 · 1111 阅读 · 0 评论 -
大数据分析
前期看这方面的论文,感觉业界主要使用方案: 1、基于Hadoop的云平台分析架构(Mapreduce+Hbase);这方面主要在Mapreduce上做并行分布式处理;典型的论文有“2009VLDB-MAD Skills New Analysis Practices for Big Data”、“2011CIDR-Starfish A Self tuning System for Big原创 2013-12-02 14:34:38 · 1062 阅读 · 0 评论 -
希尔伯特空间(Hilbert space)
1、感觉Hilbert space是一个很好地测量理论基础,通过对勒贝格空间的理解,可以相对完好地诠释测量的集合拟合理论,甚至可以达到物理的拟合;2、其中勒贝格空间(X,M,u)是一个建立在域代数基础上的,是测度理论的一个重要表达,通过对这种空间而生成的Hilbertspace,可以相对完美地诠释异构数据集的可测量性;3、勒贝格测度是赋予欧几里得空间的子集的一个长度、面积或原创 2013-12-02 14:56:33 · 5491 阅读 · 0 评论