slx965-优快云博客

原创优美图

优美图：顶点标号在{0,1,...,e}中互不相同；边为顶点标号之差，且为{1,2,...,e}两两不同；形式化描述如：存在单射g:V(G)->{0,1,...,e}，使得映射g'（uv）=g（u）-g（v)是E（G）到{1,2，。。。，e}的双射；1、优美图的优美标号可应用于代数编码理论、通信网络编址、射电天文学、导弹控制码设计同步、整电压发生器设计、雷达、密码设计、

2013-12-02 16:02:13 1316

原创网络大数据

（1）网络大数据共性问题 --对于非结构化数据的统一表示与分析，目前缺少有效地方法与工具 --数据密集型科学研究“第四范式“ --没有建立一套完整的理论体系； --缺少高效、快速的处理、分析与挖掘的算法与范式2 网络大数据带来的挑战：复杂性、不确定性和涌现性（1）复杂性：数据类型的复杂性、数据结构的复杂性、数据内在模式的复

2013-12-02 15:59:39 1999

原创 Hadoop小结

Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架，借助于Hadoop,程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。Hadoop 简介：包含一个分布式文件系统HDFS(Hadoop Distributed File System)。基于Hadoop的开源项目Pig,海量数据集分析的分布式计算程序。

2013-12-02 15:58:59 1176

原创 Hadoop编程、分布式文件系统结构与设计

ch1 Hadoop编程入门 Hadoop是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样，MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通讯请求。这样的模

2013-12-02 15:56:54 1103

原创 DOT--A Matrix Model for Analyzing,Optimizing and Deploying Software for Big Data Analytics in Distri

1. Abstract Traditional parallel processing models, such as BSP, are “scale up” based, aiming to achieve high performance by increasing computing power, interconnection network bandwidth, and

2013-12-02 15:54:50 1787

原创 MapReduce Algorithms for Big Data Analysis

1. MapReduce Algorithms for Big Data Analysis; A. Madaan, S. Kikuchi, and S. Bhalla (EDS.): DNIS 2013, LNCS 7813, PP. 44-48, 2013.2. Abstract. As there is an increasing trend of applications being e

2013-12-02 15:53:58 1452

原创 HDFS小结

1、HDFS: Motivation：（1）Based on Google’s GFS（2）Redundant storage of massive amounts of data on cheap and unreliable computers（3）Why not use an existing file system? – Different workload

2013-12-02 15:53:17 642

原创 MapReduce小结

1、MapReduce Provides： -Automatic parallelization & distribution； -Fault-tolerance； -Status and monitoring tools； -A clean abstraction for programmers（1）map (in_key, in_va

2013-12-02 15:52:20 758

原创 brighthouse小结

1、面向即时查询的分析级开源数据仓库（An Analytic Data Warehouse for Ad-hoc Queries）（1）列存储、自动调谐（column-oriented data warehouse with automatically tuned） a1、高压缩比，特别在内容的分析、决策支持查询（in the context of ana

2013-12-02 15:51:22 1285

原创模型检验

1、模型检验技术用于检验由模型描述语言描述的系统模型是否满足由性质说明语言描述的系统性质（1）模型检验中的关键技术问题是如何设计数据结构和算法，用以表示和遍历大规模的系统模型的状态空间；（2）解决由多个系统模型的并行组合而形成的状态空间爆炸问题；（3）解决状态空间爆炸问题的途径： a1、状态空间的符号表示（Symbolic

2013-12-02 15:50:24 3117

转载关于大数据的八大热点问题

1.数据科学与大数据的学科边界这一问题综合了两个问题，即大数据的基本内涵与数据的科学问题。前者关注的是大数据的基本定义和基本结构。迄今为止，什么是大数据，在产业界、学术界并没有形成一个公认的科学定义，大数据的内涵与外延也缺乏清晰的说明。大数据区别于其他数据的关键特性是什么？IBM提出了3V的说法，即volume（体量大）、variety（模式多）和velocity（速度快）。尔后又有人提出

2013-12-02 15:46:06 4522

转载机器学习Learning中的代数结构的建立

Learning是一个融会多种数学于一体的领域。说起与此有关的数学学科，我们可能会迅速联想到线性代数以及建立在向量空间基础上的统计模型——事实上，主流的论文中确实在很大程度上基于它们。R^n (n-维实向量空间) 是我们在paper中见到最多的空间，它确实非常重要和实用，但是，仅仅依靠它来描述我们的世界并不足够。事实上，数学家们给我们提供了丰富得多的工具。“空间”(space)，这

2013-12-02 15:44:50 1246

转载林达华 Dahua Lin 对数学的新思考

在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对app

2013-12-02 15:42:47 2130

原创 Hilbert学习笔记

1、线性空间：设F是一个数域，X是一个非空集合，称X是数域F上的线性空间，是指在X中定义了两种运算（满足封闭性，即运算结果仍然在集合X中）：加法+（满足交换律、结合律）和标量乘法（满足结合律、分配律）。2、群：X按照加法+构成一个群，其零元用0表示。（X,+）或者（X,+,0）3、线性映射：如果从线性空间X到同一个数域上的另一个线性空间U的映射M:X->U是一个代数同态，即M(x+y)=M

2013-12-02 15:41:48 2462

原创大数据即时分析架构探讨

1、大数据是数据库的自然延伸? -忘不掉ACID，舍不得Relation，忽视实际应用 -潜意识地奉行“一招鲜”(One Size Fits All, OSFA) -非结构化数据（二八原则） -云计算与大数据(云数据) -Hadoop+ HDFS + Map/Reduce（分布式、网格计算、云计算） -NoSQL2、Brighthouse: A

2013-12-02 15:07:35 1281 1

原创希尔伯特空间（Hilbert space）

1、感觉Hilbert space是一个很好地测量理论基础，通过对勒贝格空间的理解，可以相对完好地诠释测量的集合拟合理论，甚至可以达到物理的拟合；2、其中勒贝格空间（X，M，u）是一个建立在域代数基础上的，是测度理论的一个重要表达，通过对这种空间而生成的Hilbertspace，可以相对完美地诠释异构数据集的可测量性；3、勒贝格测度是赋予欧几里得空间的子集的一个长度、面积或

2013-12-02 14:56:33 5592

原创大数据分析现有技术与问题

1、数据仓库方法DW： -数据移动过程（ETL）浪费资源、性能； -随着数据载入，应用越来越小，受制于数据源2、数据云： -大量数据输入，类型是堆，结构混乱，不可用； -按来源，最近原则分发、使用； -应用上，异构数据来了后，不知道放到哪里去；3、Big data： -内容无限（海量的数据和海量的流量）； -无边（边界不

2013-12-02 14:48:31 1140

原创王金良发现的ESMD数据分析方法

1、“Extreme-PointSymmetric Mode Decomposition Method for Data Analysis”，lJin-LiangWang, Zong-junLi ；Advances in Adaptive Data Analysis,5(3),2013.102、数学分析基础：数学技术： -数值模拟：有成熟数学模型的问题是用

2013-12-02 14:45:24 6441 1

原创大数据的理论基础是什么

1、大家通常都讲大数据是4V：Volume体量大、Velocity增速快、Variety类型繁多、Value价值密度低； 2、但是大数据到底是什么样子的，没有看到严格的理论定义或描述； 3、有人说可以用Hilbert space去描述大数据（无边界、无穷维、边界不清等），海量的数据和海量的流量； 4、测度理论也需要用上了；勒贝格测度是比较适用的；

2013-12-02 14:36:42 5896

原创大数据分析

前期看这方面的论文，感觉业界主要使用方案： 1、基于Hadoop的云平台分析架构（Mapreduce+Hbase）；这方面主要在Mapreduce上做并行分布式处理；典型的论文有“2009VLDB-MAD Skills New Analysis Practices for Big Data”、“2011CIDR-Starfish A Self tuning System for Big

2013-12-02 14:34:38 1086