自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

x_pohai2010的专栏

原创 Apache Flink不止于计算，数仓架构或兴起新一轮变革

2021 年初，在 InfoQ 编辑部策划的全年技术趋势展望中，我们提到大数据领域将加速拥抱“融合”（或“一体化”）演进的新方向。本质是为了降低大数据分析的技术复杂度和成本，同时满足对性能和易用性的更高要求。如今，我们看到流行的流处理引擎 Apache Flink（下称 Flink）沿着这个趋势又迈出了新的一步。1 月 8 日上午，Flink Forward Asia 2021 以线上会议的形式拉开帷幕。今年是 Flink Forward Asia（下文简称 FFA）落地中国的第四个年头，也是 Flin

2022-01-10 10:12:24 260

原创主数据管理实施四部曲概论

主数据项目的建设是一个循序渐进、持续优化的过程，不可一蹴而就。主数据管理项目从咨询规划到落地实施再到初步见效需要经历四个阶段，而每个阶段都是必经阶段，每个阶段均可独立成章，所以这里是四部曲，不是四步曲。主数据项目建设从方法上，分为以下四部，简单归结为12个字：“摸家底、建体系、接数据、抓运营”！一、摸家底 1、数据资源普查数据资源普查的方法常用的有两种，一种是自顶向下的梳理和调研，另一种是自底向上的梳理和调研。自顶向下的调研一般会用到IRP（信息资源规划）和BPM（业务流程管

2021-01-28 09:46:04 1145

原创数据标准管理

一、数据标准是什么数据标准化是指研究、制定和推广应用统一的数据分级分类、记录格式及转换、编码等技术标准的过程。——维基百科数据标准是一套有管理制度、管控流程、技术工具共同组成的体系，是通过这套体系的推广，应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化，数据标准管理是数据资产管理的核心活动之一，对于企业提升数据质量、厘清数据构成、打通数据孤岛、加速数据流通、释放数据价值有着至关重要的作用。二、数据标准分类数据标准是进行数据标准化、消除数据业务歧义的主...

2021-01-27 17:45:15 2640 1

原创元数据管理—企业数据治理的基础

目录一、前沿二、认识元数据四、元数据的分类1、业务元数据2、技术元数据3、管理元数据五、元数据管理成熟度1、L0:初始状态2、L1:从属于业务系统3、L2：元数据统一存储4、L3: 元数据集中管理5、L4：元模型驱动管理6、L5: 元数据管理自动化六、元数据管理平台架构1、元数据采集服务2、元模型驱动的设计与开发3、元数据管理服务4、元数据访问服务5、元数据分析服务（1）血缘分析（2）影响分析（3）冷热度分析（...

2021-01-25 12:19:56 1766

原创数据治理概念解读

目录一、数据治理概述二、元数据、数据元、数据源、源数据1、数据元2、元数据（MateData）2、数据源（Data Source）3、源数据（Source Data）三、主数据、基础数据、静态数据1、主数据2、基础数据3、静态数据四、数据标准、数据规范五、数据目录、数据分类、数据标签1、数据目录2、数据分类3、数据标签六、数据模型、数据结构、数据字典1、数据模型2、数据结构3、数据字典七、数据仓库、数据湖、数据工厂、数据中台

2021-01-25 09:50:13 2763

原创数据安全防护与治理

目录一、数据安全面临的挑战1、数据流转复杂化使得数据泄露风险增大2、攻击手段多样化，传统安全技术不足以防护3、大数据中的用户个人信息安全问题突出二、数据安全治理流程三、数据安全治理落地措施四、应用内数据保护是企业安全建设重点五、数据安全产品防护及方案1、天融信数据安全智能管控平台（1）产品介绍（2）产品特性（3）客户关注的主要功能（4）客户价值2、基于国密算法的奥联大数据平台安全解决方案（1）方案介绍.

2021-01-22 11:24:26 2402

转载实用的top命令

对于系统级的监控来说,top命令是实用而高效的瑞士军刀。相比vmstat,sar来说提供的是实时的进程信息，对于监控性能，排查问题是很高效的。而且提供了交互式的命令模式，能够灵活的对输出结果进行组合。如果数据库系统中存在着cpu或者内存的过度使用，或者说IO等待较高，都可以通过top命令进行一个快速的定位到系统进程信息，然后从系统级和数据库级的进程进行一个映射，从而得到数据库级的进程信息,定位

2016-03-20 22:02:12 378

转载 linux下挂载新硬盘和分区的步骤

今天和大家分享一下在linux下挂载新硬盘的步骤。演示的环境基于centos [root@localhostetc]# uname -aLinuxlocalhost.localdomain 2.6.32-220.el6.x86_64 #1 SMP Tue Dec 6 19:48:22 GMT 2011x86_64 x86_64 x86_64 GNU/Linux[root@loc

2016-03-20 21:58:49 3540

转载别再比较Hadoop和Spark了，那不是设计人员的初衷

别再比较Hadoop和Spark了，那不是设计人员的初衷2016-03-13 中国大数据程序员日记对Hadoop与Spark孰优孰劣这个问题，最准确的观点就是，设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。直接比较Hadoop和Spark有难度，因为它们处理的许多任务都一样，但是在一些方面又并不相互重叠。

2016-03-13 21:22:20 442

转载 Hadoop生态系统在壮大：十大炫酷大数据项目

在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间，这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本文介绍一些重要项目，并顺便了解几个新兴项目。管理和分析大数据已经变成了重大挑战，数量急剧增加的信息从社交媒体、连接到物联网中“物件”的传感器、结构化数据、非结构化数据以及可以收集的其他一切数据收集而来。为了应对这项任务，开发人员已

2016-03-13 10:49:06 982

转载用数据讲故事：七种不同的数据展示方法

摘要: 什么使一个故事真正成为数据驱动呢？在某种程度上，数字不再仅仅是出现在侧栏的表格，而是能够在真正意义上促进故事的发展。数据可以帮助我们用不同视角叙述不同类型的故事。我在Tableau Public的同事Ben Jones鼓励 ...什么使一个故事真正成为数据驱动呢？在某种程度上，数字不再仅仅是出现在侧栏的表格，而是能够在真正意义上促进故事的发展。

2016-03-06 22:31:30 1504

原创 Linux下删除已创建用户

由于某种原因，根据业务命名规范或者业务惯例需要对误创建的用户或者已经创建的用户需要删除，在Linux下删除用户如下方法：一、在创建用户时，提升该用户名已经存在查看用户ID时，已经在/et c/group和/etc/passwd文件中已经存在该用户信息二、删除该用户Vi 编辑用户属组配置文件group并删除最后一行后wq保存该文件。

2016-03-06 12:53:39 4187

转载机器学习的十三套框架

导读过去几年以来，机器学习已经开始以前所未有的方式步入主流层面。这种趋势并非单纯由低成本云环境乃至极为强大的GPU硬件所推动; 除此之外，面向机器学习的可用框架也迎来了爆发式增长。此类框架全部为开源成果，但更重要的是它们在设计方面将最为复杂的部分从机器学习中抽象了出来，从而保证相关技术方案能够为更多开发人员服务。在今天的文章中，我们将共同了解十三款机器学习框架，一部分去年刚

2016-03-05 22:21:28 733

原创 Hadoop部署目录的作用

一、Hadoop home目录这是Hadoop home软件安装所在的目录，尽管名称里含有home，但通常不要将Hadoop安装在用户的home目录。当配置正确后，该目录是只读的，如果Hadoop是通过包来安装的，那么该目录通常在/usr/local、/opt或/usr中。二、DataNode数据目录其中的一个或多个目录被DataNod

2016-03-03 21:41:16 767

原创 MapReduce两种主要的后台程序-jobtracker和tasktracker

一、Jobtracker Jobtracker是主线程，它负责接收客户作业提交，调度任务到工作节点上运行，并提供诸如监控工作节点状态及任务进度等管理功能，一个MapReduce集群有一个jobtracker，一般运行在可靠的硬件上。 tasktracker是通过周期性的心跳来通知jobtracker其当前的健康状态，每一次心跳包含了可用的map和redu

2016-03-02 23:01:37 5470

转载程序猿的年终总结，各种版本各种残

1、朱自清版这几天心里颇不宁静了，眼看上线的日子越来越临近，而项目Bug之多，密密的交叉着，却无从改起，于是想法纠结乱麻了一片……???这样想着，猛一抬头，不觉墙上的日历只剩薄薄的一叠了，轻轻地再撕去一张，想必明天是验收不了……2、仓央嘉措版你编，或者不编程，项目就在那里，还未完成。你调，或者不调试，BUG就在那里，早晚的改。来公司的办公室，或者

2015-12-31 16:45:13 617

原创 HIVE 简介

1、什么是Hive？Hive是基于Hadoop文件系统之上的数据仓库架构，它为数据仓库的管理提供了许多功能：数据ETL（抽取、转换、加载）工具、数据存储管理和大型数据集的查询和分析能力。同时Hive还定义了类SQL的语言--Hive QL，Hive QL允许用户进行和SQL相似的操作，它可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能。还允许开发人员方便的使用Mapper和

2015-11-30 17:15:23 497

转载数据分析实例：在一线城市的你，生活有多苦逼

摘要: 曾经，“逃离北上广”成为年轻人中一个口号式的选择，但是，这个口号根本就没喊上多久，就没人响应了，因为，“逃离北上广”的人又都回来了。只有“北上广”加上深圳，才聚集着中国最多的资源、最好的机会，逃是逃不 ...曾经，“逃离北上广”成为年轻人中一个口号式的选择，但是，这个口号根本就没喊上多久，就没人响应了，因为，“逃离北上广”的人又都回来了。只有“北

2015-11-20 16:06:39 667

原创 MapReduce原理

1、MapReduce简介MapReduce是现今一个非常流行的分布式计算框架，它被设计成用于并行计算海量数据，第一个提出该技术框架的是Google公司，MapReduce框架的核心步骤主要分两部分：Map和Reduce，当你向MapReduce提交一个计算作业时，它会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后

2015-11-20 10:50:28 749

原创 Hadoop HDFS原理

1 Hadoop搭建环境：虚拟机操作系统： CentOS6.6 64位，单核，1G内存JDK：1.7.0_55 64位Hadoop：1.1.22 HDFS原理HDFS（Hadoop distributied File System）是一个分布式文件系统，是谷歌GFS文件系统的山寨版，它具有高容错性并提供了高吞吐量的数据访问，非常适合大规模数据集上的应用，它提供了一个高容错性

2015-11-18 22:26:05 742

转载 Hadoop HDFS

Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统，HDFS是高度容错以及使用低成本的硬件设计。HDFS拥有超大型的数据量，并提供更轻松地访问。为了存储这些庞大的数据，这些文件都存储在多台机器。这些文件都存储以冗余的方式来拯救系统免受可能的数据损失，在发生故障时。HDFS也使得可用于并行处理的应用程序。 HDFS的特点它适

2015-11-17 17:02:56 456

原创 Hadoop是什么？

Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。 Hadoop的架构在其核心，Hadoop主要有两个层次，即：加工/计算层(MapReduce)，以及存储层

2015-11-17 17:00:17 786

原创 Hadoop大数据解决方案

传统的企业方法在这种方法中，一个企业将有一个计算机存储和处理大数据。对于存储而言，程序员会自己选择的数据库厂商，如Oracle，IBM等的帮助下完成，用户交互使用应用程序进而获取并处理数据存储和分析。局限性这种方式能完美地处理那些可以由标准的数据库服务器来存储，或直至处理数据的处理器的限制少的大量数据应用程序。但是，当涉及到处理大量的可

2015-11-17 16:54:01 1094

原创毕业3年

写给那些曾经在我生命里肆无忌惮地陪伴我，和我一起挥霍青春的人。毕业三年，从学校里面走出来，随着时间的印证，现实已经把梦击打的粉碎，也不知道什么时候学会专注的过日子，专注的去做饭、打扫屋子、洗擦锅灶，也许这也是生活。 2015年，是我幸福的一年，在这一年中，我挣扎在城市的边缘为自己，同时也为我，和我的生命里生命里肆无忌惮地陪伴着我，一起挥霍青春的我们安置一个

2015-11-15 15:32:09 422

原创存储过程-1

存储过程-1一、存储过程的定义：1、定义：存储过程（stored Procedure）是一组完成特定功能的SQL语句集，经过编译后存储在数据库中，用户通过指定存储过程的名字并给出参数来执行它，存储过程是数据库中一个很重要的对象，任何一个设计良好的数据库应用程序都应该用到存储过程。存储过程是由流控制和SQL语句书写的过程，这个过程经过编译和优化后存储在数据库服务器中，应用程序使用时只要调

2013-05-14 21:12:51 911

原创 oracle 等待事件-1

一、等待事件的相关知识1、等待事件的源起等待事件的概念大概是从ORACLE 7.0.12中引入的，大致有100个等待事件。在ORACLE 8.0中这个数目增大到了大约150个，在ORACLE 8I中大约有220个事件，在ORACLE 9IR2中大约有400个等待事件，而在最近ORACLE 10GR2中，大约有874个等待事件虽然不同版本和组件安装可能会有

2013-05-05 20:28:59 943

原创 oracle 锁-1

一、锁（lock）1、锁的概念：数据库是一个多用户使用的共享资源。当多个用户并发的存取数据时，在数据库中就存在多个事务同时存取同一数据的情况。如果对这种并发操作不加以控制就可能会读取和存储不正确的数据，破坏数据的一致性。加锁是实现数据库并发控制的一个非常重要的技术，当事务在对某个数据对象进行操作前，先向系统发送请求，对其加锁，加锁后事务就对该对象有了一定

2013-05-04 22:30:48 760

原创索引详解-2

一、限制索引：限制索引是一些没有经验的开发者经常犯的错误之一，在SQL语句中很多陷阱会使一些索引无法使用，下面讨论一些常见的问题：1、使用不等于操作符（下面的查询即使在cust_rating列有一个索引，查询语句任然执行一次全表扫描。select cust_id, cust_name from customers where cust_name 如果把上面的语句更写为下面

2013-04-24 22:20:00 519

原创索引详解-1

一、索引的特点：1、通过创建唯一性索引，可以保证数据库表中的每一行数据的唯一性。2、可以大大加快数据的检索速度，这也是创建索引的主要原因。3、可以加速表与表之间的联系，特别是在实现数据参考完整性方面具有特别的意义。4、使用分组和排序子句进行数据检索时，可以减少查询中分组和排序的时间。5、通过使用索引，可以在查询的过程中，使用优化隐藏器来提高系统的性能。二、索引不足：1、

2013-04-23 22:12:04 709

转载 Oracle kill session详解

kill session 是DBA经常碰到的事情之一。如果kill掉了不该kill 的session，则具有破坏性，因此尽可能的避免这样的错误发生。同时也应当注意，如果kill 的session属于Oracle 后台进程，则容易导致数据库实例宕机。通常情况下，并不需要从操作系统级别杀掉Oracle会话进程，但并非总是如此，下面的描述中给出了在Oracle级别杀掉会话以及操作系统级别杀掉

2013-04-14 22:26:14 2062

原创 oracle10g 数据库类型

在通过DBCA来创建oracle数据库或删除已有数据库的时候。下面来主要说明创建数据库在创建数据库的时候，一般会给你提供三种数据库模板（就是数据库类型）：一般用途：General Database事物处理：Transaction Processing数据仓库：Data Warehouse定制数据库：Custom Database下面就Ceneral Database， Tr

2013-04-11 21:07:12 1008

原创 sqlplus命令的使用

sqlplus命令的基本格式是 sqlplus [/][@] / [as sysdba | as sysoper] /nolog 其中：username为用户名 password为密码 connect_identifier为连接标识串，如果连接当前实例不用指定，如果连接到其它数据库，需要指定参数，即指定NET服务名

2013-04-09 23:24:24 1184

原创 ora-01536 超出表空间限额

原因分析：ora-1536 是指的你建表的那个user所能使用的空间没有了，不是那个表所在的tablespace 没有free space了。你需要做的是给那个user 对那个tablespace有更多的space 可以使用。解决办法：1、查看表空间限额quotasselect * from dba_ts_quotas; ‘dba_ts_quotas’描述所有表空间的限额

2012-11-27 22:00:35 5506

原创 oracle数据库的启动与关闭

1. oracle数据库实例的启动：oracle数据库启动有三种阶段，在不同的启动阶段中oracle会实现不同的操作，系统修复等操作：1）、starup nomount 阶段：即实例的启动，实例的启动包含以下任务：a、按以下的顺序在$ORACLE_HOME/dbs（win平台中为database）目录下搜索下列文件，即如果第一个没有找到就找下一个spfile.ora-->spfile

2012-09-16 21:58:03 783

原创 oracle恢复误删数据

oracle 误删数据操作，注意喔：数据删除不小心commit了怎么办呢？1 、select * from test t2、delete test3、select * from test t --并且commit4 select * from test as of timestamp to_date('2012-08-29 19:49:00', 'yyyy-mm-dd h

2012-08-29 20:53:40 527

转载创建使用Oracle同义词

摘自《从实践中学习Oracle/SQL》清华大学出版社出版。设定同义词，方便使用 SQL select * from emp;等用于select * from abc; 建立共有的同义词 SQL 如果用户的等级不够建立public同义词，可以在system下授权： grant create any synonym to scott;

2012-08-27 22:20:16 1852

转载 Oracle体系结构前必掌握的2个概念

一、数据库数据库（database）是一个数据集合。无论数据库是采用关系结构还是面向对象结构， oracle数据库都将其数据存放在数据文件中。在其内部，数据库结构数据对文件的逻辑映射，使不同的数据分开存储，这些逻辑划分称为表空间。表空间和文件介绍： 1: 表空间表空间（tablespace）是数据库的逻辑划分

2012-08-22 22:31:55 452

原创 Oracle归档模式与非归档模式设置

Oracle的日志归档模式可以有效的防止instance和disk的故障，在数据库故障恢复中不可或缺，由于oracle初始安装模式为非归档模式，因此需要将其设置为归档模式，下面就其方法和步骤做一些总结，虽然简单，但这是管理oracle数据库必备之工，故有如下陈述。例子是建立在windowsXP和oracle11g的环境下，如有环境不同，仅供参考。Oracle非归档模式设置为归档模式方法步

2012-08-16 23:22:14 804

原创 oracle数据库归档模式设置

在单击节点或本机机器上进行设置1 sql> archive log list; #查看是否是归档方式　　2 sql> alter system set log_archive_start=true scope=spfile; #启用自动归档　　sql> alter system set log_archive_dest_1='location=H:archivelogarch1' sc

2012-08-14 21:56:37 513

原创 oracle创建用户与权限操作

1.创建用户create user SQL>create user arthur identified by m123 （m123是密码，必须是以字母开头）一般的普通用户是无权限用create user的可以切换用户然后创建 #用system来创建用户arthur

2012-07-30 22:02:27 683

PowerExchage实时抽取架构介绍

Informatica公司出品的一款PowerExchange产品，用于介绍对数据实时抽取架构的介绍

2013-03-30

oracle常规数据恢复

oracle数据库几种常见的数据恢复技术总结

2013-04-16

Hadoop1.XX安装部署

描述了基于linux操作系统，安装部署Hadoop 1.X，以及hadoop组件架构的说明和作用

2016-03-09

Informatica字符集整理

是在使用Informatica powercenter工具对数据进行抽取转换时，对字符集编码格式进行详细的说明，并通过一些实例来详解字符集的问题

2013-03-30

安装oracle所需rpm工具包

在Linux redhat i386下安装oracle数据库所必须的rpm软件包

2013-04-06

oracle创建用户、表空间、导入导出命令

oracle创建用户、表空间、导入导出命令大全，是值得学习oracle数据库基础的学者所拥有，很值得收藏

2012-08-27

通过oracle客户端配置TNS测试报错问题

在Red Hat Enterprise Linux Server Releae 5.5 成功安装ORACLE 10g 后，在客户端配置TNS后，测试是否可以连接到数据块服务器，结果报错： ORA-12170：TNS：连接超时

2013-05-21

java版的图书管理系统主要实现添加书借阅还书等功能

该资源能为广大爱好java语言开发图书管理系统提供最新的友情帮助。

2010-11-14

Linux常用命令全集

包含了Linux常用命令的全部命令，值得从事计算机及数据库维护的人收藏的命令

2012-08-26

中国IBM的培训_AIX

关于IBM小机AIX内部培训资料，是IBM开发的一套UNIX操作系统。它符合Open group的UNIX 98行业标准，资料包括网络安全，本机维护，日常软件维护

2012-08-26

oracle无备份回复各种场景处理

oracle数据库无备份回复各种常见的场景处理

2013-04-16

关于计算机组成原理课件

对计算机的内部原理的描述课件，是关于计算机组成原理的课件

2011-06-06

通过sqoop 导入hive错误

2017-03-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除