- 博客(35)
- 收藏
- 关注
转载 Spark的RDD编程(二)
创建RDD有两种方式:①读取外部数据集,lines=sc.textFile("README.md")。②对一个集合进行并行化,lines=sc.parallelize(["zhangsan","lisi"])。 2.从http://files.grouplens.org/datasets/movielens/ml-100k.zip下载分析数据。到其目录中查看有...
2016-07-22 16:05:00
259
转载 spart快速大数据分析学习提纲(一)
Spart是什么Spart是一个用来实现快速而而通用的集群计算平台。在速度方面,Spart扩展了广泛使用的Mapreduce计算模型,而且高效的支持更多的计算模式,包括交互式查询和流处理。Spart的一个主要特点是能够在内存中进行计算,因而更快。即使必须在硬盘上进行复杂计算,Spart依然比Mapreduce快。Spart适用于各种各样原先需要多种不同分布式平台的场景,包括批...
2016-07-22 16:02:00
666
转载 Zookeeper的设计模式之观察者模式(十)
Watcher是Zookeeper用来实现distribute lock, distribute configure, distribute queue等应用的主要手段。要监控data_tree上的任何节点的变化(节点本身的增加,删除,数据修改,以及孩子的变化)都可以在获取该数据时注册一个Watcher,这有很像Listener模式。一旦该节点数据变化,Follower会发送一个noti...
2016-07-22 16:01:00
457
转载 shuffle机制和TextInputFormat分片和读取分片数据(九)
shuffle机制1:每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件。2:写磁盘前,要partition,sort。如果有combiner,combin...
2016-07-22 16:00:00
186
转载 MapReduce程序开发之流量求和(八)
1.分析记录手机流量的日志。2.拿到日志中的一行数据,切分各个字段,抽取出我们需要的字段:手机号,上行流量,下行流量,然后封装成kv发送出去3.使用java中的map方法;public class FlowNumMapper extends Mapper<LongWritable,Text,Text,FlowBean> { @Override pro...
2016-07-22 15:58:00
459
转载 分布式系统间通信之RPC简单Demo(七)
Demo是基于Socket的简单通信 下面通过java原生的序列化,Socket通信,动态代理和反射机制,实现最简单的RPC框架。它由三个部分组成。 1.服务提供者,它运行在服务端,负责提供服务接口定义和服务实现类。 2.服务发布者,它运行在RPC服务端,负责将本地服务发布完成远程服务,供其他消费者调用。 ...
2016-07-22 15:57:00
156
转载 使用JAVA客户端对HDFS进行代码编写(五)
在linux中,在JAVA中编程,耗时的不是代码的编写而是环境的搭建,版本的选择。。。昨天eclipse突然抽风在linux运行不起来,耗了几个小时,试了各种办法、、。现在windows环境进行编码。JDK为1.7首先新建一个Java project 。手动导入hadoop的jar包,位置在hadoop解压文件的share文件下。主要是common中的hadoop...
2016-07-22 15:54:00
124
转载 分布式系统间通信之RPC的基本概念(六)
RPC(Remote Procedure Call Protocol)远程过程调用协议。一个通俗的描述是:客户端在不知道调用细节的情况下,调用存在于远程计算机上的某个对象,就像调用本地应用程序中的对象一样。比较正式的描述是:一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。那么我们至少从这样的描述中挖掘出几个要点:RPC是协议:既然是协议就只是一套规范,...
2016-07-22 15:54:00
232
转载 DataNode工作原理(四)
DataNode的作用:提供真实文件数据的存储服务.以文件块进行存储。文件块(block):最基本的存储单位。对文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个block。HDFS默认的block大小是128M,以一个256MB文件,共有258/128=2个block.不同于普通文件系...
2016-07-22 15:53:00
269
转载 NameNode元数据的管理机制(三)
元数据的管理: 第一步:客户端通过DistributedFilesystem 对象中的creat()方法来创建文件,此时,RPC会 通过一个RPC链接协议来调用namenode,并在命名空间中创建一个新文件,namenode执行各种权限以及文件isexist 的检查,dfs返回一个输出流,否则抛出 IOEXCEPTI...
2016-07-22 15:52:00
124
转载 大数据学习之测试hdfs和mapreduce(二)
上篇已经搭建好环境,本篇主要测试hadoop中的hdfs和mapreduce功能。首先填坑:启动环境时发现DataNode启动不了。查看日志从日志中可以看出,原因是因为datanode的clusterID 和 namenode的clusterID 不匹配。打开hdfs-site.xml里配置的datanode和namenode对应的目录,分别打开curre...
2016-07-22 15:38:00
195
转载 大数据学习之hadoop伪分布式集群安装(一)
hadoop的基本概念:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(l...
2016-07-22 15:36:00
195
转载 python设计模式之观察者模式
观察者模式当对象间存在一对多关系时,则使用观察者模式(Observer Pattern)。比如,当一个对象被修改时,则会自动通知它的依赖对象。观察者模式属于行为型模式。观察者模式在状态检测和事件处理等场景中是非常有用的。这种模式确保一个核心对象可以由一组未知并可能正在扩展的“观察者”对象来监控。一旦核心对象的某个值发生变化,它通过调用update()函数让所有观察者对象知道情...
2016-04-24 20:19:00
141
转载 python设计模式之装饰器模式
装饰器模式装饰器模式(Decorator Pattern)允许向一个现有的对象添加新的功能,同时又不改变其结构。这种类型的设计模式属于结构型模式,它是作为现有的类的一个包装。这种模式创建了一个装饰类,用来包装原有的类,并在保持类方法签名完整性的前提下,提供了额外的功能。import timedef log_calls(func): def wrappe...
2016-04-23 21:33:00
130
转载 k-近邻算法理解
左图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k...
2016-03-29 23:18:00
403
转载 Dapper中使用存储分页。
#region 分页获取数据 /// <summary> /// 分页获取数据 /// </summary> /// <typeparam name="T">实体类</typeparam> /// <param name="selec...
2015-09-16 15:50:00
398
转载 302重定向,MVC中的Get,Post请求。
1.在访问页遇到重定向,Get,Post跳转处理,在跳转后的页面获取访问端的IP,他们的IP是否发生变化。。。2.重定向处理后获取的IP还是访问端IP,而用Get,Post请求处理后,获取的访问端IP则是处理页的IP。3.获取客户端IP的代码 public string GetClientIP() { HttpContext...
2015-09-06 10:13:00
290
转载 在动态引用DLL-A中,当参数是个实体,而实体的属性在另一个DLL-B中。。我们需要得到A这个实体并将其赋值,并将赋值的实体传人DLL-A的方法中。...
string strPath = HttpContext.Current.Server.MapPath("/开放式DLL"); DirectoryInfo df = new DirectoryInfo(strPath); System.IO.FileInfo[] fr = df.GetFiles(); ...
2015-08-30 16:17:00
138
转载 调用动态链接库中的方法。
1 string strPath = HttpContext.Current.Server.MapPath("/封闭式DLL");//获取链接库的虚拟路径的物理路径 2 DirectoryInfo df = new DirectoryInfo(strPath);//初始化路径下的新实例。 3 System....
2015-08-04 15:11:00
299
转载 Eclipse+Pydev +Django搭建开发环境时容易出错的几点
1.注意安装的软件和系统的位数是否匹配。2.安装Django框架的时候注意是否安装了setuptools工具。在Python中,安装第三方模块,是通过setuptools这个工具完成的。Python有两个封装了setuptools的包管理工具:easy_install和pip。目前官方推荐使用pip。如果你正在使用Mac或Linux,安装pip本身这个步骤就可以跳过了。如果你正在使用...
2015-06-22 15:16:00
129
转载 Linq延迟执行
LINQ中大部分查询运算符都有一个非常重要的特性:延迟执行。这意味着,他们不是在查询创建的时候执行,而是在遍历的时候执行(换句话说,当enumerator的MoveNext方法被调用时)。让我们考虑下面这个query: static void TestDeferredExecution() { var numbe...
2015-05-19 09:37:00
103
转载 EF4.0和EF5.0增删改查的写法区别及执行Sql的方法
EF4.0和EF5.0增删改查的写法区别publicT AddEntity(T entity){//EF4.0的写法添加实体//db.CreateObjectSet<T>().AddObject(entity);//EF5.0的写法db.Entry<T>(entity).State =...
2015-04-14 15:02:00
75
转载 DbContext 和ObjectContext两者的区别
一是ObjectContext是一种模型优先的开发模式,DbContext是代码优先的开发模式。这是两者最根本的区别。同时两者之间可以相互转换:下面给出转换的例子1 DbContext转为ObjectContextusing System.Data.Entity.InfrastructureObjectContext context =((IObjectContex...
2015-04-14 08:34:00
81
转载 FF与IE对javascript和CSS的区别
1.document.formName.item("itemName")问题说明:IE下,可以使用document.formName.item("itemName")或document.formName.elements["elementName"];Firefox下,只能使用document.formName.elements["elementName"].解决方法:统一使用doc...
2015-03-25 10:08:00
68
转载 Dapper试用简例
1.选择3.5以上框架在新建项目中引用Dapper.dll。2.在后台写代码,代码写出来后感觉以前学的都白学了。3.using Dapper;using System;using System.Collections.Generic;using System.Configuration;using System.Data;using System.Da...
2015-03-24 09:58:00
148
转载 创建Windows服务简单流程
1.首先打开VS2010(或者其他版本),创建Windows服务项目2.创建完成后切换到代码视图,代码中默认有OnStart和OnStop方法执行服务开启和服务停止执行的操作,下面代码是详细解释:注意选择的是系统时间,不是winform中的时间。usingSystem;usingSystem.IO;usingSystem.Servic...
2014-08-29 00:48:00
174
转载 清除oracl中有主外键关联的表中的部分数据。
1.禁用主外键BEGINfor c in (select 'ALTER TABLE '||TABLE_NAME||' DISABLE CONSTRAINT '||constraint_name||' ' as v_sql from user_constraints where CONSTRAINT_TYPE='R') loop EXECUTE IMMEDIATE c.v_sql;end ...
2014-07-02 12:09:00
78
转载 C#中out的一种用法
1.当希望方法返回多个值时,声明out方法很有用。这样使方法可以有选择地返回值。using System;using System.Collections.Generic;using System.Linq;using System.Text;namespace 求数组最大最小值{ class Program { ...
2014-06-29 16:03:00
279
转载 oracle数据泵之解决方案(用户)导入导出。
看到网上有这样的介绍而且很多,但觉得都是大神才能一下子看的懂。自己总结下菜鸟能看懂的。1.导出。首先第一步:操作系统—开始—运行输入“cmd”进入dos界面输入“sqlplus/nolog”按回车: 连接数据库,输入:conn sys/密码@对象数据库 as sysdba(注意sys用户一定要用sysdba角色登录哦system/密码@对象数据库) 回车 :接着,创建DIR...
2014-05-31 22:12:00
232
转载 Application.Count.ToString()和Application["count"].ToString()的区别
当属性名中包括特殊字符如 “.”或“-”就不能使用“.”操作符了。操作符只能使用[ ]操作符为了统计网站的在线人数,我们可以在Global.asa文件中包含如下代码: <SCRIPT LANGUAGE="VBScript" RUNAT="Server"> Sub Application_OnStart ' 当服务器开启时,设置用户计数器为0 Application("Ac...
2014-04-01 11:17:00
252
转载 Html中input标签的使用
1.取消按钮按下时的虚线框在input里添加属性值 hideFocus 或者 HideFocus=true2.只读文本框内容在input里添加属性值 readonly3.防止退后清空的TEXT文档(可把style内容做做为类引用) <INPUT style=behavior:url(#default#savehistory);type=text id=...
2014-03-05 13:21:00
230
转载 asp.net2.0app开发。
asp.net app 网站开发:http://www.cnblogs.com/TerryFeng/archive/2009/05/15/1457731.html在OPERA或M3GATE中设置编码为UTF-3即可显示中文.使用MS自带的移动控件可以很方便的建立网站,如LINK,COMMAND,LABEL等使用ASP.NET开发移动通讯的几种方法 http://...
2014-01-22 16:29:00
179
转载 SQL语句中output的用法
在SQL语句中,output可以作为返回值来使用,1.我们先看这个存储过程代码:1 set ANSI_NULLS ON2 set QUOTED_IDENTIFIER ON3 go4 5 --added by hendyzhu 验证身份证的唯一性,排除同一个人有多个居民健康档案6 --2010-5-287 create procedure ...
2014-01-09 14:51:00
1207
转载 纯html的重定向。
纯html网页重定向与跳转javaScript 跳转方法一:<script language="javascript">window.location = "http://www.baidu.com";</script>方法二:<script language="javascript">d...
2013-12-13 10:50:00
158
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人