- 博客(9)
- 资源 (7)
- 收藏
- 关注
原创 网络爬虫学习笔记(二) 如何开发一个简单的爬虫
首先基本的爬虫开发,一般涉及到抓包工具的使用,比如抓取一下带有请求参数的链接,需要知道参数的字段名称等,每个字段是否加密,现在介绍一个简单的例子,抓取百度新闻。1 下载页面(使用jdk自带的下载工具包) /** * 给定一个链接地址进行下载 * @param link * @return */ public String down(String lin
2016-09-30 12:49:32
635
原创 网络爬虫学习笔记(一) 网络爬虫概述
1 什么是网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。上面是百度百科的定义,网络爬虫其实就是指,在现有的互联网中,各个终端设备间构造成了一个像蜘蛛网络一样的东西,程序通过一定的逻辑或者是自定义的方式访问每个节点的数据,这段程序
2016-09-30 12:47:32
943
原创 hadoop学习笔记(二)
hadoop学习笔记(二)我的个人博客站点地址:孙星的个人博客主页 后续的学习笔记:hadoop学习笔记hadoop单节点的搭建下载hadoop:wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gztar -zxvf hadoop-2.7.1.tar.gz解压配置免密码登陆://生成秘钥ssh-
2016-04-29 12:09:20
8916
原创 hadoop学习笔记(一)
hadoop学习笔记(一)我的个人博客站点地址:孙星的个人博客主页 后续的学习笔记:hadoop学习笔记1 HDFS介绍Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.翻译过来就是:一种提供高吞吐量访
2016-04-29 11:36:23
9193
1
原创 java网络编程(四)压缩对象传输
对象的压缩存储主要是采用的是GZIPInputStream以及相对应的GZIPOutputStream来实现的,将其中的对象进行压缩后发送到相应的客户端上,代码如下:package com.sun.net.gzip;import java.io.IOException;import java.io.ObjectInputStream;import java.io.ObjectOutputS
2015-01-30 13:55:22
769
原创 java网络编程(三)传输对象
客户端想服务daunt发送对象采用的是objectInputStream对象流来传送的,客户端想服务端发送对象,主要是需要对象实现serializable接口,同时ObjectInputStream只能读取实现了该接口的类的对象,也就是只有实现了这个类才能够传输服务端代码:package com.sun.net.obj;import java.io.BufferedInputStr
2015-01-30 13:53:24
591
原创 java网络编程(二)多线程网络编程
通过上面第一章的程序可以看出来,针对服务端只能连接一个客户端,如果有另外一台机器连接主机就会出现错误,连接不上,主要是因为第一章的代码是单线程的,也就是是单对单的服务,服务端server接收到一个client请求后,后面的client请求就无法连接上主机了下面是多线程的网络通信服务端代码:package com.sun.net;import java.io.BufferedReader
2015-01-30 13:51:01
440
原创 java网络编程(一)单线程网络编程
1 服务端实现的是通过系统输入后向客户端打印数据,如果打印的数据内容为bye则结束线程服务端的代码如下:package com.sun.net;import java.io.BufferedReader;import java.io.InputStreamReader;import java.io.PrintWriter;import java.net.ServerSocke
2015-01-30 10:08:07
389
原创 分布式学习(一)
这个分布式主要实现的功能是将数据库中的需要下载的url从数据库中读取出来,同时server端通过将其中的数据读取出来后,同时将每一个对象发送给客户端 服务端分为: 数据分发,连接处理,以及连接检测和server主类共四个部分 客户端主要分为: 数据处理,连接检测以及客户端主类等三个部分 数据库部分分为: 数据库操作,对象封装,线程读取等三个部分
2015-01-30 09:56:50
559
音乐播放代码
2013-04-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人