Kuiiiiiiie-优快云博客

转载 ER-Studio的五种关系说明 .

1. identifying relationship: 1对多。父实体的主键是子实体的外键（FK1），且FK1是主键。 2. no identifying, mandatory relationship: 1对多。父实体的主键是子实体的外键（FK1），FK1不为空。 3. no identifying, optional relaotionship： 1对多

2015-05-13 16:32:28 749

转载解决waiting for "Building workspace" to complete：project--->去掉build Automatically

project--->去掉build Automatically

2015-03-15 20:22:42 1007

转载 JAVA正则表达式入门

Java作为一种开发语言，有许多值得推荐的地方，但是它一直以来没有自带对正则表达式的支持。直到最近，借助于第三方的类库，Java开始支持正则表达式，但这些第三方的类库都不一致、兼容性差，而且维护代码起来很糟糕。在Sun的Java JDK 1.40版本中，Java自带了支持正则表达式的包，终于能够支持正则表达式了。与一般语言有点不同的是：对java的解释器来说，在反斜线字符(/)前的

2015-01-23 11:38:15 577

转载关于heritrix的性能

1.Heritrix可以以任何URL作为种子，只要你这个种子URL里包含其他URL，就可以一直不停的抓取下去，直到所有URL抓取完毕。2.垂直搜索需要特殊控制，如抓取你想要抓的URL，以及抽取你要抽取你要的内容。Heritrix的高度可扩展性可以帮你解决这些问题。如继承Frontier、Extractor、Writer，以及自定义Rule都可以。（1）Extrator：pa

2015-01-23 11:36:39 823

转载 heritrix源码分析（未完成。太长了！！）

Heritrix源码分析(一) 包介绍序号包名说明 1 org.apache.commons.httpclient 封装了apache的httpclient用于Fetch网页内容 2 org.apache.commons.httpclient.cookie 封装了apache的httpclient用于Fetch网页内容,这里主要

2015-01-21 17:26:03 965

转载 heritrix-1.14.4初学笔记

在运行heritrix过程中有个很重要的配置文件order.xml(这里面有很多配置的属性要慢慢的了解）这里面声明了运行过程中所需的所有属性heritrix读取order.xml文件通过--org.archive.crawler.settings包下的XMLSettingsHandler类一、order.xml文件的读取1.要把order.xml文件封装到File中。

2015-01-21 17:17:39 640

转载 heritrix 抓取指定的html

Heritrix的整体结构简图如下：它的工作流程是一个循环，具体流程是：　　1 在预定的URI中选择一个。　　2 从选择的URI的网址下载远程文件　　3 分析，归档下载到的内容　　4 从分析到的内容里面选择感兴趣的URI。加入预定队列。　　5 标记已经处理过的URI 在大概的了解了Heritrix及它的工作机制之后，我们就可以

2015-01-21 17:03:30 1159

转载 heritrix抓取网页！

[wbia 1.1] heritrix抓取网页信息 [wbia 1]表示web based information architecture作业1的第1部分，搜索到这篇日志的读者可以直接忽略之。我对heritrix的了解较浅，希望此文对第一次用爬虫的程序猿有帮助。

2015-01-21 17:02:16 1423

转载 Heritrix 1.14.4 安装/使用

Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行。目前 Heritrix 的最新版本是 3.1.0（2011-10-21 发布），您可以从 SourceForge（http://sourceforge.net/

2015-01-21 14:48:59 949

转载 Heritrix 抓取高级篇

使用Heritrix进行抓取网页，有半天阅读我之前博客的话，很容易就能够顺利的进行抓取任务，但在抓取过程中可能会遇到： 1 想抓取特定格式/特定要求的网页这个要根据具体的网站，才能采取具体的措施。这主要是根据网站编写的时候，它的出度的具体格式。如果是类似这样的可以直接指向某个具体的URL，那么添加到URI中的应该是这个完整的URL,如果是去掉了http://www等的前面的内容，而只是

2015-01-21 14:06:25 1222

转载 Heritrix 1.14.3 运行环境配置

heritrix好像已经有3.0的版本了，但是sourceforge上还是给1.14.3的下载链接，3.0版本的弄不出来，目录结构改动太大了，连heritrix.properties都找不到了，还是用1.14.3来做爬虫吧。1、下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包2、在Eclipse下新建Java项目，取名Heritr

2015-01-21 14:03:30 635

转载 Android获取手机型号/系统版本号/App版本号等信息实例讲解

示例获得手机型号,系统版本,App版本号等信息MainActivity如下: 复制代码代码如下:package cn.testgethandsetinfo; import android.os.Bundle; import android.text.TextUtils; import android.widget.TextView; import and

2015-01-08 11:35:07 2021

转载 Java简单的网络爬虫实现

首先介绍每个类的功能：DownloadPage.java的功能是下载此超链接的页面源代码.FunctionUtils.java 的功能是提供不同的静态方法，包括：页面链接正则表达式匹配,获取URL链接的元素,判断是否创建文件,获取页面的Url并将其转换为规范的Url,截取网页网页源文件的目标内容。HrefOfPage.java 的功能是获取页面源代码的超链接。Url

2015-01-07 15:27:48 707

转载 java 简单网络爬虫实现

import java.io.BufferedInputStream;import java.io.IOException;import java.io.InputStream;import java.net.HttpCookie;import java.net.HttpURLConnection;import java.net.MalformedURLException;

2015-01-07 15:21:16 544

转载 java爬虫：Heritrix教程

Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/files/heritrix3/.下载后的截

2015-01-07 14:57:17 4890

转载 Python爬虫之路——简单的网页抓图

用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本，主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片，通过得到图集的起始URL地址，得到第一张图片，然后不断的去获取其下一个图片的URL，继而得到所有首页的图集的图片。整个源码如下，比较简单，写这个只是简单的练手而已[python] view plai

2015-01-07 14:22:27 989

转载 Python爬虫之路——简单网页抓图升级版（增加多线程支持）

经过两个晚上的奋斗，将上一篇文章介绍的爬虫稍微改进了下（Python爬虫之路——简单网页抓图），主要是将获取图片链接任务和下载图片任务用线程分开来处理了，而且这次的爬虫不仅仅可以爬第一页的图片链接的，整个http://desk.zol.com.cn/meinv/下面的图片都会被爬到，而且提供了多种分辨率图片的文件下载，具体设置方法代码注释里面有介绍。这次的代码仍然有点不足，Ctrl-C无法

2015-01-07 14:20:25 786

转载 Android页面跳转实现方法：activity&TabActivity

通用的页面跳转方法有两种：1、IntentIntent适合Activity与Activity之间的跳转，按返回键可以直接返回前一页面缺点：需要到Manifest注册Activity2、setContentView适合同一Activity里的不同View之间跳转优点：按返回键不会返回到前一页面，需要自己添加按键监听代码来实现 In

2015-01-07 13:31:48 3095

转载 Android中AlertDialog和Toast的使用

1、AlertDialog是一个信息提示框，当出现是，需要用户点击，才会消失首先是一个最简单的应用，就是弹出一个消息框，在android中可以这样实现view plaincopy to clipboardprint?1 new AlertDialog.Builder(self) 2 .

2015-01-06 10:23:17 753

转载 <meta http-equiv="X-UA-Compatible" content="IE=edge" />

X-UA-Compatible是针对ie8新加的一个设置，对于ie8之外的浏览器是不识别的，这个区别与content="IE=7"在无论页面是否包含指令，都像是使用了 Windows Internet Explorer 7的标准模式。而content="IE=EmulateIE7"模式遵循指令。对于多数网站来说，它是首选的兼容性模式。目前IE8尚在测试版中，所以为了避免制作出的页面在IE8

2014-12-20 20:51:46 487

转载如何设置网页地址栏前面的标志favicon图标?

是不是打开一些比较大型的网站，网页的地址栏前面都有该网站的标志，网页标志ico如何设置?地址栏标志favicon.ico? 如何让网站的图标出现在地址栏上?在收藏夹和地址栏前面添加ICO图标? 如：百度，163，新浪等.如图 :37计favicon图标裁图. 37计的favicon图标地址为: http://www.37ji.com/favicon.i

2014-12-20 20:50:28 923

转载 <meta name="name" content="string">

一、语法：二、参数解析：1）name项：常用的选项有Keywords(关键字) ，description(网站内容描述)，author(作者)，robots(机器人向导)等。2）http-equiv项：可用于代替name项，常用的选项有Expires(期限)，Pragma(cache模式)，Refresh(刷新)，Set-Cookie(cookie设定)，Window-target

2014-12-20 20:08:35 520

转载关于标签<meta http-equiv="X-UA-Compatible" content="IE=edge" />