- 博客(23)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
转载 ER-Studio的五种关系说明 .
1. identifying relationship: 1对多。 父实体的主键是子实体的外键(FK1),且FK1是主键。 2. no identifying, mandatory relationship: 1对多。 父实体的主键是子实体的外键(FK1),FK1不为空。 3. no identifying, optional relaotionship: 1对多
2015-05-13 16:32:28
679
转载 解决waiting for "Building workspace" to complete:project--->去掉build Automatically
project--->去掉build Automatically
2015-03-15 20:22:42
963
转载 JAVA正则表达式入门
Java作为一种开发语言,有许多值得推荐的地方,但是它一直以来没有自带对正则表达式的支持。直到最近,借助于第三方的类库,Java开始支持正则表达式,但这些第三方的类库都不一致、兼容性差,而且维护代码起来很糟糕。在Sun的Java JDK 1.40版本中,Java自带了支持正则表达式的包,终于能够支持正则表达式了。与一般语言有点不同的是:对java的解释器来说,在反斜线字符(/)前的
2015-01-23 11:38:15
546
转载 关于heritrix的性能
1.Heritrix可以以任何URL作为种子,只要你这个种子URL里包含其他URL,就可以一直不停的抓取下去,直到所有URL抓取完毕。2.垂直搜索需要特殊控制,如抓取你想要抓的URL,以及抽取你要抽取你要的内容。Heritrix的高度可扩展性可以帮你解决这些问题。如继承Frontier、Extractor、Writer,以及自定义Rule都可以。(1)Extrator:pa
2015-01-23 11:36:39
787
转载 heritrix源码分析(未完成。太长了!!)
Heritrix源码分析(一) 包介绍 序号 包名 说明 1 org.apache.commons.httpclient 封装了apache的httpclient用于Fetch网页内容 2 org.apache.commons.httpclient.cookie 封装了apache的httpclient用于Fetch网页内容,这里主要
2015-01-21 17:26:03
926
转载 heritrix-1.14.4初学笔记
在运行heritrix过程中有个很重要的配置文件order.xml(这里面有很多配置的属性要慢慢的了解)这里面声明了运行过程中所需的所有属性heritrix读取order.xml文件通过--org.archive.crawler.settings包下的XMLSettingsHandler类一、order.xml文件的读取1.要把order.xml文件封装到File中。
2015-01-21 17:17:39
611
转载 heritrix 抓取指定的html
Heritrix的整体结构简图如下:它的工作流程是一个循环,具体流程是: 1 在预定的URI中选择一个。 2 从选择的URI的网址下载远程文件 3 分析,归档下载到的内容 4 从分析到的内容里面选择感兴趣的URI。加入预定队列。 5 标记已经处理过的URI 在大概的了解了Heritrix及它的工作机制之后,我们就可以
2015-01-21 17:03:30
1122
转载 heritrix抓取网页!
[wbia 1.1] heritrix抓取网页信息 [wbia 1]表示web based information architecture作业1的第1部分,搜索到这篇日志的读者可以直接忽略之。我对heritrix的了解较浅,希望此文对第一次用爬虫的程序猿有帮助。
2015-01-21 17:02:16
1378
转载 Heritrix 1.14.4 安装/使用
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行。目前 Heritrix 的最新版本是 3.1.0(2011-10-21 发布),您可以从 SourceForge(http://sourceforge.net/
2015-01-21 14:48:59
907
转载 Heritrix 抓取 高级篇
使用Heritrix进行抓取网页,有半天阅读我之前博客的话,很容易就能够顺利的进行抓取任务,但在抓取过程中可能会遇到: 1 想抓取特定格式/特定要求 的网页 这个要根据具体的网站,才能采取具体的措施。这主要是根据网站编写的时候,它的出度的具体格式。如果是类似这样的可以直接指向某个具体的URL,那么添加到URI中的应该是这个完整的URL,如果是去掉了http://www等的前面的内容,而只是
2015-01-21 14:06:25
995
转载 Heritrix 1.14.3 运行环境配置
heritrix好像已经有3.0的版本了,但是sourceforge上还是给1.14.3的下载链接,3.0版本的弄不出来,目录结构改动太大了,连heritrix.properties都找不到了,还是用1.14.3来做爬虫吧。1、下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包2、在Eclipse下新建Java项目,取名Heritr
2015-01-21 14:03:30
602
转载 Android获取手机型号/系统版本号/App版本号等信息实例讲解
示例获得手机型号,系统版本,App版本号等信息MainActivity如下: 复制代码代码如下:package cn.testgethandsetinfo; import android.os.Bundle; import android.text.TextUtils; import android.widget.TextView; import and
2015-01-08 11:35:07
1942
转载 Java简单的网络爬虫实现
首先介绍每个类的功能:DownloadPage.java的功能是下载此超链接的页面源代码.FunctionUtils.java 的功能是提供不同的静态方法,包括:页面链接正则表达式匹配,获取URL链接的元素,判断是否创建文件,获取页面的Url并将其转换为规范的Url,截取网页网页源文件的目标内容。HrefOfPage.java 的功能是获取页面源代码的超链接。Url
2015-01-07 15:27:48
676
转载 java 简单网络爬虫实现
import java.io.BufferedInputStream;import java.io.IOException;import java.io.InputStream;import java.net.HttpCookie;import java.net.HttpURLConnection;import java.net.MalformedURLException;
2015-01-07 15:21:16
516
转载 java爬虫:Heritrix教程
Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/files/heritrix3/.下载后的截
2015-01-07 14:57:17
4662
转载 Python爬虫之路——简单的网页抓图
用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本,主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片,通过得到图集的起始URL地址,得到第一张图片,然后不断的去获取其下一个图片的URL,继而得到所有首页的图集的图片。整个源码如下,比较简单,写这个只是简单的练手而已[python] view plai
2015-01-07 14:22:27
943
转载 Python爬虫之路——简单网页抓图升级版(增加多线程支持)
经过两个晚上的奋斗,将上一篇文章介绍的爬虫稍微改进了下(Python爬虫之路——简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,而且这次的爬虫不仅仅可以爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/下面的图片都会被爬到,而且提供了多种分辨率图片的文件下载,具体设置方法代码注释里面有介绍。这次的代码仍然有点不足,Ctrl-C无法
2015-01-07 14:20:25
749
转载 Android页面跳转实现方法:activity&TabActivity
通用的页面跳转方法有两种:1、IntentIntent适合Activity与Activity之间的跳转,按返回键可以直接返回前一页面缺点:需要到Manifest注册Activity2、setContentView适合同一Activity里的不同View之间跳转优点:按返回键不会返回到前一页面,需要自己添加按键监听代码来实现 In
2015-01-07 13:31:48
2993
转载 Android中AlertDialog和Toast的使用
1、AlertDialog是一个信息提示框,当出现是,需要用户点击,才会消失 首先是一个最简单的应用,就是弹出一个消息框,在android中可以这样实现view plaincopy to clipboardprint?1 new AlertDialog.Builder(self) 2 .
2015-01-06 10:23:17
716
转载 <meta http-equiv="X-UA-Compatible" content="IE=edge" />
X-UA-Compatible是针对ie8新加的一个设置,对于ie8之外的浏览器是不识别的,这个区别与content="IE=7"在无论页面是否包含指令,都像是使用了 Windows Internet Explorer 7的标准模式。而content="IE=EmulateIE7"模式遵循指令。对于多数网站来说,它是首选的兼容性模式。目前IE8尚在测试版中,所以为了避免制作出的页面在IE8
2014-12-20 20:51:46
465
转载 如何设置网页地址栏前面的标志favicon图标?
是不是打开一些比较大型的网站,网页的地址栏前面都有该网站的标志,网页标志ico如何设置?地址栏标志favicon.ico? 如何让网站的图标出现在地址栏上?在收藏夹和地址栏前面添加ICO图标? 如:百度,163,新浪等.如图 :37计favicon图标裁图. 37计的favicon图标地址为: http://www.37ji.com/favicon.i
2014-12-20 20:50:28
867
转载 <meta name="name" content="string">
一、语法:二、参数解析:1)name项:常用的选项有Keywords(关键字) ,description(网站内容描述),author(作者),robots(机器人向导)等。2)http-equiv项:可用于代替name项,常用的选项有Expires(期限),Pragma(cache模式),Refresh(刷新),Set-Cookie(cookie设定),Window-target
2014-12-20 20:08:35
494
转载 关于标签<meta http-equiv="X-UA-Compatible" content="IE=edge" />
X-UA-Compatible是针对ie8新加的一个设置,对于ie8之外的浏览器是不识别的,这个区别与content="IE=7"在无论页面是否包含指令,都像是使用了 Windows Internet Explorer 7的标准模式。而content="IE=EmulateIE7"模式遵循指令。对于多数网站来说,它是首选的兼容性模式。目前IE8尚在测试版中,所以为了避免制作出的页面在IE8
2014-12-20 20:02:46
604
Balsamig mockups设计软件
2013-09-29
(java)for循环让一个字符串数组得到一个文件夹下所有文件名却报空指针错误
2015-03-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人