
HtmlParser
小白xyz
x
展开
-
【垂直搜索引擎搭建10】HtmlParser中Filter实践
Filter种类: 判断类Filter: TagNameFilter HasAttributeFilter HasChildFilter HasParentFilter HasSiblingFilter IsEqualFilter 逻辑运算Filter: AndFilter NotFilter OrFilter XorF原创 2016-08-24 16:15:14 · 609 阅读 · 0 评论 -
【垂直搜索引擎搭建11】使用htmlparser获取页面的字符编码encoding
1,确定目标。对于html页面来说,一般都有确定编码的语句:<meta http-equiv=”Content-Type” content=”text/html; charset=gb2312″ />可以通过这一行的特征来取出网页的编码。2,选出特征。 1)它是meta标签 2)具有http-equiv属性值为Content-Type 3)将属性content中原创 2016-08-24 17:04:59 · 803 阅读 · 1 评论 -
【垂直搜索引擎搭建08】HtmlParser构建
1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.html API:http://htmlparser.sourceforge.net/javadoc/index.html2、使用HtmlPaser的关键步骤(1)通过Parser类创建一个解释器(2)创建Filter或者Visitor(3)使用parser根据filter或者visitor来原创 2016-08-15 12:00:08 · 653 阅读 · 0 评论 -
【垂直搜索引擎搭建12】htmlparser简介
1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.html API:http://htmlparser.sourceforge.net/javadoc/index.html2、使用HtmlPaser的关键步骤(1)通过Parser类创建一个解释器(2)创建Filter或者Visitor(3)使用parser根据filter或者visitor来原创 2016-08-24 18:36:06 · 412 阅读 · 0 评论 -
【垂直搜索引擎搭建13】HtmlParser中Visitor实践
使用NodeVisitor方式访问html结点package com.javaeye.suo.htmlparser.samples;import org.htmlparser.Parser;import org.htmlparser.Remark;import org.htmlparser.Tag;import org.htmlparser.Text;import org.htmlparse原创 2016-08-24 19:45:20 · 627 阅读 · 0 评论 -
【垂直搜索引擎搭建14】HtmlParser中Filter方法(URL网络地址)
1、TagNameFilterimport java.io.IOException;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.filters.TagNameFilter;import org.htmlparser.原创 2016-08-24 20:52:17 · 535 阅读 · 0 评论 -
【垂直搜索引擎搭建15】HtmlParser中Filter方法(本地URL地址)
package org.algorithm;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.原创 2016-08-24 21:39:58 · 475 阅读 · 0 评论 -
详解HttpURLConnection
请求响应流程设置连接参数的方法setAllowUserInteraction setDoInput setDoOutput setIfModifiedSincesetUseCaches setDefaultAllowUserInteraction setDefaultUseCaches设置请求头或响应头HTTP请求允许一个key带多个用逗号分开的values,但是HttpURLC转载 2016-08-24 22:34:52 · 372 阅读 · 0 评论