nutch 提高搜索精度

  private boolean getTextHelper(StringBuffer sb, Node node,  
  boolean abortOnNestedAnchors,
  int anchorDepth) {
  if ("script".equalsIgnoreCase(node.getNodeName())) {
  return false;
  }
  if ("style".equalsIgnoreCase(node.getNodeName())) {
  return false;
  }
  if (abortOnNestedAnchors && "a".equalsIgnoreCase(node.getNodeName())) {
  anchorDepth++;
  if (anchorDepth 1)
  return true;
  }
  if (node.getNodeType() == Node.COMMENT_NODE) {
  return false;
  }

  if (node.getNodeType() == Node.TEXT_NODE) //node是解析下来的网页源文件所包含的内容

  //Node.TEXT_NODE:节点属于文本节点<body><div><a href><td>等标签
  // cleanup and trim the value  
  String text node.getNodeValue(); //获取节点里面的文本内容,相当与去掉HTML标签

  
  text text.replaceAll("//s +", ");
  text text.replace("【", "");
  text text.replace("】", "");
  text text.replace("[", "");
  text text.replace("]", "");
  text text.replace("|", "");
  text text.replace("┊", "");
  text text.replace("?", "");
  text text.replace("?", "");
  text text.replace("?", "");
  text text.replace("|", "");
  text text.replace("、", "");
  text text.replace("-", "");
  text text.replace("~", "");
  text text.replace("!", "");
  text text.replace("@", "");
  text text.replace("#", "");
  text text.replace("$", "");
  text text.replace("^", "");
  text text.replace("*", "");
  text text.replace("(", "");
  text text.replace(")", "");
  text text.replace("%", "");
  text text.replace(">", "");
  text text.replace("?", "");
  text text.replace("%", "");

  text text.trim();

  temp node.getParentNode().toString(); //获取父节点的标签

  if (text.length() && temp.indexOf("A:") == -1) //如果属于<a href>,则过滤...

  if (sb.length() 0) sb.append(' ');
  sb.append(text);
  }
  }
  boolean abort false;
  NodeList children node.getChildNodes();
  if (children != null) {
  int len children.getLength();
  for (int 0; len; i++) {
  if (getTextHelper(sb, children.item(i),  
  abortOnNestedAnchors, anchorDepth)) {
  abort true;
  break;
  }
  }
  }
  return abort;
}

ant 编译时,提示两个错误,8个警告

2个错误分别是:
temp node.getParentNode().toString();   
 if (text.length() && temp.indexOf("A:") == -1)  
都是提示找不到temp这个符号

8个警告分别是
  text text.replace("?", "");
警告:编码UTF-8的不可映射字符。
 
出现错误的问题在于temp未declared,感谢坛子里的好友的帮助。
改:
String temp node.getParentNode().toString(); 
OK了。
我输入string时输入小写了,晕,用windows用习惯了,唉,错误百出啊,呵呵
警告的问题这个是编码的原因造成的,修改build.xml即可,我已经解决了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值