
搜索引擎
bob007
这个作者很懒,什么都没留下…
展开
-
爬虫相关网站
开源爬虫调研http://blog.sina.com.cn/s/blog_6d0b92d90100w6p7.html正文抽取算法http://wenku.baidu.com/link?url=U07Qfde4TZE52Oa1aQF71GI_vyauyfRmgakWHp2CcQM1n8EyBpZnnU6sm4qcqiIOi_cApIwSxIVieMDRTskSjYmyAJSBUB原创 2014-03-25 17:24:07 · 579 阅读 · 0 评论 -
Java 解决采集UTF-8网页空格变成问号乱码
昨天发现,用 HtmlDecode() 去解码后,“ ”不是被解码为半角的空格(ASCII码0x20)而是变成半角问号“?”(ASCII码0x3F)。而且奇怪的是,只有每行前面的空格才会出问题,如果前面后面有汉字的话,空格就还是空格。但是更加奇怪的是,如果直接在HtmlDecode()的后面直接加上trim()的话,这个问号会被去掉。而正常的情况下,问号是不会被去掉的,只有空格才会被去掉转载 2014-05-26 17:43:54 · 14094 阅读 · 4 评论