
爬虫
DcForever
a huge DC fan~
展开
-
如何查看网页的编码格式
如何查看网页的编码格式最近在做爬虫的时候,发现部分网页爬出来的数据是乱码(网易新闻)。搞了半天,最后发现网易新闻的编码格式是GBK不是UTF-8。查看网页的编码格式的方法就是:在网页按F12,打开开发者工具,如图:然后在console控制台输入document.charset 然后回车,如图:如图,网易新闻网页的编码为GDK。...原创 2019-05-14 09:02:47 · 29668 阅读 · 2 评论 -
使用AiPa爬虫框架同时爬取多个网页信息
上一篇介绍了用Java+Jsoup实现简单的网页爬虫功能,这次我们要做的稍微深一点,同时爬取多个新闻网站,并将其中有用的信息(新闻标题,URL,新闻内容等)保存在数据库中。首先介绍一个很好用的多线程爬虫框架,名字叫AiPa。AiPa爬虫框架...原创 2019-05-16 21:37:37 · 1915 阅读 · 0 评论 -
Java+Jsoup实现最基本的网页爬虫功能
Java+Jsoup实现最基本的网页爬虫功能Jsoup简介原创 2019-05-11 18:17:45 · 3454 阅读 · 7 评论