
网络爬虫
achuo
IT码农,技术菜鸟,十年经验,技术渣渣
展开
-
WebMagic(一)--抓取一个简单的页面
简单介绍 最近在做项目要用到爬虫抓取网页的数据,然后保存到数据库中,最后选择了WebMagic,WebMagic是国人开发的一款爬虫,WebMagic官方对他的介绍是: webmagic的主要特色: ●完全模块化的设计,强大的可扩展性。 ●核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。 ●提供丰富的抽取页面API转载 2017-03-12 12:04:42 · 3770 阅读 · 1 评论 -
WebMagic(二)----抓取优快云博客、并打印
新建一个Maven项目、在pom文件中加入WebMagic必须的一些jar包. 测试类: [html] view plain copy public class App implements PageProcessor { private Site site = Site.me().setSlee转载 2017-03-12 12:06:25 · 2522 阅读 · 0 评论 -
WebMagic(三)----抓取优快云博客通过JDBC保存到数据库中去
数据库使用的是MySQL,新建test数据库创建csdnblog表: [html] view plain copy CREATE TABLE `csdnblog` ( `id` int(11) unsigned NOT NULL auto_increment, `keyes` int(11) unsigned NO转载 2017-03-12 12:07:36 · 887 阅读 · 0 评论 -
Python3.X 爬虫实战(并发爬取)
【工匠若水 http://blog.youkuaiyun.com/yanbober 未经允许严禁转载,请尊重作者劳动成果。私信联系我】 1 背景 在这一系列开始前我们就说过,简单的爬虫很容易,但是要完成一个高效健壮的爬虫不是一个简单的事情,这一系列我们已经明白了爬虫相关的如下核心知识点。 《正则表达式基础》 《Python3.X 爬虫实战(先爬起来嗨)》 《Python3.X 爬虫实转载 2017-06-27 20:44:12 · 6169 阅读 · 0 评论