爬虫
Lawliet_ZMZ
ACMERandNODER
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬href链接
121 a = ' I am a link ' soup2 = BeautifulSoup(a,'html.parser') print(soup2.select('a')[0]['href']) print(soup2.select('a')[0]['abc'])存储是以字典形式存储 输出 # 456 后序待补充原创 2017-04-07 21:03:43 · 838 阅读 · 0 评论 -
爬新浪国内新闻网的某个新闻的评论
用开发人员工具右键检查“评论”的元素 看到的只是一行span的代码,爬不到具体的评论内容。这时候猜想应该是通过JS增加上去的。我们通过寻找JS文件,可以找到 然后点到header看获得方式为get和URL地址原创 2017-04-21 21:11:04 · 475 阅读 · 0 评论 -
Java jsoup多线程爬虫(爬豆瓣图书封面)
Java的第一个爬虫,就先爬个好爬的豆瓣读书的封面。 用的是第三方库jsoup,也有其他的比如WebMagic之类的 利用线程池多线程爬,biubiubiu,速度超快。 下载到指定的文件夹中。 App.java: package com.zmz.spider; import java.io.IOException; import java.util.co原创 2017-09-23 09:46:29 · 1067 阅读 · 0 评论 -
Node 简单爬虫
以爬慕课网Hadoop进阶课程为例,用Node写一个简单的爬虫: 先抓取这个网站的源码: var http = require('http'); var url = 'http://www.imooc.com/learn/890'; http.get(url, function(res) { var html = ''; res.on('data', functio原创 2017-09-24 18:25:30 · 384 阅读 · 0 评论 -
Node爬虫 爬博客园
博客园右边有一个“找找看”的索引窗口,我们输入关键词,可以查到几万篇的相关的博客,这里用Node的爬虫来抓取给定关键词的查询的特定内容,实现翻页功能,抓取文章链接,作者,发布日期等信息。 Node适合高并发IO操作的程序,用来写爬虫速度最快了。这里我们把爬到的数据存储到数据库中。 前奏: 1.cheerio模块 ,一个类似jQuery的选择器模块,分析HTML利器。 2.r原创 2017-10-19 13:34:15 · 573 阅读 · 2 评论 -
Node异步爬虫引出的异步流程控制的一些问题
前记: 想写一个电影天堂的爬虫,因为node很长时间落下,就想用node去写一下。结果遇到了一些列的问题,这些问题归根到底就是异步流程控制的问题,在以前就一直会接触到很多回调地狱,Promise为什么会出现诸如此类的话题,现在终于是深刻体会到了! 开始的代码是: const cheerio = require('cheerio'); const http = require('http'...原创 2018-06-27 17:13:04 · 488 阅读 · 0 评论
分享