
爬虫
neu-gwh
东北大学计算机研三在读
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫的数据库存储
这里用爬取博客标题为例 mysql存储 import requests from bs4 import BeautifulSoup import pymysql db = pymysql.connect('localhost', 'root', '031116', 'scraping') cursor = db.cursor() link = "http://www.santostang....原创 2019-11-27 16:29:37 · 241 阅读 · 0 评论 -
beautifulsoup爬取安居房信息
import requests from bs4 import BeautifulSoup headers={'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'} link="https://b...原创 2019-11-27 16:27:32 · 277 阅读 · 0 评论 -
爬取虎扑步行街的帖子并加入Mongo数据库
import requests from Mongom import MongoAPI from bs4 import BeautifulSoup import datetime def getpage(link): headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHT...原创 2019-11-27 16:22:27 · 309 阅读 · 0 评论 -
爬虫解析网页
1、正则表达式获取博客标题 import requests import re link="http://www.santostang.com/" headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Saf...原创 2019-11-24 20:44:29 · 225 阅读 · 0 评论 -
selenium爬取深圳短租房信息
这里采用for循环爬取前5页,但不知道为什么只能爬前两页,后面会出现异常,先放在这里吧,再查查资料解决 from selenium import webdriver import time driver = webdriver.Firefox(executable_path=r'C:\Users\lenovo\Desktop\geckodriver.exe') for i in ran...原创 2019-11-20 21:20:42 · 335 阅读 · 1 评论 -
slenium动态抓取博客评论
这里用了爬虫从入门到实践第二版的例子,爬取作者博客前3页评论,这里作者的代码与现在的页面不一致,之前所有内容可以加载到一页上,现在按钮是进行翻页,这里我采用for循环每次遍历输出的方式 from selenium import webdriver import time driver = webdriver.Firefox(executable_path=r'C:\Users\lenovo...原创 2019-11-19 19:11:51 · 217 阅读 · 0 评论 -
第一个爬虫:爬取豆瓣Top250电影名字
import requests from bs4 import BeautifulSoup def get_movies(): headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) ...原创 2019-11-17 23:28:02 · 499 阅读 · 0 评论