python BeautifulSoup爬虫
文章平均质量分 82
top_beyond
自动化工程师正在向爬虫进军
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一.BeautifulSoup 多进程抓取智联招聘信息,并且存储到mongodb
# coding:utf-8 import re import requests import urllib2 import datetime from bs4 import BeautifulSoup from pymongo import MongoClient from multiprocessing import Pool #开启数据库 cn=MongoClient('localhost原创 2017-06-30 11:54:47 · 1006 阅读 · 0 评论 -
二.BeautifulSoup多线程下载百思不得姐图片
#coding:utf-8 import requests from requests.exceptions import HTTPError, ConnectionError import threading from bs4 import BeautifulSoup import re import os,time import Queue class get_Url(): def原创 2017-06-30 13:32:38 · 913 阅读 · 0 评论 -
三.BeautifulSoup用法大全
#coding:utf-8 import HTMLParser from selenium import webdriver import time,os,requests,xlwt,xlrd from lxml import etree from xlutils.copy import copy from bs4 import BeautifulSoup def url_do(path,jo原创 2017-06-30 13:47:35 · 438 阅读 · 0 评论 -
四.BeautifulSoup爬取51job任意职位并且存储到mongodb
#coding:utf-8 import requests import re import urllib2 from pymongo import MongoClient from bs4 import BeautifulSoup #抓取51job相关职位信息 def get_url(): #连接mongo数据库 cn=MongoClient(host='127.0.0.1',原创 2017-06-30 13:50:26 · 1191 阅读 · 0 评论 -
五.BeautifulSoup大众点评爬取店铺信息,存储到mongodb
#coding:utf-8 from pymongo import MongoClient import requests,re from multiprocessing import Pool from bs4 import BeautifulSoup import pymongo from matplotlib import pyplot as plt #开启数据库 cn=MongoClien原创 2017-06-30 13:53:39 · 1933 阅读 · 0 评论 -
六.Python爬虫Beautiful Soup的用法
1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beauti原创 2017-07-07 09:29:23 · 294 阅读 · 0 评论
分享