
Python_爬虫初级
Tina_053
这个作者很懒,什么都没留下…
展开
-
爬取马蜂窝景点的数据
# -*- coding: utf-8 -*- import requests from requests import RequestException import re from pyquery import PyQuery as pq headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build...原创 2018-12-13 15:55:16 · 2911 阅读 · 0 评论 -
Python 爬虫练习--- requests+beautifulSoup+re
爬取某互联网公司网站的投资产品信息:https://member.niwodai.com/portal/inteBid/inteBidPage.do 首先解析网站结构: 经过上述的网页源代码解析,下面是是实现的具体步骤: import requests from requests import RequestException import re headers = {'User-Agent...原创 2018-12-06 16:37:23 · 626 阅读 · 1 评论 -
python爬虫 爬取猫眼top100
import requests from requests.exceptions import RequestException import re def get_one_page(url): try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537....原创 2018-12-01 21:02:17 · 449 阅读 · 0 评论 -
python中爬虫相关包的安装方法
urllib re request requests selenium chromedriver phantomjs lxml beautifulsoup pyquery pymysql pymongo redis flask django jupyter 目前就收到到这么多,后续有新增的再来补充原创 2018-11-26 10:06:36 · 872 阅读 · 0 评论 -
Python --爬虫 头条街拍图片爬取
分析逻辑基本和前面的类似,只是这次将数据源存入mogodb中。具体实现代码如下: import requests from requests.exceptions import RequestException #requests请求时错误类型 from urllib.parse import urlencode import json #json解析 from bs4 import Beau...原创 2019-03-13 17:43:29 · 191 阅读 · 0 评论 -
微信sougo中 风景关键字搜索 文章爬取
####config 文件的参数 #mongodb的参数 MONGO_URL = 'localhost' MONGO_DB = 'weixin' MONGO_TABLE = 'article_data' POOL_PROXY_URL = 'http://127.0.0.1:5000/get' # 初始化代理 KEYWORDS= '风景' # 搜索的内容 base_url = 'https:...原创 2019-03-13 17:49:12 · 722 阅读 · 1 评论