
spider
兴宁阿哥
这个作者很懒,什么都没留下…
展开
-
scrapy -- 快速启动项目
在项目的根目录中创建 start.py 文件 from scrapy import cmdline # cmdline.execute(['scrapy', 'crawl', 'wx']) cmdline.execute('scrapy crawl wx'.split())原创 2020-06-18 13:58:09 · 318 阅读 · 0 评论 -
selenium 模拟登陆淘宝网 - 解决登陆滑块的问题
import time from selenium import webdriver from selenium.common.exceptions import UnexpectedAlertPresentException from selenium.webdriver import ActionChains from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support impor...原创 2020-06-10 17:10:37 · 2598 阅读 · 1 评论 -
requests + xpath 爬取猫眼电影top100
import json import requests from requests.exceptions import RequestException from multiprocessing import Pool from lxml import etree # 获取页面 def get_one_page(url): # 加入请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X.原创 2020-06-08 21:44:52 · 759 阅读 · 0 评论 -
selenium 12306抢票代码 - Python
import time from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By c原创 2020-06-08 13:33:29 · 560 阅读 · 0 评论 -
selenium 拉勾招聘网 爬取
链接:https://pan.baidu.com/s/12a4JwvWRLXWIZioJeQgodQ 提取码:qyto 点击此处跳转(百度网盘/提取码:qyto )原创 2020-06-07 21:04:20 · 3291 阅读 · 0 评论 -
selenium 模拟登陆 古诗文网 含验证码
ocr.py / 阿里云市场 import base64 import json import urllib.request from urllib import parse import ssl ssl._create_default_https_context = ssl._create_unverified_context def get_code(): #修改API说明修改接口地址 host = 'https://imgurlocr.market.alicloudapi.com/.原创 2020-06-07 15:12:35 · 810 阅读 · 0 评论 -
selenium简单使用
安装 pip install selenium ChromeDriver下载链接 点击跳转/ChromeDriver selenium 文档 点击打开selenium文档 声明浏览器对象 from selenium import webdriver # chromedriver的绝对路径 driver_path = '/Users/apple/soft/chromedriver' browser = webdriver.Chrome(executable_path=driver_path) browse原创 2020-06-06 22:15:56 · 485 阅读 · 0 评论 -
Python爬虫Scrapy框架 从安装到项目创建
1. 安装 pip install scrapy pip install pywin32 # Windows系统下安装 2. 创建项目 scrapy startproject 项目名称 # 可以进入创建好的虚拟环境中创建项目 # 例如 scrapy startproject myspider 3. 创建爬虫 cd 项目名称 scrapy genspider 爬虫名称 网站域名(一般不写www) # 注意:爬虫名称 不能与项目名称同名 # 例如 cd myspider scrapy gensp原创 2020-05-31 18:12:47 · 354 阅读 · 0 评论 -
XPath 的基本用法
链接:https://pan.baidu.com/s/1impFJJqmaECPkJHZLKw6PQ 提取码:jquq 点击此处跳转(百度网盘/提取码:jquq)原创 2020-03-31 13:26:30 · 4442 阅读 · 0 评论 -
Python爬虫 输入城市 获取对应KFC餐厅名字及地址 -- KFC店铺位置抓取
链接:https://pan.baidu.com/s/1taC-NE0j_UVPNyUJTLQ_Gg 提取码:7p7h 点击此处跳转(百度网盘/提取码:7p7h) ABB FANUC KUKA 相关资料(点击以下链接跳转) 点击此处跳转,获取相关资料(百度网盘) ...原创 2020-03-31 11:15:15 · 1452 阅读 · 0 评论