
Python爬虫
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
Kaaaakaki
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
可迭代对象,迭代器,生成器
https://blog.youkuaiyun.com/jinixin/article/details/72232604?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_p原创 2020-11-23 15:39:16 · 119 阅读 · 0 评论 -
Scrapy Selector
scrapy selector选择器 result = response.selector.xpath(’//a’) result.xpath(’./img’) 查找 a 里面的 img 标签 值得注意的是,选择器的最前方加 .(点),这代表提取元素内部的数据,如果没有加点,则代表从根节点开始提取。此处我们用了./img 的提取方式,则代表从 a 节点里进行提取。如果此处我们用 //img,则还是从 html 节点里进行提取。 index out of range 要么越界溢出 要么列表为原创 2020-11-05 15:57:53 · 206 阅读 · 0 评论 -
Scrapy框架的安装和使用
https://github.com/Python3WebSpider/Python3WebSpider/blob/master/13.2-Scrapy%E5%85%A5%E9%97%A8.md 安装Scrapy 需要先安装 lxml pyOpenSSL Twisted PyWin32 安装好上述模块以后 pip install Scrapy 验证安装及创建一个Scrapy项目 如果提示权限问题 可以加sudo运行该命令 创建spider 执行完毕后 spiders文件夹中多了一个quot原创 2020-11-04 21:08:32 · 317 阅读 · 1 评论 -
pyspider使用问题-enable css selector helper取不到
使用pyspider 在去哪儿首页都可以使用 enable css selector helper按钮取到css 但是在每个游记 的详情页就取不到 为什么 date day who都为空原创 2020-11-04 10:45:01 · 442 阅读 · 1 评论 -
代理的使用
### 403Forbidden 您的ip访问频率太高 ### 服务器会检测某个IP在单位时间内请求的次数 HTTP socks代理服务 from urllib.error import URLError from urllib.request import build_opener,ProxyHandler proxy = '' #需要认证的代理proxy='username:password@ip:port' proxy_handler = ProxyHandler({ 'http':'h原创 2020-10-31 21:02:45 · 285 阅读 · 0 评论 -
使用selenium抓取淘宝商品数据
# #使用selenium抓取淘宝商品数据 # # 通过传入关键词 得到要找的关键词商品的网页 # # 解析网页中的商品数据 # # 将解析后的数据保存到mongodb from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support import原创 2020-10-18 20:58:56 · 615 阅读 · 1 评论 -
Python爬虫学习笔记(十一)
# import sys # n=int(sys.argv[1]) # with open('dicts.txt') as f: # ele = f.readlines() #################################### #爬取猫眼电影排行数据 import requests import re import time import json from requests.exceptions import RequestException def get_pa原创 2020-10-18 20:56:20 · 252 阅读 · 2 评论 -
Pyhton爬虫学习笔记(十二)pymysql
import pymysql ############################# 创建数据库 db = pymysql.connect(host='localhost', user='root', password='123', port=3306) cursor = db.cursor() cursor.execute('SELECT VERSION()') data = cursor.fetchone() print('Database Vsersion: ',data) cursor.exec原创 2020-10-31 21:02:59 · 100 阅读 · 0 评论 -
Python爬虫学习笔记(十)
## CSV文件存储 csv以纯文本的形式存储表格数据 # import csv # with open('text.csv','w') as csvfile: # writer = csv.writer(csvfile) # writer.writerow(['id','name','age']) # writer.writerow(['001','wangsan','11']) # writer.writerow(['002','liyun','12']) ####原创 2020-10-31 21:03:22 · 128 阅读 · 0 评论 -
Python爬虫学习笔记(九)
#自己写一遍猫眼 import requests import re import json from requests.exceptions import RequestException def get_page(url): try: headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69原创 2020-10-31 21:03:33 · 145 阅读 · 1 评论 -
Python爬虫学习笔记(八)
#抓取站长素材网页简历模板 .rar压缩包 也是二进制 ############################################################################ #代理ip import requests if __name__=="__main__": url='https://www.baidu.com/s?wd=ip' headers = { "user-agent": "Mozilla/5.0 (Windows原创 2020-10-31 21:03:44 · 138 阅读 · 0 评论 -
Python爬虫学习笔记(七)
#抓取所有城市名称 import requests from lxml import etree if __name__=="__main__": headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36"} url='https://www.aqistudy.原创 2020-10-31 21:03:54 · 122 阅读 · 0 评论 -
Python爬虫学习笔记(六)
#抓取58同城二手房源信息 xpath import requests from lxml import etree if __name__=="__main__": url = 'https://cd.58.com/ershoufang/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT' headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) Appl原创 2020-10-31 21:04:03 · 249 阅读 · 0 评论 -
Python爬虫学习笔记(五)
# 使用美丽汤爬取三国演义 # 定位元素和属性三种方式:beautifulsoup 正则 xpath # soup.tagname soup.find('') soup.find_all('') soup.select('') import requests from bs4 import BeautifulSoup if __name__=="__main__": headers = { "user-agent": "Mozilla/5.0 (Windows原创 2020-10-31 21:04:13 · 131 阅读 · 0 评论 -
Python爬虫学习笔记(四)
# 分页抓取网站上的图片 并保存到文件夹中 import requests import re import os if __name__=="__main__": if not os.path.exists('./qiutuLibs/'): os.mkdir('./qiutuLibs/') headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (原创 2020-10-31 21:04:23 · 123 阅读 · 0 评论 -
Python爬虫学习笔记(三)
#抓取W网站上的图片 把这些图片保存到一个文件夹中 # import requests # if __name__=="__main__": # url = 'https://pic.qiushibaike.com/system/pictures/12360/123607416/medium/E6SIOF2AAFJV6YZK.jpg' # # text 字符串 content 二进制 json() 对象 # response = requests.get(url).content #原创 2020-10-31 21:04:35 · 123 阅读 · 0 评论 -
Python爬虫学习笔记(二)
#抓取一个电影网页再点进一部影片抓取影片信息 import requests import json if __name__=="__main__": # 'Request URL: https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=%E5%8A%B1%E5%BF%97&start=0&genres=%E5%8A%A8%E4%BD%9C' # 'Request URL:原创 2020-10-31 21:04:45 · 253 阅读 · 0 评论 -
2020Python爬虫学习笔记(一)
#demo1 有道词典翻译单词 # import requests # if __name__=="__main__": # url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule' # headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome原创 2020-10-31 21:04:55 · 296 阅读 · 0 评论 -
Ajax爬取今日头条照片
```python ##### 爬取今日头条照片 p247 import requests import os from multiprocessing.pool import Pool from hashlib import md5 from urllib.parse import urlencode def get_page(offset): base_url = 'https://www.toutiao.com/api/search/content/?' params = { .原创 2020-10-18 20:59:10 · 248 阅读 · 0 评论