
Python爬虫
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
Kaaaakaki
这个作者很懒,什么都没留下…
展开
-
可迭代对象,迭代器,生成器
https://blog.youkuaiyun.com/jinixin/article/details/72232604?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_p原创 2020-11-23 15:39:16 · 109 阅读 · 0 评论 -
Scrapy Selector
scrapy selector选择器result = response.selector.xpath(’//a’)result.xpath(’./img’) 查找 a 里面的 img 标签值得注意的是,选择器的最前方加 .(点),这代表提取元素内部的数据,如果没有加点,则代表从根节点开始提取。此处我们用了./img 的提取方式,则代表从 a 节点里进行提取。如果此处我们用 //img,则还是从 html 节点里进行提取。index out of range 要么越界溢出 要么列表为原创 2020-11-05 15:57:53 · 193 阅读 · 0 评论 -
Scrapy框架的安装和使用
https://github.com/Python3WebSpider/Python3WebSpider/blob/master/13.2-Scrapy%E5%85%A5%E9%97%A8.md安装Scrapy 需要先安装 lxml pyOpenSSL Twisted PyWin32安装好上述模块以后 pip install Scrapy验证安装及创建一个Scrapy项目 如果提示权限问题 可以加sudo运行该命令创建spider执行完毕后 spiders文件夹中多了一个quot原创 2020-11-04 21:08:32 · 297 阅读 · 1 评论 -
pyspider使用问题-enable css selector helper取不到
使用pyspider 在去哪儿首页都可以使用 enable css selector helper按钮取到css 但是在每个游记 的详情页就取不到 为什么date day who都为空原创 2020-11-04 10:45:01 · 411 阅读 · 1 评论 -
代理的使用
### 403Forbidden 您的ip访问频率太高### 服务器会检测某个IP在单位时间内请求的次数 HTTP socks代理服务from urllib.error import URLErrorfrom urllib.request import build_opener,ProxyHandlerproxy = ''#需要认证的代理proxy='username:password@ip:port'proxy_handler = ProxyHandler({ 'http':'h原创 2020-10-31 21:02:45 · 274 阅读 · 0 评论 -
使用selenium抓取淘宝商品数据
# #使用selenium抓取淘宝商品数据# # 通过传入关键词 得到要找的关键词商品的网页# # 解析网页中的商品数据# # 将解析后的数据保存到mongodbfrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import原创 2020-10-18 20:58:56 · 587 阅读 · 1 评论 -
Python爬虫学习笔记(十一)
# import sys# n=int(sys.argv[1])# with open('dicts.txt') as f:# ele = f.readlines()#####################################爬取猫眼电影排行数据import requestsimport reimport timeimport jsonfrom requests.exceptions import RequestExceptiondef get_pa原创 2020-10-18 20:56:20 · 235 阅读 · 2 评论 -
Pyhton爬虫学习笔记(十二)pymysql
import pymysql############################# 创建数据库db = pymysql.connect(host='localhost', user='root', password='123', port=3306)cursor = db.cursor()cursor.execute('SELECT VERSION()')data = cursor.fetchone()print('Database Vsersion: ',data)cursor.exec原创 2020-10-31 21:02:59 · 89 阅读 · 0 评论 -
Python爬虫学习笔记(十)
## CSV文件存储 csv以纯文本的形式存储表格数据# import csv# with open('text.csv','w') as csvfile:# writer = csv.writer(csvfile)# writer.writerow(['id','name','age'])# writer.writerow(['001','wangsan','11'])# writer.writerow(['002','liyun','12'])####原创 2020-10-31 21:03:22 · 120 阅读 · 0 评论 -
Python爬虫学习笔记(九)
#自己写一遍猫眼import requestsimport reimport jsonfrom requests.exceptions import RequestExceptiondef get_page(url): try: headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69原创 2020-10-31 21:03:33 · 133 阅读 · 1 评论 -
Python爬虫学习笔记(八)
#抓取站长素材网页简历模板 .rar压缩包 也是二进制#############################################################################代理ipimport requestsif __name__=="__main__": url='https://www.baidu.com/s?wd=ip' headers = { "user-agent": "Mozilla/5.0 (Windows原创 2020-10-31 21:03:44 · 117 阅读 · 0 评论 -
Python爬虫学习笔记(七)
#抓取所有城市名称import requestsfrom lxml import etreeif __name__=="__main__": headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36"} url='https://www.aqistudy.原创 2020-10-31 21:03:54 · 113 阅读 · 0 评论 -
Python爬虫学习笔记(六)
#抓取58同城二手房源信息 xpathimport requestsfrom lxml import etreeif __name__=="__main__": url = 'https://cd.58.com/ershoufang/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT' headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) Appl原创 2020-10-31 21:04:03 · 238 阅读 · 0 评论 -
Python爬虫学习笔记(五)
# 使用美丽汤爬取三国演义# 定位元素和属性三种方式:beautifulsoup 正则 xpath# soup.tagname soup.find('') soup.find_all('') soup.select('')import requestsfrom bs4 import BeautifulSoupif __name__=="__main__": headers = { "user-agent": "Mozilla/5.0 (Windows原创 2020-10-31 21:04:13 · 120 阅读 · 0 评论 -
Python爬虫学习笔记(四)
# 分页抓取网站上的图片 并保存到文件夹中import requestsimport reimport osif __name__=="__main__": if not os.path.exists('./qiutuLibs/'): os.mkdir('./qiutuLibs/') headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (原创 2020-10-31 21:04:23 · 110 阅读 · 0 评论 -
Python爬虫学习笔记(三)
#抓取W网站上的图片 把这些图片保存到一个文件夹中# import requests# if __name__=="__main__":# url = 'https://pic.qiushibaike.com/system/pictures/12360/123607416/medium/E6SIOF2AAFJV6YZK.jpg'# # text 字符串 content 二进制 json() 对象# response = requests.get(url).content#原创 2020-10-31 21:04:35 · 114 阅读 · 0 评论 -
Python爬虫学习笔记(二)
#抓取一个电影网页再点进一部影片抓取影片信息import requestsimport jsonif __name__=="__main__": # 'Request URL: https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=%E5%8A%B1%E5%BF%97&start=0&genres=%E5%8A%A8%E4%BD%9C' # 'Request URL:原创 2020-10-31 21:04:45 · 220 阅读 · 0 评论 -
2020Python爬虫学习笔记(一)
#demo1 有道词典翻译单词# import requests# if __name__=="__main__":# url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'# headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome原创 2020-10-31 21:04:55 · 286 阅读 · 0 评论 -
Ajax爬取今日头条照片
```python##### 爬取今日头条照片 p247import requestsimport osfrom multiprocessing.pool import Poolfrom hashlib import md5from urllib.parse import urlencodedef get_page(offset): base_url = 'https://www.toutiao.com/api/search/content/?' params = { .原创 2020-10-18 20:59:10 · 233 阅读 · 0 评论