
python爬虫
志yu
慕尼黑工大机器人硕士 方向机器视觉
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy crawl spider执行报错(windows)
1.SyntaxError: invalid syntax 调用的addoutput里面的也要将async参数更改为shark,因为下面的if判断,源码里面都是用的shark,又不是async,识别不了async def write(self, data, shark=False): self.handler.addOutput(data, shark) ...原创 2018-09-08 14:57:50 · 535 阅读 · 0 评论 -
python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目,pycharm编辑
1、打开cmd,进入到项目准备所放在的文件夹,执行命令: scrapy startproject douban 然后就可以使用pycharm打开项目了 2、建立spider文件 cmd命令行进入到项目的spiders文件夹,执行: scrapy genspider douban_spider url scrapy genspider douban_spider movie.do...原创 2018-09-09 14:19:44 · 806 阅读 · 0 评论 -
python scrapy框架爬取豆瓣top250电影篇一scrapy原理介绍
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。...原创 2018-09-09 13:47:09 · 920 阅读 · 0 评论 -
python scrapy框架爬取豆瓣top250电影篇一明确目标&&爬虫编写
1.明确目标 1.1在url上找到要爬取的信息 1.2.确定了信息,编写items文件 class DoubanItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() serial_number = s...原创 2018-09-09 15:25:21 · 955 阅读 · 0 评论 -
python scrapy框架爬取豆瓣top250电影篇一存储数据到mongogdb | mysql中
存到mongodb中 环境 windows7 mongodb4.0 mongodb安装教程 设置具体参数 在管道里面写具体参数 打开settings 设置参数 测试开始–结果 代码 import pymongo from douban.settings import mongo_host,mongo_port,mongo_db_name,mongo...原创 2018-09-09 16:12:10 · 823 阅读 · 0 评论 -
python scrapy框架爬取豆瓣top250电影篇一代理编写
爬虫伪装: UA中间件编写 settings设置 from scrapy import signals import base64 import random class my_useragent(object): def process_request(self,request,spider): USER_AGENT_LIST = [ ...原创 2018-09-09 16:21:00 · 565 阅读 · 0 评论 -
python 爬虫 --字符编写问题
python爬虫后出现字符串问题 测试用例: [root@izwz9eitqs320brxl6owssz ~]# python Python 2.7.5 (default, Nov 6 2016, 00:28:07) [GCC 4.8.5 20150623 (Red Hat 4.8.5-11)] on linux2 Type "help", "copyright", "c原创 2018-09-06 14:17:16 · 204 阅读 · 0 评论 -
正则表达式-py爬虫篇
re.match re.match试着从字符串的起始位置匹配一个模式, 若不能从起始位置匹配成功,match()就返回none. 常见匹配 import re content = 'Hello 123 4567 World_This Demo' res = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}\sDemo$', cont...转载 2018-09-06 14:45:53 · 230 阅读 · 0 评论 -
python爬取douban读书
通过两天的速成学习,自己写了py的代码来爬豆瓣。 要注意的还是很多的cookie User-Agent 还有字符串编辑问题- (使用的是pycharm 记得设置字符格式为UTF8) # -*- coding: UTF-8 -*- import threading import pymongo import requests import re import random import tim...原创 2018-09-07 13:54:46 · 285 阅读 · 0 评论