爬虫
Duncan巴南分肯
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用scrapy框架爬取人邮出版社新书快递
明确目标目标url:https://www.ryjiaoyu.com/tag/details/7。静态网页。需要进入详情页爬取信息。scrapy框架建项目新建scrapy项目:1.创建爬虫项目,命令:scrapy startproject 项目名称。例如scrapy startproject RenYou2.创建爬虫文件,命令:scrapy genspider 文件名称 域名例如scrapy genspider ry https://www.ryjiaoyu.com/tag/det原创 2020-06-12 11:12:46 · 883 阅读 · 0 评论 -
用selenium爬取京东某商品的差评100条
from selenium import webdriveroption = webdriver.ChromeOptions()option.add_argument('headless')from selenium.webdriver.common.action_chains import ActionChainsimport csvimport timedef jddata(): commts=[] for i in range(1,11,1): cmts =原创 2020-06-12 10:47:55 · 944 阅读 · 0 评论 -
用xpath爬取58同城二手房并存入csv文件中
import requestsfrom lxml import etreeimport csv#爬取58同城二手房if __name__ == "__main__": headers = { "user-agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 80.0.3987.162Safari / 537.36" }原创 2020-06-12 10:44:55 · 1422 阅读 · 2 评论 -
豆瓣电影爬取(分类)并存到csv中
import requestsimport jsonimport csvif __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36' } fp = open('D:/Python/原创 2020-06-12 10:35:32 · 499 阅读 · 0 评论 -
爬人邮新书
import requestsimport pymysqlfrom lxml import etreeimport csvdef getHtml(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ...原创 2020-04-03 11:36:32 · 325 阅读 · 0 评论 -
爬取豆瓣TOP250排行榜并用csv文件存储
import requestsfrom bs4 import BeautifulSoupimport csvdef getHtml(url):headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 S...原创 2020-04-03 11:33:53 · 873 阅读 · 0 评论
分享