爬虫
YgBoom
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python MongoDB数据库操作
MongoDB数据库操作一、连接数据库import pymongo# 创建对象,连接本地数据库# 方法一client = pymongo.MongoClient()# 方法二client = pymongo.MongoClient('localhost',27017)# 方法三clent = MongoClient('mongodb://localhost:27017/')# 连接DB数据库db = client['DB']二、添加文档import pymongoimport原创 2020-12-20 16:27:50 · 225 阅读 · 0 评论 -
python 文档数据存储
python 文档数据存储一、csv数据的写入和读取1、csv写入python标准库自带csv模块,不用自行安装。import csv# 若存在文件,则直接打开csv文件;若不存在,则新建文件# 若不设置newline='',则每行数据会隔一行空白行csvfile = open('csv_test.csv','w',newline='')# 将文件加载到csv对象中writer = csv.writer(csvfile)# 写入一行数据writer.writerow(['姓名','年原创 2020-12-19 21:41:17 · 280 阅读 · 1 评论 -
python-Scrapy-MongoDB 抓取并保存IT之家博客新闻
IT之家我们需要抓取的数据有文章标题、文章地址、发布日期、来源、原文章地址、作者、文章标签。1、创建项目>>>scrapy startproject ithome2、创建爬虫>>>scrapy genspider -t crawl news ithome.com3、编写items.py文件,确定需要爬取的内容# Define here the models for your scraped items## See documentation in原创 2020-12-16 20:41:15 · 220 阅读 · 0 评论 -
python-scrapy-stats 数据收集
通过stats属性来使用数据收集器。数据收集使用,统计名人名言网站中(http://quotes.toscrape.com/)标签为love的名言数量1.创建项目>>>scrapy startproject tagcount2.创建爬虫>>>scrapy genspider tags quotes.toscrape.com3、编写item.py文件# Define here the models for your scraped items## Se原创 2020-12-15 21:44:03 · 515 阅读 · 1 评论 -
python-scrapy-MongoDB 爬取链家二手房
python-scrapy-MongoDB 爬取链家二手房链家二手房房源数据抓取目标网址为http://bj.lianjia.com/ershoufang/分析网址创建项目scrapy startproject lianjia创建爬虫文件scrapy genspider -t crawl lianjiahouse lianjia.com3.编写items.py文件 ,设置需要抓取的内容# Define here the models for your scraped ite原创 2020-12-15 19:53:12 · 803 阅读 · 0 评论 -
python-CSVfeedSpider 提取csv文件数据
从贵州省数据开放平台下载科技特派员csv文件,文件地址为http://gzopen.oss-cn-guizhou-a.aliyuncs.com/科技特派员.csv使用命令创建项目>>>scrapy startproject csvfeedspider进入项目目录>>>cd csvfeedspider>>>scrapy genspider -t csvfeed csvdata gzdata.gov.cn编写items文件# D原创 2020-12-13 11:47:58 · 210 阅读 · 0 评论 -
python-CrawlSpider爬取名人名言
爬取名人名言(http://quotes.toscrape.com)import scrapyfrom scrapy.spiders import CrawlSpider,Rulefrom scrapy.linkextractors import LinkExtractorclass Quotes(CrawlSpider): name = 'quote' allowed_domains = ['quotes.toscrape.com'] start_urls = ['ht原创 2020-12-12 20:54:18 · 755 阅读 · 0 评论 -
python基本爬虫实战:抓取cnBeta网站科技类文章
主要抓取的内容有文章标题、链接、文章发布日期,并保存到本地URL管理器:负责管理待爬取的网页URL数据下载器:根据URL下载数据数据分析器:分析筛选下载的数据数据保存器:将筛选出的数据保存到文件或数据库调度器:负责整个系统的调度一、URL管理器作用是收集、管理URL信息,包括待爬取的URL、已经爬取过的URL,程序urlmanager.py如下class URLManager(object): def __init__(self): # 初始化待爬取URL与已爬取原创 2020-12-11 17:07:54 · 612 阅读 · 2 评论
分享