
爬虫
文章平均质量分 81
Elric_01
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Python数据处理】近期在数据处理上遇到的一些问题归纳
1.pandas中强制类型转换 场景:在爬虫获取完成数据并且写入csv文件中后,读取数据发现数据类型是object类型。object类型是泛类型数据,在未进行强制转换前,price无法参与运算并且报错(unsupported operand type(s) for /: ‘str’ and ‘int’),原因是price中的非浮点型数据导致报错。而脏数据的产生是因为爬虫爬取过程中,由于ajax加载慢而导致。 刚开始想尝试astype方法进行强制类型转换,但是由于有字符串数据存在,所以无法使用。 sour原创 2021-06-08 14:42:19 · 1020 阅读 · 1 评论 -
python爬虫实现成语接龙1.0
效果图 废话不多说直接上代码… import random import requests from bs4 import BeautifulSoup # 用于谐音字成语接龙 from pypinyin import lazy_pinyin from Pinyin2Hanzi import DefaultDagParams from Pinyin2Hanzi import dag class Spider(object): """ 爬取对应成语最后一个字的成语列表, 有成语随机返回其中一个原创 2020-10-06 11:31:52 · 558 阅读 · 1 评论 -
Selenium爬取京东商城商品基本信息并写入csv
想要爬取一份京东商城的商品数据用来做数据分析 使用selenium较稳定,可以绕过很多反爬虫 但是使用selenium效率较低,而且通过循环翻页方法会存在数据重复 直接上代码 import time import urllib.parse import pandas as pd from bs4 import BeautifulSoup from selenium.webdriver.common...原创 2020-04-29 14:55:21 · 1373 阅读 · 8 评论 -
scrapy爬取cosplay图片并保存到本地指定文件夹
其实关于scrapy的很多用法都没有使用过,需要多多巩固和学习 1.首先新建scrapy项目 scrapy startproject 项目名称 然后进入创建好的项目文件夹中创建爬虫 (这里我用的是CrawlSpider) scrapy genspider -t crawl 爬虫名称 域名 2.然后打开pycharm打开scrapy项目 记得要选正确项目包的路径要包含scra...原创 2020-03-23 22:33:22 · 656 阅读 · 0 评论