
爬虫
文章平均质量分 55
在线打码
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
调用百度图像识别api处理网络图片(文字识别)
要想使用百度图像识别api得先注册一个百度账号,然后创建一个图像识别应用,获取其中的APPID、AK、SK账号注册什么的就不多说了,直接开始创建应用创建成功代码# -*- coding: utf-8 -*- # @File : img2num.pyfrom aip import AipOcrimport urllib.request'''使用百度api读取图片中的文字'''""" 你的 APPID AK SK """APP_ID = 'APPID 'API_KEY = '原创 2021-05-08 17:36:47 · 1744 阅读 · 2 评论 -
Python爬虫爬取中国电影票房排行榜
我们都知道浏览器向服务器发送请求时都会带上请求头,我们用python直接爬取网页源码时并没有设置请求头,所以服务器并不认识我们,认为我们没有登录。所以只要我们正确的设置了请求头就能正常获取数据了。通过pandas读取上面爬取到的excel文件,然后调用img2num.py文件里 的get_img_word方法转换图片。在未登录时获取多页数据会让我们先登录,当我们在浏览器登录过后,使用python读取到的网页数据还是登录页的代码。有的数据还是没有识别出来,如果想全部识别出来的话可以调整为高精度识别。原创 2021-05-08 17:22:28 · 6747 阅读 · 15 评论 -
Python爬虫爬取香港电影评分网站各榜单
Python爬虫香港电影评分网站各大榜单最新电影榜单步骤1、找到所有的榜单地址base_url = "https://hkmovie6.com"edit_url = "https://hkmovie6.com/collection" # 编辑精选marvel_url = "https://hkmovie6.com/collection/0bb46a15-ceaf-4cf0-a9ed-14284b32c5c1" # 漫威宇宙dc_url = "https://hkmovie6.com/原创 2021-05-08 13:38:33 · 2714 阅读 · 1 评论 -
使用爬虫框架scrapy爬取LOL英雄数据
Scrapy框架实战爬取目标:英雄联盟所有英雄的基本信息(名字,背景故事,技能名称及介绍)、下载所有英雄的皮肤并保存至本地首先来到LOL官网首页,如图进入所有英雄的信息页面先说一下我最开始的思路:通过网页源代码来获取想要的数据,这也是最基本的爬取数据的方式通过单个英雄信息的url不难发现规律,每个英雄的详情页url地址都一样,只是参数id的值不一样。那么便可以通过在英雄信息页获取到每个英雄的id从而得到详情页地址想象是美好的,实际操作时一直都获取不到想要的数据,获取的li标签中的值一直是原创 2020-07-15 21:54:20 · 1804 阅读 · 8 评论 -
使用爬虫框架scrapy爬取网站妹子图
Scrapy框架实战爬取目标:网站 唯美女生 女生图片首先进入网站首页分析网站源代码不难发现详情页的规律详情页中每张图片的地址网页数据都是直接渲染出来的,所以我们可以通过直接获取图片地址来下载图片我使用的是Scrapy框架中的crawl模板爬取代码:vmgirls_spider.py注意:代码里的注释是因为不同详情页有的图片路径存储的结构不一样,爬取的方式也不一样有的是一个p标签里一个a标签包含一个img,有的是一个p标签包含了所有的img,还有就是多个p标签包含图片,如下图原创 2020-07-18 19:59:32 · 2021 阅读 · 0 评论 -
Python爬虫爬取韩国电影售票评分网站电影排行榜Top250
Python爬虫韩国电影售票评分网站电影排行榜Top250步骤1、基本的爬取思路是先爬取排行榜中每个电影的详情页URL2、通过拼接URL获取详情页的具体地址3、通过分析电影详情页获取电影数据4、将爬取到的数据保存到Excel文件代码# -*- coding: utf-8 -*- # @Time : 2021/4/26 22:29 # @Author : hqf # @File : 韩国电影售票评分网站.pyimport requestsfrom bs4 import原创 2021-05-08 13:18:27 · 1957 阅读 · 2 评论