python网络爬虫（笔记）（1）

最新推荐文章于 2023-02-14 14:48:04 发布

原创最新推荐文章于 2023-02-14 14:48:04 发布 · 234 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习笔记

Python爬虫专栏收录该内容

6 篇文章

订阅专栏

本文介绍使用Python进行网络爬虫的基本方法，涵盖使用requests及urllib库获取HTML数据的过程，并演示了如何对网页内容进行编码转换。

视频地址：
Python网络爬虫（初级） - 网易云课堂 http://study.163.com/course/courseLearn.htm?courseId=1004832029#/learn/video?lessonId=1050360256&courseId=1004832029
基本功能：

抓取你看到的网络数据
抓取你看不到的网络数据
抓取你发送的网络信息
…….很多其他功能

网络数据采集的一般流程：
- 通过网站域名获取HTML数据
- 根据目标信息解析数据
- 存储目标信息
- 若有必要，移到另一个网页重复这个过程

一、通过网站域名获取html数据

用urllib库或requests库来获取html数据

import requests

url = 'http://www.runoob.com/html/html-tutorial.html'
r= requests.get(url)
#r.text #对应的是html文档的内容，但是输出有乱码
 做一个编码的转化：编码之后是一个二进制码，将其解码为字符串r.text.encode(r.encoding).decode()
 html=r.text.encode(r.encoding).decode()


from urllib import request

url = 'http://www.runoob.com/html/html-tutorial.html'
html = request.urlopen(url).read()#字节码
html.decode() #解码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

l_ml_m_lm_m

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python网络爬虫入门笔记1

m0_72232012的博客

07-10

1450

这是鄙人在b站看课总结，主要是关于爬虫入门，笔记1是关于requests

【Python网络爬虫笔记】11- Xpath精准定位元素

最新发布

zi__you的博客

12-13

2475

Xpath，能够帮助开发者从复杂的网页结构中精准地提取所需信息。本文将深入探讨 Xpath 在 Python 网络爬虫中的作用、常用方法、安装与使用步骤以及典型案例。

参与评论您还未登录，请先登录后发表或查看评论

爬虫学习（一）---爬取电影天堂下载链接

程序员学编程的专栏

10-12

1万+

主要利用了python3.5 requests，BeautifulSoup，eventlet三个库来实现。1、解析单个电影的详细页面例如这个网址：http://www.dy2018.com/i/98477.html。要获取这个电影的影片名和下载地址。我们先打开这个网页来分析下这个这个网页的源代码。包含影片名字的字段：<div class="title_all"><h1>2017年欧美7.0分

Python - Encode()、Decode()、Encoding()

⚡

03-05

4458

encode：编码 decode：解码 str字符串默认编码为：Unicode >>> 左侧为编码后的Bytes码，解码为Unicode字符，再被编码为指定的其他格式编码 (注：↑本图片来源"百度图片") 【encoding（）】使用Python打开文件时，文件数据按照文件本身的编码方式转换为字节码，如果这时需要将编码转换，那么我们可以使用encoding...

中文乱码在java中URLEncoder.encode方法要调用两次解决

weixin_30700099的博客

07-04

1041

因为在jsp中对中文进行了编码的时候用的是UTF-8的编码方式，而在servlet中调用request.getParameter();方法的时候使用服务器指定的编码格式自动解码一次，所以前台编码一次后台解码一次而解码和编码的方式不用所以造成了乱码的出现，这就类似于以下代码： String name=java.net.URLEncoder.encode(...

python encode和decode函数说明

热门推荐

moodytong的专栏

11-01

6万+

字符串编码常用类型：utf-8,gb2312,cp936,gbk等。 python中，我们使用decode()和encode()来进行解码和编码在python中，使用unicode类型作为编码的基础类型。即 decode encode str ---------> unicode --------->str u = u'中文' #

Python爬虫篇：爬虫笔记合集

五包辣条的博客

04-20

3万+

学习爬虫你完全可以理解为找辣条君借钱（借100万），首先如果想找辣条借钱那首先需要知道我的居住地址，然后想办法去到辣条的所在的（可以走路可以坐车），然后辣条身上的东西比较多，有100万，打火机，烟，手机衣服，需要从这些东西里面筛选出你需要的东西，拿到你想要的东西之后我们就可以去存钱，

Python 网络爬虫笔记1 -- Requests库

Wang_Jiankun的博客

11-04

765

Python 网络爬虫笔记1 – Requests库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的《Python网络爬虫与信息提取》课程及笔者在实践网络爬虫的笔记。课程链接：Python网络爬虫与信息提取 1、基本函数 2、 ...

Python学习笔记-网络爬虫基础

向往的是：佛祖堂前的鱼，静静听禅。

01-16

2107

网络爬虫概述网络爬虫又称网络蜘蛛、网络机器人，在某社区中经常被称为网页追逐者。网络爬虫可以按照指定规则自动浏览或抓取网络中的信息，python可以很轻松的编写爬虫程序或脚本。

Python网络爬虫 学习笔记（1）requests库爬虫

hanmo22357的博客

02-14

1097

Requests库是最简单和最基础的Python网络爬虫库，该库提供了七种主要方法。这七种方法中，request方法是最基础的，其他方法都是通过调用request方法来实现的。

基于Python和HTML的《Python网络爬虫与信息提取》嵩天老师课程学习笔记设计源码

09-30

在当今数字化时代，网络爬虫技术已成为数据抓取和信息检索的重要工具。...这份学习笔记源码不仅为学习Python网络爬虫的学生提供了一个优秀的学习资源，也为Python网络爬虫技术的普及和教育贡献了一份力量。

python网络爬虫学习笔记（1）

09-20

3. **Lxml**：基于C语言的高性能库，提供了类似DOM和XPath的解析方式，同时支持CSS选择器，是Python爬虫中的高效选择。安装Lxml可以使用命令`pip install lxml`，如果要使用CSS选择器，还需安装`cssselect`模块，...

python网络爬虫笔记.docx

07-21

Python 网络爬虫笔记 Requests 库是 Python 中的一个 HTTP 客户端库，用于简化网络爬虫的开发过程。下面是相关的知识点： Requests 库简介 Requests 库是一个轻量级的库，提供了一个简洁的 API，用于发送 HTTP ...

python爬虫----添加headers

l_ml_m_lm_m的博客

05-18

2729

第一步：点击上图中“网络”标签，然后刷新或载入页面第二步：在右侧“标头”下方的“请求标头”中的所有信息都是headers内容，添加到requests请求中即可 import urllib2,os from...

python 爬去imagenet上图片

l_ml_m_lm_m的博客

05-18

1203

访问imagenet官网搜索关键词，点进页面选择download –>URL 复制所有的URL到一个新建的TXT文件中执行下面的代码，将所有图片下载下来 import urllib2 img_dir = '/home/ubuntu/mypapercode/...

Python网络爬虫笔记（4）网络采集的常用工具

l_ml_m_lm_m的博客

03-27

576

浏览器找url【抓包】,找xhr，找head 主要功能：定位网页元素【右键—>查看元素】查看通讯记录【F12—>网络—>重新载入标签页】查看请求headers【F12—>网络—>重新载入标签页—>双击—>消息头—>原始头】定位XHR动态请求url【F12—>网络—>重新载入标签页—>XHR—>响应】 …… ...

Python网络爬虫笔记（3）移至其他网页爬取

l_ml_m_lm_m的博客

03-27

299

简单的说就是寻找网页中的超链接‘href’，之后将相对网址转变为绝对网址，在用for循环访问他 import requests from bs4 import BeautifulSoup#将字符串转换为Python对象 import pandas as pd url = 'http://www.runoob.com/html/html-tutorial.html' r= requests.get...

Python爬虫笔记（2）根据目标信息解析数据和存储目标信息

l_ml_m_lm_m的博客

03-27

230

视频地址： http://study.163.com/course/courseLearn.htm?courseId=1004832029#/learn/video?lessonId=1050367257&courseId=1004832029 1.HTML文件的结构 html文档由html元素组成，html元素包括：标签、属性、内容。标签包括起始标签和结束标签。html元素可以嵌套...

Python网络爬虫教程及源码笔记详解

资源摘要信息: "本教程资源是一套关于网络爬虫的详细源码笔记，采用Python语言编写。网络爬虫是一种自动化获取网络信息的程序或脚本，它能够按照特定的规则，自动访问互联网上的网页，提取网页中的信息。Python由于...