Python 爬虫HelloWord

本文介绍了网络爬虫的基本概念,包括网页蜘蛛的工作原理及遵守的Robots协议,并通过实例展示了如何使用Python的requests库抓取图片和网页内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

只要是浏览器能做的事情,原则上,爬虫都能够做。


Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

例如:https://www.taobao.com/robots.txt


通用爬虫 :通常指搜索引擎的爬虫

聚焦爬虫 :针对特定网站的爬虫


动手部分:

1.pip3 intall requests

2.配置pycharm,在interception中install

PS:在网页中查找元素:

右击浏览器,检查--->network--->刷新界面,在检查面板中左上角,点击选择按钮,然后点击网页上诸如图片的元素,从而可以在network中,看到其url,右键复制。


3.coding:

import requests

#获取数据
r= requests.get("https://imgsa.baidu.com/news/q%3D100/sign=b07a74909d8fa0ec79c7600d1696594a/e850352ac65c103881e97861be119313b17e89fa.jpg")

#接收数据
test_content = r.content

#打开一个本地图片(尚未创建)
f = open("test_spider.png","wb")
#把文件保存
f.write(test_content)


r = requests.get("http://www.baidu.com")
test_content = r.content.decode("utf8")
print(test_content)

f.close()





<think>好的,我现在需要帮助用户解决如何用Python打印“Hello World”的问题。首先,用户的问题看起来是刚入门的,所以应该从基础开始解释。根据用户提供的引用资料,我需要确保回答涵盖Python不同版本的区别,比如Python 2.x和3.x在print语句上的不同。同时,用户提供的引用中有提到print函数的用法和常见错误,这些都需要包含在回答里。 首先,我应该分步骤讲解如何在不同版本的Python中打印。根据引用2,Python 2.x使用print关键字,而3.x需要使用print()函数。所以第一步要明确版本差异,避免用户混淆。接下来,需要给出示例代码,比如在Python 3中的正确写法是print("Hello World"),而Python 2可以写成print 'Hello World',但提醒用户现在推荐使用3.x版本。 然后,用户可能遇到的常见错误需要指出。比如在Python 3中使用不带括号的print语句会导致语法错误,这点引用2和3都有提到。此外,字符串的引号使用是否正确也是一个需要注意的地方,引用3中的例子显示字符串可以用单引号或双引号,但要保持一致。 接下来,用户可能需要更复杂的输出,比如带变量的格式化输出。根据引用3,可以使用占位符或者f-string(Python 3.6+)。这部分可以举例说明,如使用%s或%d来格式化字符串和整数,或者用f"Hello {name}"的方式,这样更直观。 关于用户提供的引用4,注释的部分虽然和打印无关,但可能不需要在这里提及。引用5是关于错误处理的,但用户的问题是关于打印,所以暂时可以忽略这部分。 最后,生成相关问题时要考虑用户可能的后续疑问,比如如何换行打印、格式化输出的其他方法,或者处理多语言字符的问题。这些问题可以帮助用户进一步学习。 现在需要检查是否有遗漏的信息,比如是否需要提到文件操作中的打印(如输出到文件),但用户的问题比较基础,可能暂时不需要。另外,确保代码示例正确,没有语法错误,比如引号匹配和括号的使用。 总结回答结构:先分版本说明基本用法,然后常见错误,接着格式化输出,最后相关问题。确保引用正确,比如引用2和3支持版本差异和格式化部分。同时保持回答简洁,适合新手理解。</think>### Python打印Hello World的方法 #### 1. 基础语法 Python中打印`Hello World`的语法根据版本有所不同: - **Python 3.x**使用`print()`函数: ```python print("Hello World") # 正确写法 ``` 若写成`print 'Hello World'`会报错,因为3.x版本要求必须使用括号[^2][^3]。 - **Python 2.x**允许省略括号(但已过时): ```python print 'Hello World' # 仅限2.x版本 ``` #### 2. 常见错误 - **引号不匹配**:需统一使用单引号或双引号: ```python print("Hello World') # 错误:引号类型不一致 ``` - **缺少括号**(仅3.x): ```python print "Hello World" # 错误:缺少括号[^2] ``` #### 3. 扩展用法 - **变量与字符串拼接**: ```python name = "Alice" print("Hello", name) # 输出:Hello Alice print(f"Hello {name}") # f-string(Python 3.6+) print("Hello %s" % name) # 格式化占位符 ``` - **多行输出**: ```python print("Hello\nWorld") # \n表示换行 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值