爬虫学习,小代码,小函数,复述自己的理解

得到源码

requests

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}  #好像还不能轻易更改为其他的 headers

url = 'https://music.163.com/discover/playlist/?cat=欧美&order=hot&limit=35&offset=35' 
response = requests.get(url=url, headers=headers)
html = response.text   #将网页源码转换为 文本

之前在网上看别人都用的requests

urllib

from urllib.request import urlopen
html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')

目前在看的《python网络数据采集》用的这个库urllib

信息提取

Google浏览器按F12 可以直接显示出网页源码

正则表达式

这是个大工程,慢慢更新吧

BeautifulSoup

浏览器为了把信息解析成更直观的展示形式,通过CSS编辑,给爬虫带来了很多方便,BeautifulSoup就是基于此进行信息获取,十分方便。官网链接BeautifulSoup

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html, "html.parser")

find_all()

find_all
find_all( name , attrs , recursive , text , **kwargs ) #attrs=attributes 属性
#findAll(tag, attributes, recursive, text, limit, keywords) 之前的版本
#find(tag, attributes, recursive, text, keywords)
可以直接通过标签,属性定位到想要的信息

nameList = bs.findAll('span', {'class': 'green'})    #class_='green'{'class': 'green'}一个意思 
#print(nameList)
for name in nameList:
    print(name)
    print(name.get_text())

需要注意:
1.因为class这个关键字会和内置函数重叠,因此 用class_代替,但是只有class_有,id 就没有id_ !!!所以调用的时候只能老老实实用字典的形式
2.find_all()返回的是一个列表,对单元操作的时候 需要用for循环遍历。
3.find和find_all的区别是,find返回的是一个元素

soup.find_all('div', {'id':'text'})

get_text()

把超链接那些奇怪的东西都丢掉,只保留文本
补充,一般到子节点的标签都是 <span>中间部分是文字</span>
<div>中间部分是文字</div> ,div标签里面还可以嵌套其他单元

find_all加get_text()案例

from bs4 import BeautifulSoup  #Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据
import requests
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}  #好像还不能轻易更改为其他的 headers
#time.sleep(2)  #休息2秒,防止被识别为机器
url = 'http://www.pythonscraping.com/pages/warandpeace.html'
response = requests.get(url=url, headers=headers)
html = response.text   #将网页源码转换为 文本
soup = BeautifulSoup(html, 'html.parser') #将文本格式转为与源码格式一致,

爬取全文

body_ = soup.find_all('body')
for content in body_:
    print(content.get_text())

只爬取想要的部分

greenfont = soup.find_all('span', {'class':'green'})
for content in greenfont:
    print(content.get_text())

### 关于ArcGIS License Server无法启动的解决方案 当遇到ArcGIS License Server无法启动的情况,可以从以下几个方面排查并解决问题: #### 1. **检查网络配置** 确保License Server所在的计算机能够被其他客户端正常访问。如果是在局域网环境中部署了ArcGIS Server Local,则需要确认该环境下的网络设置是否允许远程连接AO组件[^1]。 #### 2. **验证服务状态** 检查ArcGIS Server Object Manager (SOM) 的运行情况。通常情况下,在Host SOM机器上需将此服务更改为由本地系统账户登录,并重启相关服务来恢复其正常工作流程[^2]。 #### 3. **审查日志文件** 查看ArcGIS License Manager的日志记录,寻找任何可能指示错误原因的信息。这些日志可以帮助识别具体是什么阻止了许可服务器的成功初始化。 #### 4. **权限问题** 确认用于启动ArcGIS License Server的服务账号具有足够的权限执行所需操作。这包括但不限于读取/写入特定目录的权利以及与其他必要进程通信的能力。 #### 5. **软件版本兼容性** 保证所使用的ArcGIS产品及其依赖项之间存在良好的版本匹配度。不一致可能会导致意外行为完全失败激活license server的功能。 #### 示例代码片段:修改服务登录身份 以下是更改Windows服务登录凭据的一个简单PowerShell脚本例子: ```powershell $serviceName = "ArcGISServerObjectManager" $newUsername = ".\LocalSystemUser" # 替换为实际用户名 $newPassword = ConvertTo-SecureString "" -AsPlainText -Force Set-Service -Name $serviceName -StartupType Automatic New-ServiceCredential -ServiceName $serviceName -Account $newUsername -Password $newPassword Restart-Service -Name $serviceName ``` 上述脚本仅作为示范用途,请依据实际情况调整参数值后再实施。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值