小白的py爬虫学习笔记_1_2

这篇博客介绍了Python爬虫学习的初步步骤,包括所需的材料和包的安装。作者详细说明了如何安装urllib、requests和beautifulsoup4/pandas,并提醒读者在安装前要更新pip。在安装过程中遇到的问题和解决方法也被记录下来,特别是通过Pycharm的项目解释器更新库的步骤。最后,博主分享了模仿实例爬取《逐梦演艺圈》短评的经历。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

准备材料

  • python3.7
  • pycharm编译器
  • urllib/requests/beautifulsoup4/pandas package

urllib package

官方文档:https://docs.python.org/3/library/urllib.html

exp1_1

import urllib.request
f=urllib.request.urlopen('http://www.baidu.com/')
f.read(500)
%打印前500个字符
f.read(500).decode('utf-8')

requests package

安装步骤:
http://docs.python-requests.org/zh_CN/latest/user/install.html#install
参考:
https://blog.youkuaiyun.com/jobschen/article/details/49559023
https://www.jianshu.com/p/66d85c06238c
ps:这里花了好多时间啊。。疯狂报错tat

exp1_2

import requests
r=requests.get('https://www.baidu.com/')
r
r.text
r.encoding='utf-8'
r.text

bs4/pandas package

笔者使用了pycharm的扩展库进行安装

这里 要先更新pip!!

【在pycharm的偏好设置里->project interpreter ->双击pip->右下角选版本号->install】

这里花了巨多时间啊 一直疯狂报错 一个暴哭tat


仿照老师给的例子爬了逐梦演艺圈的短评

import requests
r=requests.get('https://movie.douban.com/subject/26322774/comments?status=P').text

from bs4 import BeautifulSoup
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('span','short')
for item in pattern:
    print(item.string)
%%提取文字 只能单节点之间提取的感觉?
import pandas
comments=[]
for item in pattern:
    comments.append(item.string)
df=pandas.DataFrame(comments)
df.to_excel('comment.xlsx')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值