pycharm + python 做爬虫

pycharm + python 做爬虫

python3.5+bs4爬虫模块

安装步骤:
首先,你要先进入pycharm的Project Interpreter界面,进入方法是:setting(ctrl+alt+s) ->Project Interpreter,Project Interpreter在具体的Project下。

点击“+”,输入beautifulsoup ,就可以找到你要安装的插件了。

Python3的选择bs4进行安装,Python2的选择beautifulSoup。

爬虫代码

from bs4 import BeautifulSoup
withopen(‘D:\\PycharmProjects\\web_parse\\the_blah.html’,’r’) as wb_data: //这里打开本地文件需要双斜杠
Soup = BeautifulSoup(wb_data,’lxml’)
images = Soup.select(‘body > div.main-content > ul > li > img’)
引用块内容
print(Soup)

python版本3.5 报错结果:bs4.FeatureNotFound: Couldn’t find a tree builder with the features you requested: lxml. Do you need to install a parser library?
解决办法:安装lxml

重新安装lxml和bs4仍然报错。
补充:
已解决问题,缺少libxslt。
brew install libxslt

web_parse.py

from bs4 import BeautifulSoup
with open(‘D:\PycharmProjects\code_of_video1_2\web\new_index.html’,’r’) as wb_data:
Soup = BeautifulSoup(wb_data,’lxml’)
images = Soup.select(‘body > div.main-content > ul > li > img’)
titles = Soup.select(‘body > div.main-content > ul > li > div.article-info > h3 > a’)
descs = Soup.select(‘body > div.main-content > ul > li > div.article-info > p.description’)
cates = Soup.select(‘body > div.main-content > ul > li > div.article-info > p.meta-info’)
rates = Soup.select(‘body > div.main-content > ul > li > div.rate > span’)
#print(images,titles,descs,cates,rates,sep=’\n————\n’)
#print(cates)
info=[]#定义info list;
for title,image,desc,rate,cate in zip(titles,images,descs,rates,cates):
data = {
‘title’:title.get_text(),
‘rate’ :rate.get_text(),
‘desc’ :desc.get_text(),
‘cate’ :list(cate.stripped_strings),#列表化
‘image’:image.get(‘src’)
}
info.append(data)
”’提取评分大于 3,输出‘title’和‘cate”’
for i in info:
if float(i[‘rate’])>3:
print(i[‘title’],i[‘cate’])
”’body > div.main - content > ul > li: nth - child(1) > img/html/body/div[2]/ul/li[1]/img
/html/body/div[2]/ul/li[1]/div[1]/h3/a
body > div.main-content > ul > li:nth-child(1) > div.article-info > h3 > a
print(Soup)”’

提取评分大于 3,输出‘title’和‘cate
输出

Sardinia’s top 10 beaches [‘fun’, ‘Wow’]
How to get tanned [‘butt’, ‘NSFW’]
How to be an Aussie beach bum [‘sea’]

### 如何在 PyCharm 中设置和运行爬虫项目 #### 配置环境 要在 PyCharm 中成功运行 Scrapy 或其他 Python 爬虫项目,首先需要确保开发环境已正确配置。这包括安装必要的依赖库以及调整项目的解释器设置。 PyCharm 是一款功能强大的集成开发环境(IDE),支持多种插件和工具以增强用户体验[^4]。为了使 PyCharm 能够正常运行 Scrapy 项目,需按照以下方式操作: 1. **创建项目** 打开 PyCharm 并通过 `File -> New Project` 创建一个新的 Python 项目。选择合适的虚拟环境或全局解释器作为该项目的基础环境[^3]。 2. **安装 Scrapy 及其他必要库** 使用内置的包管理工具 pip 安装所需的库。可以通过 PyCharm 提供的终端窗口输入如下命令完成安装: ```bash pip install scrapy ``` 3. **配置解释器** 在 PyCharm 中导航至 `File -> Settings -> Project: <Your_Project_Name> -> Python Interpreter` 页面,确认当前使用Python 解释器版本满足需求,并检查是否已经安装了 Scrapy 库及其依赖项[^2]。 #### 初始化 Scrapy 项目 一旦基本环境搭建完毕,则可以初始化一个全新的 Scrapy 工程。具体法是从命令行界面切换到目标工作区后执行下面这条语句: ```bash scrapy startproject project_name ``` 此过程会自动生成标准结构化的文件夹体系用于存放 Spider 文件及其他资源[^5]。 #### 设置断点与启用调试模式 对于复杂逻辑下的错误排查而言,利用 IDE 内建的功能显得尤为重要。例如,在 PyCharm 当中添加断点非常简便——只需单击左侧空白区域即可标记感兴趣的位置;随后按下 Shift+F9 键组合键开启 Debug Session 即可逐步分析程序流程[^1]。 值得注意的是,默认情况下无法直接像普通脚本那样调用 main 函数来触发 Scrapy 流程。因此建议采用如下替代方案之一实现更灵活控制: - 修改 settings.py 文件内的参数; - 构造独立入口函数手动实例化 CrawlerProcess 对象并传入对应的 spider class 实体。 以下是基于后者的一个简单例子演示如何定制启动行为: ```python from scrapy.crawler import CrawlerProcess from my_project.spiders.my_spider import MySpider process = CrawlerProcess({ 'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)' }) process.crawl(MySpider) process.start() # the script will block here until all crawling jobs are finished ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值