- 博客(7)
- 收藏
- 关注
原创 使用Selenium与ddddocr实现京东通过自动验证码商品爬虫的完整指南
通过这篇博客,我们详细介绍了如何使用Selenium和ddddocr库来实现一个京东商品爬虫。这个爬虫能够自动登录京东账户,处理滑块验证码,并爬取指定页数的商品信息。你可以根据自己的需求,进一步优化和扩展该爬虫。例如,保存爬取的数据到文件或数据库,或扩展到其他电商网站。希望这篇博客对你有所帮助!如果你有任何问题或建议,欢迎留言讨论。
2024-08-22 10:14:01
2193
原创 Selenium用法
Selenium 是一个用于自动化 Web 浏览器的开源工具,可以用于测试 Web 应用程序、抓取网站数据等。下面是 Selenium WebDriver 的详细语法及其用法。
2024-07-16 10:22:57
452
原创 bs4库的使用 正则表达式
使用find_all时,适合需要灵活运用标签名、属性、正则表达式等进行复杂查找的情况。使用select时,适合熟悉CSS选择器并且需要简洁代码的情况。具体使用哪种方法,取决于你的查找需求和对CSS选择器的熟悉程度。
2024-07-14 10:58:25
1654
原创 基于豆瓣top250电影简介和类型的电影分类
在这篇博客中,我们将探讨一个数据科学项目,该项目旨在根据电影的简介和类型对电影进行分类。我们将使用Python的Pandas库进行数据操作,并使用Matplotlib库进行数据可视化。这个项目可以帮助我们更好地了解不同类型电影的分布情况,并为不同观众推荐合适的电影。
2024-07-11 15:04:07
1529
原创 如何使用Python爬取豆瓣电影影评并保存为CSV文件
实现了一个简单的豆瓣电影影评爬虫,可以爬取指定电影的所有影评,并保存为CSV文件。这样,你就可以轻松地分析和处理这些数据。
2024-07-11 11:28:28
1292
原创 数据的向量化
数据的向量化:将原始数据(如文本)转换为数值向量,便于机器学习算法处理。它是数据预处理的一部分。内容的分类:使用机器学习算法将数据分类到预定义的类别中。它是一个监督学习任务,通常在向量化数据的基础上进行。两者密切相关:向量化是分类的前提步骤,分类是向量化后的应用。准备数据:确保数据已经被向量化,分为训练集和测试集。选择模型:选择适当的分类模型,例如逻辑回归、支持向量机、决策树、随机森林、朴素贝叶斯、神经网络等。训练模型:使用训练数据训练分类模型。评估模型:使用测试数据评估模型的性能。进行预测。
2024-07-11 10:17:06
3804
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅