自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 使用Selenium与ddddocr实现京东通过自动验证码商品爬虫的完整指南

通过这篇博客,我们详细介绍了如何使用Selenium和ddddocr库来实现一个京东商品爬虫。这个爬虫能够自动登录京东账户,处理滑块验证码,并爬取指定页数的商品信息。你可以根据自己的需求,进一步优化和扩展该爬虫。例如,保存爬取的数据到文件或数据库,或扩展到其他电商网站。希望这篇博客对你有所帮助!如果你有任何问题或建议,欢迎留言讨论。

2024-08-22 10:14:01 2193

原创 Selenium用法

Selenium 是一个用于自动化 Web 浏览器的开源工具,可以用于测试 Web 应用程序、抓取网站数据等。下面是 Selenium WebDriver 的详细语法及其用法。

2024-07-16 10:22:57 452

原创 使用搜索运算符

示例define:搜索引擎解释:使用搜索词语的定义,搜索结果会显示“搜索引擎”的定义。

2024-07-14 11:08:00 1221

原创 bs4库的使用 正则表达式

使用find_all时,适合需要灵活运用标签名、属性、正则表达式等进行复杂查找的情况。使用select时,适合熟悉CSS选择器并且需要简洁代码的情况。具体使用哪种方法,取决于你的查找需求和对CSS选择器的熟悉程度。

2024-07-14 10:58:25 1654

原创 基于豆瓣top250电影简介和类型的电影分类

在这篇博客中,我们将探讨一个数据科学项目,该项目旨在根据电影的简介和类型对电影进行分类。我们将使用Python的Pandas库进行数据操作,并使用Matplotlib库进行数据可视化。这个项目可以帮助我们更好地了解不同类型电影的分布情况,并为不同观众推荐合适的电影。

2024-07-11 15:04:07 1529

原创 如何使用Python爬取豆瓣电影影评并保存为CSV文件

实现了一个简单的豆瓣电影影评爬虫,可以爬取指定电影的所有影评,并保存为CSV文件。这样,你就可以轻松地分析和处理这些数据。

2024-07-11 11:28:28 1292

原创 数据的向量化

数据的向量化:将原始数据(如文本)转换为数值向量,便于机器学习算法处理。它是数据预处理的一部分。内容的分类:使用机器学习算法将数据分类到预定义的类别中。它是一个监督学习任务,通常在向量化数据的基础上进行。两者密切相关:向量化是分类的前提步骤,分类是向量化后的应用。准备数据:确保数据已经被向量化,分为训练集和测试集。选择模型:选择适当的分类模型,例如逻辑回归、支持向量机、决策树、随机森林、朴素贝叶斯、神经网络等。训练模型:使用训练数据训练分类模型。评估模型:使用测试数据评估模型的性能。进行预测。

2024-07-11 10:17:06 3804 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除