- 博客(17)
- 收藏
- 关注
原创 爬取商品网站重定向链接信息
有些商品网站点击购买后,网站自动跳转到其他商品界面,所以我们可以用如下方法实现真实的商品链接,进而获得实际商品的ID信息。在上述代码中获取页码的方法有很多种,现在最常用的是selenium框架来提取,也可以用我上面的自增方式,后者比较简单。网络不好的情况下会出现无法连接的问题,我们可以设置sleep值。实在不行重复RUN!在代码运行过程中,尽量每输出一段代码测试一遍,不然不知道BUG在哪儿。当然了,不要随便爬取某些大型网站,越爬越刑!
2024-02-28 15:26:00
498
原创 python获取商品信息
为你要爬取的网站的实际URL。此外,这个程序只会抓取商品名称和商品链接中的一部分内容,你需要根据实际情况修改这部分代码以获取你需要的所有信息。这个程序也假设了商品名称和部分链接会出现在相应的HTML元素中,实际情况可能会有所不同。在使用这个程序时,你需要确保你有权限爬取这些网站的内容,并且遵守网站的爬虫使用政策。在没有得到网站所有者许可的情况下,过度使用爬虫可能会导致你的IP地址被封禁。要注意,为了防止爬虫被网站封禁,你需要使用适当的代理或者设置合理的爬取频率。你需要替换上述代码中的。
2024-02-19 23:01:43
453
转载 Scrapy爬虫
https://blog.youkuaiyun.com/ck784101777/article/details/104468780
2024-02-18 21:52:30
635
原创 python写一个GUI小程序:Word和PDF互转。但是有中文乱码以及图片乱码问题,求大佬解决!
【代码】python写一个GUI小程序:Word和PDF互转。但是有中文乱码以及图片乱码问题,求大佬解决!
2024-01-11 22:40:39
503
原创 python爬取网页信息并保存为word文件
4、检查文档打开时的编码设置: 在使用 Microsoft Word 打开文件时,确保选择正确的编码选项。通常情况下,它会自动检测文件的编码。1、确保网页编码正确: 在获取网页内容时,指定正确的编码。例如,如果网页是以 UTF-8 编码,可以在请求时指定编码。2、BeautifulSoup 解析时指定编码: 在使用 BeautifulSoup 解析页面时,指定正确的编码。3、使用正确的编码保存文件: 确保在保存 Word 文档时使用正确的编码。这也是最常见的解决中文乱码的方式之一,请大家务必记住!
2024-01-09 22:33:04
2455
原创 python实现多个PDF文件的合并,并转换为word,并消除水印。
意思是pdfFileMerger函数在pypdf包里不存在了,需要换为PdfMerger函数。
2024-01-09 21:02:07
476
原创 python项目-批量获取王者荣耀皮肤
1、首先,伪装用户代理访问要爬取的皮肤网站:鼠标点中一个皮肤后,鼠标右键选“检查”,选择“Network”,复制User-Agent后面的代码。我们的项目是获取所有英雄的皮肤,并且要把皮肤照片保存到各自英雄的文件夹中,文件夹以英雄名字命名,下载时间是每隔一秒下载一个。2、下一步,每个英雄皮肤有1到n个不等,所以我们需要遍历对应英雄的每个皮肤。尽量用chrome浏览器的xpath插件,没有的话应用商店下载一个即可。如果右键选检查后出现空白框则需要刷新。
2024-01-08 17:18:43
1021
2
原创 python实现从文档里生成词云图
用到jieba和python-docx wordcloud matplotlib库。出现乱码,应该是中文乱码问题。检查发现第18行代码有问题。找想要的字体并复制路径。
2024-01-06 20:49:21
486
原创 python实现pdf转word,并且保留原有格式、消除水印。pdf2docx和pymupdf库。
请注意,消除水印可能是一个复杂的任务,具体的实现方式取决于水印的类型和嵌入方式。它会尝试尽可能地保留PDF中的格式和布局,并将多页PDF转换为多页Word文档。使用这个库,你可以轻松地将PDF文件中的内容提取并保存为Word文档,这在处理文档转换的应用场景中非常有用。库被用于创建Word文档,并通过遍历PDF页面将每一页的图像添加到Word文档中。这是一个方便的工具,特别是在需要将PDF内容转换为可编辑的Word文档时。是一个功能强大的PDF处理库,可用于各种任务,包括文本提取、图像提取、PDF渲染等。
2024-01-06 17:59:11
4955
原创 python报错:ImportError: cannot import name ‘Self‘ from ‘typing_extensions‘
3、模块加入不会影响程序的运行不会报正式的错误,pycharm支持typing检查错误时会出现黄色警告。2、作为开发文档附加说明,方便使用者调用时传入和返回参数类型。1、类型检查,防止运行时出现参数、返回值类型不符。需要对typing_extensions版本升级。
2024-01-05 22:21:41
4234
原创 斜杠和反斜别傻傻分不清!
在 Python 中,斜杠 / 通常用作路径分隔符。例如,folder/subfolder/file.txt 表示文件在名为 subfolder 的文件夹中的 file.txt。反斜杠 \ 在 Windows 环境下也可以用作路径分隔符,但在 Python 中,使用斜杠是跨平台的习惯做法。如果你遇到路径相关的问题,可以考虑使用原始字符串(在字符串前加。),这样可以避免反斜杠被视为转义字符。
2024-01-05 22:03:02
398
原创 python实现word转换PDF
python-docx 来读取 Word 文档内容,并使用 reportlab 来创建 PDF 文件。请确保替换代码中的输入和输出文件路径为你实际的文件路径。这个简单的示例逐行将每个段落的文本添加到 PDF 文件,适用于基本的文本内容。如果有更复杂的格式、图像或表格,可能需要更多的处理。
2024-01-05 21:59:15
3979
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人