爬虫爬取京东部分需要的数据,遇到的一些问题总结

hi all:
上一篇博客中写的代码有一些问题。
问题一:beautifulsoup运行时占用内存直线上升的问题。
运行时内存占用严重经过我后来的分析,问题主要产生在re_goodsname = last_list[0].string这行代码上,只要将.string改成.text即可。原因是re_goodsname = last_list[0].string类型是beautisoup的自定义类型,而re_goodsname = last_list[0].text类型是unicode类型(具体产生的原因实在没整明白,可能是因为python自身问题导致beautifulsoup在大量运行自定义类型时,回收机制有问题吧),附上类型截图这里写图片描述
问题二:xlwt库保存的excel文件问题
xlwt保存的文件是xls文件,该类型文件在03版excel中只能支持65536行,这对于需要大量使用excel存储数据的时候会报错(具体错误我没有记录,因为在运行较本前我想到了这个问题)。这时,需要将文件保存为xlsx格式。然而,我通过百度并未发现xlwt可以保存为xlsx格式的证据,所以,我更换了我使用的库。我将xlwt改为openpyxl,然后对excel进行操作。当然,过程也并不是一帆风顺的,在此也出现了一个小问题,openpyxl.append()用来对excel文件进行写操作,是直接写在第一行的(例子&#x

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值