缘起:
接上一篇文章,对爬取的青岛市小区和乡镇数据做探索性数据分析。
发现的问题
重复数据


查看对应的重复id数据发现在每次请求地区数据的时候,page_index的数据请求重复了:

再查看代码,发现是range使用不当的问题:
下图为range的使用例子:

把原来代码中的range(100)改为range(1,101)才对:
本文源于对青岛市小区和乡镇数据的探索性分析,发现在请求数据时出现了因range使用不当导致的重复问题。进一步讨论了设置阈值的策略,并探讨了在数据分析中distinct和unique的区别。在Python pandas库中,unique并不等同于distinct,这在理解和应用时需注意。
接上一篇文章,对爬取的青岛市小区和乡镇数据做探索性数据分析。


查看对应的重复id数据发现在每次请求地区数据的时候,page_index的数据请求重复了:

再查看代码,发现是range使用不当的问题:
下图为range的使用例子:

把原来代码中的range(100)改为range(1,101)才对:

被折叠的 条评论
为什么被折叠?