
Python
treeshy
In any relationship it's important to have boundaries that are respeceted by all parties involved.
展开
-
Python *** 爬下糗事百科数据
刚开始学习python,目前只是将部分数据爬下然后记录到txt文件中。 代码在github上挂着,地址:https://github.com/treeshy/pythondemo/blob/master/spider_qiushibaike.py原创 2016-07-17 17:16:06 · 322 阅读 · 0 评论 -
静态页面下,页面编码为gb2312,但是源代码中出现大量/uxxxx的解决方法
昨天爬一个网站的时候发现该网站charset为gb2312,但是网页下方出现大量的/uXXX类似的字符串而且里面还穿插了很多的\n\r类似的字符串,一直搜也没搜到,后来发现是因为该网站的那部分使用了json保存数据。 所以直接爬下json的部分,然后用pathon的json块处理json就可以了!原创 2016-08-03 15:34:03 · 581 阅读 · 0 评论