python 爬虫
chen70956
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫入门学习总结(1)——使用正侧表达式并写入CSV
目标:抓取目标网站用正侧表达式并写入CSV里。进度:基本达成目标,但还是有些小问题没有解决存在的疑问:ide中调用执行文件不能显示完整 有些网站不能读取完 为什么会有换位符号,是因为js解析吗还没解决的技术性问题:yield的具体用法 CSV写入为什么没有头 更加深入的正侧表达式使用方法 json写入import jsonimport requestsfrom ...原创 2018-09-20 13:28:00 · 237 阅读 · 0 评论 -
爬虫入门学习总结(3)——微博爬虫和写入CSV
目标:爬取微博内容并写入CSV进度:基本达成目标,但效果有限,所以这版本定为第一版,后面继续完善存在的疑问:是没有用代理池,然后爬一个人很顺利的,然后到后面的人都爬取不了 json转CSV只能通过字典,但字典 微博多个标签重复不知道怎么解决还没解决的技术性问题:触发了微博的反爬虫机制 试一下用微博接口读取 还有视频,转发文章,点开全文没有爬取到 标签下面还有很多其他标签...原创 2018-10-04 17:54:06 · 708 阅读 · 0 评论 -
爬虫入门学习总结(2)——CSV批量上传到织梦CMS
目标:把CSV写入到织梦CMS文章,达到批量上传的效果进度:基本达成目标,但还是有些小问题没有解决存在的疑问:分隔符的处理为什么有点乱 函数还是用得不熟还没解决的技术性问题:文字的转码问题 能不能直接写入数据库里 分隔符的处理 插入分隔符或者其他补充内容下一步目标:微博ajax的读取写入关于CMS的写入找了很久,最后找到了一个post的方法,整体来说就是利用...原创 2018-09-30 09:54:39 · 639 阅读 · 0 评论
分享