自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 爬虫入门学习总结(3)——微博爬虫和写入CSV

目标:爬取微博内容并写入CSV 进度:基本达成目标,但效果有限,所以这版本定为第一版,后面继续完善 存在的疑问: 是没有用代理池,然后爬一个人很顺利的,然后到后面的人都爬取不了 json转CSV只能通过字典,但字典 微博多个标签重复不知道怎么解决 还没解决的技术性问题: 触发了微博的反爬虫机制 试一下用微博接口读取 还有视频,转发文章,点开全文没有爬取到 标签下面还有很多其他标签...

2018-10-04 17:54:06 708

原创 爬虫入门学习总结(2)——CSV批量上传到织梦CMS

目标:把CSV写入到织梦CMS文章,达到批量上传的效果 进度:基本达成目标,但还是有些小问题没有解决 存在的疑问: 分隔符的处理为什么有点乱 函数还是用得不熟 还没解决的技术性问题: 文字的转码问题 能不能直接写入数据库里 分隔符的处理 插入分隔符或者其他补充内容 下一步目标: 微博ajax的读取写入 关于CMS的写入找了很久,最后找到了一个post的方法, 整体来说就是利用...

2018-09-30 09:54:39 638

原创 爬虫入门学习总结(1)——使用正侧表达式并写入CSV

目标:抓取目标网站用正侧表达式并写入CSV里。 进度:基本达成目标,但还是有些小问题没有解决 存在的疑问: ide中调用执行文件不能显示完整 有些网站不能读取完 为什么会有换位符号,是因为js解析吗 还没解决的技术性问题: yield的具体用法 CSV写入为什么没有头 更加深入的正侧表达式使用方法 json写入 import json import requests from ...

2018-09-20 13:28:00 237

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除