
网络爬虫技术及小工具
文章平均质量分 91
code_mryxj
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第一章 初见网络爬虫
urllib是Python的标准库,包含了从网络请求数据,处理Cookie,甚…..本书中广泛使用urllib,所以建议读读这个库的Python文档 urllib官方文档 廖雪峰教程from urllib.request import urlopenhtml = urlopen("http://www.pythonscraping.com/pages/page1.html");print(h原创 2017-03-20 23:53:35 · 499 阅读 · 1 评论 -
第二章 复杂的HTML解析
通过BeautifulSoup对象,我们可以用findAll()函数抽取标签里的信息。 比如:抽取这个网页里只包含在<span class="green"> </span>标签里的文字from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.pythonscraping.c原创 2017-03-21 00:51:10 · 1068 阅读 · 0 评论 -
第三章 开始采集
之所以叫网络爬虫,是因为他们可以沿着网络爬行, 本质是一种递归方式: 为了找到url链接, 必须首先获取网页内容, 检查页面内容, 再寻找另一个url, 获取页面内容, 不断循环使用网络爬虫的时候, 应谨慎地考虑需要消耗多少网络流量, 还要尽量思考能否让采集目标的服务器负载更低维基百科六度分隔理论 - 任何2个不相干的词条, 都可以通过总数不超过6条的词条链接起来(包括原来的2个词条)由此,原创 2017-03-21 21:48:55 · 791 阅读 · 0 评论 -
Beautifulsoup4解析网页入门
举例说明用bs4提取出某个网页特定某个信息常用形式。 学习资料:Beautifulsuop4文档 举例:解析网页的内容,提取出这个网页标题。如果这个标签只出现一次,直接通过find_all() print('title:',soup.find_all('h2')[0].string)通过find_all()方法的attrs参数定义一个字典参数来搜索包含特殊属性的原创 2018-01-15 13:50:48 · 1581 阅读 · 0 评论 -
Ubuntu18.04 Torch7 和 cuda8.0+cudnn6.0 + Anaconda3下安装tensorflow1.4-gpu 环境配置
前言:需要跑论文里Torch7技术的代码,后来又有安装tensorflow需求,加起来遇到各种问题折腾快一周,踩很多坑后,有些经验记下来供后来人参考。主要遇到BUG:cuda10.0版本在luarocks install cutorch,cudnn会失败,换成cuda8.0就弄好了。cuda8 与 cdnn7搭配起来不能适配与tensorflow1.4cuda8.0 只能支持gcc ...原创 2018-10-18 19:53:49 · 2132 阅读 · 0 评论 -
Ubuntu常用命令行总结:
前言:最近使用ubuntu很多常见操作百度了就忘了,于是开贴做个笔记,不定期更新修改文件权限命令常用修改权限的命令:(首先要进入所在文件夹)sudo chmod 600 ××× (只有所有者有读和写的权限)sudo chmod 644 ××× (所有者有读和写的权限,组用户只有读的权限)sudo chmod 700 ××× (只有所有者有读和写以及执行的权限)sudo chmod 6...原创 2018-11-07 12:49:55 · 488 阅读 · 0 评论 -
利用gensim里word2vec训练实例——分析三国里人物关系
前言万物皆可Embedding入坑cs224N后看完第二周和相关论文。觉得word2vec非常有意思,将一段具有上下文关系的短文(实体)词语学习嵌入到语义空间成为一个向量,然后判断两个词语(实体)的相关性。又发现有造好的轮子gensim,何不先做一些简单又有意思的实验,再深入的学习。本来想爬豆瓣用户历史记录,用word2Vec做一个推荐,但最近进入考期,预习刷网课要紧。先埋个伏笔,以后有时间......原创 2018-12-19 01:56:26 · 5520 阅读 · 1 评论 -
爬虫模拟登陆网站
前言在爬取很多需要先登陆的网站的时候,第一步是需要模拟浏览器登陆过程,向目标网页(url) post一个含有账户密码以及额外信息的表单,成功登陆操作后,就获取到目标网页的内容。分析登陆过程这里以我本科学校的图书管座位预约系统为例,F12打开浏览器开发者模式的网络界面,可以查看浏览器与服务器之间数据的交互过程。首先打开目标网页,即向目标服务器发送一个get请求后,返回登陆界面的网页内容。接...原创 2019-08-23 16:21:46 · 1759 阅读 · 0 评论