
python
温馨娜
这个作者很懒,什么都没留下…
展开
-
毕设记录--环境搭建:Anaconda的安装与环境搭建
版本:(base) C:\WINDOWS\system32>conda --versionconda 4.5.12C:\Users\adminλ pythonPython 3.6.0 (v3.6.0:41df79263a11, Dec 23 2016, 07:18:10) [MSC v.1900 32 bit (Intel)] on win32Type "help", "...原创 2019-07-14 16:16:11 · 3970 阅读 · 0 评论 -
python2转python3
原文地址:https://blog.youkuaiyun.com/shuihupo/article/details/79734462转载 2019-04-09 11:37:18 · 375 阅读 · 0 评论 -
Jupyter Notebook运行代码无反应 解决方法
在学习人脸识别知识的过程中需要用到Anaconda 、Jupyter Notebook.我在启动Jupyter Notebook后,新建代码运行无反应。从页面上也观察不出来是什么问题,后来在Anaconda Pormpt中启动Jupyter Notebook,我一开始还以为是自动启动的,傻傻的等它自动运行。。。结果是在浏览器中操作,命令行中才会跑模块的运行情况。要在浏览器中shift+en...原创 2019-03-26 16:40:59 · 84933 阅读 · 15 评论 -
Scrapy实践-6.爬取指定网站内容--网页详情
目标网站:https://s.weibo.com/top/summary?cate=realtimehot 微博实时热搜榜 分析url结构 热搜榜上的每个话题在<div class = 'data'>且只存在一个class值为data的div块爬取范围确定。生成网站模板文件在此我们直接使用上次创建的虚拟环境articalspider和项目ArticleSpid...原创 2019-02-22 15:36:52 · 2269 阅读 · 0 评论 -
Scrapy学习笔记-5.爬取指定网站内容--网页详情
步骤:1.目标网站:伯乐在线 http://www.jobbole.com/ 爬取数据:文章2.选择爬取策略方式1 : 深度/广度优先算法爬取文章链接分析url结构 点击 ‘全部文章’ 跳转子域名 : http://blog.jobbole.com/ 对该页面中的文章进行爬取,对每一篇文章的链接进行跟踪,爬取详情页面。 该子域名下面有 很多链接链接到其他二级域名或主...原创 2019-02-21 17:19:36 · 1552 阅读 · 0 评论 -
Scrapy学习笔记-4.爬虫url去重策略、字符串编码
1.在分析网页url结构时,因为网页url重复的原因(如:一级页面有首页url,二级页面仍有首页url,如果不去重,爬虫会对首页url循环爬取,无法跳出),我们需要对已经爬取过的url做去重处理。2.爬虫去重策略1.将访问过的url保存到数据库中----效率非常低,应用起来最简单2.将访问过的url保存到set中,只需要O(1)的代价就可以查询url----内存占用会越来越大,eg.1...原创 2019-01-29 17:38:06 · 641 阅读 · 0 评论 -
Scrapy学习笔记-3.深度优先和广度优先算法
1. 网站url捷信2.深度优先算法、广度优先算法及其实现P.S. 需进一步学习推荐中国大学慕课网浙大陈越和何钦明老师的数据结构课程 https://www.icourse163.org/course/ZJU-93001Scrapy默认通过深度优先算法实现深度优先输出:A、B、D、E、I、C、F、G、H(递归实现)广度优先输出:A、B、C、D、E、F、G、H、I(队列实现...原创 2019-01-29 16:28:21 · 939 阅读 · 0 评论 -
Scrapy学习笔记-2.正则表达式,python实例(小白起步)
1.正则表达式的必要性:解析字符串,具有beautifulsoup和基于servlet的selector等方法的不可替代性。2.正则表达式基础知识2.1.特殊字符1) ^ $ * ? + {2} {2,} {2,5} |2) [] [^] [a-z] .3) \s \S \w \W4) [\u4E00-\u9FA5] () \d2.2.新建python test项目,选...原创 2019-01-28 19:30:24 · 1127 阅读 · 0 评论 -
pycharm from lxml import etree标红解决方法
##原因:没有lxml这个包###解决方法:需要安装xlml包####下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/####如何下载对应的包:1.查看本机python版本,版本为3.6.0 就找包名含cp36的包2.查看本机支持的包名AMD64:import pip._internal;print(pip._internal.pep42...原创 2019-01-22 11:13:28 · 11990 阅读 · 4 评论 -
Scrapy学习笔记-1.环境准备(Pycharm+mysql+Navicate+virtualenv)
本系列所有文章内容来源于imooc网站:聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎 课程,主讲教师 bobby老师。1.安装Pycharm(已有)2.安装数据库+Navicate(已有)3.安装虚拟环境 virtualenv3.1.1普通安装:pip install virtualenv3.1.2.快速安装(不会报time out)3.2.创建虚拟...原创 2019-01-24 18:22:30 · 345 阅读 · 0 评论