
Python
文章平均质量分 78
冰彡棒
每天进步一点点,你也可以在难受的时候,买一张机票去自己想去的地方,而不是躲在被窝里哭。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python定时任务 获取邮件附件PDF 解析成PNG 保存到本地
一、开发环境win10操作系统Mysql数据库python3.7PyMySQL==0.9.2PyPDF2==1.26.0PythonMagick==0.9.19Wand==0.4.4gs924w64[对应环境需要包下载点击即可](https://pan.baidu.com/s/10izLvFOD0IafTrmQDf-x1A)二、实现目标定时获取邮箱中邮件的标题以及附...原创 2018-09-13 10:14:54 · 1724 阅读 · 0 评论 -
tornado、django在linux下环境安装和配置
1、激活root用户 默认是未激活sudo passwd root2、安装ssh服务sudo apt-get install openssh-server/etc/init.d/ssh start 开启服务/etc/init.d/ssh stop 关闭服务/etc/init.d/ssh restart 重启服务3、安装python2.7sudo...原创 2017-11-23 01:13:14 · 671 阅读 · 0 评论 -
16Python爬虫---Scrapy小结
1、我们可以通过scrapy startproject -h调出startproject的帮助信息,在这里可以看到scrapy startprojcct具体可以添加哪些参数。2、如果我们想要删除某个爬虫项目,我们可以直接删除该爬虫项日对应的文件夹即可方式。3、可以使用 genspider命令来创建 Scrap爬虫文件,这是一种快速创建爬虫文件的4、爬虫的测试比较麻烦,所以在在 Scra...原创 2018-03-17 15:17:53 · 401 阅读 · 0 评论 -
Python数据挖掘07--KNN算法理论与实现
一、KNN算法 KNN算法是一种解决分类问题的算法之一。一般实现KNN算法有两种思路:1、通过KNN算法自行写Python代码源生实现 2、依据一些集成模块直接调用实现二、KNN算法理论思路1、计算新个体到各旧数据之间的距离2、统计出距离最短的前K个商品3、统计距离最短的前K个商品中哪一个类别最多4、将新商品归为类别最多的这一个类别三、代码实...原创 2018-03-03 22:23:12 · 388 阅读 · 0 评论 -
16Python爬虫---Scrapy多开技能
在Scrapy项目中创建一个文件夹存放我们自己编写的mycrawl文件,然后创建3个爬虫myspd1,myspd2,myspd3 项目结构 下面为mycrawl.py源码import osfrom scrapy.commands import ScrapyCommandfrom scrapy.utils.conf import arglist_to_dictfrom scrapy...原创 2018-03-16 22:37:03 · 580 阅读 · 0 评论 -
16Python爬虫---Scrapy常用命令
常用命令1、全局命令全局命令即为不进入Scrapy爬虫项目所在目录的情况下,运行scrapy命令。运行scrapy -h,在commands下回出现所有的全局命令。分别为fetch、runspider、settings、shell、startproject、version、view。 其中bench命令比较特殊,虽然在Available commands中,但是仍然归为项目命令(...原创 2018-03-15 16:04:53 · 4328 阅读 · 0 评论 -
Python数据挖掘06--淘宝网数据处理
淘宝数据:第一列标题,第二列链接,第三列价格,第四列评论 所用到数据sql文件点击下载一、数据预处理 数据预处理指的是对数据进行初步处理,把脏数据处理掉,否则很容易影响最终结果。 常见的的预处理包括: 1、缺失值处理 2、异常值处理 3、数据集成在数据量大的情况下采用删除处理法,是比较优质的一种处理方法。二、实战分析步骤: 1、爬取淘宝数据存入数据库(...原创 2018-02-28 23:41:24 · 1203 阅读 · 2 评论 -
15Python爬虫---爬虫定向爬取腾讯视频网---利刃出击评论
先贴上代码后面补充上解析,代码缺陷没有对对评论的回复进行处理爬取import urllib.requestimport http.cookiejarimport re# ----------对象赋值--------------------------------------------class point(): pass# ----------对象赋值-------...原创 2018-03-09 00:29:02 · 2114 阅读 · 0 评论 -
Python数据挖掘05--词云(wordcloud)找出老九门中热门词语
注意 window系统安装wordcloud模块时可能会出现需要安装C++等错误,此时使用https://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy网站的whl自己进行安装将不会再报错资料中所用到老九门文件和图片,点击下载import wordcloud as wc # 词云模块import matplotlib.pylab as plb...原创 2018-02-28 22:31:52 · 498 阅读 · 0 评论 -
16Python爬虫---Scrapy目录结构以及项目创建
一、Scrapy目录结构 在分析之前项目结构的含义之前,我们会先创建爬虫项目。会生成一个与爬虫项目名称同名的文件夹,该文件夹下拥有一个同名的子文件夹和一个scrapy.cfg文件。 在同名文件夹mypyj1下存放的爬虫项目的核心代码scrapy.cfg文件主要是爬虫项目的配置文件同名子文件夹mypyj1包含init.py,items.py,piplines.py,sett...原创 2018-03-15 00:34:46 · 3022 阅读 · 0 评论 -
11Python爬虫---爬虫实战小结
1)进行网页信息提取分析的时候,经常要学会寻找特殊标识,特殊标识要满足唯一性,并且包含要爬取的信息,以及尽量少的无关信息.2)通过爬虫进行自动化爬取,可以为我们省下很多事情。比如,有些站长需要采集些内容到自己的网站上,如果通过复制粘贴的方式,耗费的精力非常大,而采用爬虫的方式,我可以直接将关注的数据爬取下来,并可以用程序直接自动写进对应的数据库中,此时,网站上的内容就可以实现自动更新了。3...原创 2018-03-05 10:49:27 · 314 阅读 · 0 评论 -
12Python爬虫---Fiddler抓包工具使用
一、什么是Fiddler二、爬虫与Fiddler不得不讲的事三、Fiddler基本原理与界面1、Fiddler工作原理2、Fiddler界面3、捕捉会话功能四、Fiddler的QuickExec的简单使用1、cls2、select3、?4、help五、Fiddler断点功能1、使用Fiddler的断点,可以实现的功能:2、Fiddler断点功能分为两种...原创 2018-03-05 17:09:19 · 17431 阅读 · 13 评论 -
Django操作Mysql数据库前,安装包踩的坑
一、基础环境window10 Django 2.0 python 3.5 Django2.0操作mysql需要安装pymysql以及mysqlclient二、操作中遇到的问题安装不了mysqlClient报C++的问题 此时到https://www.lfd.uci.edu/~gohlke/pythonlibs/#mysqlclient 下载mysqlclient的whl包,然后...原创 2018-08-01 14:37:15 · 641 阅读 · 0 评论 -
18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接
一、爬取新浪新闻思路1、创建scrapy项目2、分析新浪新闻网站静态页面代码3、编写对应的xpath公式4、写代码二、项目代码步骤1、创建scrapy项目scrapy startproject mycwpjt步骤2、分析新浪网站静态代码随便打开一个新浪新闻网,新闻 可以看到地址为 http://news.sina.com.cn/gov...原创 2018-03-21 21:07:28 · 3139 阅读 · 2 评论 -
20Python爬虫--Scrapy爬取和讯博客个人所有博客情况并保存到数据库
项目结构: Mysql数据库表创建语句CREATE TABLE `myhexun` ( `id` int(9) NOT NULL AUTO_INCREMENT COMMENT '文章的id', `name` varchar(60) DEFAULT NULL COMMENT '文章名', `url` varchar(100) DEFAULT NULL COMMENT '文章url',原创 2018-03-24 11:01:34 · 1206 阅读 · 8 评论 -
17Python爬虫---Scrapy爬取当当网特产
一、总体思路1、创建scrapy项目 2、分析当当网特产网址 3、分析出所取部分xpath公式 4、编写item 5、编写爬虫 6、编写pipline文件将取到的数据存入到文件中二、具体实践1、创建scrapy项目scrapy startproject autopjt2、分析当当网特产网址第一页http://category.dangdang.c...原创 2018-03-19 12:43:46 · 882 阅读 · 0 评论 -
python面试题---第二部分
Python 数据库 网络 算法 其他 Python 1.python参数传递是值传递还是引用传递 都是引用,对于不可改变的数据类型来说,不能改变,如果修改了,事实上是新建一个对象来对待。2.lambda更简单,省去命名函数名的麻烦 f = lambda x,y:x+y print(f(1, 2))3.format可以接受参数不限个数,并且位置可以不按顺序 print(...转载 2018-03-18 21:36:59 · 6579 阅读 · 0 评论 -
python面试题--第一部分
【题目:001】| 说说你对zen of python的理解,你有什么办法看到它?Python之禅,Python秉承一种独特的简洁和可读行高的语法,以及高度一致的编程模式,符合“大脑思维习惯”,使Python易于学习、理解和记忆。Python同时采用了一条极简主义的设计理念,了解完整的Python哲学理念,可以在任何一个Python交互解释器中键入import this命令,这是Python隐...转载 2018-03-18 21:34:33 · 1442 阅读 · 0 评论 -
python基础知识巩固
Table of ContentsPython语言特性 1 Python的函数参数传递2 Python中的元类(metaclass)3 @staticmethod和@classmethod4 类变量和实例变量5 Python自省6 字典推导式7 Python中单下划线和双下划线8 字符串格式化:\x和.format9 迭代器和生成器10 *args and **kwarg...转载 2018-03-18 21:21:58 · 1560 阅读 · 2 评论 -
19Python爬虫--爬取新浪新闻标题并保存到数据库
一、爬取新浪新闻思路1、创建scrapy项目2、分析新浪新闻网站静态页面代码3、编写对应的xpath公式4、写代码二、项目代码步骤1、创建scrapy项目创建爬虫文件scrapy startproject mysqlpjt进入项目目录后scrapy genspider -t crawl bangbing sina.com.cn...原创 2018-03-22 13:51:01 · 9192 阅读 · 8 评论 -
13Python爬虫---Fiddler断点应用实例
步骤: 1、设置好响应断点 2、打开www.baidu.com 3、网站响应被中断,继续响应获取服务器返回结果 4、修改返回结果,将响应信息返回给浏览器1、打开www.baidu.com2、点击该网址后,Fiddler右方可以编辑对应的响应信息,将标签切换为”TextView”,此时可以看到响应信息为乱码,可以点击界面中的”Responsebody is encoded...原创 2018-03-05 17:36:24 · 561 阅读 · 0 评论 -
14Python爬虫---爬虫伪装浏览器
一、什么是浏览器伪装技术 有一些网站为了避免爬虫的恶意访问,会设置一些反爬虫机制,常见的饭爬虫机制主要有: 1、通过分析用户请求的Headers信息进行反爬虫 2、通过检测用户行为进行反爬虫,比如通过判断同一个IP在短时间内是否频繁访问对应网站等进行分析 3、通过动态页面增加爬虫的爬取难度,达到反爬虫的目的 第一种反爬虫机制在目前网站中应用的最多,大部分反爬虫网站会对...原创 2018-03-07 11:38:29 · 12340 阅读 · 0 评论 -
10Python爬虫---爬虫实战之糗事百科段子
目的:获取糗事百科段子 思路:1、爬取网页2、然后根据正则爬取出 关键内容3、根据关键内容 再用正则匹配出 对应的用户名和内容4、循环赋值进行输出源码:import urllib.requestimport redef getcontent(url, page): headers = ("User-Agent", "Mozilla/5.0 (Wi原创 2018-01-30 13:59:09 · 340 阅读 · 2 评论 -
08Python爬虫---正则和Cookie小结
(1)有时我们在进行字符串处理的时候,希望按自定义的规则进行处理,我们将这些规则称为模式。可以用正则表达式来描述这些自定义规则,正则表达式也称为模式表达式。(2)在 Python中,一般我们会使用re模块实现 Python正则表达式的功能。(3)正则表达式中常见的原子有:普通字符作为原子、非打印字符作为原子、通用字符作为原子、原子表。(4)模式修正符,可以在不改变正则表达式的情况下,通原创 2018-01-23 11:29:20 · 644 阅读 · 0 评论 -
07Python爬虫---Cookie实战
一、什么是Cookie 我们在浏览器中,经常涉及到数据的交换,比如你登录邮箱,登录一个页面。我们经常会在此时设置30天内记住我,或者自动登录选项。那么它们是怎么记录信息的呢,答案就是今天的主角cookie了,Cookie是由HTTP服务器设置的,保存在浏览器中,但HTTP协议是一种无状态协议,在数据交换完毕后,服务器端和客户端的链接就会关闭,每次交换数据都需要建立新的链接。就像我们去超市买东原创 2018-01-23 10:48:01 · 1468 阅读 · 0 评论 -
tornado项目--day01--项目结构以及项目搭建编写
一、项目结构: 需求:易维护,可扩展1、files 配置信息 (docs)2、handlers 处理逻辑和路由映射 C控制层3、libs 库文件 做一些中间层的封装 作用:解耦合4、models 是模型类 M模型层 包括:数据库,文件系统,第三放服务5、static 放js css html img6、utils 小工具小组件,比如:验证码生成、IP地址转换7、temp原创 2017-11-24 02:34:43 · 4241 阅读 · 3 评论 -
Django学习07---model模型以及关系模型
一.字段类型与方法(Field type & function): 我们都知道,数据库中表的字段都有类型,那么在django中,他都在Models这个模块中写了对应的类,直接调用就可以了,而且django不仅仅只是做了个数据类型的映射,他还对一些比如URL之类的类型做了封装,以下将列出表格做相关说明: 字段名 方法 说明 Int IntegerField 表示的范围是-214原创 2017-09-09 12:42:30 · 486 阅读 · 0 评论 -
Python数据挖掘04---matplotlib数据可视化分析
一、matplotlib基本介绍 Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。 通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。二、Matplotlib基础知识1.Matplotlib中的基本图表包括的元素(1)x轴和y轴:水...原创 2017-09-17 15:26:11 · 985 阅读 · 0 评论 -
django学习08---Form表单提交
一、表单的基本介绍html中表单基本格式:<form action="" method=""> 用户名:<input type="text" name="username" value="用户名" > 密码:<input type="password" name="password" value="密码" > <input type="submit" value="提交">原创 2017-09-15 11:31:05 · 4229 阅读 · 0 评论 -
Python数据挖掘学习02--numpy和pandas模块基本使用
一、numpy模块导入numpy模块并命名为npy>>> import numpy as npy1、创建数组(1)一维数组>>> x = npy.array(['22','18','15','4'])>>> xarray(['22', '18', '15', '4'],dtype='<U2')>>>(2)二维数组>>> y = npy.array([['aa','bb','cc'],['12'原创 2017-09-15 15:35:44 · 760 阅读 · 0 评论 -
django学习04---模板的渲染
在上一章节中我们使用 django.http.HttpResponse() 来输出 “Hello python!”。该方式将数据与视图混合在一起,不符合 Django 的 MTV 思想。 本次将详细介绍 Django 模板的应用,模板是一个文本,用于分离文档的表现形式和内容。一、渲染初步认识1、Views.py的作用?执行业务逻辑渲染网页(通常使用模板)通过模型model访问数据库2、原创 2017-08-17 14:39:55 · 924 阅读 · 0 评论 -
Django学习03---urls.py路由用法与实例
一、url是什么? URL(Uniform Resoure Locator)统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。 它最初是由蒂姆·伯纳斯·李发明用来作为万维网的地址。现在它已经被万维网联盟编制为互联网标准RFC1738了。URL格式:sch原创 2017-08-17 12:46:27 · 799 阅读 · 0 评论 -
05Python爬虫---小结
(1) Urllib是 Python提供的一个用于操作URL的模块,在 Python2X中,有 Urllib也有Urllib2库,在 Python3x中 urllib2合并到了 urllib中,我们爬取网页的时候,经常需要用到这个库。(2)一般来说,URL标准中只会允许一部分 ASCII字符,比如数字、字母、部分符号等,而其他的一些字符,比如汉字等,是不符合URL标准的。所以如果我们在URL中原创 2018-01-15 16:31:19 · 254 阅读 · 0 评论 -
04Python爬虫---DebugLog和URLError的运用
一、DebugLog 有时我们希望边运行程序边打印调试日志,此时就需要开启DebugLog。 开启步骤: 1、分别使用 urllib. request Httphandler(和 urllib. request. Httpshandlero将 debuglevel设置为1 2、使用 urllib request build opener0创建自定义的 opener对象,并使用1原创 2018-01-15 16:23:52 · 336 阅读 · 0 评论 -
09Python爬虫---爬虫实战之京东图片
目的:获取京东手机页面的图片 1、打开京东首页(www.jd.com),选择对应的”手机/运营商/数码”分类,并进入“手机”子分类 链接地址:https://list.jd.com/list.html?cat=9987,653,655&page=1 分析网页源码:找到对应的图片代码段: 思路:1、爬取网页2、然后根据正则爬取出 关键内容3、根据关键内容原创 2018-01-30 13:51:43 · 824 阅读 · 4 评论 -
Python数据挖掘学习03--pandas模块数据的导入实战
导入使用的是pandas模块 import pandas as pda 下面就可以使用pda以下介绍了5种数据导入的1、csvc = pda.read_csv("C:\Users\ME\Desktop\数据\hexun.csv")2、exceld = pda.read_excel("C:\Users\ME\Desktop\数据\hexun.xls")3、sq...原创 2017-09-15 15:44:15 · 851 阅读 · 0 评论 -
06Python爬虫---正则表达式05之实战
实例1:匹配.com或.vn后缀的URL网址import restring = "百度首页"pattern = "[a-zA-Z]+://[^/s]*[.com|.cn]"result = re.search(pattern, string)print(result) # 结果:首先观察: (1)固定的有://,可以写出来, (2)是.com、.cn结尾 那原创 2018-01-20 16:00:18 · 473 阅读 · 0 评论 -
06Python爬虫---正则表达式04之常用表达式
常用的正则表达式函数 re.match()函数、re.search()函数、全局匹配函数、re.sub()函数一、re.match()函数从源字符串的起始位置匹配一个模式 格式re.match(pattern, string, flag) 第一个参数代表对应的正则表达式,第二个参数代表对应的源字符,第三个参数是可选参数,代表对应的标志位,可以放模式修正符等信息import r原创 2018-01-20 15:56:47 · 259 阅读 · 0 评论 -
06Python爬虫---正则表达式03之模式修正_贪婪模式与懒惰模式
一、修正模式 符号 含义 I 匹配时忽略大小写 M 多行匹配 L 做本地化识别匹配 U 根据Unicode字符及解析字符 S 让.匹配包括换行符,即用了该模式修正后,”.”匹配就可以匹配任意的字符了所谓模式修正,即可以在不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现一些匹配结果的调整等功原创 2018-01-16 16:47:31 · 1173 阅读 · 1 评论 -
06Python爬虫---正则表达式02之元字符
元字符表 符号 含义 . 匹配除换行符以外的任意字符 ^ 匹配字符串的开始位置 $ 匹配字符串的结束位置 * 匹配0次、1次或者多次前面的原子 ? 匹配0次或1次前面的原子 + 匹配1次或多次前面的原子 {n} 前面的原子恰好出现n次 {n,} 前面的原子至少出现了n次 {n,原创 2018-01-16 15:43:29 · 295 阅读 · 0 评论