
※ Python
文章平均质量分 56
Joovo
成事不说,遂事不谏,既往不咎。
展开
-
Python爬虫实现[中国最好大学排名2016]
中国最好大学排名网 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 输入: url,num(打印行数)输出: 三个函数:#获取源码def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_s...原创 2018-03-21 21:06:45 · 2360 阅读 · 0 评论 -
逻辑回归分类器(Logistic Regression)
目录Logistic回归概述Logistic回归分类器,Sigmoid 函数最优化理论确定回归系数(weight)梯度上升法数学推导随机梯度上升处理数据的缺失值实例:预测病马死亡率吃了概率论的亏逻辑回归(Logistic Regression)概述直观来说,用一条直线对一些现有的数据点进行拟合的过程,就叫做回归。Logistic分类的主要思想:根据现有数据...原创 2018-10-11 18:26:07 · 12050 阅读 · 1 评论 -
scrapy 爬取 arxiv.org 论文
和同学想要建立一个检索 arxiv.org 论文的网站,这是一个 demoGithub地址:https://github.com/Joovo/Arxiv鸽了好久把博客补了,主要实战里熟练了 scrapy 的操作:scrapy shell 检验 xpath 正确性reponse.xpath().extract() 转换为字符串列表str.strip()处理数据获取 xpath 的子节点...原创 2018-10-06 14:53:00 · 2790 阅读 · 2 评论 -
concurrent.futures 并发爬取 wos 的部分专利号和施引专利
工作上需要爬取 wos 的一些专利号和施引专利,做成了一个 excel 表格。施引专利在系统默认的导出里是没有的。第一次实际运用了concurrent.futures 来处理并发下载,确实很简单。一开始用 scrapy 框架貌似连接非常慢,不知道什么原理,三次连接两次超时,于是手写了一个用很多 try/except 结构的 spider 。一定要记得写日志和异常处理!!!!全文基本上没有很难...原创 2018-10-06 22:27:19 · 1156 阅读 · 0 评论 -
决策树 ID3算法
决策树ID3算法概述决策树的构造信息熵,信息增益 entropy,infomation gainshannon entropy划分数据集去除dataset中的一列。递归构造决策树(分类器)处理最后一个节点递归建树shannon entropy去除dataset中的一列。递归建树实例-使用决策树预测隐形眼睛类型pickle模块存储决策树ID...原创 2018-09-29 20:57:08 · 935 阅读 · 0 评论 -
朴素贝叶斯分类器-文档分类
朴素贝叶斯理论概述条件概率用朴素贝叶斯进行文档分类文本分类代码文档词袋模型实例:朴素贝叶斯过滤垃圾邮件朴素贝叶斯理论概述朴素贝叶斯(navie bayes)是贝叶斯决策理论的一部分,只考虑最简单的假设,用 Python 将文本切分为词向量,然后利用词向量对文档分类。优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标...原创 2018-10-08 21:21:34 · 1138 阅读 · 0 评论 -
线性回归 Python 语言实现
先占一个坑,最近几周在做一个比赛,十一月份回来补代码发上来注释掉免得又鸽了。。。。《机器学习实战》这本书有几点不适合入门者深入学习的地方是关键代码没有给出具体原理,而介绍方式是对机器学习每个基础算法进行讲解,所以经常在学习几个章节之间会感觉到断层,需要其他一些地方自行理解。线性回归这章后面的优化方式又讲的太多没讲清,我认为这是一个问题,博客也不好记。最好在一个专门的章节讲优化方式。公式推导见...原创 2018-10-24 18:36:32 · 462 阅读 · 0 评论 -
《流畅的Python》12-构造对象
构造对象的常用到几个概念:super(),__new__,__init____new__和__init__一般将__init__称为构造方法,实际上__new__用于实例化类,__init__用于初始化实例。Python构造对象的伪代码:def object_maker(the_class,some_arg): new_object=the_class.__new__(some...原创 2018-11-15 22:33:05 · 331 阅读 · 0 评论 -
Adaboost 元算法改进分类性能
文章目录概述bagging 自举汇聚法Adaboost 元算法AdaBoost的一般流程更新规则:单层决策树`decision stump`基于 DS 建立 Adaboost完整代码,预测患有疝病的马是否能够存活概述元算法(meta-algorithm)或集成方法(ensemble method)的思路是对多个不同的算法进行组合,从而使答案尽量达到最优的一种方法。Adaboost 是一种非常优...原创 2018-11-22 01:34:10 · 1527 阅读 · 0 评论 -
爬取vjudge的比赛代码和相关信息
文章目录概述开发过程代码结构源代码怎样使用github 地址:https://github.com/Joovo/vjudge_spider概述爬虫的目的是作为 contest 管理员需要统计 contest 下参赛者的错误信息并下载所有参赛者代码。代码实现的是分题号分别统计 Wrong Answer 的所有代码,编号及简要信息,稍加修改即可实现爬取其他具体信息,如代码长度,运行时间等等....原创 2018-12-09 02:57:39 · 2737 阅读 · 3 评论 -
tensorflow实现线性回归
文章目录计算图归一化实现梯度下降手动梯度下降自动微分用 tensorflow 实现一个线性回归程序简单了解tensorflow的一些基本操作。计算图tensorflow 的本质是用Python构建一个计算图,然后用优化后的C++代码来运行这个图,因此适用于大型机器学习和分布式计算中。构建一个图:import tensorflow as tf# 构建图x=tf.Variable(3,n...原创 2018-12-06 01:33:43 · 742 阅读 · 0 评论 -
有道词典爬虫
文章目录有道词典爬虫代码实现有道词典爬虫构造url对单个单词的释义及例句进行爬虫。查询界面不需要登陆操作,用 GET 方法获取源代码。对于上图所示的单词查询界面,简单地对单词’scene’ 进行替换即可。很久没有用xpath解析,有点生疏。从审查元素可以看到每个例句都被<div class='ol'>包含 ,遍历他的子节点即可。代码实现import requests...原创 2018-12-11 18:50:56 · 1895 阅读 · 0 评论 -
光伏发电预测(一)
最近参加了一个光伏发电预测的比赛,第一次接触这类课题,看了很多关于光伏发电预测和负荷预测的论文,算是入了一个门。主要工作还是在数据清理上和特征工程上。做好了这两项后面的预测过程倒是比较简单。比赛要求:利用之前若干时段的光伏发电参数,预测未来两个月的正向有功总电量。具体见下文。一、数据分析原始数据表 “data.csv”,提供了用户 A1-A5 的 2016 年 12 月 31 日-2018 ...原创 2018-12-30 00:26:17 · 20833 阅读 · 31 评论 -
光伏发电预测(二)
赛题的决赛要求:利用之前若干时段的光伏发电参数,预测未来两个月的每天15分钟一次共96个点的瞬时功率。先对数据集模糊聚类,再用相似日得出预测日的除了瞬时有功以外的所有参数,最后用神经网络计算预测日的瞬时有功。一、数据分析原始数据表“data.csv”,提供了用户A1-A10的2016年7月31日-2018年7月1日的瞬时有功、瞬时无功、A相电流、B相电流、C相电流、A相电压、B相电压、C相...原创 2018-12-30 01:06:40 · 10749 阅读 · 42 评论 -
Dijkstra算法的Python实现
将图上的顶点分为已访问visited和未访问node两个集合.每次从visited向外拓展一个点,拓展规则是在可更新的点里是距离最小的.算法伪代码:def dijkstra(): 初始化 visited 和 node 集合,distance[] visited 加入源节点 node 移除源节点 while node 非空: 最短路径长度 = i...原创 2019-01-29 13:18:17 · 3326 阅读 · 0 评论 -
Nginx+uWSGI+Flask+https配置
关于Nginx和uWSGI之间的关系,部署等等网上已经有很多抄来抄去的资料了,这里记录下小白第一次实践尝试的结果。按照自底而上的顺序写。文章目录1 Nginx/uWSGI/Flask/SSL证书是什么1.1 Nginx1.2 uWSGI1.3 Flask1.4 SSL证书2 创建Flask程序3 uWGSI配置4 配置Nginx1 Nginx/uWSGI/Flask/SSL证书是什么1.1 ...原创 2019-02-13 00:04:05 · 3571 阅读 · 0 评论 -
《流畅的Python》10-协程初步
StopIteration协程放在生成器,迭代器后面讲,这也是生成器的最终的归宿,或者把它理解为高阶的特性。如果生成器仅仅是当作语法糖,那么它可以被很容易的被其他形式替代而不会被重视。同时,作者指出,协程作为一种鲜为人知,资料匮乏的特性,看起来并不是很有用,常常被忽视。实际上关于Python的一般广为人知的特性已经介绍完了,不过事情正变得更有趣。前面介绍协程,然后介绍新的句法,用yield...原创 2018-09-03 23:58:02 · 389 阅读 · 0 评论 -
Python 函数的参数,签名
<!-- TOC depthFrom:1 depthTo:6 withLinks:1 updateOnSave:1 orderedList:0 -->参数处理机制函数签名对象注意是小写的signature参数处理机制用一个例子来看 Python 的函数参数处理机制。 Python3 提供了仅限关键词参数( keyword-only arguement)。...原创 2018-09-03 21:15:49 · 2003 阅读 · 0 评论 -
《流畅的Python》11-用concurrent.futures (期物)处理并发
期物(future)是指一种对象,表示异步执行的操作。这个概念的作用很大,是 concurrent.futures 模块和asyncio 包(第 18 章讨论)的基础。期物是译者自创的词,类似于期货,期权,字面上可以简单理解为要执行而未执行的操作。这一章基本上可以作为协程和asyncio包两个章节中承上启下的部分,因为协程实际上描述了异步的思想和简单实现,而concurrent.futur...原创 2018-09-09 00:15:34 · 779 阅读 · 0 评论 -
[静态定向爬虫]远程教育杂志
远程教育杂志链接 http://dej.zjtvu.edu.cn/ 2018年第二期第二刊: http://dej.zjtvu.edu.cn//oa/darticle.aspx?type=view&id=201802002 分析页面…CRTL+U 没啥好分析的 用时间戳来区分不同期刊 像:201X0YZZZ 凑时间戳用了rjust方法,右对齐填充数字 一个静态页面 用B...原创 2018-04-04 00:52:18 · 451 阅读 · 0 评论 -
Web of Science爬虫[模拟浏览器]
学习了另一位写爬虫的博主 Web of Science爬虫实战(模拟浏览器) 以前只会写静态页面分析,简单构造 url 那种爬虫 从这个实战里接触到了以下知识:xpathselenium WebDriveretree这里只介绍本文用到的地方xpath元素查找方式,使用这种方法几乎可以定位到页面上的任意元素。XPath是XML Path的简称,由于 HTML 文档...原创 2018-04-22 20:13:54 · 3338 阅读 · 8 评论 -
Urllib库和URLError库的异常处理
Urllib 库是 Python 一个用于操作 URL 的模块, Python3 中合并了 Python2.X 中的 Urllib2 和 Urllib 库,成为 Urllib 库通过Urllib爬取网页import urllib.requestfile=urllib.request.urlopen("http://www.baidu.com")data=file.read()d...原创 2018-04-30 23:52:27 · 1496 阅读 · 0 评论 -
[转]爬虫入门
转载链接: https://blog.youkuaiyun.com/jgzquanquan/article/details/78521799目录(?)[+]爬虫入门概述Requests库介绍1Requests库主要有7个主要方法1requestsrequest 构造一个请求支撑以下各方法的基础方法2requestsget 获取HTML网页的主要方法对应于HTTP的GET3requestshead 获取H...转载 2018-04-21 10:59:30 · 466 阅读 · 0 评论 -
pymongo 的几个常用操作
学到了 MongoDB Mongo 是一个基于分布式文件存储的数据库,由 C++ 编写,旨在为 Web 应用提供可拓展的高性能数据存储解决方案.它介于关系数据库和非关系数据库之间,在非关系数据库中最像关系数据库. 首先在 pycharm 中安装 pymongo 库 首先每次使用数据库前要打开 MongoDB 服务,即在文件目录下分别执行 mongod , mongo 命令 且关闭数据库...原创 2018-06-03 01:49:46 · 877 阅读 · 0 评论 -
Python 函数式编程入门
[TOC] 学 python3 也有一段时间了,关于函数式编程也看了很多遍,总是记不住,大概因为平时也忘记用。 整理了网上部分教程。 因为是针对Python写的,直接偷懒参考了[廖雪峰老师](“https://www.liaoxuefeng.com/“)的分类方法。主要通过实例来直观地呈现函数式编程函数式编程主要用了映射的思维,思维方式区别于面对对象编程(OOP属于一种过程式编程...转载 2018-06-13 19:39:25 · 387 阅读 · 0 评论 -
《流畅的Python》2-函数的参数
用一个例子来看 Python 的函数参数处理机制。 Python3 提供了仅限关键词参数( keyword-only arguement)。用*可迭代对象,用**表示映射到单个参数def tag(name,*content,cls=None,**attrs): if cls is None: attrs['class']=cls if attrs...原创 2018-07-16 17:05:41 · 510 阅读 · 0 评论 -
《流畅的Python》1-序列
书上前言讲到,本书主要强调 Python 独有的特性。这里记录了一些自己所忽视的一些用法和函数。列表推导式和生成器表达式列表推导式 list comprehension/listcomp/lc通常原则是为了更易读 用 listcomp 来创建新的列表,若超过两行,则应考虑重写。map/filtermap 和 filter 配合 lambda 能做 listcomp...原创 2018-07-03 17:13:25 · 849 阅读 · 0 评论 -
《流畅的Python》3-operator模块和functools模块
operator模块 使用 itemgetter 排序一个元组列表。attritem 提取对象的属性。methodcallerfunctools.partial 冻结参数 Python 提供 operator模块和 functools模块来方便地实现函数式编程。operator模块用lambda实现阶乘函数from functools import red...原创 2018-07-17 00:30:08 · 639 阅读 · 0 评论 -
《流畅的Python》5-对象引用,可变性,垃圾回收
标识,相等性和别名 在 == 和 is 中选择元组的相对不可变性浅复制和深复制 默认做浅复制如何做深复制函数的参数作为引用 防御可变参数垃圾回收 weakref.finalize注册回调函数观察对象销毁弱引用weakref.WeakValueDictionary简介 很有趣的基础知识环节。标识,相等性和别名每个变量都有标识,类型,值。每个对象标识只有...原创 2018-07-25 23:50:08 · 573 阅读 · 0 评论 -
《流畅的Python》读书笔记
博客目录:《流畅的Python》 读书笔记1-序列《流畅的Python》读书笔记2-函数的参数《流畅的Python》读书笔记3-operator模块和functools模块《流畅的Python》读书笔记4-函数装饰器和闭包详解为什么看这本书?很早就总各种方面接触到 Python,之前写过脚本,前一阵子开始写爬虫,写到复杂的爬虫发现自己边谷歌边打代码的方式已经不够用了。于...原创 2018-07-26 00:16:14 · 1621 阅读 · 0 评论 -
《流畅的Python》4-函数装饰器和闭包详解
基础知识Python 何时执行装饰器用装饰器改进“策略”模式变量作用域规则闭包nonlocal 声明实现一个简单的装饰器标准库中的装饰器 functools.lru_cache 做备忘单分派泛函数叠放装饰器参数化装饰器 在我另一篇博客里稍微有讲到一点,说的不是很好。首先学习前要了解 Python 里函数是一等对象。 函数装饰器是用来增强函数的行为,而想实现...原创 2018-07-21 00:34:17 · 641 阅读 · 0 评论 -
《流畅的Python》6-鸭子类型和切片原理
书中 9-10 章用实现一个Vector类来了解一个类的运行和实现过程,作者实现的细节非常值得一看,这里就不搬运了,讲一下序列中切片的原理。鸭子类型切片原理鸭子类型在程序设计中,鸭子类型(英语:duck typing)是动态类型的一种风格。在这种风格中,一个对象有效的语义,不是由继承自特定的类或实现特定的接口,而是由”当前方法和属性的集合”决定。通俗来讲,“当看到一只鸟走...原创 2018-08-10 01:25:24 · 460 阅读 · 0 评论 -
《流畅的Python》8-可迭代对象,迭代器和生成器
关注的本节内容:实现一个可迭代对象和迭代器可迭代对象和迭代器的区分实现一个标准的迭代器生成器迭代器(进阶)惰性定义一个Sentence 类生成器表达式(语法糖)实现一个可迭代对象和迭代器可迭代对象如何实现迭代?调用iter(x) , x为可迭代对象。按照三个顺序: 1. 是否实现了__item__方法,如果实现了,调用他并获取一个迭代器。 2. 是否实现了__...原创 2018-08-27 03:19:09 · 334 阅读 · 0 评论 -
《流畅的Python》9-上下文管理器,with 和 else
else 的用法除了 if/else 外,for ,while 语句都可以使用 else 。举例for i in range(10): if i == 11: breakelse: print('magic')含义显而易见,处理for循环里没有被处理的情况,优点是不用设置特殊标志来判断。上下文管理器with 语句处理的对象就是上下文...原创 2018-08-29 22:42:30 · 356 阅读 · 0 评论 -
Python链家租房信息爬虫
爬取链家某地区(杭州,南京等)租房信息爬虫。链家只开放了前100页供查看,每夜30条,因此实际上只爬取了前3000条信息。对于项目需求需要分析某地区某段时间内发布的租房信息,爬取对应的名称name,地区dist,面积square,价格price,备注detail,用pandas.DataFrame.to_excel()保存为 excel 文件。并发下载使用futures.ThreadPoolEx...原创 2019-03-11 09:31:36 · 2832 阅读 · 0 评论