
python
文章平均质量分 53
Mu-Shen
python,图像处理与识别,算法,Forward together.
展开
-
分而治之,二维平面最近点问题
一个二维平面上有n个点,求出最近的两个点之间的距离该问题最简单粗暴的方法便每两个点之间求一次距离的算法,该方法时间复杂度为o(n^2),肯定难以满足需要。针对这种问题,分而治之的思想可以很好的用到。针对一个平面,首先分成两个部分,可以用python的sort函数根据x坐标排序,找到中间点,由该点x坐标切分成两个子序列,递归调用。当切分到只有2个点的时候计算相互距离。接下来,需要把被原创 2017-10-06 19:40:07 · 1832 阅读 · 0 评论 -
python3爬虫-中国最好大学排名
使用python的requests和BeautifulSoup爬取前20个中国最好的大学,内容来源于最好大学这个网站,不需要登陆,直接可以访问静态网页内容,网页如下:直接可以提取信息,非常适合练习requests和BeautifulSoup功能.主程序需要几个部分组成首先载入必要的包import requestsfrom bs4 import BeautifulSoupimport bs4ge...原创 2018-05-16 16:48:35 · 3122 阅读 · 1 评论 -
python爬虫实战-爬取猫眼电影榜单top100
猫眼电影是静态网页,并且不需要验证码,非常适合爬虫的入门练习,流程如下-通过url连接获取html内容,在html中通过正则表达式,我们提取排名,名称,主演,上映时间等信息,格式如下["9", "魂断蓝桥", "主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森", "上映时间:1940-05-17(美国)"]import requestsimport refrom bs4 import Beaut...原创 2018-05-22 16:34:29 · 2883 阅读 · 0 评论 -
正则表达式re库在python3的应用
正则表达式可以从目标文本中快速查找,匹配,替换设置的模式,举个例子py,pyy,pyyy,pyyyy...这个模式就是一个p和一个以上的y组成,常规办法不能穷尽,而且非常麻烦,正则表达式里面直接使用py+就可以表达出来,非常方便.比较常见的表达方式如下:模式描述^匹配字符串的开头$匹配字符串的末尾。.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。[.....原创 2018-05-18 16:09:06 · 633 阅读 · 0 评论 -
python使用正则表达式处理邮件
正则表达式可以提取定义的文字模式,在爬虫,文字模式的提取中有很大作用,这里,我们举例使用正则表达式处理一个由数千邮件合并的一个txt文件语料库地址:https://www.kaggle.com/rtatman/fraudulent-email-corpusimport reimport pandas as pdimport emailfh = open(r'C:\\Users\\Yao\\D...原创 2018-04-22 11:00:02 · 1517 阅读 · 0 评论 -
Kaggle泰坦尼克特征工程和模型融合
上次我们对数据进行了分析,看到不同特征对结果,也就是能否生存下来具有不同的影响,对数据进行观察后我们需要选择不同的特征,并且对特征进行组合,来为模型训练做好准备,也就是特征工程import pandas as pd #数据分析import numpy as np #科学计算from pandas import Series,DataFrameimport matplotlib.pyplot...原创 2018-03-27 16:23:40 · 1281 阅读 · 0 评论 -
Kaggle泰坦尼克数据探索代码与理解
这几天开始kaggle比赛的学习,首先适合拿来练习的是泰坦尼克号的生还人员推断,由于当时撤退时是按照一定顺序,如老弱优先,所以从有可能从不同乘车人员的年龄,性别,票价,舱位,家中亲人数量等信息推断出该人是否可以生还.首先载入基本的应用import pandas as pd #数据分析import numpy as np #科学计算from pandas import Series,DataFram...原创 2018-03-20 15:13:25 · 978 阅读 · 0 评论 -
最近点对问题python解法
开始复习之前学过的内容,与大家分享下目标:INPUT: 平面上的 n个点OUTPUT: 欧式距离最近的点对最原始想法:遍历所有点的集合,具有o(n^2)的时间复杂度可以使用分治思想进行算法优化.首先将所有点按照X轴排序(Y轴也可以),之后进行分割为左一半元素,右一半元素,最后左右分别求最近点,最后进行合并,找到左面和右面的点集合里面最小的.这里的一个tric原创 2017-12-29 08:45:16 · 6828 阅读 · 1 评论 -
Hamming Distance
Input: x = 1, y = 4Output: 2Explanation:1 (0 0 0 1)4 (0 1 0 0)↑ ↑计算两个int数字二进制写法不同的数字数.首先x^y求出异或,上例中为0101之后求出二进制中1的数量便是x,y的Hamming Distance求有多少1可以使用x&(x-1)方法迭代0101和0100交集为0100,原创 2017-12-09 18:21:41 · 223 阅读 · 0 评论 -
二叉树的翻转操作
Invert a binary tree. 4 / \ 2 7 / \ / \1 3 6 9to 4 / \ 7 2 / \ / \9 6 3 1相关一个有趣的故事是Max去google面试,因为没有写出这道题被拒了……Google: 90% of our engineers原创 2017-10-13 09:21:11 · 607 阅读 · 0 评论 -
寻找二个链表的公共结点
A: a1 → a2 ↘ c1 → c2 → c3 ↗ B: b1 → b2 → b3如上表示,A,B为两个链表,同时它们有公共结点c1,使用一个算法,找到这种公共结点。其中:1.假设这两个链表没有cycle. 2.如果没有公共节点原创 2017-10-11 09:52:30 · 494 阅读 · 0 评论 -
floyd判断列表是否有cycle
一个列表,不使用额外空间,如何判定是否存在cycle(循环)呢?一个简单有效的算法为floyd算法,可以理解为一个乌龟和一个兔子赛跑,如果它们跑的是一个循环的圆圈,那么乌龟一定会追上兔子。该算法设置一个fast结点和slow结点,fast每次向前移动两步,slow每次向前一步,每次移动后判定fast是否等于slow。如果相等,则说明存在圆环。该算法完备性可以简单解释如下,每一次行走,相原创 2017-10-10 14:37:21 · 269 阅读 · 0 评论 -
递归与镜像判断问题
1 / \ 2 2 / \ / \3 4 4 3如上是一种镜像图像,绕着中线对称,给定一个二叉树,如何判断是否是镜像图像?可以采用递归方式,对根节点的左节点和右节点判断,如果值相同比较左节点的left节点和右节点的right节点是否相同,如此递归便可以解决该问题python代码如下class Solution(object): def isSymmetric(sel原创 2017-09-30 14:18:44 · 286 阅读 · 0 评论 -
python小技巧-动态进度条
有时候我们需要使用print打印工作进度,正常使用print函数会导致刷屏的现象,举个最简单的例子,从1打印到10,每次停顿0.1秒这样看起来很麻烦,有没有办法实现动态的进度显示呢?我们可以使用'\r',这个命令可以使光标重新返回头部,之后设置end='',取消python的打印自动换行的功能import timefor i in range(10): print('\r比例' ,i/...原创 2018-05-23 15:39:11 · 4471 阅读 · 0 评论