
python
liuhehe123
这个作者很懒,什么都没留下…
展开
-
虚拟环境virtualenvwrapper的安装与使用以及为虚拟环境配置不同的python版本
在使用python 进行环境隔离能够保证开发依赖不同版本环境的项目,而不受影响。 虚拟环境工具virtualenv相当好用,之前经常使用该工具,最近发现一个更加好用的工具virtualenvwrapper,它是基于virtualenv的扩展。 命令行下 pip install virtualenvwrapper 建议采用豆瓣源进行安装会快很多 ...原创 2018-07-05 17:00:58 · 349 阅读 · 0 评论 -
3. Longest Substring Without Repeating Characters in Python (92-ms)
Problem Description:Given a string, find the length of the longest substring without repeating characters.Example 1:Input: "abcabcbb"Output: 3 Explanation: The answer is "abc", with the lengt...原创 2018-12-14 18:58:00 · 118 阅读 · 0 评论 -
4. Median of Two Sorted Arrays
Problem Description:There are two sorted arrays nums1 and nums2 of size m and n respectively.Find the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).You ...原创 2018-12-14 19:23:31 · 147 阅读 · 0 评论 -
5. Longest Palindromic Substring
Problem Description:Given a string s, find the longest palindromic substring in s. You may assume that the maximum length of s is 1000.Example 1:Input: "babad"Output: "bab"Note: "aba" is also...原创 2018-12-14 22:54:22 · 149 阅读 · 0 评论 -
Pandas四、Grouping(分组)和Sorting(排序)
读入要测试的文件。import pandas as pdreviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)reviews.head()查看部分数据:1、找出数据集中最常见的。统计每个分组中指定列的数量。创建一个序列(Series),他的索引是数据集中的“taster_twitter_handle”...原创 2019-01-06 13:49:51 · 6552 阅读 · 0 评论 -
Pandas五、数据类型和丢失值初窥
读入数据:import pandas as pdreviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)1、查看数据集中评分列的数据类型dtype = reviews.points.dtypedtype'''dtype('int64')'''2、创建一个Series,其数据来自评分(points)中...原创 2019-01-06 14:45:45 · 453 阅读 · 3 评论 -
Pandas六、重命名和联合
读入数据import pandas as pdreviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)1、有些列是名字需要我们重新命名,创建一个副本,将region_1列改名region,将region_2列改名locale。# 第一种 相当于把元组转成字典# re...原创 2019-01-06 15:40:25 · 536 阅读 · 3 评论 -
Spark读取本地文件问题
Spark 读取本地文件问题网上给出的多是下面两种方案 解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。 解决方式2:直接将数据文件上传到hdfs,达到数据共享。(强烈推荐,比格更高更专业) 不过多是将文件发到hdfs,明明记得可以读取本地文件,后来在林子雨老师厦门大学大数据实验室博客上找到解决办法:本地文件数据读写textFile ...原创 2019-01-14 18:51:00 · 14041 阅读 · 11 评论 -
LeetCode:11. Container With Most Water
这一题 是要求求容器的最大面积,其中高度由数组中的数字表示,长度为两个数的下标距离。这题,我是直接用的暴力法,超时了,借鉴了其他人的解题思路。采用类似快排算法的思路,进行从两侧开始扫描,我们知道快排能够明显降低时间,如果用暴力法,当给定一个很大的数组时,就会花费很长时间。class Solution: def maxArea(self, height): ...原创 2019-01-22 16:48:14 · 246 阅读 · 0 评论 -
Matplotlib基本画图之子图
# 子图操作相关函数plt.figure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True, FigureClass=<class 'matplotlib.figure.Figure'>, **kwargs)plt.subplots(nrows=1, ncols=1, sh...原创 2019-06-03 10:39:11 · 1047 阅读 · 0 评论 -
Matplotlib画图之基本图表绘制
1、Series 与 DataFrame绘图首先来讲讲Series绘图, 即 我们使用 ts = pd.Series(...) 直接调用ts.plot进行画图plt.plot(kind='line', ax=None, figsize=None, use_index=True, title=None, grid=None, legend=False, style=None, log...原创 2019-06-03 15:36:52 · 1287 阅读 · 0 评论 -
k-means聚类算法总结
聚类概念聚类分析是在对象数据中发现对象之间关系。一般来说,组内相似性越高,组间相似性越大,则聚类的效果越好。k-means概念k-means是一种无监督学习,它会将相似的对象归到同一类中。k-means聚类的优缺点优点:容易实现。缺点:可能会收敛到局部最小值, 当应用到大规模数据集时会收敛较慢。适用于:数值型数据。k-means聚类的算法思想1.随机计算k个类中...原创 2018-09-07 11:25:52 · 18744 阅读 · 0 评论 -
机器学习----k-近邻算法(KNN)
k-近邻算法概念简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。k-近邻算法的优缺点:优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用范围:数值型和标称型。 对于该算法更通俗的说法,拿到一个数据A,计算其与数据集C中的数据的距离,通过使用特征值进行求欧式距离。然后排序取出其前k相邻的数据,前k个出现频率最高的类别即作为...原创 2018-09-09 11:04:29 · 273 阅读 · 0 评论 -
scrapy爬取在线文章
原创 2018-07-06 14:01:17 · 309 阅读 · 0 评论 -
解决python中csv模块保存数据中文编码问题
”’利用python的csv模块将数据库查询到的结果保存到csv文件中 MySQLdb模块 csv模块 ”’-- coding:utf-8 --import MySQLdb import csv import codecs打开数据库db = MySQLdb.connect(host=’localhost’,user=’root’,passwd=’19940405’,db=’S_T’,cha原创 2016-03-17 13:41:51 · 972 阅读 · 0 评论 -
机器学习番外篇-------感知器学习法则
获取测试样例数据集 以鸢尾花为例import pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapimport numpy as np >>> source_addr='https://archive.ics.uci.edu/ml/ma...原创 2018-08-10 23:19:47 · 1706 阅读 · 0 评论 -
python——数据库文件保存为csv格式MySQLdb_csv
#-*- coding:utf-8 -*-import MySQLdbimport csvimport codecs#打开数据库db = MySQLdb.connect(host='localhost',user='root',passwd='19940405',db='S_T',charset='utf8')#使用cursor()获取数据库游标cursor = db.cursor(...原创 2018-08-07 12:06:59 · 2187 阅读 · 0 评论 -
scrapy--解决css选择器遇见含空格类提取问题response.css()
今天在写爬虫规则时 遇到一个含空格的类 刚开始使用css选择器无法提取到任何内容,试了几次都没成功 之后换xpath选择器成功提取出内容。个人找了多次未发现有处理类似问题的。下面是自己的解决办法。方法一》 我要用的含空格的类 position-label clearfix 完整提取规则:response.css(".position-label clearfix .l...原创 2018-08-12 17:23:59 · 5081 阅读 · 0 评论 -
scrapy---爬取某招聘网站遇到的问题小结
爬取时一直被重定向问题困扰 REDIRECT[302] 像知乎之类的网站一般爬取是需要User-Agent的 但是 对于拉勾网来说,并不必须UA。后来搜索了一下 需要提供cookie解决重定向问题:customer-settings ={"COOKIES_ENABLED": False,"DOWNLOAD_DELAY": 1,'DEFAULT_REQUEST_HEADE...原创 2018-08-13 22:11:39 · 1933 阅读 · 0 评论 -
xpath和css选择器重点知识小总结
先上些干火:今天使用scrapy写爬虫 碰到一个有意思的问题 也是出现 [ ] 对 就是出现了这种空格 虽坑了我 不过也发现了一个xpath新用法(也可能是我之前没发现)。xpath规则 : //*[@class="c_feature"]/li[4]/a/@href 爬去到的结果应该是:['http://www.cfca.com.cn']但是有些网站则是: //*[@class="c_...原创 2018-08-13 23:09:43 · 991 阅读 · 0 评论 -
scrapy爬取招聘网站数据总结
遇到的问题:测试阶段 (提取规则):scrapy shell 网址一直 REDIRECT <302> 被重定向 需要提供 cookies 由于在terminal一直设置错误,也就没折腾。后来在pycharm设置了cookies 如下:custom_settings = {"COOKIES_ENABLED": False,"DOWNLOAD_DELAY": 1,'...原创 2018-08-16 12:25:23 · 2801 阅读 · 0 评论 -
pandas.cut的一些问题总结
今天偶然用到pandas的cut方法,相当好用,不过也有问题要解决,主要看一些容易困惑的地方。pandas.cut :有什么用? 当我们想要切分数据,或者对数据进行划分,也就是把一组数据分散成离散的间隔,那就要用到 cut 了。cut(x, bins, right=True, labels=None, retbins=False, precision=3, i...原创 2019-06-04 17:04:29 · 2653 阅读 · 0 评论