
python
文章平均质量分 92
Dave_L
这个作者很懒,什么都没留下…
展开
-
Python 包和模块、面向对象编程
模块区分包和目录:包的每一级都要有__init__.py当新版本的一个特性与旧版本不兼容时,该特性将会在旧版本中添加到__future__中,以便旧的代码能在旧版本中测试新特性。# python2中/是整除,python3中//是整除,/是除法但得到浮点数>>> from __future__ import division>>> print 10 / 33.3333333333333335Python面向对象编程由于Python是动态语言,对每一原创 2020-07-23 22:23:58 · 172 阅读 · 0 评论 -
Python3 - 函数式编程(高阶函数、闭包、装饰器、偏函数)
函数式编程将计算视为函数而非指令纯函数式编程:不需要变量,没有副作用,测试简单支持高阶函数,代码简介Python支持的函数式编程不是纯函数编程:允许有变量支持高阶函数:函数也可以作为变量传入支持闭包:有了闭包就能返回函数有限度地支持匿名函数Python中的高阶函数高阶函数:能接收函数做参数的函数(如内置的map()等)>>> def add(x,y,f):... return f(x) + f(y)...>>>原创 2020-07-22 12:03:12 · 190 阅读 · 0 评论 -
机器学习分类模型demo - 二分类、多分类、评估曲线(ROC、召回、精确
from sklearn.datasets import fetch_openmlimport matplotlibimport matplotlib.pyplot as pltimport numpy as npdef sort_by_target(mnist): reorder_train = np.array(sorted([(target, i) for i, target in enumerate(mnist.target[:60000])]))[:, 1] reorder原创 2020-07-12 16:53:59 · 2985 阅读 · 0 评论 -
机器学习模型选择与评估、参数搜索(GridSearchCV) demo
# 线性回归模型# from sklearn.linear_model import LinearRegression## lin_reg = LinearRegression()# lin_reg.fit(housing_prepared,housing_labels)## some_data = housing.iloc[:5]# some_labels = housing_labels.iloc[:5]# some_data_prepared = full_pipeline.trans原创 2020-07-12 09:54:41 · 500 阅读 · 0 评论 -
机器学习数据转换 - 自定义转换器、转换流水线demo 特征缩放
from sklearn.pipeline import Pipelinefrom sklearn.preprocessing import StandardScalerfrom sklearn.base import BaseEstimator , TransformerMixinrooms_ix , bedrooms_ix , population_ix , household_ix = 3 , 4 , 5 , 6# 自定义转换器:添加组合后的属性class CombinedAttri.原创 2020-07-11 20:38:44 · 625 阅读 · 0 评论 -
机器学习数据清洗 - 缺失属性处理、处理 文本 和 分类属性demo
########## data_clear ##########import numpy as npimport osimport pandas as pdfrom create_test import split_test_by_category########## 获取训练、测试集 ################HOUSING_PATH = "D:\\data"def load_housing_data(housing_path): csv_path = os.path.j原创 2020-07-11 15:33:15 · 396 阅读 · 0 评论 -
机器学习测试集选取方法demo-随机、Hash、分层
train:test = 0.2数据集属性:1.load_data.pyimport pandas as pdimport osimport matplotlib.pyplot as pltfrom create_test import split_train_testfrom create_test import split_train_by_idHOUSING_PATH = "D:\\data" # 数据集路径# 加载housing.csv数据集def load_housin原创 2020-07-10 20:45:00 · 543 阅读 · 0 评论 -
Keras分割数据集训练(加载上次模型用新数据集继续训练)及常见ValueError
基本逻辑就是保持训练好的模型,然后再load_model()加载,用新数据集训练易错点比如第一次训练得到模型a.model,下次利用load_model()加载该模型,对新数据集进行训练,如果不加处理的话很可能报错:ValueError: Error when checking target: expected input_6 to have shape (13966,) but got array with shape (11640,)我这里是因为 :模型训练时的数据集中,poi_loc数据.原创 2020-07-08 20:45:30 · 1160 阅读 · 0 评论 -
python crawler - 使用代理增加博客文章访问量
import re , random , requests , loggingfrom lxml import etreefrom multiprocessing.dummy import Pool as ThreadPoollogging.basicConfig(level=logging.DEBUG)TIME_OUT = 15proxies = []header = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64原创 2020-07-02 12:03:02 · 168 阅读 · 0 评论 -
python - matplotlib demo
平面图绘制from matplotlib import pyplot as pltimport numpy as np# linspace(x, y)产生一个有100个元素的行向量,其中的元素在区间[x, y]中等间隔分布。# linspace(x, y, n)产生x和y之间等间隔的n个数,如果n = 1,返回结果为y。x = np.linspace(-np.pi,np.pi)plt.plot(x,np.cos(x),color='red')plt.show()# 颜色:英文字母、RGB原创 2020-06-29 12:14:00 · 222 阅读 · 0 评论 -
Pandas - Series、DataFrame、plot(demo
import pandasimport numpy as npfrom pandas import Series , DataFrames = Series([1,2,3,np.nan,5,1])print(s)0 1.01 2.02 3.03 NaN4 5.05 1.0dtype: float64numpy.random.randn() :以给定的形状创建一个数组,数组元素来符合标准正态分布N(0,1)a = np.random.r原创 2020-06-29 11:27:06 · 199 阅读 · 0 评论 -
python crawler - Session模拟表单登陆并下载登录后用户头像demo
要登录的网站:https://www.1point3acres.com/bbs/找到form中的action查看提交表单的目的地址:https://www.1point3acres.com/bbs/member.php?mod=logging&action=login&loginsubmit=yes&infloat=yes&lssubmit=yes&inajax=1登录后,查看表单数据作为提交参数:最后就是查看头像的位置:利用BeautifulSoup原创 2020-06-28 11:54:21 · 384 阅读 · 1 评论 -
使用selenium模拟浏览器进行数据抓取+搜索指定关键词+下拉滚动demo+selenium等待机制(Chrome Browser
0.安装selenium + Chrome Driver安装selenium:pip install selenium安装Chrome Driver:下载:http://chromedriver.storage.googleapis.com/index.html版本要对应(chrome://version查看版本)将chromedriver.exe 添加到用户环境变量1.使用selenium模拟浏览器操作demofrom selenium import webdriverimpo原创 2020-06-27 18:43:59 · 1046 阅读 · 0 评论 -
python crawler -利用XPath获取B站推荐视频封面
推荐页封面抓取不需要考虑JS,直接用XPath定位<a>即可。推荐页url:https://www.bilibili.com/list/recommend/1.html翻到x页就是x.html抓取封面,定位到<img>中的src,获取这个src访问下载到本地就行了。用XPath获取src路径:"//div[@class='zr_recomd']/ul/li/div/a/img/@src"完整代码:# 抓取B站推荐页视频封面import requestsfrom原创 2020-06-27 11:01:49 · 676 阅读 · 0 评论 -
python crawler - 分析AJAX(根据json)直接爬取携程酒店问答存入本地
url:https://hotels.ctrip.com/Domestic/tool/AjaxHotelFaqLoad.aspx参数:hotelid :酒店idpage : 页数# coding=utf-8import requestsimport jsonfrom time import sleepfrom pprint import pprintglobal hotelurl = 'https://hotels.ctrip.com/Domestic/tool/AjaxHo.原创 2020-06-26 19:30:29 · 356 阅读 · 0 评论 -
python-PyPDF2对pdf的复制 && 合并demo
pip install PyPDF21.copy && merge操作from PyPDF2 import PdfFileReader , PdfFileWriterfrom PyPDF2 import PdfFileMerger # ---------copy ori_pdf as out_pdf--------------ori_pdf = 'pdf_learn.pdf'out_pdf = 'pdf_learn_copy.pdf'pdf_input = PdfFi原创 2020-06-26 10:46:57 · 786 阅读 · 0 评论 -
python-对docx文档操作demo + word批量转pdf 及[AttributeError]解决方案
pip install python-docx1.读取sample.docx:import docxfrom docx import Documentfrom pprint import pprintdef getText(filename): doc = Document(filename) fullText = [] for para in doc.paragraphs: fullText.append(para.text) return(fullText)pprint(g原创 2020-06-26 10:44:36 · 1183 阅读 · 0 评论 -
在python中使用mysql数据库demo
mysql数据库版本:mysql Ver 8.0.12 for Win64 on x86_64 (MySQL Community Server - GPL)0.免密登陆mysql -u root -p不输密码直接回车1.创建表DB、用户scraper1CREATE DATABASE DB;创建用户:create user 'scraper1'@'localhost' identified by 'passwd'授予其所有权限:grant all privileges on DB.* to原创 2020-06-25 21:49:56 · 867 阅读 · 0 评论 -
pyinstaller 打包python程序为.exe文件
1. 首先确保有pip2. http://www.pyinstaller.org/ 下载pyinstaller3.在下载的pyinstaller文件夹内使用终端,输入:pyinstaller -F -w -i icon.ico F:\python\test.py-F 为生成单独的.exe文件 (简洁但是拉低运行速度)-w为执行exe程序时不显示命令行窗口 (-F -w原创 2018-02-21 11:15:13 · 454 阅读 · 0 评论 -
创建.gitignore文件忽略不需要提交的文件
在所需要创建的地方右键单击,点击Git Bash here在出来的命令行中输入touch .gitignore然后在生成的.gitignore文件中添加需要忽略的文件名即可原创 2018-02-20 13:22:29 · 312 阅读 · 0 评论