
python
学习python日记
Drgom
多做事,少说话
展开
-
基于pyspark的随机森林
import findsparkfrom numpy import frompyfuncfrom pyspark.ml import classificationfrom pyspark.sql.functions import spark_partition_idfindspark.init()from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('test1').getOrCreate()df =原创 2021-12-29 23:07:54 · 1208 阅读 · 0 评论 -
Vscode配置python环境
添加拓展在设置查找Tconda,输入虚拟环境的名称执行RunAnaconda原创 2021-11-05 23:10:48 · 850 阅读 · 0 评论 -
Python读写数据库
import sqlite3connect = sqlite3.connect(r"sales.db")cur = connect.cursor()def find1(): print("*************显示某个输入的日期的当日数据****************") a = input("输入日期按年-月-日的格式 ") b= "'"+str(a)+"'" sql='select * from test where 日期= %s'%(b) p原创 2021-10-01 20:53:23 · 622 阅读 · 0 评论 -
好用的国内aconda下载源
#北京外国语学院 速度较快https://mirrors.bfsu.edu.cn/anaconda/miniconda/#清华源https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/原创 2021-08-27 22:40:45 · 428 阅读 · 1 评论 -
matplotlib的中文显示问题的解决
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False原创 2021-08-03 20:04:03 · 110 阅读 · 0 评论 -
pandas读取hive配置教程
之所以要使用pandas读取hive的数据,是在于pandas的数据处理能力很强,当然也可以使用sparksql处理,但如果要使用结果图表展示的话,建议还是使用pandas,当然如果上到集群的层面,sparksql是比较好的选择废话少说,上代码**@[toc] 1. 安装依赖`**pip install pyhivepip install thriftpip install saslpip install thrift_sasl如果你是就会发现sasl安装失败,如果你在windows平台原创 2021-08-03 00:03:28 · 2015 阅读 · 1 评论 -
selenuim的模拟登录cookie登陆失败的 invalid cookie domain问题
搞了一整晚的cookie问题,起先是因为不知道如何获取cookie,后来知道了有个好用的插件叫EditTHisCookie,可以将cookie导出在获取cookie后为一个list数据,倒可以直接遍历加入,但在模拟登录的时候,老是会报 selenium.common.exceptions.InvalidCookieDomainException: Message: invalid cookie domain的错误,后来发现selenuim登录前,需要先获取链接,在解决了这个问题,又报了: Message原创 2021-03-20 16:35:27 · 10658 阅读 · 0 评论 -
用scrapy爬取网页
使用xpath定位川宝相关视频的标题位置信息可以得到但是还不够,需要进一步定位各个元素可得到元素排列如下Scrapy的源码如下import scrapyfrom scrapy import Requestfrom scrapy.spiders import Rulefrom mySpider import itemsclass BibiliSpider(scrapy.Spider): name = 'bibili' allowed_domains = ['bili原创 2021-03-17 22:19:47 · 882 阅读 · 1 评论 -
爬虫学习二 - 提取下载的html的图片的链接地址
from lxml import etreedef range_file(page): parser = etree.HTMLParser(encoding="utf-8") key = str(page)+'.html' text = '尤果'+key html = etree.parse(text, parser=parser) result = html.xpath('//img/@src') file = open('信息.txt', 'a', e原创 2021-01-24 16:00:46 · 300 阅读 · 0 评论 -
python的sklearn分析酒店评分影响因素
酒店的评价不外乎设施,位置便利性,卫生和服务质量几个因素,我从数据超市下载一个数据集,将其中几个评分清洗出来截图如下#多元回归 分析获得客户评价对推荐人数的影响import pandas as pdimport statsmodels.api as smfrom sklearn.linear_model import LinearRegressionfilename = "../../data/各项评分.xls"data = pd.read_excel(filename)print(da原创 2021-01-02 22:36:14 · 2151 阅读 · 0 评论 -
python数据分析与挖掘实战的混淆矩阵纠错
#-*- coding: utf-8 -*-#使用神经网络算法预测销量高低from keras.models import Sequentialfrom keras.layers.core import Dense, Activationimport pandas as pdfrom cmplot import *#参数初始化from numpy import shapefrom 决策树.data.cm_plot import cm_plotinputfile = 'D:/Pytho原创 2020-10-06 17:22:39 · 377 阅读 · 0 评论 -
Python读取多个execl表并提取合并为一个表
import osimport pandas as pdimport xlrdfrom numpy import shapei=1newlist = []for filename in os.listdir('../data/'): data=pd.read_excel("../data/"+filename) x,y = data.shape data.columns=list('abcd') print(data.columns) data["a"]=data["a"]原创 2020-10-06 11:22:04 · 679 阅读 · 0 评论 -
Python加速镜像
#清华镜像 如安装 pymysqlpip install pymysql -i https://pypi.tuna.tsinghua.edu.cn/simple原创 2020-10-03 13:51:05 · 240 阅读 · 0 评论 -
pandas的索引
#pandas的iloc是通过 索引位置获取,修改数据 loc是通过标签修改数据#获取第2行到第六行(索引为5)的第二列到第六列数据 d.iloc[2:5,[2,5]]#修改第二行第六列的数据d.iloc[2,5]=70#标签为B行E列的数据d.loc["B","E"]=17#布尔索引 比较A列大于12的数据d["A"]>12d[(d["A"]>12)&(d["F"]>30)]...原创 2020-08-28 10:37:15 · 242 阅读 · 0 评论 -
python的DataFrame数据类型
#DataFrame数据类型适用高维数组 index行索引 cloumns 列索引d = pd.DataFrame(np.arange(36).reshape(6,6),index = list(string.ascii_uppercase[:6]), columns=list(string.ascii_uppercase[:6]))#数据维度d.ndim#数据值d.values#矩阵形状d.shape#前几行d.head(1)#后几行d.tail(1)#矩阵概述d.de原创 2020-08-27 21:44:04 · 8505 阅读 · 0 评论 -
pandas的Series数据类型
pandas的Series的数据用于低维的,且数据烈性必须一致#string.ascii_uppercase 以A-J为索引生成Series数据类型t = pd.Series(np.arange(10),index= list(string.ascii_uppercase[:10]))#以字典类型生成数据a = {string.ascii_uppercase[i]: i for i in range(10)}pd.Series(a)#修改Series的索引 value不存在则赋值为nan原创 2020-08-27 21:07:25 · 1024 阅读 · 0 评论 -
numpy的切片和索引操作
#建立一个6*6的矩阵a = np.arange(36).reshape(6,6)#取第一行a[1]#取第二列a[:,1]#取一到六行,步长为3a[1:6:3]#取一到六行,步长为3,再取1到6列步长为2a[1:6:3,1:6:2]原创 2020-08-26 21:59:52 · 193 阅读 · 0 评论 -
numpy的广播
#造数k=np.arange(0,11)#修改类型 修改为3行4列k=k.reshape(3,4)#修改为一列k=np.arange(12).reshape(12,1)简单的加减法与相同类型的数组的加法与不同类型的数组的的加减法(存在列或行相同)原创 2020-08-25 21:41:00 · 122 阅读 · 0 评论 -
python脚本读取文件
import sysfileName = sys.argv[0]fileName = input("输入文件名: ")f = open(fileName, 'r', encoding='utf8')line_no = 0while True: line_no+=1 line = f.readline() if line: print(line_no, ":", line) else: breakf.close()...原创 2020-08-03 14:53:19 · 1067 阅读 · 0 评论 -
python的列表
#创建列表a = list("abc")print(a)#替换指定序列a[1] = "5"print(a)#删除一个序列del a[1]print(a)#追加a.append("def")print(a)#链表的添加a.extend(a)print(a)#链表的插入a.insert(2,"kf")print(a)#删除指定序列的对象a.pop(2)print(a)#链表的复制s = a.copy()print(s)#链表的反转s2 = a.reverse()原创 2020-08-02 17:16:08 · 98 阅读 · 0 评论 -
python的内置数据
#序列数据的基本操做from sympy import falses1 = (1, 2, 3,4,5)c = sum(s1)#最小print(min(s1))#最大print(max(s1))#长度print(len(s1))#总结print(sum(s1))#序列查找print(s1[1])#切片操作print(s1[1:3])#连接操作s2 = (7, 8, 9, 10)s1 = s1 + s2print(s1)#复制操作s1 = s1 * 2print(s原创 2020-08-02 16:42:11 · 172 阅读 · 0 评论 -
python3函数和类的初始化
#python的类操作class an: a = 0 b = 3 def say(self): print("hello")g = an()g.say()print(g.b)#python的函数操作def run(mark): if(mark>90) : grade = "优秀" elif (mark>70 and mark <90) : grade = "良好" elif (mark<60) : grade原创 2020-08-02 16:13:01 · 394 阅读 · 0 评论 -
python的pillow库
from PIL import Imageim1=Image.open('D:\Html\照片\妹妹.png').convert(mode="RGB")#混合两张图im2=Image.new("RGB",im1.size,"gray")Image.blend(im1,im2,alpha=0.5).show()from PIL import Image img1=Image.open...原创 2020-04-29 13:17:36 · 949 阅读 · 0 评论 -
panda画箱型图
import pandas as pdcreate_study='D:/sqlfile/19.xls'data=pd.read_excel(create_study,index_col='排名')data.describe()import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcPa...原创 2020-04-23 12:03:00 · 246 阅读 · 0 评论 -
数据挖掘与实战源码纠错之第五章-决策树
import pandas as pdfrom sklearn.tree import export_graphvizfrom sklearn.externals.six import StringIOfrom sklearn.tree import DecisionTreeClassifier as DTCfilename = 'E:/百度下载视频/Python数据分析与挖掘实战/cha...原创 2019-11-29 14:51:09 · 178 阅读 · 0 评论 -
python的常用表图代码
import matplotlib.pyplot as pltimport numpy as npx = np.random.rand(1000)plt.hist(x, 10)plt.show()import matplotlib.pyplot as pltimport numpy as npimport pandas as pdplt.rcParams['font.sans-...原创 2019-11-20 14:25:48 · 389 阅读 · 0 评论 -
python的语音识别
首先基于python36安装模块pip install pyttsx3pip install PocketSphinxpip install SpeechRecognitionpip install comtypes利用txt文件创建语音文件 from comtypes.client import CreateObject engine=CreateObject("SAPI.Sp...原创 2020-04-19 16:10:43 · 871 阅读 · 1 评论 -
pytnon用opencv调用视像头记录视频
在这里import numpyimport cv2cap=cv2.VideoCapture(0)#0调取本地的摄像头w=int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))+1h=int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))+1det=cv2.CascadeClassifier('./haarcascade_frontalface...原创 2020-04-05 14:00:30 · 113 阅读 · 0 评论