
python
满天星☞
加油
展开
-
python聚类模型KMeans
核心思想:#1.随机生成指定个数质心点,聚类的数量#2.质心点不变,更新类别,计算每个点与质心点的距离,计算出每个点距离哪个质心点最近,类别设置为哪个质心点类别#3.类别不变,更新质心点,所有点按质心点类别分组,没类别求出所有点的特征值的均值,质心点更新#4.新质心点执行第2步,循环调优,直到SSE不在变小#5.搭建好模型后,质心点个数从1到20根据模型求出每种SSE的值,画图得到最优质心点数量#机器学习聚类算法实现:from sklearn.datasets import make_blob原创 2021-07-27 23:09:16 · 398 阅读 · 0 评论 -
python分类模型KNN
#breast_cancer预测模型(乳腺癌)#从机器学习临近算法包加载分类模型from sklearn.neighbors import KNeighborsClassifier#从datasets加载数据集from sklearn.datasets import load_breast_cancer#从模型加载训练测试分割方法,用于模型评价from sklearn.model_selection import train_test_splitimport numpy as npnp.se原创 2021-07-25 01:04:56 · 275 阅读 · 1 评论 -
pythonk分类模型KNN原理
1.机器学习算法体系机器学习的方法基于数据产生的模型的算法,成为学习算法,包括有监督学习,半监督学习,无监督学习,强化学习有监督学习:数据集样本是否有学习对象标签y,有的话就是有监督学习,反之尝试找一个模型学习特征值x与目标值y之间的关系可分为分类问题和回归问题分类任务中标签y都是离散值(类别型变量)回归任务中标签y都是连续值无监督学习:不带任何标签数据特征进行建模,数据自己学习自己,聚类任务和降维任务半监督学习:标签y有一部分是空值强化学习:将学习看成是试探评价原创 2021-07-24 21:47:30 · 414 阅读 · 0 评论 -
数据结构-两个栈实现队列的push和pop
"""用两个栈来实现一个队列,完成队列的push和pop操作"""class Solution: def __init__(self): self.stack_a = [] self.stack_b = [] def push(self, item): self.stack_a.append(item) def pop1(self): # b中有数据 if self.stack_b:原创 2021-07-21 09:12:47 · 232 阅读 · 0 评论 -
MySql知识点汇总
原创 2021-07-01 09:11:52 · 100 阅读 · 0 评论 -
链家二手房100页Xpath爬取保存csv
import randomimport timeimport csvimport requestsfrom fake_useragent import UserAgentfrom lxml import etreeclass House: def __init__(self): self.url = 'https://bj.lianjia.com/ershoufang/pg{}/' self.f = open('链家100.csv','w')原创 2021-06-27 14:37:22 · 459 阅读 · 0 评论 -
Python趣味算法1-肇事司机车牌号
""" 肇事司机逃逸,三个人看到车牌的情况: 1.前两个数一样 2.后两个数一样,和前两个不同 3.整个四位是一个数的平方 分析: 1.前后两数一样,通过循环生成一个四位数item 2.由于是四位数31的平方是最后一个三位数,之后都是四位数 3.100的平方是五位数,所以循环是从(31,100) 4.找出k的平方等于item的数"""for i in range(10): for j in r转载 2021-04-21 08:38:05 · 1618 阅读 · 0 评论 -
python面向对象习题-MVC电脑管理详细过程
"""--------------computer MVC----------------- brang: 品牌 memory: 内存大小 sn: 电脑编码(惟一) cpu: cpu的型号 注:编写流程已标好从第一步到左后一步1,2,3,.....--------------------------------------------"""# 电脑模型类M--(第6步)class ComputerModel: def __转载 2021-04-20 19:49:28 · 118 阅读 · 0 评论 -
python经典练习100例-8.九九乘法表
#分支语句for和while套用使用#方法1,for循环for j in range(1, 10): for i in range(1, j + 1): print("{}X{}={}\t".format(i, j, j * i), end="") print()#方法2,while循环j = 1while j <=9: i = 1 while i <= j: print("{}X{}={}\t".format(i, j原创 2021-03-27 19:14:20 · 168 阅读 · 0 评论 -
python进行小时分秒的换算
任务要求:1.一次性输入秒数计算距离0:0:0有多少秒 例如:60330->16:45:302.输出该秒数代表的时间:小时:分:秒操作:1.获取数据second = int(input("请输入秒数:"))2.填写数据3.换算时间:hour = second // 3600minute = second % 3600 // 60second1 = second % 604.打印结果print("输入秒换成时间是",hour,":",minute,":",second1)原创 2021-03-25 00:06:14 · 4270 阅读 · 0 评论 -
python柱形图填充
将画出的柱形图填充各种形状import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineplt.rcParams["font.sans-serif"] = "Simhei"#填充符号marks = ["o","X","+","*","O","."]#设置X,Y轴的值y = np.random.randint(10,100,len(marks))x = range(len(mark原创 2020-06-07 20:58:51 · 5188 阅读 · 2 评论 -
python字符串格式化输出的几种方式
三种方法分别为:%,format(),f-stringname = "Allen"address = "优快云"language= "Pyhton"#用%s输出print("我叫%s,我喜欢在%s学习%s" % (name,address,language))#用format()输出print("我叫{},我喜欢在{}学习{}".format(name,address,language))#用f-string输出,python在3.5以上新功能print(f"我叫{name},我喜欢在{原创 2020-05-18 10:51:01 · 419 阅读 · 0 评论 -
python学习—简单线性回归模型
初学线性回归,个人表示比较蒙,做下笔记,供自己回看1.加载需要的模块import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionplt.rcParams["font.sans-serif"] = "Simhei"2.读取显示数据data = pd.read_excel("data/LinearRegression.xlsx")data>>&原创 2020-05-15 15:39:43 · 713 阅读 · 0 评论 -
python中numpy的reshape方法
numpy的reshape()方法用于将数据从新组织,由于保存记录方便查看 import numpy as np a=np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]) a #运行结果 array([[ 1, 2, 3], [ 4, 5, 6], [ 7, 8, 9], [10, 11, 12]]) a.reshape(2,6) #运行结果原创 2020-05-15 13:37:54 · 490 阅读 · 0 评论 -
python数据分析数据的去重,缺失值的处理
1.1重复值的查看,带参数可以传入列,也可以不带: df.duplicated(subset=" ")1.2重复值的处理(删除) 删除整体数据的重复值,每个字段都一样的行 带参数inplace=True改变原始数据,不带参数默认不改变 df.drop_duplicates(inplace=True) 按照某几列去重,是个列表的形式传入不同的列名: df.drop_duplicates(subset = [ " " , " " ]) 删除后的保留...原创 2020-05-12 23:30:43 · 1840 阅读 · 0 评论 -
列表表达式爬取红牛分公司数据
列表达式爬取红牛官网分公司信息import requestsimport pandas as pdimport bs4response = requests.get("http://www.redbull.com.cn/about/branch")main_page = bs4.BeautifulSoup(response.text,"html.parser")company = [i.text for i in main_page.findAll("h2")]address = [i.tex原创 2020-05-11 10:59:44 · 412 阅读 · 0 评论 -
正则表达式爬取红牛分公司数据
正则表达式还是很好玩的,爬取红牛官网分公司信息import requestsimport reimport pandas as pdresponse = requests.get(url="http://www.redbull.com.cn/about/branch")company = re.findall('<h2>(.*?)</h2>', response.text)add = re.findall("<p class=\'mapIco\'>(.*?)&原创 2020-05-10 23:57:24 · 428 阅读 · 0 评论 -
pandas读取excel文件数据格式被转换
当读取exccel问件时候,纯数字文本格式会被转换成int类型,由于文本格式数据表中会出现类似以0开头的数据,如00123,读取完后数据会变成int格式,而前面的0就会被忽略掉,造成数据被改变,我们在读取时候加入一个参数detype,强制一下格式就行了df = pd.read_excel("路径\abc.xlsx",dtype={"工号": "object"})这样读取后的数据查看df.head() 读入数据后工号数据前面的0就会显示出来前后对比:加参数前 ...原创 2020-05-09 15:27:30 · 8125 阅读 · 0 评论 -
Python的一只虫子,爬取风景图
实例为爬取天堂图片网旧版,自然风光图片,共有576页,每页20张,可设置参数爬取!import requestsfrom bs4 import BeautifulSoupi =2#i<=10,循环2-10,共9次,10可以改成存在页数的任意值,越大下载越多,此页面存在576页while i<=2: url = "https://www.ivsky.com/Photo/...原创 2020-05-07 17:38:20 · 485 阅读 · 0 评论 -
python超速下载模块
用pip下载模块时候默认国外网站,各种的慢,卡,断,烦不胜烦介绍一个国内比较快的:清华源https://pypi.tuna.tsinghua.edu.cn/simple使用方法如下:比如制作词云图用到的 jieba 和 wordcloud,只要后面加个参数 -i 后面附上清华源地址就OKpip install jieba -i https://pypi.tuna.tsinghua.edu...原创 2020-05-06 20:44:16 · 413 阅读 · 0 评论 -
词云图,简单几步,轻松实现
词云图用python轻松实现,使用anconda 的jupyter notebook编写效果图:实现词云图分为简单的几个步骤:1.加载需要的模块,一般 jieba 和wordcloud这两个模块要从新下载pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple 清华源pip install wordcloud -i ...原创 2020-05-05 15:37:07 · 3436 阅读 · 3 评论 -
链家二手房源数据集,练手专用
新爬取源文件未做处理,供python初学做数据分析使用,部分字段是连在一起的涉及字符串分割,还有异常数据等https://download.youkuaiyun.com/download/sunjiaxing_1/12390212可以下载练手使用!...原创 2020-05-05 14:53:49 · 910 阅读 · 0 评论 -
python字符串切割两种方法
获取到数据后,有些列需要拆分开来使用,这就用到了字符串的切割下面用一个简单数据说明数据: 0 1 0 我叫荷花 22 1 你叫啥 18 2 西瓜叫你好 16方法1:df[0].str.split("叫",...原创 2020-05-05 12:27:07 · 2191 阅读 · 0 评论 -
多个csv文件或者excel读取方法
当遇到数据过大,分为多个文件存储时候,需要同时读取多个文件用os.listdir()获取路径下所有文件1.介绍os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表2.实现方法:#加载模块import pandas as pdimport os#获取路径下表格名字列表listfile=os.listdir(“路径/”)#初始化一个空列表lists =...原创 2020-05-05 12:21:24 · 1136 阅读 · 0 评论