
机器学习
文章平均质量分 50
在下小天n
强者为王!
展开
-
python机器学习算法--贝叶斯算法
原理牵涉到概率论的问题,不在详细说明。· priors:矩阵,shape =[n_samples,n_features]为训练数据,其中n_samples的样本数和n_features是特征的数量。· numpy.meshgrid(x,y)的功能是假设x是长度为m的向量,y是长度为n的向量,则最终生成的矩阵X和Y的维度都是n×m。· smoothing:浮点数,所有要素的最大方差部分,添加到计算稳定性的差异中。· numpy.Ravel()的功能是把多维度的矩阵数据转成一个维度。原创 2024-07-31 21:10:09 · 1443 阅读 · 0 评论 -
python机器学习算法--Kmeans算法
个聚类中,使得每个点都属于离它最近的均值和聚类中心所对应的聚类,也就是中心点,以之作为聚类的标准。聚类基本上就是依照“物以类聚”的方式,也可以想成,相似的东西有着相似的特征,所以相同种类的数据应该是非常类似。· 需要在初始的时候告诉系统有几类数据。比如,有两种数据就需要写成KMeans(n_clusters=2)。k-means主要是计算同一类的数据,计算出该类的平均中心点位置,· 训练的时候kmeans.fit(X)不需要标签Y。k-means与kNN是没有任何关系的两种算法。k-平均聚类的目的:把。原创 2024-07-31 12:55:43 · 492 阅读 · 0 评论 -
python机器学习12--Regression回归分析
比如,天气的温度和湿度值(因,Feature),是否下雨(果,Label),收集大量的数据后就被称为数据集Dataset,其数据量最少100个以上。机器学习大数据分析中最重要的就是数据的搜集,如果收集的数据是错误的,不管用什么样的算法都找不到答案。· 测试用数据集(Testing Dataset):测试用,用来验证刚刚用运算法和训练用数据集所找出的答案,通过测试用数据集来验证答案是否正确,并求出结果的正确率为多少。(2)Label标签,就是柠檬和橙子,通常都会用一个数字来代表,如1为橙子,2为柠檬。原创 2024-07-30 19:06:36 · 1121 阅读 · 0 评论 -
python机器学习12-pyinstaller生成运行文件
pyinstaller是一个非常棒的工具,主要目的就是让Python的应用程序可以转换成运行文件,而且这个工具在不同的操作系统上使用,就可以转换成该系统的运行文件。(3)运行以下的指令,将Windows的程序命令集cmd或Mac/Linux的Terminal的工作路径移动到桌面。在Windows 操作系统下通过以下的步骤,将Python的程序包装成.exe的文件。(2)打开Windows的程序命令集cmd或Mac/Linux的Terminal。(1)先将mypython.py 程序复制到桌面上。原创 2024-07-30 12:58:28 · 260 阅读 · 0 评论 -
机器学习11-numpy
为了方便预定义大量的数组,NumPy还提供了许多函数来创建矩阵,比如zeros默认数组为0,ones默认数组为1,full默认数组为自定义数。多维数组的切割在科学和统计上的计算是非常重要的,在这个程序中,将通过[数组行头,尾:数组列,尾]方式,把多维数组给切片(slicing)出来。通过NumPy可以很轻松地做到数组的计算,如线性代数中的加、减、乘、除、平方等运算,甚至较复杂的矩阵相乘,也可以通过dot()函数来完成。维数组的记录和计算方法,很多函数库都会用到,如SciPy、Tensorflow等。原创 2024-07-30 12:07:07 · 350 阅读 · 0 评论 -
python机器学习10-pandas
注意:pandas函数也能读入在云端的数据,可通过“df=pd.read_excel('http://xxxx/test.xls','sheet')”将Excel表装载。· sheet_name="sheet":请依照实际的Excel文件的工作表填写,如果不确定可以用sheet_name=0,来可以打开第一个工作表。· read_csv:可以读入本地文件(如text.csv),也可以读入网络文件(如http://xxx/test.csv)。· df.info():关于DataFrame的详细信息。原创 2024-07-28 17:30:17 · 570 阅读 · 0 评论 -
python机器学习9--网络服务器
有没有更简单的方法让朋友可以直接取得你所开发的Python程序?有两个方法可以使用。第一个方法是使用安装程序,将完整的Python程序安装,另外一个方法就是使用网页服务器的方式,在此将介绍和使用Python创建一个网页服务器,如此一来,用户就可以通过网页的方法来交换数据,也可以通过远程网络IP的方法,即时和你的程序之间做一个链接的交互。运行可以,但网页不支持这种操作,post,get 都不行。下面这个显示的是文本内容。原创 2024-07-27 13:43:34 · 194 阅读 · 0 评论 -
python机器学习8--自然语言处理(2)
次数的统计)在很多情况下,有一些文章内的英文字符、标点符号分词的结果不符合自己的预期,会出现一些不想要的分词,此时就能通过以下的函数自己设定用词,并且删除。因为jieba对每一个字会给出IDF分数比重,但是在很多时候,会希望把文章中特别的关键字突显出来(或者降低),可以设定IDF分数高一些(或低一些),就能将想要的字突显出来(或者降低)。一个demo次数的统计)原创 2024-07-25 19:25:13 · 404 阅读 · 0 评论 -
python机器学习8--自然语言处理(1)
语义:就是一句话的重点是什么。自定词汇:因为语言、文字太多,自定和处理你所关心的重点词汇。简体转繁体代码text1 = "我去过清华大学"print(" "+text1) # 打印原文本print("s2t;"+line) # 打印转换后的文本2.中文分词断词工具在中文分词的处理方面,Python有几个第三方的程序pymmseg、smallseg和jieba,本节将介绍的是jieba。这个需要先安装。原创 2024-07-24 21:19:37 · 1034 阅读 · 0 评论 -
python机器学习8--网络
在实际开发应用程序时,一定都会利用WiFi网络进行连接,再通过HTTP的方式读入后台的数据,并下载和显示在用户的PC上。这靠的是网络服务的技术,也就是大家提到的Web Service。而与HTTP服务器交换数据有两种常见的数据传递方法:HTTP GET和HTTP POST。HTTP POST会比GET安全得多。原创 2024-07-24 11:14:09 · 295 阅读 · 0 评论 -
python机器学习7--文件处理和开放数据
当前Open Data所取得数据的格式很多,如XLS、CSV、TXT等文本格式的数据,也有JSON、XML、SOAP等网页格式的数据。以下案例中,首次运行的时候,会判断工作路径中是否有一个名为folder的文件夹,如果没有这个文件夹,将创建一个名为folder的文件夹,移动工作路径到该文件夹,且显示当前的工作路径。通过以下程序,将会打开'workfile.xls'文件,把第一个sheet窗体内的数据读入进来,然后通过循环的方法,把第一个值域的所有数据写到'write.xls'的第0个值域中。原创 2024-07-15 23:42:21 · 200 阅读 · 0 评论 -
python机器学习6-----图表函数库Matplotlib
subplot(223)中数字223的意思是指有2×2=4个局部,即2个上下和2个左右,所以画面有4个局部,然后是使用其中的第3个局部,依照上、下、左、右的顺序来计算,所以会呈现下方左边的结果。Matplotlib是Python著名的绘图函数库,它提供了一整套图表的API,可以将数据绘制成图表,而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。Matplotlib是很大的Python库,而pyplot是Matplotlib中的一个模块,本章的绘图几乎都是通过pyplot来完成的。原创 2024-07-15 22:13:23 · 507 阅读 · 0 评论 -
python机器学习5 数据容器
list1[:-2],“-2”指取出从后面算起的第2个数据,list1[:-2]也就是同list1[:3],取出第0个到倒数 第2个之间的数据,即输出[0,1,2]。· list1[0:2],取出list1[0]和list1[1]的数据,也就是输出[0,1]。· list1[1:],取出list1[0]后的所有数据,也就是输出[1,2,3,4]。· list1[:3],取出list1[3]之前的所有数据,也就是输出[0,1,2]。· List,数组,如同Array数组。原创 2024-07-13 11:16:13 · 442 阅读 · 0 评论 -
python机器学习3
Tkinter是Python的标准GUI图形化使用界面,支持跨平台功能,是当前Python开发者使用最多的函数库。按键的方法如下:在程序中通过tk.Button添加一个按键,并指定该按键按下去后,会调用event1自定义的函数。运行的时候,在窗口上面通过鼠标的单击和拖动,可以体验到bind()的功能,可以绘制出图画。· JPython:这是一个以Java为基础的Python函数库,使用Java的GUI类为基础的Python GUI程 序。· place(),在窗口中X、Y指定的位置加入文字组件。原创 2024-07-07 09:13:58 · 522 阅读 · 0 评论 -
机器学习4----随机森林
【代码】机器学习4----随机森林。原创 2024-02-14 15:44:02 · 546 阅读 · 1 评论 -
机器学习3----决策树
【代码】机器学习3----决策树。原创 2024-02-14 14:58:18 · 937 阅读 · 1 评论 -
机器学习2--逻辑回归(案列)
糖尿病数据线性回归预测。原创 2024-02-10 22:22:55 · 1158 阅读 · 0 评论 -
机器学习2---逻辑回归(基础准备)
逻辑回归是基于线性回归是直线分的也可以做多分类。原创 2024-02-10 21:04:41 · 935 阅读 · 0 评论 -
机器学习1一knn算法
csv的数据应该是逗号分隔,但也不确定,要去查看数据不要只看拓展名要点进去看一下。Head()默认前5行,head(3)就是前3行数据。Knn查看前5行数据head(),info看空非空。曼哈顿距离一般是比欧式距离长的除非在一维空间。如果把原数据删掉加上inplace=true。Unique()可以查看分类后的结果。这个删掉没有把原数据删掉。拐弯的就是曼哈顿距离。原创 2024-02-07 13:02:14 · 774 阅读 · 0 评论