
机器学习
各种常用的机器学习算法的记录
yuxiaoyanran2020
这个作者很懒,什么都没留下…
展开
-
python将数据写入mysql
将以数字命名的文档批量插入mysql数据库 import pandas as pd for i in range(1,24): data_info = pd.read_csv("文档地址"+str(i)+".csv") # utf8格式 from sqlalchemy import create_engine engine = create_engine('mysql+mysqldb://用户名:密码@主机名:端口号/业务库?charset=utf8') #将数据写入sql原创 2022-01-06 14:24:20 · 1340 阅读 · 0 评论 -
pandas神坑:如果列有NAN,则默认给数据转换为float类型
今天碰到一个错误,一个字典取值报keyError, 一查看key, 字符串类型的数字后面多了小数点0, 变成了float的样子了。 发现了pandas一个坑:如果列有NAN,则默认给数据转换为float类型! 来源:https://stackoverflow.com/questions/39666308/pd-read-csv-by-default-treats-integers-like-floats 但是,我们这里不想要让它转成float, pandas中有dtype指定列的数据类型,我们可以在read转载 2022-01-05 13:27:28 · 1520 阅读 · 0 评论 -
距离公式详解
在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。 目录1. 欧氏距离(EuclideanDistance)2. 曼哈顿距离(ManhattanDistance)3. 切比雪夫距离 ( Chebyshev Distance )4. 闵可夫斯基距离(MinkowskiDistance)转载 2021-08-18 14:46:00 · 2671 阅读 · 0 评论 -
机器学习--聚类
聚类是无监督学习中最常用的算法。 层次聚类 也称为凝聚的聚类算法,最后可以生成一个聚类的图,但Python中不容易生成这种图,一般直接在界面软件中生成。 有自顶而下和自底向上两种,只是过程相反 自顶而下聚类: (1)计算所有的样本和样本之间的距离,找到离得最近的两个样本聚成一类。 (2)将上面的小类看做一个新的样本,再选择这个类中的每个样本与剩下的样本的最小距离作为这个新样本与剩下样本的距离,将距离最小的样本再聚成一类,依次类推。 (3)直到最终聚成一类。 距离计算:马氏距离 类间距的计算: 1)最短距离原创 2020-11-29 15:26:15 · 729 阅读 · 0 评论