Python机器学习_若北辰的博客-优快云博客

Python机器学习

文章平均质量分 69

Python机器学习，从入门到精通系列课程，三年从业经验浓缩出来本系列专题（任职某世界五百强公司的机器学习算法工程师），年薪50W之路等你来走。

文章数：33 文章阅读量：38903 文章收藏量：62

作者: 若北辰

循序渐进，日拱一卒，做时间的朋友！

展开

专栏收录文章

【Python机器学习】Gradio：让机器学习模型触手可及的交互式界面工具

Gradio凭借其低代码、高扩展性的特点，已成为MLOps生态中的重要工具。对于希望快速验证模型效果、构建原型系统的开发者，它是不可或缺的利器。延伸学习gradio.app• 进阶教程：《用Blocks API构建股票预测仪表盘》通过以上内容，开发者可快速掌握Gradio的核心功能，并将其应用于实际项目。无论是学术研究还是工业落地，这个工具都将显著提升模型的可访问性与用户体验。

原创 2025-04-08 08:05:30 · 158 阅读 · 0 评论
【Python机器学习】蒙特卡罗(洛)树搜索(MCTS)：学会“思考”的搜索算法

在今天的人工智能世界中，有一类算法被广泛应用于游戏领域，如围棋、象棋、以及视频游戏等，它让电脑在复杂的环境中表现得像是在“思考”。这类算法被称为蒙特卡罗树搜索(Monte Carlo Tree Search, MCTS)。这篇博客将为你通俗易懂地介绍什么是MCTS、它如何工作、以及它为何如此强大。蒙特卡罗树搜索（MCTS）是一种通过模拟未来可能情况来做出决策的搜索算法。它的核心思想是：通过不断地模拟未来几步的结果，找到当前最有希望的选择。在某种程度上，MCTS可以想象成一个会“想象未来”的玩家。

原创 2024-09-14 11:33:30 · 485 阅读 · 0 评论
【Python机器学习】核心数、进程、线程、超线程、L1、L2、L3级缓存

如何知道自己电脑的CPU是的，打开（同时按下：键、键、键）然后，点击任务管理器左上角的选项，观察右下角中的后面的数字，就是你CPU的核心数，下图中我的是16个核心的。需要注意的是，下面的表示支持在你上传的图片中，“进程：180” 和 “线程：3251” 的数字分别代表以下含义：进程 (Processes)：这是当前正在运行的独立程序的数量。在你的系统上，有 180 个进程正在运行。每个进程是一个独立的执行单元，它可以是一个单独的应用程序或者系统服务。线程 (Threads)：这是系统上所有进程中的线

原创 2024-09-05 12:41:25 · 467 阅读 · 0 评论
【Python机器学习】机器学习任务中常见的数据异质问题和模型异构问题是什么？解决策略是什么？

`数据异质问题`（Heterogeneity in data）通常指`数据集内部的不一致性`，这些不一致性可能来自多种源。

原创 2024-09-04 10:33:43 · 749 阅读 · 0 评论
【Python机器学习】马尔可夫场（Markov Random Field, MRF）的基本概念、数学定义、应用及优缺点

`马尔可夫场`（Markov Random Field, `MRF`）是一种用于表示`随机变量之间相互依赖关系`的`概率模型`，广泛应用于`图像处理`、`计算机视觉`、`机器学习`等领域。

原创 2024-08-08 10:56:45 · 244 阅读 · 0 评论
【Python机器学习】论文中常见的t⁃sne 降维图是如何画出来的

t-SNE(t-distributed Stochastic Neighbor Embedding) 是一种非线性降维技术，常用于在二维或三维空间中可视化高维数据。它通过将相似的数据点在低维空间中尽量靠近，而不相似的数据点则远离，从而揭示数据的结构和模式。

原创 2024-08-05 16:20:54 · 1071 阅读 · 0 评论
【Python机器学习】gradio库（快速创建简单的 Web 界面来演示机器学习模型）

Gradio 是一个 Python 库，用于快速创建简单的 Web 界面来演示机器学习模型。Gradio 使得任何人都可以轻松地与机器学习模型交互，而无需了解底层的技术细节。这个例子简单展示了如何将深度学习模型与 Gradio 界面结合，快速创建一个用户友好的模型演示。你可以轻松修改模型或转换逻辑，以适应不同的需求或数据。这个界面接受一个图像输入，显示一个标题，并且输出模型的预测结果。使用 PyTorch 的预训练模型 ResNet18 来对用户上传的图像进行分类。在这个例子中，我们创建了一个函数。

原创 2024-07-02 11:22:19 · 395 阅读 · 0 评论
Python机器学习019：sklearn中如何找到测试集中预测错误的样本在原数据中所在的索引位置

要查看预测错误的X_test在原始数据集中的索引，你可以首先找到预测错误的样本索引，然后将这些索引映射回原始数据集的索引。

原创 2024-03-21 16:13:02 · 392 阅读 · 0 评论
Python数据处理048：Python读写pkl文件

Pickle（.pkl）格式是Python特有的一种数据序列化方式。它允许用户将几乎任何Python对象转换为字节流，并将其存储在文件中。之后，可以从这个文件中恢复（反序列化）原来的Python对象。这种格式广泛用于数据持久化和在程序运行间传递对象。

原创 2023-12-22 14:25:49 · 1423 阅读 · 0 评论
Pytorch学习笔记 | GAN生成对抗网络 | 代码 | 生成数据 | 演变规律可视化

这是我们第一次自己生成数据！而且也符合【1，0，1，0】的格式规律！

原创 2023-08-02 17:27:35 · 770 阅读 · 0 评论
Pytorch学习笔记 | 构建神经网络模型 | 提升效果的优化方法

ELU（Exponential Linear Unit）函数，与ReLU类似，但对于负数输入，返回一个小于0的指数函数。: ReLU（Rectified Linear Unit）函数，将输入映射到大于0的值，小于0的值被映射为0。: Log-Softmax函数，与Softmax函数相似，但返回归一化后的对数概率值。: LeakyReLU函数，与ReLU类似，但对于负数输入，返回一个小于0的斜率。: Sigmoid函数，也称为逻辑函数，将输入映射到0和1之间的连续值。）是可选的，默认为0.01。

原创 2023-08-02 15:50:34 · 344 阅读 · 0 评论
Pytorch学习笔记 | 利用线性回归实现最简单的梯度下降 | 含代码和数据

梯度下降的基本思想是通过反复迭代来更新参数，使得每次迭代的目标函数值都朝着梯度的负方向下降，直到达到一个接近最小值的点。为了克服梯度下降的某些局限性，还有其他变种的优化算法，如随机梯度下降（SGD）、批量梯度下降（BGD）、小批量梯度下降（Mini-batch SGD）等，它们在实际应用中有不同的优势和特点。梯度下降是一种优化算法，用于最小化（或最大化）函数的值，特别是在机器学习和深度学习中，常用于优化模型的参数，使其能够更好地拟合训练数据。, xn是自变量（特征，用于预测y的值）；

原创 2023-07-25 22:23:06 · 305 阅读 · 0 评论
【科普系列】AI芯片：CPU GPU TPU DPU NPU BPU简介

AI芯片也被称为AI加速器或计算卡，即专门用于处理人工智能应用中的大量计算任务的模块需要注意：其他非计算任务仍由CPU负责GPU 图形处理器（graphics processing unit，缩写：GPU）FPGA 现场可编程逻辑门阵列（Field Programmable Gate Array，缩写：FPGA）ASIC 专用集成电路(Application Specific Integrated Circuit，缩写：ASIC)所谓的AI芯片，一般是指针对AI算法的ASIC（专用芯片）

原创 2022-11-26 11:01:07 · 4100 阅读 · 0 评论
Python机器学习018：Python解析配置文件ini文件到字典中（使用自带参数解析模块：configparser）

# -*- coding: utf-8 -*-"""@ModuleName:parser_ini@Function: 解析ini文件到字典中@Author: hupo@Time: 2020/12/31 下午 03:38"""import configparser # Python自带的解析模块def parser_ini(file_path): print("配置文件：\n", file_path) clf = configparser.ConfigParser()

原创 2020-12-31 16:29:34 · 583 阅读 · 0 评论
Python机器学习017：Python连接数据库、读取数据库、插入数据到数据库（MySQL、oracle、postgres）

"""对数据库进行操作的类功能：数据库连接、查询数据、插入数据、执行sql"""import pandas as pdfrom sqlalchemy import create_engineclass DatabaseOperate: def __init__(self, para): """ 初始化数据库连接 :param para: 字典类型，包含连接数据库所需要的用户名、密码、主机和端口号、数据库名、数据库类型

原创 2020-12-31 09:31:06 · 417 阅读 · 2 评论
Python机器学习016：pytorch张量与数据类型

标量、向量、矩阵；张量；32位浮点型：torch.float32 / torch.float64位浮点型：torch.float6432位整型：torch.int3216位整型：torch.int1664位整型：torch.int64/ torch.long。

原创 2022-10-28 16:33:08 · 509 阅读 · 0 评论
Python机器学习015：pytorch快速入门

pytorch实现线性回归，数据集是Income数据集，两列：Education,Income，29行数据

原创 2022-10-27 11:06:37 · 1147 阅读 · 0 评论
Python机器学习014：kaggle无法注册的解决办法亲测有效

主要用kaggel下载机器学习所用到的数据集，也可以看别人解决机器学习问题的方法和。

原创 2022-10-24 17:53:08 · 1455 阅读 · 0 评论
Python机器学习013：常用机器学习平台汇总

一个强大且易用的机器学习平台对于开展机器学习研究是非常重要的。好的机器学习框架会提供丰富的组件，可以方便机器学习模型的设计和实现。目前存在以下几类基本的机器学习平台：Caffe2 是面向工业级应用的框架，应用广泛。但是从安装部署角度来说，Caffe2 的用户体验并不是非常友好，官方文档和教程支持也不是十分充足。而且 Caffe2 只支持 Python 2，这限制了其未来的拓展。MXNet 是一款灵活高效的深度学习框架，并行计算性能好、运行速度快，并且程序节省内存，支持 R、Julia、Python、S

原创 2022-07-01 21:49:48 · 1483 阅读 · 0 评论
Python机器学习012：当csv格式的数据集太大（GB以上），pd.read_csv读取速度非常慢时，请果断使用h5！！！

（一）HDF与h5HDF(Hierarchical Data Format层次数据格式)是一种设计用于存储和组织大量数据的文件格式，最开始由美国国家超算中心研发，后来由一个非盈利组织HDF Group支持。HDF支持多种商业及非商业的软件平台，包括MATLAB、Java、Python、R和Julia等等，现在也提供了Spark。其版本包括了HDF4和现在大量用的HDF5。h5是HDF5文件格式的后缀。h5文件对于存储大量数据而言拥有极大的优势，当csv格式的数据集太大（GB以上），pd.rea

原创 2021-01-07 10:20:56 · 3242 阅读 · 0 评论
Python机器学习011：Python生成KNN分類所需要的數據集

# 导入数据集生成函数from sklearn.datasets import make_blobs# 导入画图工具import matplotlib.pyplot as plt# n_samples:生成样本数为400，centers:分类为4的数据集 ,random_state:随机数种子，让每次生成的数据不发生变化data = make_blobs(n_samples=400, centers=4, random_state=8)X, y = data# 可视化生成的数据plt.sc

原创 2020-12-07 09:00:19 · 207 阅读 · 0 评论
Python机器学习010：Python实现最简单的三层神经网络

import numpy as npdef sigmoid( x, deriv=False): #求导：derivation if (deriv == True): return x*(1-x) return 1/(1+np.exp(-x))x=np.array([[0,0,1], [0,1,1], [1,0,1...

原创 2018-10-22 19:08:36 · 1132 阅读 · 2 评论
Python机器学习009：基于加权移动平均的数据扩充办法（Python）

问题背景在做分析建模时，经常会遇到样本稀少的情况，例如上市企业的财报数据，每个季度发布一次，如果一家企业到目前为止上市了三年，那它的实际样本数量也就12条，使用这种如此小数量级的样本量来进行建模会导致模型存在稳定性差、过拟合、泛化能力差等风险。所以有必要对样本进行扩充。对样本进行扩充的方法比较多，譬如根据样本的实际分布使用相关模型进行数据模拟，或者使用Bootstrapping方法对样本进行有放回采样，又或者借鉴缺失值处理的方法对样本进行扩充，等等。在使用深度学习对图片数据集进行训练的时候，为了增加训练

原创 2020-06-16 13:53:38 · 1239 阅读 · 0 评论
Python机器学习008：安装prophet走过的坑

先安装：PyStanfbprophet依赖于PyStan，所以首先要安装PyStan库。我用的是Anaconda，直接pip install pystan然后安装：fbprophet这里面就出现坑了，直接说答案：conda update --force conda然后：conda install -c conda-forge fbprophet...

原创 2020-05-22 16:09:29 · 4026 阅读 · 0 评论
Python机器学习007：Python操作postgres数据库

import psycopg2conn = psycopg2.connect(database="postgres", user="postgres", password="123456", host="1.1.1.1", port="5432")cur = conn.cursor()sql = "CREATE TABLE table_name_2020_08_24 () inherits (table_name)"cur.execute(sql)

原创 2020-08-26 08:23:08 · 248 阅读 · 0 评论
Python机器学习006：波士顿房价数据集

1、波士顿房价数据集概述机器学习包sklearn中集成了各种各样的数据集，其中就包括波士顿房价数据集（boston_house_prices）是最简单的回归任务数据集之一。该数据集共有506条波士顿房价的数据，每条数据包括14项特征，分别是房屋的13项数值型特征和1项目标特征：房价。此外，该数据中没有缺失的属性/特征值，更加方便了后续的分析该数据集特征含义如下表：列名说明类型CRIM城镇人均犯罪率floatZN住宅用地超过 25000 sq.ft. 的比例flo

原创 2020-06-19 10:16:25 · 6790 阅读 · 0 评论
Python机器学习005：鸢尾花数据集

1、鸢尾花数据集概述机器学习包sklearn中集成了各种各样的数据集，其中就包括鸢尾花数据集（Iris）是最简单的分类任务数据集。鸢尾花数据集共有3个分类类别，分别是山鸢尾（Iris-setosa）、变色鸢尾（Iris-versicolor）和维吉尼亚鸢尾（Iris-virginica）该数据集共有150个样本，5个变量（4个特征变量，1个类别变量）。iris是鸢尾植物，4个特征分别对应萼片和花瓣的长和宽。如下表：列名说明类型SepalLength花萼长度floatS

原创 2020-06-18 09:40:04 · 1872 阅读 · 0 评论
Python机器学习004：线形回归案例

import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets, linear_modelfrom sklearn.metrics import mean_squared_error, r2_score# Load the diabetes datasetdiabetes = datasets....

原创 2019-09-01 09:32:37 · 250 阅读 · 0 评论
Python机器学习003：13种回归方法的实现代码

# -*- coding: utf-8 -*-"""@ModuleName:multi_regress@Function: @Author: H2017824@Time: 2020/5/25 上午 10:44"""import pandas as pdimport datetimefrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfro

原创 2020-10-27 10:06:05 · 278 阅读 · 0 评论
Python机器学习002：哪些机器学习算法不需要做归一化处理

需要归一化的模型：1.基于距离计算的模型：KNN。2.通过梯度下降法求解的模型：线性回归、逻辑回归、支持向量机、神经网络。不需要归一化的模型：1.树模型：决策树、随机森林（Random Forest）树形模型不需要归一化，因为树模型并不关心变量的值，而是关心变量的分布和变量之间的条件概率。其实归一化和标准化主要是为了使计算更方便，比如两个变量的量纲不同，可能一个的数值远大于另一个，那么他们同时作为变量的时候可能会造成数值计算的问题，比如说求矩阵的逆可能很不精确或者梯度下降法的收敛

原创 2020-08-17 11:18:33 · 1813 阅读 · 0 评论
Python机器学习001：前言

新的风口——人工智能雷军说过，站在风口，猪都能起飞当你选择站在某个位置时（可以理解为你工作或学习的研究方向），而刚好此时全球刮起了一波浪潮，无论你是才华卓著，还是资质平平，都将被这波浪潮裹挟着冲到浪潮之巅！比个人努力更重要的是借势！而人工智能就是那个“势”。我们都被时代的洪流所裹挟前进，顺势而为是每个平凡的我们想要跨越阶层最好的方法。人生苦短，成功需趁早！stay hungry， stay foolish！加油！行业的颠覆者人工智能不能超越人类的能力，但随着它能力逐步的逼近人类，就会开始

原创 2020-08-04 14:50:48 · 249 阅读 · 1 评论
Python机器学习：哪种机器学习算法适合你？| 线性模型 | 逻辑回归 | 最近邻 | 决策树 | SVM | 朴素贝叶斯 | 集成算法 |浅层神经网络 | 深层神经网络

你有数据和应用程序，但应先尝试哪个算法？无论你选择哪个算法，都有好的地方和不好的地方。下面介绍一些选择机器学习算法的基本原则。

原创 2023-08-25 15:07:44 · 228 阅读 · 0 评论
Python机器学习： sklearn简介 | 基于sklearn的案例代码及解释

scikit-learn是基于Python语言的机器学习库。简单高效的数据分析工具，可在多种环境中重复使用。

原创 2023-04-04 20:39:31 · 848 阅读 · 0 评论

Python机器学习

作者: 若北辰

【Python机器学习】Gradio：让机器学习模型触手可及的交互式界面工具

【Python机器学习】蒙特卡罗(洛)树搜索(MCTS)：学会“思考”的搜索算法

【Python机器学习】核心数、进程、线程、超线程、L1、L2、L3级缓存

【Python机器学习】机器学习任务中常见的数据异质问题和模型异构问题是什么？解决策略是什么？

【Python机器学习】马尔可夫场（Markov Random Field, MRF）的基本概念、数学定义、应用及优缺点

【Python机器学习】论文中常见的t⁃sne 降维图是如何画出来的

【Python机器学习】gradio库（快速创建简单的 Web 界面来演示机器学习模型）

Python机器学习019：sklearn中如何找到测试集中预测错误的样本在原数据中所在的索引位置

Python数据处理048：Python读写pkl文件

Pytorch学习笔记 | GAN生成对抗网络 | 代码 | 生成数据 | 演变规律可视化

Pytorch学习笔记 | 构建神经网络模型 | 提升效果的优化方法

Pytorch学习笔记 | 利用线性回归实现最简单的梯度下降 | 含代码和数据

【科普系列】AI芯片：CPU GPU TPU DPU NPU BPU简介

Python机器学习018：Python解析配置文件ini文件到字典中（使用自带参数解析模块：configparser）

Python机器学习017：Python连接数据库、读取数据库、插入数据到数据库（MySQL、oracle、postgres）

Python机器学习016：pytorch张量与数据类型

Python机器学习015：pytorch快速入门

Python机器学习014：kaggle无法注册的解决办法亲测有效

Python机器学习013：常用机器学习平台汇总

Python机器学习012：当csv格式的数据集太大（GB以上），pd.read_csv读取速度非常慢时，请果断使用h5！！！

Python机器学习011：Python生成KNN分類所需要的數據集

Python机器学习010：Python实现最简单的三层神经网络

Python机器学习009：基于加权移动平均的数据扩充办法（Python）

Python机器学习008：安装prophet走过的坑

Python机器学习007：Python操作postgres数据库

Python机器学习006：波士顿房价数据集

Python机器学习005：鸢尾花数据集

Python机器学习004：线形回归案例

Python机器学习003：13种回归方法的实现代码

Python机器学习002：哪些机器学习算法不需要做归一化处理

Python机器学习001：前言

Python机器学习：哪种机器学习算法适合你？| 线性模型 | 逻辑回归 | 最近邻 | 决策树 | SVM | 朴素贝叶斯 | 集成算法 |浅层神经网络 | 深层神经网络

Python机器学习： sklearn简介 | 基于sklearn的案例代码及解释