qq_45144479-优快云博客

原创 AI产品经理入门

监督学习适用于有明确标签和目标的任务，但需要大量标注数据。- 无监督学习适用于发现数据中的潜在结构和模式，但目标不明确。- 半监督学习结合了监督和无监督的优点，能够利用大量无标签数据，但模型训练较为复杂。- 强化学习适用于需要与环境交互并进行长期规划的任务，但样本效率低，奖励函数设计困难。回归、分类、聚类、降维。

2025-03-18 17:10:16 964

原创 jupyter中使用pandas_profiling库报错

尝试过降低版本，降级 Pydantic 到 1.x、升级。

2025-03-03 12:42:33 423

原创 subplot和subplots的区别

如果需要一次性创建多个子图并批量操作，推荐使用 `subplots`。- 如果需要逐个添加子图或动态调整子图布局，推荐使用 `subplot`。- `subplots` 更适合大规模子图的统一管理，而 `subplot` 更灵活，适合逐个操作。

2025-03-02 20:47:49 932

原创 Jupyter 报错：SyntaxError: positional argument follows keyword argument

例如，对于函数def func(a, b)，如果调用时写成func(b=2, 1)，就会出现“positional argument follows keyword argument”的错误，因为位置参数1被放在了关键字参数b=2之后。正确的调用方式应该是func(1, b=2)或者func(a=1, b=2)因此，不能直接写成 data=iris，而应该写成 frame=iris 或直接传递 iris作为第一个位置参数。

2025-03-02 20:30:45 538

原创机器学习过程：特征、模型、优化和评估

来源：中国人工智能学会，数学建模与人工智能机器学习：通过构建大脑级别得大规模并行架构为基础得算法，将人工赋予机器智能转移到机器自行习得智能。

2025-03-02 15:37:00 1174

原创认识机器学习

以乳腺癌检测为例，根据肿块大小和年龄的以往数据进行分类，形成良性恶性分界曲线。如下图所示：根据现有一患者的年龄和肿块大小，对其进行分类（图片来源：Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera）获取没有标签的数据并尝试自动将他们分组为集群。例如：在金融中检测金融诈骗的应用。在尽可能少的损失的前提下压缩数据。

2025-02-28 11:44:25 247

原创 WordCloud+jieba绘制词云图

2.导入WordCloud库和jieba库等绘制词云需要的包。

2024-09-24 21:43:44 489

原创 matplotlib绘制折线图、条形图和饼图

数据处理：取出门店名称字段的数据并转换为列表作为‘标签’参数，将GMV列取出转换为列表作为‘数据’参数，颜色自定义。用pandas的DataFrame数据类型存储数据，用groupby方法分组，reset_index()方法重置索引。饼图：pie(数据，标签，数据百分比，其实角度，颜色)折线图：plot(x轴数据,y轴数据)柱状图：bar(x轴数据,y轴数据)

2024-09-21 16:20:25 604

原创记使用latex报“!Missing $ inserted.”错误解决办法

但在报错的代码中并没有用到数学公式。根据错误信息提示319行，发现程序把名称item_id 中的下划线当做了数学符号，原因是在latex中 _ 表示引用下标，^ 表示上标，所以报错。提示缺少 $ 插入环境，在latex中 $ 和 [ ] 符号表示插入数学符号或公式。$ 表示在字间插入公式，$$ 表示在行间插入公式。总结：今后在使用latex中若遇到类似错误，可查看数学环境的使用。解决办法：若要正常显示 _ 要用转义符号，更改为。在学习使用longtable中运行以下代码。

2024-08-01 11:50:09 12082 2

原创 Python数据分析入门

菜品洗好后是放在一起的，这个时候你要做什么菜，就把什么菜挑出来（数据筛选）；1.数据分析是运用合理的工具，在统计学理论的支持下，对数据进行一定的预处理，然后结合具体业务分析数据，帮助相关业务部门监控、定位、分析、解决问题，从而帮助企业高效决策，提高经营效率，发现业务机会点，让企业获取持续竞争的优势。我的理解是，Python是一种分析的工具，如果作为数据分析师，我们的重点在于要通过数据分析，看到数据底层的本质，看到数据反映的问题，并作出合理的优化建议，或帮助领导人作出重要决策。

2024-07-31 11:33:03 292

原创 Python数据分析入门15（numpy简介）

numpy是针对多维数组的一个科学计算的包，封装了多个用于数组间计算的函数。数组是相同数据类型的元素按一定顺序排列的组合，需要注意的是必须是相同数据类型的，比如全是整数、全是字符串或者其他。

2024-07-30 13:30:55 1223

原创 Python数据分析入门13-14（数据可视化）

总结：第一种创建坐标系的方法 add_subplot 属于对象式编程，所有的操作都是针对某个对象进行的，比如先建立一块画布，然后在这块画布上建立坐标系，进而在坐标系上绘图。而后三种建立坐标系的方法属于函数式编程，都是直接调用 plt 库里面的某个函数或者方法达到创建坐标系的目的。调用plt库的bar(),plot(),barh(),scatter(),pie()等方法绘制柱状图、折线图、条形图、散点图、饼图等常用图表。python中数据可视化库matplotlib，首先导入此库。

2024-07-29 13:00:26 397

原创 Python数据分析入门11-12（多表连接和结果导出）

ic(pd.merge(df,df_join,on='商品编号',how='inner',suffixes=["_L","_R"]))

2024-07-28 13:47:31 937

原创 Python数据分析入门10（数据分组和透视表）

为了接下来对分组结果进行进一步处理与分析，我们需要把非标准形式转化为标准的 DataFrame 形式，利用的方法就是重置索引reset_index()方法。直接运行groupby()方法返回的是DataframeGroupby对象而不是Dataframe，这个对象里面包含着分组以后的若干组数据，但是没有直接显示出来，需要对这些分组数据进行汇总计算以后才会展示出来。分组后默认对所有数据进行聚合运算，若只需要对某些列进行运算，可通过索引的方式取出来，然后对取出来的数据上进行聚合运算。

2024-07-27 17:08:27 1119

原创 Python数据分析入门3-4（pandas数据结构和文件读取）

以单一列表的形式传入，列表的值为1列，且行列索引都是从0开始的默认索引；传入嵌套列表，会根据列表数生成多行多列的数据，行列索引同样默认从0开始，可通过index参数自定义行索引，columns参数自定义列索引。传入字典则key值为列索引，values为值，行索引为从0开始的默认索引，也可用index自定义行索引。Series默认索引从0开始，index参数可自定义索引，用以字典的形式传入，key为索引，value为值。DateFrame是由一组数据和一对索引（行和列索引）组成的表格型数据结构。

2024-07-26 19:17:45 751

原创 Python数据分析入门5-6（数据预处理）

删除重复值，判断多列重复，用列表形式将列名传入subsetic(df_excel.drop_duplicates(subset='售货员'))

2024-07-26 10:11:41 328

原创 Python数据分析入门9（时间序列）

1.获取当前时间输出如下：2.时间格式转换补充：自定义时间格式3.时间筛选4.时间推移输出如下：5.时间差计算输出如下：

2024-07-25 17:54:57 245

原创 Python数据分析入门7-8(数值操作)

Python数据分析入门

2024-07-25 17:52:39 490

qq_45144479的博客