DAY 8 标签编码与连续变量处理

原创

已于 2025-05-23 20:44:56 修改 · 1k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #jupyter #python

于 2025-05-23 17:49:04 首次发布

一、字典的简单介绍

字典（dict）：{ }

通过 key 找到是相关联的另一个数据 value ，由一个个 键值对 组成

# 定义字典
my_dict = {"周杰伦":99, "张三":90, "阿里":89}

# 定义空字典
my_dict_empty = {}
my_dict_empty = dict()

# 定义重复key的字典（不允许重复，重复相当于覆盖）
my_dict = {"周杰伦":100, "周杰伦":90, "阿里":89}
print(my_dict) # 输出：{"周杰伦":90, "阿里":89}

# 从字典中基于key获取value 无索引0 1 2...
my_dict = {"周杰伦":99, "张三":90, "阿里":89}
score = my_dict["张三"]
print(score)  # 输出：90

# 定义嵌套字典 key不能为字典
stu_score_dict = {
    '王力宏': {
        '语文': 77,
        '数学': 66,
        '英语': 33
    },
    '周杰伦': {
        '语文': 88,
        '数学': 86,
        '英语': 55
    },
    '林俊杰': {
        '语文': 95,
        '数学': 85,
        '英语': 76
    }
}
print(f'学生的考试信息为：{stu_score_dict}')

# 从嵌套字典中获取数据
score1 = stu_score_dict['王力宏']['数学']
print(f'王力宏的数学成绩为：{score1}')

字典常用操作：

# 新增和修改 key不存在时为新增，key存在时为修改
字典[key] = value

# 删除 传入一个key，能取到对应的value，同时删除key和value
字典.pop[key]

# 清空  
字典.clear()

# 获取全部的key 用来遍历  字典.keys()
my_dict = {"周杰伦":99, "周杰伦":90, "阿里":89}
keys = my_dict.keys()
print(keys)  # 输出：dict_keys(['周杰伦', '王力宏', '阿里'])

# 遍历字典
for key in keys:
  value = my_dict[key]
  print(f'{key}的value值为:{value}')
# 或者	
for key in my_dict:
  value = my_dict[key]
  print(f'{key}的value值为:{value}')
"""
输出：
	周杰伦的value值为:99
	王力宏的value值为:90
	阿里的value值为:89
"""

# 统计字典内元素数量
count = len(my_dict)

编号	操作	说明
1	字典[Key]	获取指定Key对应的Value值
2	字典[Key] = Value	添加或更新键值对
3	字典.pop(Key)	取出Key对应的Value并在字典内删除此Key的键值对
4	字典.clear()	清空字典
5	字典.keys()	获取字典的全部Key，可用于for循环遍历字典
6	len(字典)	计算字典内的元素数量

读取数据

import pandas as pd
dt = pd.read_csv('data.csv')

二、标签编码

对离散特征的处理中

- 前边学习了对没有顺序和大小关系的离散特征进行独热编码，借助pd.get_dummies()方法

- 今天学习对有顺序和大小关系的离散特征进行标签编码，借助

最低0.47元/天解锁文章