5、数据分类标注方法全解析

数据分类标注方法全解析

1. 工作类别规则函数与标签模型创建

在数据分类标注中,工作类别规则函数用于判断个人的工作类别是否高于个体经营或联邦政府工作。若满足条件,则其收入大于 50,000 美元。以下是使用标签函数装饰器定义的工作类别标签函数:

@labeling_function()
def work_class(record):
    if record['workclass'] == "Self-emp-inc" or record['workclass'] == "Federal-gov":
        return income_high
    else:
        return income_low

接下来,使用 Pandas LF 应用器将创建的所有标签函数应用于未标记的收入数据集:

lfs = [age, education, hours_per_week, work_class]
from snorkel.labeling import PandasLFApplier
applier = PandasLFApplier(lfs=lfs)
L_train = applier.apply(df=x)

这里的 L_train 是将四个标签函数应用于未标记数据集后返回的标签矩阵。每个标签函数会返回一个标签(-1、1 或 0),由于创建了四个标签函数,每个观测值将返回四个标签。标签矩阵的大小为 [n*m]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值