机器学习中的表格数据回归与时间序列分类
1. 表格数据回归
1.1 特征转换与多项式输入组合
在处理表格数据时,有时需要对特定列进行必要的转换。若无法找到合适的匹配,可留空以便尝试所有可能,后续还可添加特征选择步骤。需注意,指数运算符可能会使数值迅速增大到难以处理的程度,因此强烈建议先进行特征缩放。
多项式输入组合是一种有用的特征工程方法。有时,特征组合起来比单独考虑能携带更重要的信息。例如在医疗行业建模时,身高和体重单独来看可能与判断一个人的身体状况无关,但结合起来能更好地描述其身体状态。多项式特征转换通过将每对列相乘生成新特征,还会生成列的平方(列自身相乘)。以下是使用示例:
from tinyml4all.tabular.regression import Table
from tinyml4all.tabular.features import Multiply
# assume the people.csv files contains width (w), height (h)
# and BMI of a group of people
table = Table.read_csv("people.csv")
table.set_targets(column="bmi")
# if you omit the columns parameter,
# all columns will be considered
mult = Multiply(columns=["w", "h"])
table2 = mult(table)
由于乘法可能导致值非常
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



