样条曲线本质是一个分段多项式函数,此函数受限于某些控制点,称为 “节点”,节点放置在数据范围内的多个位置,多项式的类型以及节点的数量和位置决定了样条曲线的类型。
其中,RCS节点的数量比位置更重要。由于节点个数的选择和自由度有关, 所以当样本量比较大的时候可以设置较多的节点。但是节点越多, 自由度越大, 模型越复杂, 越难解释。
那么如何确定RCS曲线的最优节点数呢?
在«Regression Modeling Strategies»这本书中,Harrell建议节点数为4时,模型的拟合效果较好,即同时可以兼顾曲线的平滑程度以及避免过拟合造成的精确度降低。当样本量较大时,5个节点是更好的选择。小样本(n<30)可以选择3个节点。当节点的个数为2时,得到的拟合曲线就是一条直线。因此,大多数研究者推荐的节点为3-5个。