Xlearn是你面对结构化数据分类/回归任务时,除了xgboost/lightgbm/catboost之外,又不想搞训练很慢的深度学习模型时,可以尝试考虑的一个能够快速落地的机器学习baseline基准。
你可以将它单独使用 (在某些场景中可能会好于GBDT类模型),也可以尝试将它和GBDT类模型进行模型融合(基本在所有场景中都会有所提升)。
它常常在广告点击率预测、推荐系统等存在大规模稀疏特征,并且特征交叉比较重要的场景中表现比较亮眼。
XLearn 一般用于解决二分类问题和回归问题。主要支持以下三种模型。
- LR(Linear Regression): 线性回归/逻辑回归。LR无法直接捕捉特征之间的交叉,适合作为Baseline使用。工业应用场景中可以根据业务理解手工设计出有效的特征交叉。也可以利用树模型的叶子节点的特征分裂规则自动产生高阶交叉特征输送给LR。
- FM(FactorizationMachine):在LR基础上用隐向量点积实现自动化特征二阶交叉,且交互项的计算复杂度是O(n),效果显著好于LR,速度极快接近LR。
- FFM(Field Aware FM): 在FM的基础上考虑对不同的特征域(Field,可以理解成特征的分组)使用不同的隐向量。效果好于FM,但参数量增加,预测速度下降。
xlearn 的主要特点包括:
- 算法支持:xlearn 支持多种流行的机器学习算法,包括线性模型(如线性回归、逻辑回归)、因子分解机(FM)、场感知因子分解机(FFM)等。
- 稀疏数据优化:xlearn 专门为处理稀疏数据(如大量的零值特征)进行了优化,这在处理诸如用户-物品交互数据时非常有用。
- 高性能:xlearn 使用了并行计算技术,包括多线程和GPU加速,可以快速处理大规模数据集。
- 易于使用:xlearn 提供了简洁的Python API,使得模型的训练和预测变得非常简单。用户可以通过几行代码就完成模型的设置和训练。
- 交叉验证:xlearn 支持交叉验证功能,帮助用户评估模型的泛化能力。
- 模型保存与加载:训练好的模型可以保存到文件中,并在需要时重新加载,方便模型的部署和后续的预测。
- 命令行工具:xlearn 还提供了一个命令行工具,使得用户可以在不写代码的情况下训练和预测模型。
安装
源码安装
git clone https://github.com/aksnzhy/xlearn.git
cd xlearn
mkdir build
cd build
cmake ../
make
如果编译成功,将在 build 文件夹下看到 xlearn_train 和 xlearn_predict 这两个可执行文件。可以通过如下命令检查 xLearn 是否安装成功:
./run_example.sh
常见问题:
- 编译错误:确保您的系统上安装了CMake和GCC或Clang。
- 缺少依赖:安装所需的依赖库,如OpenMP(用于多线程)。
pip安装
pip install xlearn
安装后,在Python中执行:
import xlearn as xl
xl.hello()

最低0.47元/天 解锁文章
2491

被折叠的 条评论
为什么被折叠?



