发布网友 发布时间:2024-10-01 07:49
共0个回答
在构建结构化数据模型时,主流选择如lightgbm和xgboost等树模型,它们的一个关键特性是能输出特征重要性,这对于特征工程很有指导价值。然而,直接依赖这些重要性进行特征选择并不完全可靠,因为特征重要性仅是相对评价,可能存在误判。为了解决这个问题,本文将重点介绍一种改进的特征选择方法——Boruta。常规的...
利用R语言跑通特征选择的布尔塔算法布尔塔算法的基本原理是:首先,对原始数据的特征列进行随机打乱,然后通过随机森林模型计算每个特征的重要性。接着,算法会根据z-score评分对特征进行排序,那些原始值得分高于随机分配值的特征,就被识别为重要特征。要实践这个过程,我们可以利用R语言的几个库。例如,使用`library(Boruta)`、`library(mlb...
全代码 | 随机森林在回归分析中的经典应用观察模型在训练集上的预测效果,一致性尚可。接着,文章采用Boruta特征选择鉴定关键分类变量,筛选出8个重要的变量,确定了关键指标与阅读后关注人数的相关性,发现与“分享”相关的指标对于增加关注具有重要作用。通过交叉验证选择参数并拟合模型,优化模型性能。最终模型在训练集上的评估效果较好,RMSE为3.1...