当前位置: 建筑论文发表网_专业的建筑论文投稿平台 > 建筑工程论文 > 建筑工程造价论文 > 基于Stacking融合的工程造价预测组合模型

基于Stacking融合的工程造价预测组合模型

来源:未知
 

 

摘    要:在建设项目前期决策和初步设计阶段,利用有限的信息,快速准确地进行工程造价预测是投资控制和成本规划的关键。本文收集高层住宅工程造价历史数据,利用相关性系数法对定量指标进行约简,运用python构建了以随机森林、XGBoost和岭回归作为初级学习器,岭回归作为元学习器的Stacking集成学习的融合模型。结果表明:基于Stacking融合模型预测精度较高,结果稳定,平均绝对误差控制在5%以内,有助于项目建设前期的造价控制。
 
关键词:随机森林; XGBoost;岭回归; Stacking集成学习;造价预测;
 
Combination model of project cost
prediction based on Stacking fusion
FAN Shu-qian CHEN Hui WANG De-mei XIA Song-in CUI Chang-hui YU Na-na LIU Zhi-
hao
School of Civil Engineering,Yantai University Qingdao Hengxing Technology College Hainan
Yixing Urban Construction Investment Co Ltd
 
 
Abstract:
In the early stage of decision-making and primary design of construction projects, it is the key of investment control and cost planning to make use of limited information to predict the project cost quickly and accurately. In this paper, the historical data of high-rise residential project cost is collected, and the quantitative indexes are reduced by using the correlation coefficient method.Python is used to construct a fusion model of Stacking integration learning with random forest, XGBoost and ridge regression as primary learners and the ridge regression as a meta-learner.The results illustrate that the fusion model based on Stacking has high prediction accuracy and stable results, and the average absolute error is controlled within 5%, which is helpful to the cost control in the early stage of project construction.
 
Keyword:
Random Forest; XGBoost; Ridge; Stacking ensemble learning; Cost estimation;
 
在项目建设前期,快速、准确地估算出工程项目的造价,可以为工程的分析、评估、决策以及科学有效地控制工程成本、提高投资效益提供技术支持和保障[1]。然而,建筑工程项目具有建设周期长、投资数额巨大、影响因素众多等特点,且在项目策划阶段和初步设计阶段,详细设计细节尚未确定,已知信息相对较少,准确预测拟建工程的造价具有一定的难度。
 
而另一方面,中国建筑业经历了近三十年的蓬勃发展,大量工程建设项目在投资决策和工程建设过程中形成的历史数据被闲置,其中蕴含的有效信息不能被有效挖掘和利用。因此,《工程造价改革工作方案》[2](建办标〔2020〕38号)要求,加强工程造价历史数据的积累,利用大数据及人工智能等信息化技术为概预算编制提供依据。
 
人工智能,作为智能化时代的关键技术,将日益成为新一轮产业革命的引擎,机器学习作为人工智能研究的核心领域之一[3],凭借其对样本数据的海量性、复杂性的处理能力,被广泛地应用于各个领域,并取得了显著成效。在工程造价领域,影响因素众多,数据关系复杂,正是人工智能——机器学习算法的用武之地。
 
1研究方法
国内外学者对工程造价预测的理论和方法一直进行着锲而不舍的研究。针对于建筑工程造价的预测方法主要包括岭回归[4]、神经网络[5,6]、支持向量机[7,8]等。随着人工智能与机器学习的不断发展,以随机森林、XGBoost等算法为代表的人工智能算法也成为近年来价格预测研究的热点。段永辉等[9]分别用随机森林、线性回归和SVM算法进行了住宅成本的预测,发现随机森林模型预测精度最高,稳定性最强。曹睿等[10]在Lasso特征选择的基础上,利用XGBoost梯度提升寻找局部最优值的优势,合理估算房源价格。
 
虽然这些预测模型经过各种方法的参数优化能在一定程度上提高预测精度,但提高程度和模型的泛化能力都还有一定的局限性。基于此有学者考虑各方法在数据集观测方面的差异性,采取Stacking模型融合[11]方法,集各方法之所长,以期实现更好的预测效果。对于Stacking模型中初级学习器的选择,王辉等[12]认为加入线性回归模型可以保持各算法的差异性,使得Stacking模型能够获得更好的预测性能。因此,为保证初级学习器的预测效果及各算法的差异性,本文选择岭回归、随机森林、XGBoost三种学习算法进行Stacking模型融合,构建高层住宅工程造价预测模型。
 
1.1 随机森林算法
随机森林是一种以决策树为基础的袋装式集成算法[13],既可应用在分类问题中,也可用于数据的回归分析。随机森林算法是一种bagging算法,采用的是多棵CART树进行分类或者回归,然后根据每棵树的预测结果取平均值作为模型的预测结果。随机森林训练过程中每棵树的训练样本都是随机的,树节点在每次分裂时选择的特征也是随机的,随机森林的两个随机性,使得随机森林模型不容易出现过拟合,增强了模型的泛化能力。
 
随机森林回归原理如图1。设原始样本数据数为D,每棵模型树随机选取N个样本,M个样本特征,进行训练生成CART回归树,输出预测值,最终预测结果为所有CART回归树模型预测结果的平均值。
 
1.2 XGBoost算法
XGBoost算法是基于GBDT算法的改进算法,通过改进模型拟合目标,优化了模型性能。相比GBDT,XGBoost对损失函数进行了二阶泰勒展开,效果更好。XGBoost原理如图2。输入样本数据到XGBoost基分类器中,每一轮的迭代训练都会生成一棵决策树,即生成一个弱模型,最后将K个弱模型的结果相加生成最后结果。
 
1.3 岭回归算法
岭回归分析是一种正则化方法,是以放弃最小二乘的无偏性,放弃部分精确度为代价来寻求效果好且更符合实际的回归过程[14]。岭回归分析通过在损失函数中加入惩罚项,来控制线性模型的复杂程度,提高模型稳健性。岭回归损失函数如式(1)所示:
 
Jw=min{∥Xw−y∥2+λ‖w‖2}  , λ≥0(1)
 
式中:X输入数据矩阵;w是模型系数;y为样本的真实值;λ是损失项和正则项之间的系数。
 
1.4 Stacking集成学习
Stacking集成学习是指在集成学习的基础上运用Stacking方法将各个个体学习器的预测结果进行融合,以期获得比单个学习器更好的预测结果。在Stacking模型中各个基学习器可以充分发挥各自的优势,取长补短,降低了单一算法模型泛化能力不佳的风险,提高模型的预测精度。Stacking模型原理如图3所示:
 
(1)将原始样本进行数据集划分,分为训练样本和预测样本。其中训练集通过五折交叉验证均分为5个子集分别依次将其中一份作为预测集,其余四份作为训练集,输入各初级学习器中进行训练并预测,将五轮预测结果整合为新的样本训练集。
 
(2)将测试集输入到每轮训练好的预测模型中进行预测,最终取五轮预测结果的平均值作为新预测集。
 
(3)将初级学习器的输出值,即预测结果,作为二层学习器的输入数据,结合岭回归算法,训练预测输出最终的预测结果。
 
2特征选择与数据处理
2.1 数据描述
本文研究的样本数据来源于广联达指标网和国家数据监测平台提供的陕西省西安市2014至2017年的高层住宅工程,预测指标为工程的单方造价,剔除缺失值和异常数据,最终整理了153条样本数据。
 
根据高层住宅的建筑结构特征,参考文献资料,结合专家经验,初步选取了18个工程特征作为造价预测的属性指标,包括预计工期、地上建筑面积、地下建筑面积、总建筑面积、地上平均层高、地下平均层高、檐高、地上层数、地下层数、总层数10个定量指标;基础类型、人防、建筑外形、室内装饰、外立面装饰、装修类别、建筑外形、抗震烈度8个定性指标。
 
2.2 特征选择
由于建筑工程项目的长期性和复杂性的特点,使得影响工程造价的因素众多,在进行数据收集时,为尽可能涵盖影响工程造价的各个因素,不可避免地存在特征指标冗余的问题,因此需要对已获取的样本特征进行特征选择,筛选出其中最有用的特征,提高数据集的泛化能力、模型的可解释性以及训练速度。热力图又称相关性系数图,可直观的反应各特征之间的相关性系数,进行特征选择,特征之间相关性系数的计算公式如式(2)所示:
 
ρX1X2=Cov(X1  ,  X2)DX1  ,  DX2√(2)
 
式中:ρ为样本特征相关性系数;Cov为样本特征协方差。
 
因数据均为西安地区简单装修的高层住宅案例,抗震烈度和装修类别一致,故将二者约简处理。结合热力图方法对定量指标进行相关性分析,从图4可以看出,总建筑面积和地上建筑面积的相关系数为0.98,檐高、总层数、地上层数相关系数为0.99,存在很强的多重共线性,因此,在进行特征选择时可选择剔除。由于总建筑面积与地上建筑面积、总层数与地上层数均存在属性信息冗余,选择剔除总建筑面积、总层数。檐高大致可由层数和层高推测出,因此剔除檐高。
 
2.3 数据处理
2.3.1数据标准化
为减小因各个数据特征之间不同的量纲和量纲单位引起的模型误差,保证数据之间的可比性,需要对样本中连续型特征进行数据标准化处理,消除特征之间的量纲及单位的影响,输出更符合实际的样本预测结果。针对连续型数据特征采用Z-score方法将数据标准化,将样本特征的观测值与原始数据均值做差,除以原始数据的标准差,公式如式(3)所示:
 
X′=X−μσ(3)
 
其中μ代表原始数据的均值,σ代表原始数据的标准差。
 
2.3.2 One-Hot特征编码
本文采用独热编码的方式对定性指标进行处理,将数据特征扩展到欧氏空间,对特征之间的计算距离进行优化。
 
3预测结果及分析
3.1 评价指标
本次实验预测评价指标采用平均绝对百分比误差(Mean Absolute Percentage Error, MAPE),如式(4)所示:
 
MAPE=100%n∑ni=1∣∣∣yˆ−yiyi∣∣∣(4)
 
其中yˆi为预测值,yi为真实值,n为样本个数。MAPE的值越小,模型的精确度越高。
 
3.2结果分析
将预处理后的数据集进行分割,随机选择80%的数据集作为训练样本,20%的数据集作为预测样本结合五折交叉验证的方法,将样本分别输入到随机森林、XGBoost和岭回归模型中训练预测。将三种初级学习模型的输出值,作为第二层模型的输入数据,训练预测输出模型结果分析,个体学习器和融合模型参数及预测误差如表1:
 
从表3中可以看出,随机森林、XGBoost和岭回归预测模型,平均绝对百分误差(MAPE)均控制在10%的范围之内,模型预测效果良好,但与以岭回归为元学习器的融合模型相比,误差分别高出0.37%、0.94%、4.81%,平均高2.04%的误差。图5为各模型学习器下单方造价预测结果。因此,以岭回归为元学习器的融合模型相比于以上单一模型,预测精度高,且能够满足实际工程中对造价预测精度的要求。
 
基于以上研究,在将第一层学习器及Stcking组合策略固定的情况下,对融合模型第二层分别采用不同的学习器进行训练预测。结果表明,以随机森林为元学习器的融合模型MAPE为5.42%,以XGBoost为元学习器的融合模型MAPE为4.60%,二者与以岭回归为元学习器的融合模型相比MAPE分别高出3.56%和2.74%。
 
因此,以岭回归为元学习器的融合模型更适合高层住宅工程造价预测,预测结果更加稳健、精度更高。以岭回归为元学习器的Stacking融合模型单方造价预测结果如图6所示。
 
基于以上研究,在将第一层学习器及Stcking组合策略固定的情况下,对融合模型第二层分别采用不同的学习器进行训练预测。结果表明,以随机森林为元学习器的融合模型MAPE为5.42%,以XGBoost为元学习器的融合模型MAPE为4.60%,二者与以岭回归为元学习器的融合模型相比MAPE分别高出3.56%和2.74%。
 
因此,以岭回归为元学习器的融合模型更适合高层住宅工程造价预测,预测结果更加稳健、精度更高。以岭回归为元学习器的Stacking融合模型单方造价预测结果如图6所示。
 
参考文献
[1] 黄文涛,周萍,程锦翔. 一种基于Adaboost和变量筛选的LSSVM工程造价估计方法[J]. 重庆交通大学学报(自然科学版), 2016, 35(3): 54-57+104.
[2] 住房和城乡建设部办公厅. 关于印发工程造价改革方案的通知[Z]. 2020.
[3] 蔡自兴. 中国人工智能40年[J]. 科技导报, 2016, 34(15): 12-32.
[4] 程平,郭奕君,辜榕容. 基于岭回归机器学习算法的项目成本预测研究——以A风景园林规划研究院规划设计项目为例[J]. 财会通讯, 2021(12): 101-105.
[5] 蒋红妍,白雨晴. 基于灰关联的PSO-BP神经网络的高层住宅造价估算[J]. 工程管理学报, 2019, 33(1): 29-33.
[6] 梁喜,刘雨. 基于模糊神经网络的建筑工程造价预测模型[J]. 技术经济, 2017, 36(3): 109-113.
[7] 柳茂. 混沌理论和最小二乘支持向量机相融合的工程造价预测模型[J]. 内蒙古师范大学学报(自然科学汉文版), 2015, 44(3): 333-338.
[8] 董娜,卢泗化,熊峰. 大数据背景下基于ABC-SVM的建筑工程造价预测[J]. 技术经济, 2021, 40(8): 25-32.
[9] 段永辉,房超凡,郭一斌,等. 城市住宅成本模型比较研究——基于快速估算方法的选择[J]. 价格理论与实践, 2019(11): 78-81.DOI:10.19851/j.cnki.cn11-1010/f.2019.11.018.
[10] 曹睿,廖彬,李敏,等. 基于XGBoost的在线短租市场价格预测及特征分析模型[J]. 数据分析与知识发现, 2021, 5(6): 51-65.
[11] RIBEIRO M H D M, COELHO L D S. Ensemble approach based on bagging, boosting and stacking for short-term prediction in agribusiness time series[J]. Applied Soft Computing Journal, 2020, 86: 105837.
[12] 王辉,李昌刚. Stacking集成学习方法在销售预测中的应用[J]. 计算机应用与软件, 2020, 37(8): 85-90.
[13] 肖立华,张博,胡伟,等. 基于机器学习的电网工程量计价预测模型[J/OL]. 沈阳工业大学学报: 1-6[2021-05-20].
[14]满敬銮,杨薇.基于多重共线性的处理方法[J].数学理论与应用, 2010, 30(2): 105-109.
 
 

上一篇:谈建筑工程造价管理困境及措施
下一篇:工程造价专业下全过程工程咨询人才培养探究

相关文章

Powered by 建筑论文发表 © JZLunWen Inc.
Copyright © http://www.jzlunwen.cn 建筑论文发表网 版权所有