关键词:
手机价格分类预测
逻辑回归
组合权重
支持向量机
K近邻法
摘要:
中国是全球智能手机用户第一大国,并且手机用户的数量还在呈现逐年上涨的趋势,但是国产手机用户的渗透率不高,海外手机对国产手机形成巨大压力。国产手机市场犹如一片“红海”,市场上的产品同质化严重,价格竞争十分激烈,智能手机行业开始进入不健康的发展期。随着5G技术的不断应用,5G手机开始成为行业的主流,根据2021年上半年中国信息通信研究院发布的数据显示:国内市场5G手机出货量为1.51亿部,同比增长94.3%.这一增长趋势,既说明5G手机是未来消费者的主流需求,也说明5G技术为疲软的智能手机市场注入了新的活力。但是5G手机的高价格门槛也将大量的用户阻挡在外,为了快速渗透市场,5G手机的生产制造商开始不顾芯片的短缺,掀起一场挑衅性的价格战,千元5G手机,价格一低再低,并且质量还要有所保证,因此虽然5G手机的出货量不断增加,但是销量的增加并没有带来利润的增加。本文正是基于以上背景,分析Kaggle网站上的移动手机数据集,采用多种不同的机器学习分类算法构建关于手机价格的分类预测模型,并对比各种方法从中选出最优模型。这样一方面可将最优模型在未知类别的数据集上进行分类预测,另一方面希望可以将本文所用的实证研究方法推广到市场上关于手机定价的相关情形,从而对智能手机设备生产制造销售商和消费者提供合理的价格底线。此外,本文还提供面对海量数据集的处理方法,以应对大数据时代的现实需求。具体地,本文首先对数据进行预处理,通过处理缺失值、标准化以及对数据特征进行描述性统计和多重共线性检验,整体上把握数据的分布情况;接着分析了20个手机特征关于因变量手机价格范围的相关分析,得出影响手机价格范围的关键变量,并且分别可视化关键变量——随机存取存储器、电池、像素分辨率高度和宽度与价格范围的内部联系;在经过探索性数据分析之后,应用决策树、随机森林、GBoost、Ada GBoost、XGBoost、逻辑回归、支持向量机和K近邻法对手机价格范围进行分类、并结合准确率、精确度、召回率和F-1值评价各种方法的预测效果。在8种机器学习分类模型中,综合改进前后各种模型的表现,得出最优模型为逻辑回归,其在手机价格分类与预测的过程中效果突出,4项评价标准的正确率均在90%以上;相比于其他模型,K近邻法、支持向量机在应用组合权重前后,在分类预测准确率上提质明显;但是对于集成学习算法而言,这种改进没有取得预期的效果;说明在具体的实际手机价格分类预测过程中,不能一概而论,需要对具体情形应用不同的情况。对于海量数据集,本文考虑分别采用简单随机抽样、均匀抽样、行范数抽样以及杠杆值抽样对数据集进行选取。通过对比模型运行时长和最优模型逻辑回归分类预测准确率,可以确定合适的抽样方法与样本容量,从而选取合适的数据集。