01
背景介绍
对于很多家庭而言,汽车已经是生活必需品之一。随着对于汽车需求的增多,中国的二手车市场也不断发展。尽管2021年受到疫情的反复影响,但二手车市场依旧表现出色,据中国汽车流通协会数据显示,2021年中国二手车市场交易车辆共计1758.51万辆,同比增长达到22.62%。然而消费者面对如此庞大的市场,如何选择适合自己需求并且价格合理的二手车是个需要关注的问题。
随着互联网技术的不断进步,近几年二手车的价格和车辆信息的数据也变得更加透明。同时国内二手车市场上还出现了许多优质的二手车网站,如瓜子二手车、优信二手车和人人车等,更加方便广大用户进行二手车的交易。其中人人车是国内最大的C2C二手车交易平台,从2014年成立发展至今,人人车已经形成了来源可靠、种类丰富的二手车车况和价格数据库,更加方便消费者在购买二手车时对多个车辆进行综合比对和考虑,找到最适合自己的车辆。
如今的二手车消费者可以通过二手车网站获得足够的信息,但如何对比不同车辆的信息,找到最适合自己的二手车,仍然是个很繁琐的过程。虽然二手车相比于新车具有价格上的优势,但是汽车作为价格较为昂贵的消费品,消费者仍然需要从多个角度综合对比才能真正买到最适合自己的车辆。同时,因为有很多影响二手车价格的因素,消费者有时候还要在不同因素之间进行取舍。例如,在同样的消费预算下,如果消费者想选择行驶里程数较少、车龄较低的车辆,可能就无法兼顾汽车的品牌。面对二手车网站上如此多的信息,对于经验不多的消费者如何快速的找到不同类型不同使用情况二手车的合理的价格,是个值得解决的问题。
本研究的主要目的是帮助消费者和个人卖方根据车辆的信息制定一个合理的二手车价格,通过描述统计和模型的建立帮助消费者量化分析二手车的价格降低来源哪些因素,并通过这些因素帮助消费者找到适合它们需求的二手车。同时研究中的模型还可以帮助消费者根据自身的需求预测出合理的价格,为消费者买车的预算提供参考。对于个人卖家可以根据出售车辆的信息通过研究中的模型制定合理的卖价范围,为二手车市场的合理定价提供建议。
0 2
数据介绍
本次研究的二手车数据一共有63175条,共包含10个变量,分别是:二手车的品牌、变速器、里程、上牌时间、车型、过户次数、新车含税价、品牌国家、颜色、报价等。上牌时间单位是月,表示汽车上牌到爬取数据当天经过的月数;二手车的报价是我们这次研究的因变量。
0 3
描述统计
首先对二手车报价和新车含税价进行分析。通过图1可以发现,报价和新车含税价都呈现比较严重的右偏分布,报价的均值为12.30万元,新车含税价的均值为27.71万。对两个变量分别做对数变换,对数变换后的直方图呈现较好的对称分布形态。
对里程和上牌时间进行描述统计。分别绘制这两个变量分布的直方图,如图2所示。里程呈现比较明显的右偏分布,均值为8.45万公里。上牌时间的分布较为对称,均值为78.56个月。
分别绘制车型、变速器、颜色的频数分布条形图,如图3所示。对于车型变量,紧凑型车的数量最多;对于变速器变量,手自一体的数量最多,自动挡数量最少;对于颜色变量,白色汽车的数量最多,其次是黑色。
分别绘制颜色和里程关于对数报价的箱线图。可以看到不同颜色的二手车的报价存在着一定差异,但并不十分明显。此外,在保证样本数量均匀的情况下,将里程划分为5个区间,并且绘制箱线图后可以发现,位于不同区间的里程对报价产生一定的影响。随着里程数的增加,各区间报价的中位数不断降低,因此可以认为里程的数量与报价存在着负相关的关系。
接下来对汽车的品牌绘制频数分布图。本报告选取了“样本数量中排名前十的品牌”和“2021年第三季度品牌交易量的前十名”进行了对比(数据来源“车300”官网),两者前十名的品牌完全相同,仅位次顺序略有差异。例如“大众”品牌在样本中的数量最多为10565辆(单位参考左轴),而其在第三季度的交易量为41.53万辆(单位参考右轴),同样排名第一。而“宝马“品牌在样本中的数量为5523辆,排名第三,但其在第三季度的交易量24.31万辆,位于第二名。可以认为本数据集中品牌的分布与实际交易成交的品牌的分布比较接近,具有一定的实际意义。
最后通过绘制不同品牌下汽车价格的分布,进一步分析不同品牌对汽车二手价的影响。图6的左图为不同品牌下二手车报价-对数的箱线图,右图为新车含税价-对数的箱线图,可看出二手车的价格明显低于新车的价格。此外,通过对比两图可以发现,路虎的二手车价值最高,之后依次是奔驰、宝马、奥迪和沃尔沃,然而奔驰、宝马、奥迪和沃尔沃的新车含税价基本处于同一水平,推测可能沃尔沃二手车的保值率不如奔驰、宝马和奥迪三个品牌。丰田新车含税价的整体水平明显低于沃尔沃,然而丰田二手车价格与沃尔沃相差不大,推测丰田属于比较保值的汽车品牌。
通过描述统计可以发现,里程、上牌时间、车型、变速器、品牌都会对二手车报价有比较明显的影响,但究竟这些变量如何具体影响二手车报价,需要进一步建模分析。
0 4
建模分析
(一)基于线性回归模型的拟合情况及解读
为了进一步分析各个变量是如何影响二手车报价,以二手车报价的对数作为因变量,二手车的品牌、变速器、里程、上牌时间、车型、过户次数和颜色作为自变量建立对数线性回归模型进行分析。其中二手车的品牌、变速器、车型和颜色为分类型变量,进行建模前需要将他们转化为哑变量。
通过回归分析结果发现,回归模型调整后R方为0.951,拟合程度较好,同时F检验的p值小于0.001,表明模型中自变量对二手车报价的影响是显著的。而通过各个自变量的显著性检验可以发现,里程、上牌时间、新车含税价、品牌、变速器类型、车型等对因变量有较为显著的影响。
具体而言,里程和上牌时间这两个自变量的回归系数都是负数,表明随着行驶距离的增加以及使用年限的增加,二手车的报价将会降低。这与预期相符,因为在选购二手车的众多影响因素中,汽车的折损程度将极大影响了二手车的价格,而里程和上牌时间正是分别从随汽车行驶损耗和随时间老化两个方面代表汽车的折损程度。此外还有汽车的过户次数,汽车的转手次数越多,则中间过程中信息不透明度将会越高,也会消极地影响二手车的报价。而新车含税价的回归系数为正数,表明新车含税价越高,二手车的报价也越高,这也与预期相符。
此外是汽车的品牌对于二手车报价的影响,将基准组设为“丰田”品牌的汽车发现,其余品牌相对“丰田”品牌,由于品牌导致二手车报价下降的程度均更高。与“丰田”品牌较为接近的品牌有同为日本品牌的“本田”和“日产”,日本品牌的二手车在同等条件下更加保值;导致报价下降程度更加明显的品牌有“标志”、“比亚迪”、“雪佛兰”等,这些品牌的汽车在同等条件下更不保值。
接着是汽车的变速器类型。与基准组“双离合”相比,“手自一体”类型的变速器对报价的影响差异较小,这是因为不同类型的变速器各有各的优势:“双离合”型比较省油,“手自一体”型贴近“自动”型,驾驶起来既比较轻松,换挡也比较迅速,因此这两类的回归系数差异较小。而“手动”型则对二手车报价的负面影响较大,一方面“手动”型汽车对于部分驾驶人群而言不太方便,且不太友好,另一方面许多人在初考驾照时会直接选择考取“自动”型驾照,因此“手动”型适用人群范围相对较小,在二手车市场中没有什么优势。
最后是车型和颜色对二手车报价的影响。相对而言,中大型车的二手车报价也更高,而小车型的报价更低。不同颜色虽然对二手车报价也有影响,但是相对其他变量颜色变量对于报价的影响有限。
(二)线性回归模型对二手车报价的预测
除了对影响二手车报价的因素进行分析外,本文模型还有一个重要的应用是可以给出二手车合理价格的区间预测。首先利用对数线性回归进模型行预测,并绘制预测值与实际值的散点图对比预测值与实际值之间的差异。
线性回归模型预测值与实际值的散点图如上图所示,预测的绝对值误差为1.64。通过散点图可以看到绝大多数样本的预测值与真实值的差异较小,在图中的表现为围绕在对角线周围分布。由此可见线性回归模型预测精度较好,并且线性回归模型不仅可以输出预测值,还可以输出预测区间,给出二手车价格更加合理的区间预测,表3给出了部分样本的预测区间。
为了验证模型确实可以在实际中预测二手车的价格,我们又从网站上抽取最新的二手车数据并利用上文中的模型进行预测,预测的结果和与真实值的接近程度如下。结果发现,线性回归模型可以很好的预测最新的二手车价格,证明了本文拟合模型的实际价值,可以很好地根据二手车的信息预测二手车的合理价格并给出合理的预测区间。
(三)二手车品牌的方差分析与多重比较
经过上面的分析可以发现,品牌这一变量对二手车报价的影响很大,不同品牌二手车的保值情况是不同的,因此想进一步分析不同品牌的二手车价格是否有显著差异,采用方差分析和多重比较的方法进行建模。
通过对不同品牌在二手车报价上的数据建立方差分析,发现结果显著,说明不同品牌之间二手车的报价是不同的,但方差分析只能说明整体上不同二手车品牌的报价是有差距的,究竟哪些品牌间报价有差异,需要进一步进行多重比较,输出不同品牌两两之间在报价上的差异是否显著。
通过多重比较的结果可以发现,绝大部分汽车品牌两两之间在二手车价格上是有显著差异的。分析发现,路虎二手车价格最高,并且显著高于其他品牌,之后依次是奔驰、宝马和奥迪,BBA三个知名汽车品牌的二手车价格均显著高于除路虎外其他品牌的二手车;起亚、比亚迪、标准、雪佛兰和长安这五个牌子的二手车报价最低,且品牌报价之间没有显著差异,可以认为是处于同一价位的二手车。
0 5
分析结论
通过描述统计和建模分析可以发现:
(1)二手车的品牌、变速器、里程、上牌时间、车型、过户次数和颜色对于二手车的价格都有显著影响。
(2)二手车的新车含税价越高,二手车的报价也越高;而随着里程、上牌时间、过户次数的增加,二手车的价格会随着降低。
(3)丰田二手车报价的下降幅度相对其他品牌更低,路虎、奔驰、宝马、奥迪二手车的报价的价格相对较高。
(4)中大型车的二手车报价也更高,而小车型的报价更低。
(5)除了对二手车价格影响因素的分析外,本次研究构建的模型也可以准确预测二手车的报价。因此,本次研究的模型可在实际中根据不同汽车的信息给出一个合理的二手车报价估值,并帮助消费者根据车辆情况判断二手车报价是否合理。
0 6
产品应用
在用户购买二手车时,经常会遇到因为对二手车市场整体行情没有充足了解从而不知道车辆报价是否合理的情况。而我们可以为消费者做一个中介平台,在这个平台上不仅可以进行二手车交易,还可以根据上报车辆的信息通过模型给出详细的数据分析,进而让顾客了解车辆的报价是否合理。
为了达到可以帮助顾客更好地评估二手车报价的目的,并且方便顾客进行购买,我们的平台在原有的二手车交易平台中增加一些新的功能。
首先,我们的平台有现有二手车网站能提供的所有功能,比如搜索、筛选等,其中用户可以根据自己的倾向选择价格范围、品牌、车型等。
选中合适的车辆后,可以点进车辆获取车辆的详细信息,在这里为了让消费者获取更多的信息,我们的平台提供给消费者车辆折价的量化分析,在“车辆详情页”可以点击“车辆配置数据分析”获取该车辆折价的量化分析。
进入“车辆配置数据分析”页面后,首先我们通过平台的数据根据二手车的情况给出最合适的参考价以及合理的报价区间,并根据出价给出该车辆是否实惠的建议。之后为了让消费者更清楚地了解该汽车的折价究竟是什么,将各部分折旧除以总折旧得到的百分比作为各个因素的折旧占比,让二手车购买者更加了解二手车折价的原因。此外,我们的产品还通过将该车辆与平台内其他车辆进行对比,综合分析给出了车辆的优劣势,而且如果该车辆在某项指标很突出或者异常,会给出该车辆这个指标所处的位置,比如:该车辆的行驶里程仅打败60%的在售车辆。