sklearn库的泰坦尼克号生存预测分析(源码)【字数:11561】
摘 要相较于传统的数据分析,数据挖掘技术不再局限于只分析与目标问题相关性很强的数据,而是从人脑意识中感觉关联性不强的数据着手,运用当下流行的机器学习算法,更加多角度,全方位地分析和研究数据集,得出有价值的信息来指导实践。本文通过模拟的泰坦尼克号乘客与工作人员的特征数据集,可以对船员进行生存预测。此外,这项预测数据是可以为保险行业所利用的。本文首先对数据集进行分析并进行可视化展示,再对每一个特征进行二次处理和转换,建立相应的特征工程,在此基础上,运用Sklearn库中的诸如决策树、随机森林、逻辑回归等机器学习算法完成预测。最后,我们需要选出一个最优模型。本文以这样的一个综合型很强的案例表现出数据挖掘的强大之处,体现大数据时代必将是不可逆转的时代潮流。现如今对于购买船票大都会附带一个自愿的保险费用,而更多的人会选择视而不见。更加重要的是,我们可以通过购票时乘客提供的各项特征信息产生输入流,然后传入算法模型进行预测,得出一个结果供乘客参考。如此,乘客会对保险更加重视,在个人安全系数变相得到提升的同时,保险行业的业绩也会有肉眼可见的涨幅。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/398.html