首页>>学生风采>>河南财经政法大学曹天竹>>观点>>数据挖掘的应用之美国大选

数据挖掘的应用之美国大选

作者:曹天竹
日期:2012/11/22 13:16:46

      就在美国总统奥巴马成功击败对手罗姆尼、再次赢得美国总统选举的当天,《时代》杂志撰写了一篇文章,描述了奥巴马总统获胜背后的秘密——数据挖掘。

      我们分析一下奥巴马总统都做了哪些数据挖掘工作方面的准备:

 

      首先,收集和整理数据是一个枯燥冗长的过程。奥巴马数据团队在竞选前两年就开始收集大量的信息,而他们做的第一件事情就是将民主党所有各自独立零散的选民数据库汇总在一起。同样,当企业的数据分散在各地的服务器、各种文件、各种数据库中时,将这些数据进行有效的集中存储和格式清理是根基;

 

     其次,做到“精准”是一个与业务定制的过程,没有“一键安装式”的灵丹妙药。机器学习是数据挖掘中常用的方法,它的基本原理是让计算机从历史数据中“学习”其中的规律,并利用该规律对未来数据进行预测,这个过程也就是建模和预测的过程。因此,当用户数据因业务而异时,每一组数据中都会有自己独特的数据模型,这也就是与实际业务相定制的过程。比如,奥巴马的数据团队就会对每一个群体的选民都进行建模,进而预测他们的捐款行为方式(通过网络捐款,还是会汇款)。

 

     另外,模型需要根据实际情况进行动态调整。用户因环境、喜好或其他因素常常会导致其行为规律发生一定的变化,使得其产生的数据也随之变化,这些变化将会影响模型的精准性,因而,我们需要随时动态的去调整模型。在奥巴马竞选的案例中,我们看到,在关键的“摇摆州”俄亥俄州,数据分析团队获得了约 2.9 万人的投票倾向数据。这是一个包含 1% 选民的巨大样本,使他们可以准确了解每一类人群和每一个地区选民在任何时刻的态度。当第一次电视辩论结束后,选民的投票倾向发生改变。而数据分析团队可以立即知道什么样的选民改变了态度,什么样的选民仍坚持原来的投票选择。

 

     如今,我们正处于一个海量信息时代,当大量的数据从互联网、移动设备、等各个源头中产生,并以每年 50% 的速度增长时,它们早已悄悄为你建造了一座 21 世纪的数据金矿,等待着为你在“微竞争”中获胜而效力。你准备好用它们来击败你的罗姆尼了吗?

分享