科学专业是否会“被自动化”?
|
前几天,我读了一篇关于Uber希望如何赋予其每位员工数据科学力量的文章。以下引文特别引人注意: “预测平台的宏伟愿景是只需按一下按钮即可提供预测,完全不需要预测专家。用户唯一需要的输入是历史数据,无论是CSV文件还是查询链接的形式,以及预测范围。您想预测多远?其他一切都完全在引擎盖下完成。” — Uber 数据科学总监Franziska Bell 这让我思考,预测真的可以商业化到这种程度吗?微软,谷歌和亚马逊也一直在努力使他们的机器学习解决方案更加“drag and drop”他们各自的云客户,因此Uber绝对不是唯一的雄心壮志。 贝尔的话引出了两个截然不同的结论-要么Uber的预测平台非常出色,要么他们对预测未来的挑战过于随意。为了好玩,让我们尝试各种可能性: Uber的预测平台非常出色-只需按一下按钮,Uber就能做些什么来产生预测,而唯一需要输入的是目标变量的历史数据?他们必须能够: 1. 拥有数据并知道是否要包含任何和所有相关功能。您需要外生变量来构建模型,尤其是当您尝试预测复杂的事物时。 Uber不仅必须在生成预测之前随时提供所有可用数据,还必须知道要包括哪些功能以及如何转换每个功能。 2. 它还必须能够比较和对比各种预测算法(线性回归与随机森林与神经网络)。并能够为每种特定算法选择最优超参数。 3. 预测还必须进行回测(以减轻从模型中取出模型时发生爆炸的风险),Uber需要能够与用户沟通模型所基于的假设以及在何种条件下可能会崩溃。 达成这些要付出很多,只要他们能做到,就对他们表示敬意。 但是,如果Uber过于随意,该怎么办–相反的观点是,该预测平台只是ARIMA model 或 LSTM,可以根据对目标的以往观察来预测未来。对于某些应用程序,这是可以的。
但是仅使用目标变量的滞后作为特征意味着可能会错过关键的外生关系,这将使模型严重不适合并易于表现不佳。 (编辑:菏泽站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


