作者 | Frank Wilczek
翻译 | 胡风、梁丁当
配音 | Betsy Devine
天文学史表明,如果没有理论模型的解释,观测数据本身揭示的信息是有限的。
如今,大数据和机器学习为许多科学问题提供了新的解决方法。而天文学史为我们提供了一个有趣的角度去审视如何运用数据引导科学, 这或许是一个很好的警示。
早期的巴比伦天文学家采用了今天我们称之为纯“大数据”或者“模式识别”的方法。他们积累了数个世纪的太阳、月球和行星运动及日月食的观测数据,从中找出了不同的循 环周期。只需假设这些周期会继续下去,他们就能为种植、灌溉和收割的时间提供合理指导,制定出可靠的占星术,并提前预测月食发生的时间。
古希腊天文学家则用了两种不同的方法来理解同一组数据。第一种方法是构建几何模型,即将太阳、月亮、行星和恒星视为一个个抽象的发光点,分别固定在某个匀速旋转的天球上。
起初,希腊人的预测并不比巴比伦人强,事实上差很多。为了改进,他们假设光点在天球上不是固定的,还在沿着额外的圆周轨道运动,即本轮。公元2世纪时,这种模型体系在天文学家托勒密(Ptolemy)手中臻于完美。尽管在后人看来,托勒密的模型是冗杂笨拙的,但在当时,它确实提供了一种相对紧凑的框架体系来包容大量的天文数据,并且给出了有用的实际结果。
希腊天文学家采用的第二种方法是将天体视为具有物理性质的真实物体。这种方法的一个代表性成就是:公元前3世纪时,阿里斯塔克(Aristarchus)首次测算出了日地距离与地月距离的比值。阿里斯塔克假设月光来自反射的太阳光,当半个月亮和太阳同时出现在天空的时候,他利用简单的三角原理计算出了两者距离的比值。
然而在数个世纪里,上述两 种天文学方法--一个是数学的,一个是物理的--一直没能很好的结合起来。这是因为已有的“大数据”,即太阳、月亮和恒星那些容易观测到的运行模式,只不过是深层规律呈现出来的隐晦表象。
16世纪时,哥白尼(Copernicus)发现,如果把太阳而不是地球放在天球的中心,就可以得到一个更加简洁漂亮的托勒密式模型。虽然托勒密模型在科学史上常常不受待见,但该模型在哥白尼的突破中起到了绝对关键的作用,因为它为模型参数之间的“巧合”提供了物理的解释。
在哥白尼提出日心说后不久,伽利略(Galileo)就利用自制的望远镜,成功观测到了金星的相位变化、木星的卫星--一个缩微的“太阳系”,以及月球的表面地貌。夜空不再是抽象几何点和虚拟球面的数学模型,而是一个向我们展示实实在在的天体的窗口。最终,当牛顿提炼出了运动与引力的普遍规律后,巴比伦人和托勒密的“大数据”方法与阿里斯塔克和伽利略的物理终于被结合起来,从而开启了真正的现代科学。
我们从天文学史获得的重要教训是,大数据本身是解释 不了自己的。构建简化的数学模型,再将其与真实的物理世界联系起来,并加以完善,这才是从数据这块原始矿石中提炼出“意义”这颗稀有宝石的可靠方法。