仓库源文

:Authors: Kenneth Lee :Version: 1.0

分层抽象

今天给别人提了一个设计意见，但估计他没有理解我的意思。我这里写一个补充说明。

当我们说某个设计“带入了细节”，进而说它“不正确”。我们说的是一个“错误”，不是可有可无的“说得太多了”。

我找一个通用的例子来说明这个区别，比如ARM CPU上，提供了一个寄存器MPIDR_EL1，它的定义是这样的：

    .. figure:: _static/mpidr.jpg

这个寄存器每个CPU核一个，说明自己在整个CPU互联架构中在什么位置，比如属于哪个物理核，哪个DIE，哪个封装（Socket）等。但我们注意一下上面这个定义，它里面没有给出哪个域是物理核，哪个域是DIE或者哪个域是Socket。它只给出了一个抽象：Aff0-3。至于 Aff0-3如何和那些什么物理核，封装对应，这是下一层的事情。

这就叫抽象。抽象的作用是把逻辑信息分层，让一部分程序强行看不到部分信息，从而那部分信息更改了，那个程序仍可以成立。好比这样：

    .. figure:: _static/mpidr软件构架1.jpg

在一个硬件和软件实例中，这样分层其实没有什么用的，但如果你有很多个硬件实现，就完全不同了：

    .. figure:: _static/mpidr软件构架2.jpg

这里，如果概念上没有这个分层，右边的软件就没有上面那个公共的部分，你就必须给每个硬件都写一份上面那个公共部分了。

所以，我们其实付出了很大的代码才能维持这种关系和获得这种收益的。软件很大部分的设计压力，都是在做这种抽象设计。这种设计是非常难的，因为对于ARM来说，它认为这个寄存器的作用就是用来做调度距离判断的，Aff0一样，我们就认为两个CPU靠的很近，进程在这两个CPU之间迁移，门限可以很低，如果Aff1也一样，门限就高一点了……如此类推。

但如果你使用这个细节的人不是调度器，比如你需要知道哪部分CPU核属于同一个封装，所以可以整体“拔走”。你这个程序需要的就是确切的SocketID，这时，你的程序“觉得”你的程序对硬件A很熟悉，所以你直接读了Aff2，并且认为这个就是SocketID，并且你这个程序的概念在“只认知Aff0-3不知道它们表示什么的软件”中广泛传播，那么，辛辛苦苦写的这个抽象层就废了。因为基于抽象层写程序是很难的。本来我明明知道两个CPU在同一个 Socket内，进程迁移成本是10ns，我程序很好写的。现在要变成“两个CPU在同一个Aff2内，迁移成本为w”，这个程序很不好写的。但写成这样，以为我达成在各种情形下都能跑这个“成就”了，结果这个软件里面出了叛徒，还是绑上了硬件A的具体细节，这些工作就都浪费了。

所以，高以下为基，贵以贱为本。抽象不抽象，完全是在细节的支撑上决定的，不是你写一个叫“封装层”的东西就叫“封装”的。

如果回到上面这个问题，你需要SocketID，你就需要用一个SocketID的封装，要你抽象的所有实体，都用这个封装来给你承诺，否则你就没有封装，你就应该把这个概念圧在下面的硬件实现感知的模块上。

在这种情况下，我说你说多了，我可不是指你在锦上添花，我是说你做错了。在上面这个例子中，你甚至可以收缩你的范围：比如所有供应商A的Aff2，都必须表示SocketID。然后限制你的抽象驱动，只用于供应商A，这样你直接用Aff2也行，但这需要一个“设计定义”。这个要完整写出来，其实我需要你写的东西更多，你别以为我表扬你做得“超出预期”。