仓库源文

:Authors: Kenneth Lee :Version: 1.0

限制管理

本文讨论模块分解的策略问题。

想起要写它，是上周写这个推演时引入的概念：

    :doc:`从CPU和TPU的不同语言抽象看抽象原则`

当时讨论到这样一个现象：TPU/NPU的程序员给了一个请求序列给TPU或者NPU，如果要求指定得太多，编译器就失去了优化的机会了。这个问题无处不在，也不需要一定是 TPU，我们用给一些更简单的例子来类比。比如说，你有这样一个执行序列：::

    def add_all(a, b, c):
      x=a
      x+=b
      x+=c
      return x;

其实你关心的是把三个输入参数加在一起，但你的执行序列要求比这个要求多出了很多东西，比如：

你指定了临时变量
你指定了执行顺序（先加a,b，再加c）

这些可能不是并非你的需求，但执行者不知道，它不一定可以自作主张帮你自动把临时变量去掉，或者把你的执行顺序打乱——说不定你别有深意呢？比如x是个寄存器变量，这样加比直接把两个内存的值相加快很多——反正只要体系结构足够奇葩，什么考量都有可能的。

从这里可以看出来，需求提出方提供的“指定”越多，提得越精确，执行方的效率就越低。如果软件给编译器提供的执行要求仅仅是add_all(a, b, c)，编译器就有余量，只保证a, b, c相加的结果就可以了，如果软件直接提供了“如何计算这个a, b, c的方法”，编译器（或者说CPU），就不能怎么样了，只能一步步计算，也许明明CPU可以一条指令就搞定3个数相加的，也只能变成两个两个来完成了。

一般模块也普遍存在这种情况，比如你要压缩一个文件，你直接给我整个文件的路径，压缩模块说不定可以直接从OS内部把数据喂给硬件加速器，然后流式回写到磁盘上。但你非要把它从文件系统读到用户态，再分成一块一块喂给压缩模块，压缩模块就只好用CPU一块一块给你单独压（由于哈夫曼树在块之间不能共享，这个压缩率也会下降），这个效率就低了。

所以，我们首先有第一个认识，高层设计，并非越精确越好的，精确意味着更多的限制，更多的限制破坏了下一层设计的自由度，导致下一级无法进行优化。

所以，“极致的最自由的”高层设计是仅提需求。比如我要做一个压缩软件，收集了需求，直接设计成：“实现命令compress，把stdin的数据流压缩到stdout”。这样，压缩命令的实现者就有最大的自由度，根据最好的方法实现整个压缩功能。

问题是下一层设计怎么办？你不可能一次就实现到具体的代码，也不可能仍告诉下层“实现命令compress...”，那么下一层的切分在哪里？这是本文主要想讨论的问题。

我们从另一个层面考量这个问题：每层设计，本质上都是逻辑链（“先XX，再XX，遇到XX则 XX……”），而逻辑链是没有根的，整个逻辑链最前面的节点（“因为”），其实都是“限制”：因为用户要求压缩stdin，所以我们必须读入stdin的数据。读入数据需要缓冲区，所以我们需要缓冲区，但因为我们使用的平台的缓冲区是有限的，所以一次读入的数据不能超过 4M，因为用户的提供的输出可能超过4M，所以每次读到的数据超过4M后，就要启动压缩算法……”。你看，其实我们的逻辑链全部都是建立在“限制”上的。

而前面提到的下层软件的优化，其实也是限制：本来我把要相加的3个数都给你了，你不能三个一起加，非要两个两个地加，这是你下层模块的“限制”。

好了，现在的问题是，限制其实一直在那里，我们是在上层认知这个限制呢？还是在下层认知这个限制？答案就回到原来的高内聚低耦合这个问题了，也就是说：相关的限制，一体处理，接口承载接口双方的共同限制。

所以呢，我推演了半天，看来是什么结论都没有。但它有几个边界效应，它让我们认识到：

我们聚合一个模块的关注重点不是聚合它的实现，而是聚合它的限制
我们决定一个逻辑在某个模块中实现，不是因为它“名义上”属于这个模块，而是它的逻辑链根植于这个模块所管理的限制。只有这样，我们才不为整个系统引入多余的“限制” ，导致系统最终自相矛盾，无法再加入新的需求（本质也是“限制”）
当我们进行接口设计的时候，接口制造的“限制”，必须是接口双方逻辑链中的限制

这样，我们就可以解释上一个文档中提到的那些接口问题，例如为什么我们不能接受直接把线程作为TPU的输入——因为TPU内部内存如何使用，是TPU内部的限制，是TPU的灵活性的范围，CPU本身提交需求的时候，并没有这个限制，所以，在接口上引入这个限制，是不利于接口发展的。