仓库源文

:Authors: Kenneth Lee :Version: 0.1 :Date: 2023-01-09 :Status: Draft

细节迷信

最近有一些模模糊糊的关于架构沟通的感受，我看看能否通过本文让它清晰一点。

这种感受通常是这样来的：有些人写了一个设计，我看完就不想看下去，但别人要求我给个意见，我可能只适合选择说：“我看不懂，没有意见。但要我签字给钱，我肯定不给。”

但这样可能别人还是会有意见的：这么多人都给意见了，你凭什么不给？你要反对就堂堂正正反对，给出反对的理由，这不给意见又不同意，你这是怠工。

但我确实不是怠工，这种问题怎么发生的呢？让我一点点类比来说明这个问题。

比如说，你让我和另一个人打一架，而且告诉我说，他只有一米六，平时抽烟，但不喝酒，写字工整，有一个儿子一个女儿，老婆是个售货员……所以我肯定能打赢。

你说我信吗？

我当然不信了。拿着这个信息我没法做判断啊，你给了我很多信息，但拿着这个信息我也没法作出有效的判断啊。

这是一个明显的例子：虽然你给了我很多“信息”，貌似做了一个“设计”，但我根本没法采信你这个设计。

但这个例子对工程师说服力不强，因为这个例子的错误太明显了，我只是用来强调我在说什么，我现在给你一个更真实的例子。

比如有人要做一个硬件自动Page Fault的设计，有人这样总结Linux的Page Fault的所有情形：

虚拟页没有映射到物理页，通常包括：……（栈越界，物理页延迟分配等等，我这里不写它的细节。下同）
访问者没有访问权限，通常包括：……（COW，程序错误等等）
Page Fault分成Major, Minior，Invalid Fault。
内核访问通常不不会发生缺页异常

然后他就开始讲他的从硬件发起缺页的方案了。

你说他前面这个总结对不对呢？如果你当作科普读物来看，基本上也不能说错，但你要我按这个来判断他的方案对不对，他这个总结对我来说，和前面那个打架的例子一样，都是毫无意义的信息。但这种情况，因为细节多，很多工程师就分辨不出来它们其实不能成为我们判断的理由了。更不要说再插进来一批不是这个领域的其他工程师，或者只做管理的各级经理和技术领导了。

Linux的缺页处理太复杂了，设计大量的代码，不同的平台，不同的版本，不同的配置，稍有一点变化，某些逻辑就不成立。所以，简单几行字，（即使补上我前面省略掉的一些细节，）也是无法总结的。

这种总结要起作用，只有到了你拿它推出某些结论的时候才是有效的。你要让硬件来完成这个缺页，那你前面的总结就必须从某个角度“穷举”所有有可能被硬件缺页取代的情形，然后一个个对上你的方案，表明这些情况你都可以解决。这种总结就是可被判断的。你给我来一堆只是“总结上没错”的话语，然后另外去谈你的方案，你前面这些证据就不是证据，而是装饰。这种所谓“设计”，我就当作“没有”，你问我有什么意见，我的意见就只能是“你重写吧”，或者“你给钱我帮你重写吧”，反正你让我提“意见”，我是给不了的。我甚至认为它说得每一句都“对”，但“毫无意义”。

这个问题的本质是什么呢？我觉得主要就是“设计是不能运行的”，所以我们很多人的设计其实是用来忽悠自己的，他们只是打算尽快编码，看运行的结果是不是对的，然后他们就觉得“这就证明我的设计是对的了”，这是他们对设计的唯一证明方法，他们不能靠脑子来证明某个概念模型是正确的。

所以，不少工程师把信息建立在代码上，或者接近代码的“详细设计”上，他们高层概念建模是随便说说的，他们真正的信心是那些复杂的消息顺序流图，或者复杂的API列表，甚至是包含很多循环递归的算法。他们觉得：“你看，我这么复杂的（你们没有写过这个代码都看不懂的）的流程和参数都给出来了，你们怎么还不觉得我的高层抽象是有道理的呢？”

我一度认为，这种想法也不算错，毕竟能证明抽象的只有具像。但看了一堆不实用的最终设计后，我发现并非如此。所有这类设计的失败，都源于我们我们的代码只是其中一个具像，但我们的软件要运行在各种抽象上（软件必须在时间和空间的广度上使用）。所以， “只要能写出代码而且测试良好”我们的抽象就被证明了，这是自己骗自己。因为很多产品到拿到市场上去的时候，应用到各种场合的时候，你才发现它根本就没法工作，因为当初就只考虑过实验室的环境。

所以，设计是不可取代的，没有设计，就没有抽象，没有抽象，就没有适应性。用别人定义的框架（比如开源软件，标准组织的定义），你以为设计不重要，但离开了那些软件和标准组织，你活不了三天。

所以，我个人非常反对用PPT写设计——你用文档写设计，你的逻辑通常是不得不连续的——你总得说——我发现有如下规律，因此我可以在这里加一组行为，这样这个规律就会变成这样，所以，我们就可以得到这个……这样，你整个证明就是有序的。

但如果你用PPT写，你常常就可以先写一个“Page Fault”的特点，“硬件处理缺页的流程”， “性能测试结果”……这中间是啥关系，你其实就没有正经想过。人脑其实相当懒惰，它是找到某种Pattern就认为规律存在的。只要看见“因为……所以……”，然后因为和所以里面有相关专业的名词，可能它的承认了这个规律存在了。但这样并不能保证我们的设计成立。

当然，你非要分离这种逻辑链条，非要你写文本文件，你一样可以让逻辑链支离破碎。很多特别喜欢“模板”的工程师就是这样：每个模板章节都填点东西进去，逻辑只和模板标题有关系，互相之间就没有关系了，和目标就更没有关系了。这没有意义。但至少，写连续的文本对比写分离的页表至少文本提醒了你需要维持逻辑的连续性。

前面说的这个问题只是问题的主要方面。在这种证明中，我常常还碰到另一个问题：工程师在对比现有方案的时候，常常去比较现有方案的某个特征，而不是引入这个特征的原因。

比如他们会说，RDMA做内存迁移的时候需要pin住物理页，我们可以不pin住物理页，这样性能就比较高了。谁不知道不pin住物理页性能比较高呢？但为什么人家要pin住物理页啊？你得消除掉这个原因才能谈你的优势啊。

这种时候，他又常常开始在他的细节中找出一堆的要素来，说：“我这里这样这样，那里这样这样，所以我就不用pin了。”，这特别迷惑人：在大量的细节中取出一组细节，我先不说这组细节是否真能证明你说的结论。你不把这组约束放在高层抽象中，你如何保证在后续的升级维护中，你可以维持这组细节成立呢？如果你的每个目标的保证，都是依赖一组细节来保证的，最终这个系统的全部目标组合在一起，你是靠什么来保证这些目标（的支撑细节们）是不会发生逻辑冲突的呢？

这些情形，都是“细节迷信”，觉得“细节都可以了”，抽象怎么可能不成立？这种想法本身都是毫无逻辑的。