用数学浅谈浮点数 - 计算机组成原理 | Yume Shoka = Believe it = 相信不屈不挠的努力,相信战胜死亡的年轻

next hexonext butterfly volantis yearn yilia shoka indigo apollo landscape cactus matery icarus fluid material

浮点数很神奇，Prof. Kahan是个鬼才。可以说浮点数的诞生很大程度上推动了计算机的发展。

浮点数的概况

在计算机中，浮点数主要以科学计数法存储，其科学计数法底数为2，于是一般而言：浮点数分为三个部分，符号域（Sign），指数域（Exponent），尾数域（Fraction）。分别对应科学计数法的有效数字的符号，有效数字的指数，有效数字的小数部分。

浮点数的指数域

为了让浮点数的比较能够由整形的比较器完成，其指数采取移码来表示，（移码和补码只有符号位相反，其余都一样。对于正数而言，原码、反码和补码都一样；对于负数而言，补码就是其绝对值的原码全部取反，然后加1（不包括符号位））形象地来来说移码是原码的移动，在数值上移码等于原码减去2^(k-1)-1,k是位数。但是并不是所有的浮点数都采取此种表示方法。有一小部分浮点数的指数域，与之不同，我们在后面说。

浮点数的尾数域

为什么叫尾数域，而不叫有效数字域，其实很容易想到二进制的科学计数法的整数部分必然是1，于是这个1被省略掉了，计算机不存储他。

浮点数中的特例

如果我们真的像刚刚分析的那样，结束了浮点数的定义，会有一个问题，那就是0不见了，并且靠近0的一小部分有一个巨大的gap，我们后面在证明这个gap存在，于是我们的浮点数设计失败，但是Prof. Kahan想到了一个解决方法，他发现当指数域的指是一个最小的负数的时候，当前浮点数所表示的数非常小，与0很接近，并且那一部分的精度非常高，精度高，但是靠近0的地方有一个巨大的gap，怎么办？他考虑到，用一部分高精度的丢失换取gap的填充。也就是说，当指数部分是最小的负数的时候，我们不采取科学计数法了，当指数域为最小的负数的时候，我们把尾数域看作一个无符号整形，他会可以表示一个整形区间，我们hash掉这个区间，让他来表示gap即可。后面来证明这个做法的可靠性。

既然花了一部分指数域做了一个0，为什么不来一个无穷大呢？于是Prof. Kahan创建了无穷大的表示方法，当指数部分是最大的正数的时候，此数字表示无穷大怎么样？若符号域为正，我们表示正无穷，若符号位为负，我们表示负无穷怎么样？于是我们发现我们思维的漏洞了，刚刚的0，岂不是有+0与-0？是的就是有，等下我们证明他的合理性。再回到无穷上，我们与0的表示做对比，发现了指数固定的时候可是一个区间啊，有很多的无穷大，是啊，我们要不了这么多无穷大，那怎么办呢？于是Prof. Kahan说多余的他们都叫做 nan，意味着not a number。我们依然在后面证明这个做法的优点很大很大。

浮点数的具体表示

这些都是理论指导，实际上浮点数到底怎么存的呢？见图（照片丢了，我也没找到）

浮点数的相关证明：gap存在性

给出特例，对于单精度浮点而言，我们先考虑浮点数的表示精度问题，如果放开指数不谈，令指数为0 ，那么我们可以表示出大致区间[1,2)，如果指数为1，我们又可以表示区间[2,4) 等等。。。我们仔细分析，这里的区间长度是变化的，但是表示这段区间的数的数量是固定的。显然一个问题出现了，我们可以大胆猜测，指数越大，精度越低，我们把几个区间都写一下当指数为-2 -1 0 1 2 分别表示了区间[1/4，1/2）[1/2，1）[1，2）[2，4）[4，8），是的，区间长度递增，猜测正确。

然后我们还发现，精度是有规律的，同一个区间的精度固定，因为尾数是平分区间的，不同区间的精度怎么样呢？我们来看看，[1，2）的精度是[2，4）的精度的两倍，于是我们得到精度的详细情况，离0越远的区间，精度越低，且是他的前一个区间的精度的一半，（定义一个区间的前一个区间为与之相邻的离0更近的区间）

我们再来考虑最小的正浮点数，在什么地方，对的，就是$2^{-127}$，我们假设这个数为x，他右边部分的精度达到了$\frac{2^{-126}-2^{-127}}{2^{23}}=2^{-150}$在x的左侧呢，哈哈一个gap，他与0之间相隔$2^{-127}$，$2^{-150}$ 和$2^{-127}$ 区别可大了，负数那边也是样的。

浮点数的相关证明：gap填充的可靠性

如果考虑不要精度为$2^{-150}$的区间的，用它来填补gap，代价是什么？会不会导致浮点数优秀的精度递增模式被打破呢，很遗憾不会。我们来计算，如果考虑丢弃此区间换来的最小的正科学计数法所表示的浮点数的值为$2^{-126}$ ，因为区间$[2^{-127} ，2^{-126})$ 拿走了，这时候他右边的精度为$\frac{2^{-125}-2^{-126}}{2^{23}}=2^{-149}$，emm，还行，我们来计算那个究极大gap的精度，$\frac{2^{-126}}{2^{23}}=2^{-149}$奇迹出现了，精度一摸一样，精度的优秀性质基本得到了保留，这种做法使得从0到正无穷的过程中没有变小。很神奇。

浮点数的相关证明：+0与-0的优点

为什么要搞+0和-0，这两者不是相同的吗？是的他们是相同的，+0.0==-0.0 返回值是true ，这个时候我们开始思考0的意义，0到底是什么，我们参考无穷大，重新定义0，+0.0代表正无穷小 -0.0代表负无穷小，这才是他们本质上的意义，sorry，我们又把0给弄没了。这次我们不把它找回来了，+0.0和-0.0共同组成了0。为什么要这样做，还有一个额外的点，我们的数域里面可是有正负无穷大的，我们，要搞在浮点数里面搞一套新的，特别的运算法则，极限的运算。这是他的另一个点。

浮点数的相关证明：nan的实用性

为什么要搞nan，这是给程序员用的，哈哈哈哈哈哈嗝，哈哈嗝，用来debug，但笔者不太懂一点，为什么要搞那么多nan呢，指数最大值的时候，除了正负无穷，其他的数字都是nan，为什么要这么复杂呢？限于水平，笔者大致猜到了，极有可能，不正确的运算直接会算出nan，这会加速浮点数的运算，（也就是说，不需要我们自己去做判断是否运算合法）（也就是说浮点数的运算不是封闭的，错误或者不合法的运算会直接算出nan，而不是计算机去判断运算是否合法）这只是笔者的一个猜想。

浮点数细节:

若x为nan ，那么x==x为假 x不管之后怎么运算，得到的永远是nan +0.0 == -0.0 为真