用数学浅谈浮点数

nexthexonextbutterflyvolantisyearnyiliashokaindigoapollolandscapecactusmateryicarusfluidmaterial

浮点数很神奇,Prof. Kahan是个鬼才。可以说浮点数的诞生很大程度上推动了计算机的发展。

浮点数的概况

​ 在计算机中,浮点数主要以科学计数法存储,其科学计数法底数为2,于是一般而言:浮点数分为三个部分,符号域(Sign),指数域(Exponent),尾数域(Fraction)。 分别对应科学计数法的有效数字的符号,有效数字的指数,有效数字的小数部分。

浮点数的指数域

​ 为了让浮点数的比较能够由整形的比较器完成,其指数采取移码来表示,(移码和补码只有符 号位相反,其余都一样。对于正数而言,原码、反码和补码都一样;对于负数而言,补码就是其绝对值的原码全部取反,然后加1(不包括符号位)) 形象地来来说移码是原码的移动,在数值上移码等于原码减去2^(k-1)-1,k是位数。但是并不是所有的浮点数都采取此种表示方法。有一小部分浮点数的指数域, 与之不同,我们在后面说。

浮点数的尾数域

​ 为什么叫尾数域,而不叫有效数字域,其实很容易想到二进制的科学计数法的整数部分必然是1,于是这个1被省略掉了,计算机不存储他。

浮点数中的特例

​ 如果我们真的像刚刚分析的那样,结束了浮点数的定义,会有一个问题,那就是0不见了,并且靠近0的一小部分有一个巨大的gap,我们后面在证明这个gap存在,于是我们的浮点数设计失败, 但是Prof. Kahan想到了一个解决方法,他发现当指数域的指是一个最小的负数的时候,当前浮点数所表示的数非常小,与0很接近,并且那一部分的精度非常高,精度高,但是靠近0的地 方有一个巨大的gap,怎么办?他考虑到,用一部分高精度的丢失换取gap的填充。也就是说,当指数部分是最小的负数的时候,我们不采取科学计数法了,当指数域为最小的负数 的时候,我们把尾数域看作一个无符号整形,他会可以表示一个整形区间,我们hash掉这个区间,让他来表示gap即可。后面来证明这个做法的可靠性。

​ 既然花了一部分指数域做了一个0,为什么不来一个无穷大呢?于是Prof. Kahan创建了无穷大的表示方法,当指数部分是最大的正数的时候,此数字表示无穷大怎么样?若符号域为正,我们表示 正无穷,若符号位为负,我们表示负无穷怎么样?于是我们发现我们思维的漏洞了,刚刚的0,岂不是有+0与-0?是的就是有,等下我们证明他的合理性。 再回到无穷上,我们与0的表示做对比,发现了指数固定的时候可是一个区间啊,有很多的无穷大,是啊,我们要不了这么多无穷大,那怎么办呢?于是Prof. Kahan说多余的他们都叫做 nan,意味着not a number。我们依然在后面证明这个做法的优点很大很大。

浮点数的具体表示

​ 这些都是理论指导,实际上浮点数到底怎么存的呢?见图 (照片丢了,我也没找到)

浮点数的相关证明:gap存在性

​ 给出特例,对于单精度浮点而言,我们先考虑浮点数的表示精度问题,如果放开指数不谈,令指数为0 ,那么我们可以表示出大致区间[1,2),如果指数为1,我们又可以表示区间[2,4) 等等。。。 我们仔细分析,这里的区间长度是变化的,但是表示这段区间的数的数量是固定的。显然一个问题出现了,我们可以大胆猜测,指数越大,精度越低,我们把几个区间都写一下 当指数为-2 -1 0 1 2 分别表示了区间[1/4,1/2)[1/2,1)[1,2)[2,4)[4,8),是的,区间长度递增,猜测正确。

​ 然后我们还发现,精度是有规律的,同一个区间的精度固定,因为尾数是平分区间的,不同区间的精度怎么样呢?我们来看看,[1,2)的精度是[2,4)的精度的两倍, 于是我们得到精度的详细情况,离0越远的区间,精度越低,且是他的前一个区间的精度的一半,(定义一个区间的前一个区间为与之相邻的离0更近的区间)

​ 我们再来考虑最小的正浮点数,在什么地方,对的,就是$2^{-127}$,我们假设这个数为x,他右边部分的精度达到了$\frac{2^{-126}-2^{-127}}{2^{23}}=2^{-150}$在x的左侧呢,哈哈一个gap,他与0之间相隔$2^{-127}$,$2^{-150}$ 和$2^{-127}$ 区别可大了,负数那边也是样的。

浮点数的相关证明:gap填充的可靠性

​ 如果考虑不要精度为$2^{-150}$的区间的,用它来填补gap,代价是什么?会不会导致浮点数优秀的精度递增模式被打破呢,很遗憾不会。我们来计算,如果考虑丢弃此区间 换来的最小的正科学计数法所表示的浮点数的值为$2^{-126}$ ,因为区间$[2^{-127} ,2^{-126})$ 拿走了,这时候他右边的精度为$\frac{2^{-125}-2^{-126}}{2^{23}}=2^{-149}$,emm,还行,我们来计算那个究极大gap的精度,$\frac{2^{-126}}{2^{23}}=2^{-149}$奇迹出现了,精度一摸一样,精度的优秀性质基本得到了保留,这种做法使得从0到正无穷的过程中没有变小。很神奇。

浮点数的相关证明:+0与-0的优点

​ 为什么要搞+0和-0,这两者不是相同的吗?是的他们是相同的,+0.0==-0.0 返回值是true ,这个时候我们开始思考0的意义,0到底是什么,我们参考无穷大,重新定义0,+0.0代表正无穷小 -0.0代表负无穷小,这才是他们本质上的意义,sorry,我们又把0给弄没了。这次我们不把它找回来了,+0.0和-0.0共同组成了0。为什么要这样做,还有一个额外的点,我们的数域里面可是有正负 无穷大的,我们,要搞在浮点数里面搞一套新的,特别的运算法则,极限的运算。这是他的另一个点。

浮点数的相关证明:nan的实用性

​ 为什么要搞nan,这是给程序员用的,哈哈哈哈哈哈嗝,哈哈嗝,用来debug,但笔者不太懂一点,为什么要搞那么多nan呢,指数最大值的时候,除了正负无穷,其他的数字都是nan,为什么要这么复杂呢? 限于水平,笔者大致猜到了,极有可能,不正确的运算直接会算出nan,这会加速浮点数的运算,(也就是说,不需要我们自己去做判断是否运算合法)(也就是说浮点数的运算不是封闭的,错误 或者不合法的运算会直接算出nan,而不是计算机去判断运算是否合法)这只是笔者的一个猜想。

浮点数细节:

​ 若x为nan ,那么x==x为假 x不管之后怎么运算,得到的永远是nan +0.0 == -0.0 为真