bfloat16格式

bfloat16（英語：brain floating point）是一种计算机数字存储格式，在计算机内存中占用16位，简称BF16。此格式是32位IEEE 754单精度浮点格式的缩短版本，旨在加速机器学习计算。它通过保留8位指数位来保留32位浮点数的范围，但仅支持8位精度，而不是32位浮点数格式的24位有效精度。与标准的IEEE16位浮点数相比，bfloat16有更多的指数位与更少的尾数位，可以用于减少存储需求并提高机器学习算法的计算速度。^[1]^[2]

格式

bfloat16格式具有：

符号位：1位
指数部分：8位
尾数部分：7位 (由于省略了首位必定存在的“1”，实际上为8位)

bfloat16二进制浮点指数使用偏移量二进制表示进行编码，零偏移量为127。因此，为了获得真正的指数，必须从指数字段的值中减去127的偏移量。

参见

^ BFloat16: The secret to high performance on Cloud TPUs. Google Cloud Blog. [2025-07-31] （美国英语）.
^ Cutress, Dr Ian. Intel’s Cooper Lake Plans: The Chip That Wasn’t Meant to Exist, Fades Away. www.anandtech.com. [2025-07-31].

參閱

[1] BFloat16: The secret to high performance on Cloud TPUs. Google Cloud Blog. [2025-07-31] （美国英语）.

[2] Cutress, Dr Ian. Intel’s Cooper Lake Plans: The Chip That Wasn’t Meant to Exist, Fades Away. www.anandtech.com. [2025-07-31].

[1]

[2]

数据类型
无解释的	位元字节三进制位三进制字节字
数值	整数符号性有符号数无符号数定点数浮点数迷你浮点数 bfloat16格式半精度单精度双精度扩展精度四精度八精度有理数复数任意精度算术区间
文本	字符字符串
指针	記憶體位址物理地址虚拟地址參照
组合	代数数据类型广义数组关联数组类串列对象元对象可选类型积类型记录集合元组联合体标签
其他	布尔型底层类别容器枚举类型例外头等函数不透明数据类型递归数据类型信号标字串流顶类型类型类類型系統单位类型 Void 不定型別
相关议题	抽象資料型別数据结构介面种类元类对象类型原始型別与複合型別协议/接口子类型 C++模板型別構造器参数多态