传统芯片存在一个核心瓶颈:
面积与互连限制
一颗常规芯片通常只有:
几百 mm² 面积
几十亿晶体管
有限的IO带宽
但生物大脑规模大约为:
约 (10^{11}) 神经元
(10^{14}–10^{15}) 突触
如果使用普通芯片实现,就需要成千上万颗芯片互连,导致:
延迟增加
功耗暴涨
网络复杂
因此一种思路是:
把整片晶圆变成一颗计算芯片
晶圆面积通常:
300mm wafer ≈ 70,000 mm²
是普通CPU芯片面积的100–300倍。
一个典型的架构可以分为四个层次:
wafer ├── neuron tile │ ├── neuron circuits │ └── local synapse memory │ ├── synapse crossbar arrays │ ├── routing network │ └── global learning engine晶圆被划分为成千上万个 tile。
每个 tile 包含:
神经元电路
突触阵列
本地缓存
通信接口
例如一个 tile 可以包含:
1024 neurons
1M synapses
整片 wafer 可能达到:
数百万神经元
数十亿突触
核心结构是 crossbar matrix。
word line → presynaptic neuronbit line → postsynaptic neuronintersection → memristor synapse电流自然实现:
[
I = V times W
]
即模拟矩阵乘法。
优点:
并行
能耗低
计算与存储合一
大脑通信是 spike event。
芯片采用:
AER (Address Event Representation)
结构类似:
neuron fires spike↓address packet↓on-wafer network↓target neuron网络通常是:
mesh network
hierarchical tree
packet-switched network
这样可以在晶圆内实现百万级神经元通信。
真正接近大脑的结构需要:
3D stacking
因为大脑是三维连接网络。
一种可能结构:
Layer 1 CMOS neuron circuitsLayer 2 memristor synapse arraysLayer 3 routing networkLayer 4 learning circuits使用:
TSV(Through Silicon Via)
hybrid bonding
wafer bonding
垂直连接密度可达:
10^6 interconnects / mm²远超传统封装。
模拟电路实现:
integrate
threshold
reset
优点:
工艺成熟
稳定
材料包括:
HfO?
TaOx
TiO?
机制:
氧空位迁移conductive filament实现:
可调权重
STDP学习
材料:
GeSbTe
通过:
晶态 ↔ 非晶态改变电阻。
Wafer-scale 系统必须解决:
长距离通信
通常采用:
neuron cluster ↓regional router ↓global router类似:
大脑皮层结构
未来方向:
silicon photonics
优势:
高带宽
低延迟
长距离通信
结构:
laserwaveguidephotodetector整片晶圆使用意味着:
不可避免存在缺陷
解决方案:
active neuronbackup neuron坏块可以被绕过:
faulty tile→ routing bypass神经网络可以自动适应部分硬件损坏。
生物大脑功耗:
≈ 20 W超级计算机模拟大脑需要:
> 1 MWNeuromorphic wafer 目标:
< 1 kW原因:
event-driven
analog compute
local memory
由
Cerebras Systems
开发。
特点:
850,000 cores
2.6 trillion transistors
wafer-scale chip
面积:
46,000 mm²Intel 的
Loihi
特点:
spike neural network
on-chip learning
IBM
开发:
TrueNorth
1 million neurons
256 million synapses
理想结构可能是:
Wafer-scale 3D neuromorphic stack包含:
1
神经元层
CMOS neuron arrays
2
突触层
memristor crossbars
3
通信层
optical network
4
学习层
local plasticity circuits
如果使用:
300 mm wafer
3D stack
memristor synapse
理论可实现:
10^8 – 10^9 neurons10^12 – 10^13 synapses接近:
小型哺乳动物大脑规模
未来可能出现:
Brain-scale computer
结构类似:
rack └── wafer brain modules └── optical interconnect规模:
10^11 neurons10^15 synapses功耗可能:
1–10 kW一个重要结论
真正接近生物大脑的计算机不会是 GPU 或 CPU 的延伸,而是:
物理动态系统
特点:
模拟计算
事件驱动
分布式学习
极高连接密度