
“信息就是对不确定性的消除。”——Claude Shannon
在上一篇中,我们看到,一个随机行走者的命运不仅取决于每一步的随机选择,还取决于他所处空间的结构。在低维空间中,路径反复交汇,回归几乎不可避免;而在高维空间中,路径可以持续分离,逃离成为可能。
但即使在这样的区分之下,还有一个更深的问题尚未被触及:在行走的过程中,系统究竟发生了什么?
换句话说,当路径不断展开时,我们如何描述其中“变化”的本质?仅仅知道路径是否返回,仍然不足以刻画它的行为。我们还需要一个量,来衡量路径在展开过程中产生了多少新的可能性,或者说,系统的不确定性是如何增长的。
这个量,就是熵。
熵的概念并非一开始就属于信息论。它最早出现在十九世纪的热力学中,用来描述系统的无序程度。物理学家发现,随着时间的推移,孤立系统往往趋向于更高的熵状态——能量分布更加均匀,结构更加松散。这一趋势被视为自然界的一种基本方向。
然而,将熵与“信息”联系起来,是二十世纪中叶的事情。Claude Shannon在研究通信问题时提出:可以用一个量来衡量信息源的不确定性。这个量,恰好与热力学中的熵具有相同的数学形式。
在香农的框架中,如果一个系统有多个可能状态,每个状态都有一定的概率,那么系统的熵可以写为:
H
=
−
∑
p
i
log
?
p
i
这个公式看似抽象,但含义却非常直接:当所有状态的概率相等时,熵最大,因为系统最难预测;当某一个状态的概率接近1时,熵最小,因为系统几乎是确定的。
熵衡量的,正是不确定性的程度。
当我们把这一概念引入随机游走时,一个新的视角随之出现。我们不再只是关心路径是否返回,而是关心:随着时间的推移,行走者的位置变得多么难以预测?
假设行走者在第
n
步时,其位置的概率分布为某个函数。随着步数增加,这个分布会逐渐扩展。可能的位置越来越多,概率也逐渐分散。对应的熵值,也在发生变化。
关键的问题在于:这种不确定性的增长,是如何进行的?
为了回答这个问题,数学家引入了“熵率”的概念。它描述的是,每一步平均增加多少不确定性。形式上,可以写为:
h
=
lim
?
n
→
∞
H
n
n
这里
H
n
表示第
n
步时的熵。
这个量有着非常清晰的解释。如果
h
>
0
,说明每一步都在持续产生新的信息,系统不断扩展其可能性空间;如果
h
=
0
,则说明虽然路径在增长,但新的信息逐渐减少,系统的行为在某种意义上变得“可预测”。
这一区分,为理解随机游走提供了另一种维度。
在一些系统中,路径虽然复杂,但长期来看,其不确定性并不会持续增长。轨迹之间不断重叠,历史逐渐被“抹平”。在另一些系统中,每一步都带来新的分支,路径之间迅速分离,历史的差异被保留下来。
这与我们在上一节中讨论的回归与暂留,形成了一种呼应关系。回归的系统往往伴随着较低的信息增长:路径不断返回,使得不同历史之间难以区分。而暂留的系统,则更容易保持路径之间的差异,从而维持较高的熵率。
但这种关系并非简单对应。熵关注的不是“是否返回”,而是“路径之间的区别是否持续存在”。它衡量的是信息的生成与保存,而不是空间位置本身。
这一点在更一般的随机过程和群上的随机游走中表现得尤为明显。数学家们发现,一个随机过程是否具有“非平凡的边界”,与其熵率有着深刻联系。简单来说,如果熵率为零,那么长期来看,系统几乎不会保留关于初始路径的信息;如果熵率为正,则系统在无限时间后仍然携带某种“记忆”。
这种“记忆”,并不是对具体路径的记录,而是对路径所代表的信息结构的保留。
从信息的角度看,一个随机游走可以被视为一个不断生成信息的过程。每一步选择都带来一个新的“信号”,而整个路径则是一段编码。熵率描述的,是这段编码的复杂程度——它告诉我们,这个过程是在不断产生新内容,还是逐渐趋于重复。
当熵率较高时,路径之间迅速分离,不同的历史对应不同的结果。系统具有丰富的结构,能够区分不同的演化轨迹。当熵率较低时,路径之间逐渐融合,系统失去区分能力,长期行为趋于单一。
这种现象可以用一个直观的比喻来理解。如果我们记录多个随机路径,并尝试在很长时间之后判断它们的起点或历史,那么在高熵系统中,这种判断仍然有意义;而在低熵系统中,这些路径看起来几乎一样,历史信息已经消失。
从这个意义上说,熵不仅仅是“不确定性的度量”,它也是“信息是否能够被保留”的指标。
这一点具有广泛的影响。在物理系统中,熵的增长意味着信息的扩散与不可逆性;在通信系统中,熵决定了信息的容量与编码方式;在复杂系统中,熵反映了系统的多样性与可区分性。
而在随机游走中,熵将“路径”与“信息”联系起来,使我们能够从另一个角度理解过程本身。
如果将这一思想与前文的结构分析结合起来,就会形成一个更完整的图景。空间的几何结构决定路径是否容易重叠,而熵则描述路径之间的差异是否被保留下来。两者共同决定了系统的长期行为。
在低维空间中,路径频繁交汇,不同历史逐渐融合,信息难以长期保存;在高维空间中,路径分离,历史差异得以保留,系统具有更高的信息复杂度。
这一联系,为我们提供了一种新的语言,用来描述“变化”的本质。变化不仅仅是位置的移动,更是信息的生成与流动。
从这个角度看,随机游走不再只是一个关于路径的模型,而是一个关于信息流动的过程。每一步都是一次信息的产生或选择,而整个路径则是一段信息的积累与传播。
这种视角的意义,将在后续的讨论中逐渐显现。当我们把目光从纯粹的数学对象转向更复杂的系统时,熵与信息流的概念将成为关键工具。它们不仅帮助我们描述系统如何变化,还帮助我们理解,哪些变化能够被保留,哪些变化会被消解。
在下一篇文章中,我们将进一步引入“边界”的概念——不是空间中的边界,而是系统在无限时间之后所呈现的结构。通过这一概念,我们将看到:在随机过程中,真正重要的,往往不是路径的细节,而是路径最终“指向”的方向。
不确定性在增长,但并非一切都会消失。在某些系统中,信息会在无限时间的极限中凝结成结构。这种结构,将成为理解长期行为的关键。
路径继续展开,而信息开始沉淀。