By Qin in 思考 — 19 2月 2022

大脑是如何阅读文字的？

大脑的视觉是具有恒常性的：大小恒常性及形状恒常性。视觉恒常性是人类阅读系统最主要的特征质疑，哪怕字符的差异再大，大脑也会自动忽略掉无关的差异。而重要的差异哪怕再小也会被放大。因为我们的视觉并不关注单词的轮廓、也不关注字母的高矮变化，视觉系统只关注单词中包含有哪些字母。

图片来自：Tachina Lee

我们从眼睛开始对书面文字进行加工。只有眼睛中央的一块称为中央凹的区域才具有足够的分辨率，让我们能看清小小的铅字。因此，我们的目光必须在书页上不断地扫视。目光停下来时，我们只能认出1～2个单词。而每一个单词又会被视网膜神经元分割成无数的片断，只有这些片断重新整合为一体时才能真正辨认出单词。我们的视觉系统会逐步地提取字形、音节、前缀、后缀和词根。最终，两条平行的加工通路开始运作：语音通路将字母转化为语音；而语义通路则从心理词典中提取词义。

所以，我们眼睛其实不是一台高清照相机，可以看到全局。更像是一把机关枪，看起来是扫射，但其实子弹也是一颗一颗打出去的。一次只能看清楚几个字，周围其他的字都是模糊的。

眼睛接收到的信号，是什么样的呢？不是一个一个的字，而是一个一个的画面。在最初的0.1秒的时间里，在大脑看来，一个汉字和一张人脸，是没有区别的，都是画面。要再过0.05秒，大脑才开始运作，把它转换。大脑是靠左半球上的一块皮层把视觉画面转变成大脑可以处理的信息。这块皮层区域其实很小。你可以把这个区域理解成一块图像识别芯片。这是人能阅读依靠的最重要的硬件基础。

那既然是芯片，必然就有速度和带宽的问题。要想提升阅读速度，就必须降低编码的难度。从写作的角度来说，越熟悉的概念，编码的难度就越低。所以，如果你想写没有阅读障碍的文章，其实不是写浅显的文章，很多人在上面有误区。你想要让你的文章没有阅读障碍，就要用熟悉的概念来写。有深度的文章，不见得一定要很难阅读。

我们的眼睛给阅读行为施加了很多限制。视觉感受器的结构决定了阅读时我们的目光必须每0.2～0.3秒就跳跃一次，这样才能够对整个书页进行扫描。而阅读也只不过是把一系列对单个词的“抓拍”，通过思维过程重新组合起来的过程。有时，一些小的语法词，像“the”、“it”和“is”在阅读中可以跳过，但几乎所有名词和动词这样的内容词，我们都必须至少注视一次。

这些限制是我们视觉系统中固有的一部分，无法通过训练加以改善。我们当然可以通过训练来优化眼动的模式，然而大多数每分钟能读400～500个单词的优秀阅读者，其眼动方式已经没有太大提升空间了。考虑到视网膜的构造，我们很可能没法提升阅读速度。

我们都可以直接提取单词的意义，而省掉先发音再理解的麻烦。然而，即使是熟练的阅读者也会利用单词的声音，虽然他们并没有意识到这一点。这并不是说我们必须真的将单词读出来——我们不必运动双唇，甚至不必产生准备运动双唇的意向。然而，在更深的层次上，我们会自动地提取出单词发音的信息。语义通路与语音通路并行运作，并相互支持。

在阅读中，内隐地提取出书面文字的发音是自动的过程，然而这种转换也许并非不可或缺。字母到语音的转换通常缓慢而低效。因此我们的大脑经常会试着通过另一条更加直接的平行通路来提取单词的意义，将字母串与我们心理词典中的条目直接联系起来。

为了对直接的词义通路有更直接的感受，我们可以设想一个只能在脑海中读出文字的阅读者所面临的窘境。实际上我们能够轻易地区分这些音同词不同的情况，这表明我们并不是非要把它们读出来——还有另一条通路来帮助我们消除模糊性，然后直达词义。

纯粹以语音为基础的阅读理论还有另一个问题：从拼写到读音的过程并不是一条畅通无阻的高速公路。如果没有其他因素的作用，我们往往不可能单单从字母的顺序上来找到单词的发音。在这些情况下，我们如果不事先了解这个单词，就无法得知它的发音。

英语中不规则发音的现象俯拾皆是。

神经元对“G”和“g”反应相同这一现象，不可能归因为某种固有的视觉组织形式。它必然是一个学习过程的结果，这一学习过程将文化实践整合进了相应的大脑网络之中。

虽然表面上的形式千差万别，但所有文化中的书面文字都由非常相似的脑回路来进行加工。特别是左侧枕-颞区的“字母匣子区”在所有的阅读者大脑中都占有极重要的地位，而与词形和字符内在结构的差异非常小。

单词和面孔还各有半球偏好性。我们在识别单词时，左半球占据主导地位。而对面孔来说，右半球才是最核心的。虽然最初两个半球都得到了平等的刺激，但单词的信息会快速地流向左半球，而面孔信息则流向右半球，这一过程只需几十毫秒的时间。偏侧化也是阅读加工过程的核心特征。

对中文阅读者的大脑进行扫描时，依然是左侧的枕-颞区域激活，仍然出现了显著的向左的偏侧化，其位置与“字母匣子区”大致相同。这多么神奇，巨大的地理位置差异，不同的脑成像方式，不同的脑形态，不同的教育策略和书写系统，但是中文阅读者与文字识别相关的大脑活动，却与英文阅读者相差仅仅几个毫米。

我们所阅读的每一个单词都必须先通过“字母匣子区”，这一区域在书面语言的识别过程中起了决定性和普遍性的作用。但是，在把单词的外形分析为字母、字素和词素之后，这一初始加工阶段之后会发生什么呢？这些信息往哪里去？我们可以通过哪些皮层通路来提取单词的发音和意义？

心理学家为阅读提出了一个双通道模型。他们认为脑中存在两条可以同时运行的平行通路，使用哪一条通路取决于要读的是什么：不常用的单词和新词沿着声音通道移动，将字母串转化为语音。常见单词以及那些拼写与发音不相匹配的单词，通过心理词典来识别，进而提取其意义。

神经元再利用的假说认为，大脑的结构制约了我们进行阅读的方式。我们可以将文字发展的历史看做是一项浩大的筛选过程：经过时间的沉淀，书写的各种文字逐渐成为了能够进行有效标记的符号，并且越来越好地契合于我们脑中固有的组织形式。简单地说，在进化过程中，大脑并没有改变原有结构以适应文字加工的需要，相反，恰恰是文字通过不断的发展变化，逐渐适应了大脑的加工要求。

文字具有非常神奇的特性，但这并不意味着它的起源是何等的神圣，而是因为它极大地扩展了我们大脑的容量。实际上，人类通过在纸上做少许的记号，便能够极大地提高自身的记忆能力，这简直是一种奇迹。

各种文字系统虽然存在显著的差别，但也具有很多相同的视觉特征——轮廓对比鲜明、平均每个字三个笔画。只需要大约3个笔画，就可以写出大部分的文字（曲线的文字甚至可以不用停顿的一笔写出）。

所有文字几乎都基于3个笔画，并且这个平均数的变异性非常低。这种奇妙的定律之所以被沿袭下来，是因为它和我们视觉脑区神经元的“感受野”一样，都是以同样的方式层级递增的。全世界所有的文字，都遵循了这样一条进化规律，即文字会逐渐发展为一种最优化的组合，使得每个字都能够被单个神经元所识别。

阅读的过程中，在第一步“看”的时候，我们接受到的信息已经不能等同于原文信息了。

由于人类视网膜生理结构特点，阅读时视野在不停的快速移动，移动时无规律的停留去完成注视，即眼跳(saccade)+注视(fixation)。眼跳时视觉精度下降，几乎获取不到任何有效的视觉信息，获取视觉图像细节的过程实际交给了视野注视。

识别句子先要识别单个文字。一些心理学家提出，我们识别单个文字是通过特征分析(feature analysis)实现的。这个“特征”即是字形的特征。识别并非简单的对单个词汇逐一辨认，识别整段文字隐藏一个潜在的逻辑：理解。理解文字需要考虑到上下文，或者其他的相关的信息。这里利用的是情境与模式识别。情境给予的信息帮助我们认出字母。这种“认出”不是人脑的主动推理，更像是无意识的推断。

一些心理学家认为，我们之所以能通过情境去理解句子缺失的部分，是因为文字这样的复杂刺激中本身就存在着冗余信息。

这些刺激（或者说是暗示），包含的特征远多于可以将一个单词与另一个单词区分开所需要的特征。多到什么程度呢？多到这个句子只有部分特征可以识别时，知觉也可以顺利的进行下去。

也就是说，当一个句子经过扫视后识别的部分词汇，本身就很有可能携带了足够多的特征，你的大脑识别了这些特征后，是可以脑补完全部信息的。

一般说来，一段文字通读后没有读懂，我们会再次阅读，直到从文字中收集到足够多的特征，可以理解为止。然而有些文字，理解是有一定门槛的。

贡布里希（sir E. H. Gombrich，艺术史家）将这种理解称之为“知觉概括”，也就是人类因过往的经验学习思考而习得的潜意识的概括和理解能力。现代心理学更倾向于认为这是人类的记忆系统在发挥功效：人类学习了知识，将知识以某种方式存储于记忆中，当使用时，记忆提取、加工，再输出至人类的意识层面。

那么在阅读过程中，脑海里的声音又是谁的呢？

从心理语言学的角度看待这一现象，是在语言理解过程的初期，在将文字视觉的输入匹配到相应的意思的过程当中存在着语音的中介。即“文字->语音->语义”这一过程，对于看到的文字，要么通过你的长时记忆，要么通过“正字法”（你可以不费力地读出“zill”或“栢”，即使你之前不认识它，甚至它根本是个假字（词））来内隐地读出它，然后通过语音信息来理解文字或词语的含义。这一模型被称为两通路模型，是一种严格前馈式的模型，另外一种模型“交互激活模型”则考虑到语音或语义对于文字的视觉加工的反馈影响。但归根结底，这些模型都在说明在语言理解的过程中存在着“读”出来的阶段。

在思考的过程中，比如我们进行推理或计算的过程中，脑海中也会浮现出声音。在这里，我认为大脑是将语言作为一个脚手架来帮助我们进行思考。因为在思考这一动态的过程中，信息是在不断更新的，因此需要一个空间来存储新的信息，同时对信息进行进一步加工。这个空间被称之为”工作记忆“（working memory）。工作记忆当中有两种存储加工信息的方式，其一是”视空间画板“，存储的是图像或空间的表征，其二则是今天讨论的”语音回路“，存储着声音的信息。当我们进行思考时，如果涉及可以具象化为语言或难以具象化为图像和空间的问题，则往往需要我们调用语音回路。语音回路存储的信息是语言，而存储的方式则是语音的编码。