几何学问题解决中的眼动和视觉工作记忆的模型

当前栏目:免费论文 更新时间:2019-04-09 责任编辑:秩名

 摘要:动眼几何推理引擎模型(OGRE)被建议在几何学问题解决中建立眼动和视觉工作记忆的模型。OGRE假设图形中的几何元素在它们被浏览时被加入到视觉工作记忆中。新增加的元素覆盖已经存在在记忆中的元素。这个模型已经被应运到三组被试的眼动模式中:两组几何学专家模式和一组非专家模式。他们在解决那些提供了图形的几何问题时的眼睛运动和言语报告被及时地记录下来。被试高度地运用了对同一几何元素重复浏览的多余眼动模式。OGRE的视觉工作模型提供了重复浏览之间合理的次数分配。这个模型被用于估计几何学中的视觉工作记忆的广度。在问题和被试的作用上,这些估计是不同的,用平均值和标准差分别表示为:5.31.4,4.00.9,和4.71.6

关键词:视觉记忆  眼动  浏览路径  问题解决

   

1.引言

解决几何问题是一个复杂的过程。问题解决者必须阅读问题;如果没有提供图形,还需要自己建立一个图形;在已有的图示中搜索;从记忆中提取相关内容;推理病最终使问题得以解决,其中包括数字计算等过程。这个多步骤的过程能进行得非常快,以至于它不能被现在可以利用到的技术所直接观察到。出声思维和写出解题过程均有局限性,因为,它们只能报告那些到达“意识”的结论。而一些实验中需要被报告的推论可能是许多比较小的步骤上得出的,问题解决者在报告这些步骤时往往会打断其原来的解题思路。

幸运的是,现在有一种实验范式来有绕过这些障碍的潜能。当问题以视觉形式呈现时,就像图形,问题解决者的眼睛运动能够给实验者提供一个探查其心理活动的窗口。眼动实验研究范式相较于传统的出声思维和写出解题过程有很多显而易见的优点。它不需要被试者任何附加的努力或训练,眼动本身就是问题解决进程中的一部分,因此不会引起问题解决过程的混乱。

用眼动能推断认知和知觉过程,但是,这并不是没有困难的。Viviam (1990)讨论了很多在这种研究方式上所存在的共同的固有的问题,并总结了唯一能够正确解释所获得的眼动数据的方法是在一个特殊的理论框架中进行。在这里,我们描述了这样一个理论框架,在图形的几何问题解决任务中被开发。在我们的模型被呈现之前,讨论一些问题解决相关研究中的亮点是很有用处的。接下来的回顾不旨在全面详尽,而是旨在说明被运用这个领域中不同的研究方法。

 

1.1 背景

现在流行的一个接近人类解决问题的模型是“生产系统”的运用。这些系统中最发展成熟的是Anderson’ACT—R家族模型(Anderson,1993)。生产是规则,包括被组织在一个有等级的目标结构中的条件和行为。问题解决包括了把记忆中的项目和生产中条件部分的元素进行匹配。当一个匹配被找到,产品“兴奋”,即与生产相匹配的动作部分,就出现了。这个匹配过程一直被重复,直到问题被解决。

以生产为基础的模型在预测特定条件下的行为方面做得很好。但是,实验研究范式的详细分析表明问题解决很少在一个分等级的、直接指向目标或有特定方法的生产系统模型中进行。问题解决看来更具有概率的,例如,Suppes 和 Sheehan(19821)的研究,用了1455项基于电脑的证据来建立理论。

问题解决的概率特征也能被眼动数据所支持。例如,一个被试做列算术练习时的眼动模式检验表明,被试者并没有准确地服从简单的从右往左、从上往下的算法,不管他们是不是明确地记得要按算法做(Supes,Cohen,Laddaga,&Floyd,1983)。超过30%的注视是回视、跳视和一些完全不符合算法的错误作业。这些不规则的注视出现的频率惊人的高:8—16%的成人被试和17—36%的儿童被试都有这种现象。

这些在列算术、阅读(Epelboim,Booth,&Steinman,1994)、数学图形的心理动画(Hegarty,1992)任务中发现的眼动模式,与其他任务的眼动模式一样,支持着人类的推理甚至是十分简单的十进制算法的执行都具有很高的概率性这一假设(Suppes,1981)。人们忘记了它们在几何学中的位置,忘记了刚刚发现的刺激物,以及忘记了间接的结果,以至于要重复一个步骤甚至是从头开始。有时候,他们识别了一个相似的模式并运用算法进行跳读。问题解决必须具有很高的概率性是由于人类记忆和知觉的持续活动特性。

现代的有限制的容量的工作记忆概念最初是由Baddeley(1986)进行发展得来的。依据Baddeley所说,工作记忆系统能在复杂认知活动过程中暂时储存信息。这个工作记忆的概念使它有别于长时记忆和非常短的短时记忆,或图像记忆(大多数被归因于视觉的持续性)。工作记忆中的这些项目能保持足够长的时间以至于在至少一个心理活动中有用处。

视觉工作记忆广度的估计依赖于具体的实验条件,但是所有的估计都相对较小,不会超过10个项目。例如,Luck 和Vogel(1997)表示人类能够记得四个视觉项目,不管是单独呈现这些项目的单个特征如颜色,还是呈现多个特征的结合如颜色+方向+大小。他们推论视觉工作记忆“相较于储存对象的多个单独特征更多的是储存对象的整体”。Lachter 和Hayhoe(1995)发现被试在对一系列圆点的空间布局做出判断的表现中,如果圆点超过四个,就会很难进行判断,因此,他们获得了相似的估计值。

对于视觉工作记忆广度一个较大的估计是Glassman,Garvey,Elkins,Kasal,和Couillard(1994)获得的,他们发现人类和老鼠都能记得一个呈辐射状迷宫的17条臂的14条,当这些猜想的可能性被进行运算时,这些结果得出了视觉——空间工作记忆的广度,它最后被Miller(1956)在回顾短时记忆和注意的发现中得出,并描述为“有魔法的数字”72。

 

4.讨论

一个基于眼动数据的理论模型的建立被用于估计一个认知变量,即视觉工作记忆的广度。眼动的运用使在现实的、复杂的认知任务中测量变量成为可能。所有先前对于视觉工作记忆容量的量的估计都是建立在比较简单的记忆任务上,例如,一系列被呈现过的客观事物的回忆。

我们对于视觉工作记忆广度的估计与一些先前的在一个条件变化下所获得的估计非常的相似。他们稍微低于72的范围。他们都支持这样的想法,正如被一些理论所假设的那样,尽管视觉记忆的广度相对较小,但是都有多于一个的项目被储存了。确实,我们怀疑这种在复杂的几何学中充分运用图形的问题解决能否用视觉记忆的广度来恰当地建立心理学的模型。另一方面,当这里提出的模型被应用到一个更广泛多样的视觉任务中去时,好像视觉工作记忆广度估计的范围会变化得更大。未来理论中的一个很重要的问题是具体详细地建立任务的特征和视觉记忆广度之间相互作用模型。

这个OGRE模型不像其他基于眼动数据的认知过程模型,它强调眼动控制中随机进程的角色。相反地,由图3可知,比较专家与非专家的浏览路径,推断过程对整体的眼动模式有很大的影响。但是依据OGRE,推断过程不能直接控制注视。它决定了哪些视觉信息在精确估计中被需要和如何委派一个视觉发动代理机制去具体地把这些信息安置在视觉工作记忆中,并使它们保持在那里。推断是在一个较高的水平被做出的,代理机制只需要在需要表现一个或者另一个视觉行动时有效率的行动。一个简单的随机过程有可能是使较有智慧的推理过程从动眼神经的控制中摆脱的最有效率的解决。计划和行动之间的二分法在关于运动控制的文献中被很好地接受(Sternberg,Monsell,Knoll,&Wright,1978 的一般讨论,和Zingale&Kowler,1987眼动控制的二分法的应用)。

这个心理运作和眼动控制之间的二分法的假设也必须假定有大于一个项目容量的视觉工作记忆,它必须有能力储存先前注视所获得的信息和使这些信息可以被高水平的认知过程所利用。但是,这个假设对于做出基于眼动数据的明确的认知过程的模型是不满足的,因为它不允许在任何一个眼睛运动和一个特定的心理运作之间绘制简单的形态图。很多模型假定直接的认知活动控制眼睛的运动,并且不考虑视觉工作记忆的满足条件。这个模型是不适当的因为它容许不切实际的简单化的模型。

     这个OGRE模型能被修改和被扩展应用于其他运用视觉信息的认知任务中去。比如说,视觉工作记忆在阅读中的运用可能。例如说,在这个假说下基于阅读理论的眼动会自然地导致将从句、短语作为阅读的单位而不是单个的词。在阅读中对先前注视的词语的回视的分配能用于估计视觉工作记忆的广度,这种用回视次数的分配的方法同样被用于对几何学中视觉工作记忆的广度作出估计。