教学

50种衡量理解的方法

50种衡量理解的方法

通过特里Heick

你如何衡量一个学生理解了什么?

不是给他们一个评估,而是评分,然后用这个分数来表示理解。相反,你如何真正“揭示”他们“知道”什么——以及他们有多“了解”?

结果的挑战和基于标准的评估

首先,前言:逐条列出衡量理解的方法与学生选择一种方式来展示他们所知道的东西在功能上是不同的——这主要是因为在逆向设计方法中,首先确定学习目标,学习目标决定了下游的一切。

例如,如果给一个学生一个主题和一个听众,允许他“做”一些事情,然后要求他创造一些东西来展示他们所学到的东西,那么学生之间的结果将会大不相同。换句话说,学生们会以不同的方式学习不同的东西。

通过预先指定每个学生都将“理解”的内容,某些评估表格就变得非常理想。学生失败的可能性也会大大增加。如果学生可以学到任何东西,那么只有当他们根本没有学到任何东西,或者根本没有展示出他们所学到的东西时,他们才会失败。通过确定一个学生将学习什么,以及他们将如何向你展示他们学到了什么,有三种可能的结果:

1.学生学到了很多,但不是你想让他们学的

2.学生学到了你想让他们学的东西,但没有在评估中表现出来

3.这个学生没有学习

但如果你,作为一名教师,被误导了呢?

考虑到评估的目的

打个比方,以汽车为例。如果我们想让车在最佳状态下运行——安全操作,在我们想去某个地方的时候启动,达到我们想要的燃油效率,以我们想要的方式看和闻,等等,我们需要这些条件的数据。外观和气味都很简单,燃油效率是一个数学问题。可靠性有点抽象,但它是许多其他维护因素的产物,因此需要更多的抽象来预测。那么安全方面呢?同样的抽象和主观。

想象一下,如果你担心汽车的可靠性(任何人都会这样),那么你就开发了一些测试,这些测试可以用来预测汽车未来启动的可能性。(在这一点上,我意识到我可以选择一个更好的类比,但我坚持汽车/启动的事情。抱歉。)想象一下,做一堆测试来预测汽车明天能否启动。这在理论上是有意义的,因为我们想要监控这个想法,但这似乎有点浪费,对吧?

而且,当你考虑到汽车可能一次又一次的测试都失败了,但仍然继续启动时,浪费就会变得很快。这意味着,我们用来预测汽车是否会启动的测试可能会测量一些东西,但不是我们希望他们测量的东西。测试是糟糕的,数据具有误导性,得出的任何结论都是无效的。

在基于结果和数据驱动的环境中,数据和使用数据做出的决策就是一切。如果这些数据具有误导性,那么不难意识到我们——无论是教师还是学生——也会受到误导。

首先,确定评估的目的

如果所有的学生都要测量他们的身高和体重,一个共同的标准是有意义的;如果所有学生都要接受吸引力测试,任何一种“标准”都是令人毛骨悚然的。

衡量知识以及对能力和技能的掌握程度并不像“美貌”那么主观,但也绝不像身高和体重那样一成不变。我们可以对所有学生进行同样的测试,用同样的方式来衡量同样的事情,而且不会造成任何损害——前提是我们都达成了共识,我们不是在衡量学生的理解程度,而是在衡量学生在考试中的表现。

在一个完美的世界里,我们有无数的方法来衡量这种理解——所有有效的,普遍理解的,吸引学生的,等等。在《追求》一书中,我认为用不同的方法来衡量理解是有意义的。有些会根据内容领域、成绩水平、学生动机等,或多或少有用,更不用说评估的目的是什么了。

你需要一张快照吗?

你需要衡量精通还是成长?

你想让它灵活地适用于各种各样的学习者还是更二进制的学习者——你要么通过,要么不及格?

你想让学生定期回到评估中来吗还是说这是一次性的?

评估是老师的还是学生的?

如果您不清楚为什么要进行评估(以及如何处理评估提供的数据),那么您就浪费了大量的时间、精力和资源——您自己的和学生的。

带着这个想法,看看下面50种衡量理解力的方法。有些是评估表格(例如,退出通知单),有些是模型(例如,布鲁姆分类法),还有一些更经常被认为是教学策略(例如,苏格拉底讨论)。

50种衡量理解的方法

测量理解的评估表格

这些可以被认为是原因来测试

6种评估类型在美国,我们提供了六种“类型”的测试,它们暗示了评估的目的和标准。

1.Norm-Referenced评估

标准参照评估是用来比较学生之间的差异。

2.Criterion-Based评估

基于标准的评估是根据一个明确的和公开的目标来评估学生的表现。例如,这与学生希望“考得好”,但没有一个清晰简洁的目标和/或没有明确的表现标准的测试形成对比。

3.标准化的评估

一个标准化的评估是任何包含对所有学生普遍相同的因素的评估。这样做的好处是,标准化确保了所有学生的体重得到了平等的衡量,并且有一个共同的“标准”供学生衡量。

4.基于标准的评估

一种形式的标准化考核,一种标准-基于评估是基于一个学术内容标准(例如:确定作者的目的。. .”)。

5.个性化的评估

虽然这些评估不一定是“不同的”类型,但它们确实反映了不同的评估理由。

6.预评估

预评估是指在教学过程开始之前对学生理解程度的任何评估、分析或测量。

预评的目的是多样的,它可以帮助计划课程和活动,修改课程地图,为每个学生创建个性化的学习路径,帮助制定分组策略,计划未来的评估,等等。

7.形成性评价

形成性评价通常会发生教学和学习,虽然并不是那么简单思考形成性评估更好的方式是考虑它提供的数据形式通知持续的教学和学习。形成性评估的一个常见的例子是小测验。类型的测试?突击测验,计划/预定测验,定时测验,等等。

这也可以被认为是“诊断性评估”,在理想情况下是K-12学习环境中最常见的评估形式(因为其目的是衡量理解程度,以便更好地创造未来的学习体验)。

8.总结性评估

总结性评估是指在教学结束时所做的任何评估。这就使得“总结性评估”成为一件奇怪的事情,除非没有更多的教学机会(比如学年结束时)。

9.时间评估

这是不言自明的——任何有时间限制的评估都是时间评估(尽管从技术上讲,时间可以是几分钟甚至几年,这取决于评估的性质、目的和规模。

计时评估也可以与其他形式相结合——例如,计时项目或计时论文。这个观点认为,时间的限制在某种程度上影响了考试的范围和学生的表现。

11.不计时的评估

不定时的评估比定时的评估少一些,如果没有其他原因,只是因为现代教育的排期性质需要它。

12.开放式的评估

与计时、标准和标准化的评估不同,开放式的评估通常旨在为学生提供一个证明知识、技能和能力的场所。通过开放式的评价,学生的自主性、创造力和自我效能感在他们的表现中起着更大的作用。

由于这种方法的性质,学习者的心态是至关重要的。如果缺乏自信、自主性,以及对自己可能展示知识的方式和内容没有清晰的认识,学习者可能会感到不确定——更糟糕的是,由于这种“失败”,学习者可能无法“展示自己的知识”,并对未来学习经验的规划造成错误的信息。

一个学习混合是开放式评估的一个例子。

13.基于游戏的评价

基于游戏的评估通常是基于技术的(游戏邦注:如电子游戏),但体育竞赛也可以被视为基于游戏的评估,因为它是基于一套给定规则的表现,决定了学习者所知道和能够“做”什么。

14.基准评估

基准评估定期评估学生的表现,通常是在评分期结束时。可以预测学生在年终总结评估中的表现。

15.组织评估

小组评估就像它听起来的那样,是在一个(有时)有不同角色和责任的小组中进行的评估。

显然,设计上的一个挑战是,小组评估是为了准确地了解你所评估的社会动态和个人角色和责任,这可能会模糊对学生学习的分析。

测量理解的不同评估形式

这些可以被认为是“测试类型”

16.短的反应测试

例如:对问题或提示的简短、书面或口头回答

17.延长反应(按需、论文等)。

例子:像上面一样,但更长——从几段到整篇研究论文

18.多项选择题测试

我不确定这是否需要解释——多项选择题评估在提供数据方面很有用,但高度依赖于问题和回答的质量——即便如此,也更青睐那些文化程度高、积极性高的学生。

19.是非题测试

如果你擅长创造非常微妙的真假评估项目,他们可以通过强迫学生仔细考虑某件事是“真的”还是“假的”来挑战学生对内容的强烈把握。正确/错误评估也可以帮助挣扎或“犹豫”的学生,因为回答的障碍很低(就像多项选择评估),但只有两个“答案”可供选择。

提示:你可以让学生根据他们所知道的内容修改正确或错误的陈述,直到它们看起来是正确的。他们所做的改变对诊断他们是什么很有帮助误解

20.匹配项

配对项目的优势在于,它们创建简单、易于完成、易于评分,而且设计良好,在揭示学生所知道的知识方面可以出奇地有效。这类评估的挑战在于,它们几乎无法展示理解的深度,只对特定类型的内容有用。

21.性能与示范(即,看着学生试图实时展示理解/能力/技能)

例如:观看一个学生试图在篮球比赛中罚球,或者在足球比赛中传球等等。然而,不一定要以运动为基础。学生还可以演示重力对行星轨道的影响,宣传是如何运作的等等。

22.一个可视化表示

例子:学生可以创建一个水循环的视觉表现——它是如何工作的,它采取的所有形式,它的好处,过程的物理,等等。可视化的东西显然是评估的一部分。

他们也可以创建一个关于在写作中使用过渡短语的例子——它们的作用、使用时间、效果等等。

23.类比

类比是被低估的评估工具;学生可以“回答”你创建的类比,修改它们以创造新的含义,解释为什么你创建的类比是错误的,或创建他们自己的类比来证明理解。

例如:如果你想评估一个学生对论文陈述的理解,你可以让学生“回答”你创建的一个类比,通过完成这个类比。

论文陈述:论文:公司:________(使命或口号)

24.概念图

25.图形的组织者(和类比法一样,这也是一种被低估的衡量理解的方法)

26.一个物理工件

27.一个问题(即,学生提出/修改一个问题作为一种评估形式)

28.一场辩论

29.谈话/小组讨论/苏格拉底式的讨论

30.问题根源

请看这里的例子问题源于批判性思维。您还可以让学生创建自己的茎,并互相测试/测试。

31.角色扮演(例如,通过扮演历史人物来评估传记知识——这与第21条类似)

32.QFT会话

33.可观察到的元认知

这种非传统的评估形式要求(以某种方式“观看”学生思考自己的想法,并使用它来“衡量”理解

34.自我评估(学生评估自己的理解是否有老师的帮助)

35.同行评估

36.专家评估

很明显,这种方法更适合技能更熟练、知识更丰富的学习者(例如,高中和大学的学生)。专家评估的一个例子是像《美国偶像》这样的选秀节目

任何类型的小组评估(第三方选择上述一种或多种形式),寻求评估和衡量对评估和反馈依赖于小组本身特定且通常狭窄的专业知识的理解,是“专家评估”。

37.大量的作业

RAFT是一种常见的ELA活动,它代表角色观众格式的主题(或主题/论文/语气)。我犹豫是否将其列入名单,因为它最适合英语艺术/文学/写作/读写,而且很难解释它作为一种评估工具的实用性,即使是在如此狭窄的领域。

这里的想法是改变一个活动或任务的元素,迫使学生批判性地思考,以完成它,它不必是“筏”-你可以用任何方法框架任何东西。(如果你以前从未使用过筏子,你可能最好跳过这个,直到你更熟悉它。给我发邮件如果你有任何问题。)

例如:学习《独立宣言》的学生可以针对特定的听众修改它,或者用不同的格式或语气(而不是原文的字母/政治语气)传达相同的思想。

38.一个挑战

创造一个挑战,让学生完成,以证明理解是另一种非传统的评估形式,但可以帮助犹豫的学习者或发挥出最好的天才学生。游戏化在基于挑战的评估中很有用。

39.Teacher-Designed项目

创建一个项目,产生一个“东西”,其质量将或不会证明学生的理解。

40.Student-Designed项目

与上述相同,但学生设计的项目(可能与老师)。这会让很多学生感到困惑——你很快就会知道这对你的评估是否有用。

41.自主学习

通过支持学生反思、优先考虑、计划和独立完成自己的学习经验,学生的理解自然会得到衡量。

自主学习是一种开放式评估的形式——你可以看到其中一种我在这里创建的自主学习模型

用于测量理解的框架和评估模型

这些可以被看作是对考试内容的思考框架

42.布鲁姆的分类

43.的TeachThought学习分类

44.UbD的六个方面的理解

45.马沙诺的新分类

46.评估的可转移性

评估是标准化的、普遍的,并以那些标准化和普遍的形式进行(例如,有一定数量的项目和标准化完成时间的多项选择评估)。

这对于参照标准来说很好,但对于真正衡量一个学生理解了什么——以及理解的强度和深度,却是一种糟糕的方法。这就是理解转移的意义所在。你可以阅读更多关于不同类型的学习迁移

47.分级评估

这是最常见的正式评估形式——打分,给出反馈,共享数据(即使只是通过字母打分)。

48.一个劣质的评估

这种情况不像分级评估那样普遍——这很奇怪,因为评估最有用的目的是提供数据来修改计划好的教学。反馈也是有用的,但是评分、评分和交流会花费时间,分散学习者的情感,最重要的是模糊了关于理解的数据。

这并不是说评估永远不应该被评分,但是评分、记录分数,然后把这个分数传达给学生、家长、大学等等,会显著地改变评估的基调、规模和范围。它更像是一种公开表演,而不是一种衡量理解的方式。

49.提供远景评价

学习反馈评估类似于不评分,但专注于向单个学习者提供详细的反馈,以帮助他们掌握标准、能力或技能。

50.通过/失败的评估

虽然可以给出反馈,可以设置时间限制,可以使用各种分类法,但通过-不通过评估的主要特征是通常不给出字母等级和分数,绩效标准是二进制的——也就是说,该标准要么达到了,要么没有达到。

一名试图跳过6米杠的运动员要参加一种“通过/不通过”的评估,即他们是否能通过杠。

51.持续的“评估气候”

“评估气候”是我个人最喜欢的。

在这种方法中,关键和复杂的想法和技能会以不同的方式、形式和上下文不断地被重新审视和迭代,同时辅以不那么复杂/更容易掌握的内容。评估是频繁的、有趣的、清晰的、引人注目的,而且总是形成性的。

52.快照的评估

这是一种评估,基于给定的评估表格,评估学生当时似乎知道了什么。这些可能会产生误导,但如果在它们之前和之后加上上述“评估气候”的额外快照,就会有用。

53.一种随着时间增长的度量

在这种评估中,不会衡量学生的掌握程度——也不会将学生相互比较(就像在标准参考评估中那样)。

相反,重点是学生已经(或还没有)走了多远。其中一个策略是分级落后。这种方法虽然复杂,但每个学生都有不同的特点,并且带有积极的基调,这使得“失败”变得更加困难,除非学生在技能和理解方面真的萎缩了。

54.概念的掌握

这类评估主要由被评估的内容来区分——这里的重点是对概念和想法的把握,而不是技能和能力(如下面的项目)。

55.能力和技能掌握

许多学术标准将概念和技能结合在一起——这很好,因为“真实世界”通常就是这样。

但当你试图解决学生的成绩问题,评估他们真正真正理解了什么(而不是他们在考试中的表现)时,能够独立的他们“知道”,可以“做”可以使修复更高效、使学生对自己的感觉更好“缺乏掌握”,因为他们可以看到他们做什么,不知道,他们能做什么和不能做什么,等等,这是更精确和安慰“我错过了问题”或“我考试不及格。”)