教学

为什么评估中的项目分析非常重要

为什么评估中的项目分析非常重要

ed注意:2015年5月26日,格兰特威根通过了。格兰特对教育的方法产生了极大的影响力,我们很幸运能够为他贡献他的网站。偶尔,我们将回去重新分享他最令人难忘的帖子。这是其中一个帖子。谢天谢地,他的公司正宗的教育,正在进行和扩展授予所开发的工作。

经过授予威根真实的教育

正如我经常写的那样,共同的核心标准只是常识 - 但是魔鬼处于实施的细节。鉴于不幸的是测试项目周围过度的保密及其几个月后的分析,教育者处于不幸的和荒谬的立场,不得不猜出不透明结果的指导意味着什么。如果在结果上没有人员问责制的个人高股权,它可能会有趣。

因此,使用纽约测试中发布的物品的样本,我在这个周末度过了一些时间看着8年级的数学结果和物品,看看要学习的东西 - 而且我发现了我发现的东西。

读者将记得,标准的全部点是它们嵌入到需要内容和实践标准的复杂问题中。但是关于8年级测试的最严重的问题是什么?使用科学符号,隔离和不必要地复杂的数字计算数量。在一个情况下,在其卷曲使用中,在其卷制使用时,该项目在其展示提示时进行了明显无效,因为我们将看到提示。

正如我所写的长期,令人留意的致病程度,可以牺牲可靠性的有效性。这个测试似乎是一个奖励。得分易于得分,无论标准的意图如何。有28个8th等级数学标准。为什么这样的可争议的重要标准至少有5个与他们有关的项目?(世卫组织决定哪些标准最重要?谁决定以完全隔离的标准彼此完全孤立,因为这是精神度清洁?)

以下是与科学符号相关的发布项目:

屏幕截图2014-11-24在9.11.40 AM屏幕截图2014-11-23在8.40.04 AM屏幕截图2014-11-23在8.41.43 AM屏幕截图2014-11-23在8.40.48 AM糟糕的英语土星屏幕截图2014-11-14在下午6点26.31点

这是最后一个让我走过边缘的项目。

物品分析。以下是Boces向一所学校向一所学校报告的结果进行了物品分析,了解与科学符号有关的问题。作为十进制的第一个数字反映了NY中全态的正确答案的百分比。因此,对于第一个项目,问题#8,纽约中只有26%的学生得到了这一权利。以下小数反映了特定区域的区域和当地百分比。因此,在这个地区,37%得到了正确的答案,在这所学校,36%的人得到了正确的。因此,两个剩余的数字反映了学区和学校的国家得分之间的差异(分别分别为.10 .10)。

#22屏幕截图2014-11-17下午4点44.16秒#14屏幕截图2014-11-17在4.49.00下午

#13屏幕截图2014-11-17在4.49.14下午#11屏幕截图2014-11-17在下午4点44分#08屏幕截图2014-11-17在4.49.42下午

请注意,平均只有36%纽约州8th年级学生得到了这5个问题,大大拉下了整体分数。

现在问自己:鉴于所有5个问题的结果 - 涉及孤立和恼人的计算的问题,难以进入标准的核心 - 您愿意将此视为行动内容和流程标准的有效衡量标准吗?基于这些结果,如果您的问责量分为8年级数学教师,您会很高兴吗?我也不是

8年级数学有28个标准。科学符号由4个标准组成。当然,从智力的角度来看,线性关系的许多标准和毕达哥拉斯定理的标准比科学符号更重要。但是,释放的物品和数学建议每个标准在少数构造的响应项目之前分离评估3-4次。为什么5个项目为此标准?

它变得更糟。在释放测试的介绍中,提出了关于如何分析和讨论的项目:

解释评论介绍介绍屏幕截图2014-11-15 9.10.13 AM

足够公平:你不能阅读学生的思想。至少你确实向我提供有用的评论。但请注意第三句:理由描述了为什么错误的答案选择是合理但不正确的,并且基于计算中的常见错误。(为什么只计算?这是一个编辑疏忽?)让我们来看看一个例子,可以说是五个有效问题:

糟糕的英语土星屏幕截图2014-11-14在下午6点26.31点

哦。这是对理解的有效测试,因为您说它有效。您的有效证明来自简单地登录标准并说该项目评估。

等等,它变得更糟。以下是评分的“理由”,评论:

屏幕截图2014-11-15在9.12.20 AM副本

注意错误答案的理由的差异B和C:“可能有限了解”与“与”对“可能有一些理解......但是在获得最终结果时可能会产生错误。”

这提出了在物品分析和测试规范中未解决的关键问题。计算错误是否缺乏理解?应该答案B和C得分平等吗?(鉴于标准的意图,我认为没有)。学生“可能有一些理解”标准或可能不会。是答案b和c同样治疗吗?我们不知道;考虑到测试安全性,我们无法知道。

所以,你真正说的是:错误的答案。

答案A,B,C是合理的而是不正确的。它们代表了在科学符号中表达的减去数字时所做的常见学生错误。呵呵?我们在这里测量减法或对科学符号的理解吗?(回顾标准。)

没有一次报告表明同样合理的分析:学生无法弄清楚这个问题的询问!英语是如此复杂,我花了几分钟的时间来检查并仔细检查我是否正确解析了语言:

糟糕的英语土星屏幕截图2014-11-14在下午6点26.31点

合理但不正确......错误的答案是“合理但不正确”。嘿,等一下:那种语言听起来很熟悉。这就是在其他所有项目下所说的!例如:

Plaus incror  - 线性屏幕截图2014-11-15在9.11.56 AM屏幕截图2014-11-23在9.11.51 AM

他们所做的只是复制和粘贴相同的句子,项目后项目,然后在标准中替换进行评估!!你不是只是说:我们喜欢所有的分心者,因为他们都是“合理的”但是错了?

了解与计算。让我们在另一组理由中看起来更密切地了解类似的问题,看看我们是否看到了概念误解和次要计算错误的相同夸张。事实上,我们做:

屏幕截图2014-11-23在9.41.36 AM

看看B的理由,正确的答案:没有意义。是的,答案是4个平方,这是对提示的等效表达式。但后来他们说:“学生可能正确地添加了指数。“然后,非常不安全的结论,莫名其妙地,通过巨大的信心:“选择这个回复的学生”了解整数指数的属性......“ - 当然是标准,重新说明。这种盲目召回了一项规则还是真实理解的证据?我们永远不会知道这个项目和这个分析。

换句话说,所有的理由都在做,真的,声称项目设计有效 - 没有证据。事实上,我们实际上没有学习学生理解,这是标准的重点。

几乎没有物品分析首先排斥。

不是我们承诺的。更基本上,这些不是共同核心承诺我们的问题。仅仅使得计算棘手是廉价的精神测量学,并不熟悉学生的理解。他们正在测试什么易于测试,不一定是最重要的。

相比之下,以下是从测试中评估真正理解的项目:

屏幕截图2014-11-23在8.42.18 AM

这是一个具有挑战性的项目 - 完全适合标准和标准的精神。它需要了解线性和非线性关系的标志,并根据该理解执行所需的计算以确定答案。但这是测试中一个罕见的问题。

为什么这个问题的点值应该与科学符号相同?

总和:有问题。这个发布的项目,虚假“分析”和副本和粘贴“评论”的拼凑而给我们很少见解关键问题:我的孩子在标准方面在哪里?我们必须做些什么来改善对这些标准的绩效?

我的周末分析虽然非正式,但对这种设计中标准的操作理解很少信任,没有关于如何确定项目有效性的进一步数据,无论是否尝试,以便在设计和得分中仔细区分计算 -还有帐篷制造商甚至了解计算和理解之间的区别。

因此,这种测试仍然是持续安全的,项目分析和释放物品在DOE和供应商的呼吁下释放出来。我们需要一个强大的讨论,即这种测试衡量标准呼吁的措施,唯一只有在拍摄后的前几年的测试导致整个测试的释放时才能发生的讨论。

纽约州立老师值得更好。

本文首先出现在格兰特的个人博客上;评估:为什么项目分析非常重要