学习

让我们专注于当地评估

Tulanepullicrelations-在您的授予 -  a-test

让我们专注于当地评估

经过授予威根真实的教育

如果您同意我们在普通核心的高赌注对每个学生的一次性测试的轨道是不可持续的,我有一个适度的建议,旨在讨论如何抛弃测试,而是向前移动普通核心标准。让我们在国家测试中使用矩阵抽样,因为NAEP一直这样做,并且在加利福尼亚州常常用它来做。

1.矩阵抽样意味着没有学生看到所有甚至大多数问题,并且不需要报告个人学生评分(或者,如果报告,则它们比学校结果不太可靠)。这样,建设级别和地区级结果将是重点,因为它可以是应该的。

2.然后测试可以使用更多的任务和类型的任务,分布在许多学生上,为我们提供有效和可靠的数据,因为时间限制以及个人分数的需要,我们无法发生的所有标准。精确且可比。

3.最后但并非最不重要的是,个人学生的考验可能很短。这种方法还将允许教师对其所属的追溯方式:在标准和政策中的局部决定。

(因此,它会消除一些当前荒谬的计划,这些方案要求使用学校英语考试分数部分评估的音乐教师。)这种方法的进一步利益是,我们可以将所有学校和地区表明本地评估高度校准的政策要求将其与国家标准高,并且有政策和实践,以确保质量控制地方评估。

尽管25年来标准的所有工作,但大多数地方评估系统仍然既不是有效的,也不是严格的,因为我已经学到了与数百所学校进行评估的艰难方式。是的,我知道:有些人坚持以各种原因拥有个别学生分数(对学生和教师,数据,向家长报告的奖励),通过众所周知的心理学实践(项目响应理论或IRT),我们可以对评估的背景下具有足够可靠性的学生评分。

这是Naep的作品如何:要确保项目池覆盖了广泛的区域,使用称为平衡不完整块(Bib)螺旋的矩阵采样的变化组装了小册子。与矩阵采样一样,围兜螺旋向大量的学生展示了每个项目,而且还可以确保每位对一些学生呈现给某些物品。结果是,可以计算任何一对物品之间的相关性,尽管学生数量少于响应单个项目。1983年的主要设计功能使用项目响应理论(IRT)进行评估数据。

项目响应理论

当时,IRT主要用于估计各个学生的分数与许多物品的测试。IRT以有意义的方式总结数据是基础。基本上,IRT是计算正确回答的项目百分比的替代方案。鉴于其假设,IRT允许在共同规模上为学生提供不同的小册子的结果。

“平衡不完整的块(围兜)螺旋设计”设计可确保学生收到评估的不同联锁部分,使NAEP能够检查学生不同样本与不同评估问题的不同样本之间可能发生的任何异常交互。此过程以“平衡”跨小册子的块的定位和“平衡”的方式分配问题块,并根据内容将块内的块配对。

小册子是“不完整的”,因为并非所有块都与所有其他块匹配。这个程序的“螺旋”方面周期循环了管理的小册子,通常,任何评估会议中只有少数几个学生都会收到相同的小册子(Messick,Beaton和1983领域)。

与IRT分数和地方评估质量控制政策的矩阵采样是双赢的:降低导致测试准备的赌注,使教师负责人更有效和拥有;并确保教育工作者在本地持有不可靠和无效的地方评估问题。

有点复杂并且有一些妥协,但它必须比当前路径更好。

这篇文章从帖子中摘录首先出现在格兰特的个人博客;可以找到补助金在这里的推特上;当共同的核心测试死亡时,让我们专注于当地评估;图像归因Flickr用户Tulanepublicrelations.