Journal Information

Article Information


TIMSS 2019 과학 문항에서 컴퓨터 기반 평가와 지필 평가 간의 검사 매체 차이 탐색


Abstract

본 연구는 국제 학업성취도 평가인 TIMSS 2019 사전검사에서 지필 평가와 컴퓨터 기반 평가로 시행된 과학 평가 문항을 분석하여 검사 매체에 따라 문항 정답률에 영향을 미치는지를 문항 및 학년별로 살펴보았다. 그 결과, 4학년과 8학년 모두 검사 매체에 따른 과학과 문항 정답률 차이가 크지 않았다. 학년별로 살펴보면, 8학년보다는 4학년의 경우 정답률 차이가 상대적으로 크게 나타났다. 문항별로 살펴보면, 선다형 문항보다는 서답형 문항의 경우 정답률 차이가 상대적으로 크게 나타났다. 검사 매체 영향에 대한 과학과 평가 문항 내용을 분석한 결과로는 선다형 문항은 지필 평가와 컴퓨터 기반 평가 문항간의 차이가 거의 없었으나, 서답형 문항은 지필 평가에 비해 서답형 문항의 정답률이 낮아지는 경향을 보였다. 또한, 학년별로는 4학년 학생들이 8학년 학생들보다 서답형 문항에서 정답률이 낮아지는 것으로 나타났다. 본 연구를 토대로, 우리나라 컴퓨터 기반 평가의 개발과 현장 도입과 관련된 시사점을 제공하고 컴퓨터 기반 평가가 학교 평가로 잘 정착하기 위한 교육적 함의를 고찰하고자 한다.

Translated Abstract

This study analyzed the science assessment items that were conducted by the paper and the computer-based assessment in the TIMSS 2019 pre-test, which is an international academic achievement assessment. We examined whether the test mode influenced the percentage of items answered correctly by each graders. As a result, there was no significant difference in the correct answer rates of science items according to the test media in 4th and 8th graders. Looking at the each graders, the difference in the percentage of correct answers was relatively large in the fourth grader rather than the eighth grader. In terms of items, the difference in the percentage of correct answers was relatively larger for the constructed items than the multiple choice questions. As a result of analyzing the content of science and assessment items on the influence of the test media, the multiple choice items showed little difference between the paper and the computer-based assessment items, but the answertype items tended to have a lower percentage of correct answers than the paper-based assessment. In addition, by grade, 4th graders showed lower percentages of correct answers in the constructed items than 8th graders. This study provides implications related to the development and introduction of computer-based assessment in Korea, and suggests an educational implications for computerbased assessment to be well established as school evaluation.


Expand AllCollapse All

서 론

정보통신기술(Information and Communication Technology: ICT)이 사회 전 분야에 확산되고 우리의 삶에 더욱 밀접하게 다가오면서, ICT를 이해하고 적극적으로 활용할 수 있는 디지털 인재 육성이 국제적으로 중요한 이슈가 되고 있다. 최근 영국, 호주, 캐나다 등의 나라에서 보고된 것에 의하면 ICT의 발전으로 인해 디지털 인재에 대한 관심이 증대하고 있으며, 디지털 역량에 대한 교육이 활발하게 이루어지고 있는 상황이다.1-4 특히, 2006년부터 유럽 연합에서는 미래 시대를 위한 평생학습에서 학습자 역량 중에 ‘디지털 역량’을 포함할 것을 권고하고 있다.5 이러한 흐름에 따라 학교 교육 현장에서는 지능정보기술이 강조되고 있고, 디지털 리터러시를 갖춘 인재 양성의 중요성이 대두되고 있다.6 따라서, 과학 교과에서도 교수·학습과 평가에서 컴퓨터의 활용에 더욱 주목할 필요가 있다.

국제 학업성취도 평가에서 컴퓨터 기반 평가를 시행하고 있다. PISA7의 경우 2006년 과학과 평가부터 컴퓨터 기반 평가로 전환하기 시작하여 전 영역이 컴퓨터 기반 평가로 시행되고 있다. 수학, 과학 성취도 추이변화 국제비교연구(Trends in International Mathematics and Science Study: TIMSS)8의 경우 TIMSS 2019 주기에 컴퓨터 기반 평가를 도입하였다. 지금까지의 TIMSS와는 달리 TIMSS 2019는 혁신적인 컴퓨터 기반 평가인 “eAssessment 시스템”으로 전환하고 이에 맞는 문항들을 개발하였다. 이러한 eAssessment 시스템 개발은 대규모 국제 평가 수행과 관련된 많은 프로세스를 수용할 수 있도록 다중 구성 요소 소프트웨어 및 응용 프로그램 시스템을 구축하려는 광범위한 계획부터 시작되었다. TIMSS 2019가 eTIMSS로 전환하면서, 과학 평가틀을 지필평가와 컴퓨터 기반 평가(PaperTIMSS와 eTIMSS) 문항을 모두 활용하여 측정할 수 있도록 개발하였다. eTIMSS는 TIMSS에 포함된 평가 방법의 범위를 확대할 수 있는 통로를 제공하였으며, 특히, 문제 해결과 탐구과제 제시 평가 문항이 새롭게 개발되어 컴퓨터 기반 평가로 활용된다는 점에 주목할 필요가 있다.9

미국의 여러 주(states)에서 온라인 시험을 도입한 학교에서 같은 시험을 지필 시험과 온라인 시험 하나로 선택하여 볼 수 있도록 하는 것이 일반적이다.10 같은 시험에 대해서 지필 시험과 온라인 시험 두 버전(version)으로 공존하는 상황에서는 지필 시험을 선택한 학생과 온라인 시험을 선택한 학생이 그 결과에 있어 차이가 없는지 비교, 분석하여 해석하고 그에 따라 의사 결정을 내릴 필요가 있다.10 이를테면, 지필 시험과 온라인 시험의 동등화를 통하여 시험 수를 해석하고 그에 따라 판단을 내리는 것이다.

최근에 Matched Samples Comparability Analyses(이하: MSCA) 연구 방법을 이용하여 미국의 텍사스, 미시건, 사우스캐롤라이나, 메릴랜드, 애리조나의 5개 주 정부의 온라인과 지필 시험을 분석한 연구가 있다.11 분석 결과에 따르면, 사우스캐롤라이나, 애리조나, 메릴랜드 주의 시험이 대체로 매체 효과가 없는데 반해, 미시건 주의 읽기, 쓰기, 사회 시험에서 경미한 매체 효과가 있었고 텍사스 주는 온라인과 지필의 두 유형으로 제공되는 37개 시험 중 28개가 온라인 집단과 지필 집단의 성적 환산표가 다른 결과가 나타났다. 교과별 특징을 분석할 때, 선다형으로 구성된 과학 교과의 경우 온라인 시험과 지필 시험에는 별반 차이가 없는 편이었는데 반해, 수행형을 포함한 사회 교과의 경우 온라인 시험이 더 어려운 경향이 있었고 수학 교과의 경우도 원점수 1점 또는 그 이상의 매체 차이가 있었다. 읽기와 국어 교과는 설명하기 어려운 패턴을 보여주었는데, 텍사스의 읽기 시험 작문(essay)은 온라인으로 보는 것이 성적이 더 높은 편인 반면, 작문이 아닌 읽기 시험은 온라인이 더 어려웠다. 사우스캐롤라이나의 선다형 언어 시험에서는 매체 차이가 없었고, 미시건의 6학년용 읽기 시험에서는 경미한 매체 차이가 있었다. 일반적으로 과학과 사회 교과의 경우 매체 효과(mode effect)가 없는 편이었고, 읽기, 영어, 수학 교과의 경우 매체 효과(mode effect)가 있는 편이었다.

반면, 지필평가와 컴퓨터 평가 간의 검사 매체의 영향이 유의미하지 않다는 결과들도 다양한 영역과 연령대를 대상으로 수행되어 왔다. 송정주(2009)12의 연구에서는 초등학생을 대상으로 검사 유형에 따른 성취도 차이가 존재하지 않는 결과를 보였다. 이러한 결과는 고등학생, 대학생 및 일반인을 대상으로 진행한 연구에서도 유사한 결과를 보였음을 알 수 있다.1315 임현정, 성태제(2001)15에 따르면, 일반 성인을 대상으로 영어 시험을 컴퓨터 검사와 지필검사로 실시한 결과, 각 검사에서 추정된 피험자의 능력에는 차이가 없었으며, 두 검사간의 상관은 .85로 매우 높음을 알 수 있었다. 뿐만 아니라, 컴퓨터 검사와 지필 검사를 치른 학생들의 성취도를 확인한 결과, 사전 능력을 통제하였음에도 두 검사 결과에는 차이가 없음을 알 수 있었다.16 몇몇의 연구들1719은 응시자의 성별, 표집 크기, 시험 내용 등이 검사 동등성에 유의한 영향을 주지 않는 것으로 나타났으며, 이러한 연구들은 주로 선다형 문항만을 사용한 연구결과라는 한계를 갖고 있었다.

과학 교과에서 지필 평가와 컴퓨터 기반 평가 간의 동등성을 확인하는 연구로 과학적 추론 검사의 경우, 컴퓨터 시험을 치른 응시자가 지필 시험을 치른 응시자에 비해 더 높은 점수를 받았다. 이를 문항 수준에서 분석했을 때, 컴퓨터로 실시할 때 유리한 문항 및 지문이 있는가 하면, 지필로 실시할 때 유리한 문항 및 지문이 혼재하고 있다고 보고하였다.20 과학 추론 검사에서 문항 및 지문에 따라 컴퓨터 검사에 유리한 경우와 지필 검사에 유리한 경우가 생기는 원인에 대해서 지필 검사에 유리한 원인으로는 ‘위치 기억’이, 컴퓨터 검사에유리한 원인으로는 ‘집중효과’를 언급하였다. ‘위치 기억’은 정보의 위치를 기억하기 위해서는 스크롤이 내려감에 따라 위치가 달라지는 컴퓨터에 비해 상대적으로 정보 위치의 변화가 적은 지필검사가 유리하다는 것이다. ‘집중 효과’는 컴퓨터 화면에 나타난 정보 이외의 방해 요소가 없기 때문에 피험자들이 해당 문항이나 지문의 정보에 집중하기 수월했다는 것이다.20 한편, 대학 일반 화학 강좌에서 컴퓨터 기반 시험과 지필 시험을 시행한 결과, 대학생들이 느끼는 인지적 부담감에 차이가 없는 것으로 나타났다.21

지필 검사 대신에 컴퓨터 기반 평가를 실시할 경우 검사 매체에 따라 성취도에 차이가 있다면 평가 결과를 신뢰하기 어렵게 된다. 따라서 이 연구에서는 TIMSS 2019 사전검사를 지필 평가와 컴퓨터 기반 평가로 시행한 결과에서 검사 매체에 따라 과학과 문항 정답률에 영향을 미치는지를 문항 유형별로 학년별로 분석하였다. 이를 통해 과학과 교수·학습과 평가에서 컴퓨터 시스템을 활용하는데 시사점을 도출하고자 하였다. 따라서, 본 연구에서는 과학 성취도 평가에서 컴퓨터 기반 평가와 지필 평가 간의 검사매체 효과가 문항 응답 특성에 어떠한 영향을 미치는지 분석하고 그 결과를 바탕으로 향후 교수·학습 및 교육평가 분야에서 컴퓨터 시스템을 도입하고자 할 때 교육적 함의를 제공하고자 한다.

연구 방법

분석 자료

본 연구에서는 TIMSS 2019 사전검사(pilot test) 자료를 사용하였다. TIMSS 2019 사전검사는 지필 평가와 컴퓨터기반 평가(eTIMSS) 간에 매체 효과(mode effect)를 점검하기 위해 실시되었으며, 지역 규모를 고려해 전국에서 표집한 4학년 975명, 8학년 1,169명이 검사에 참여하였다.

TIMSS 2019 사전검사의 평가도구는 TIMSS 2015에 사용된 문항들 중 일부를 추출해 개발되었으며, 행렬표집 방법을 적용해 학년별로 문항 또는 문항 제시 순서에 차이가 있는 8종의 검사가 개발되었다. 모든 검사는 지필 평가와 컴퓨터 기반 평가의 두 가지 형태로 개발되었으며, 사전검사에 참여한 학생들은 모두 오전과 오후로 나누어 1종의 지필 평가와 1종의 컴퓨터 기반 평가에 응답하였다. 8종의 검사도구에 있는 문항들은 각각 지필 평가에 있는 문항들과 동일한 문항들을 컴퓨터 기반 평가로 변환시킨 것이다. 개별 학생들에게는 각각 지필 평가와 컴퓨터 기반 평가에 동일한 문항이 있는 검사도구를 할당하였으며 모든 학생들에게 8종의 검사 도구를 무작위적으로 다양하게 할당하였다.

분석 방법

본 연구에서는 TIMSS 2019 사전검사 시행 후 국제본부에서 교과와 학년을 고려하여 제공한 과학 평가의 알마낙(almanac) 자료를 분석하였다. TIMSS 2019 사전검사는 학년과 교과별로 각 8개의 검사로 구성되어 있는데, 알마낙(almanac) 자료를 그대로 합치지 않고 검사별로 각각 독자적으로 결과를 도출하였다. 알마낙(almanac) 자료는 모든 성취도 검사의 구성형 문항 채점을 완료하여 검사 DME자료를 생성한 후 데이터의 일관성 및 타당성을 종합적으로 점검하여 국제본부가 제공하는 FPT 서버에 탑재한 후 국제 본부에서 제공되는 자료이다. 이러한 알마낙(almanac) 자료에는 검사지별로 문항에 대한 참여국들의 정답률, 변별도의 평균, 답지반응 분포 등과 이에 대한 국제 평균이 포함되어 있다. TIMSS 국제본부가 제공한 알마낙(almanac) 자료는 연구자 본인을 포함한 과학 교과 전문가들과 과학교사들이 보안을 유지하며 집중 검토한 후 국제본부에 피드백을 제공한다. 이후 국제 본부가 각국의 자료를 총 수합하여 다시 최종 점검 및 정리한 후 알마낙(almanac) 자료를 최종적으로 제공하며 이 자료를 독자적으로 본 연구의 목적에 맞게 데이터를 분석하였다.

연구 결과 및 논의

검사 매체에 따른 과학과 평가 문항의 정답률 비교

선다형과 서답형 문항 간의 평균 정답률 비교. 4학년 과학과의 문항 유형을 크게 선다형과 서답형으로 구분하여, 문항 유형별로 평균 문항 정답률을 비교한 결과는(Table 1)과 같다.

Table1.

Comparison of average percentage of correct answers between multiple-choice and constructed items by 4th grade science tests. (%)1

Test Multiple-choice Constructed Item Difference Between Paper and Computer

Paper Computer Paper Computer Multiple-choice Constructed items
1 79.03 77.03 67.02 66.18 2.00 0.83
2 84.70 80.60 62.12 57.97 4.10 4.15
3 68.32 67.80 70.30 66.54 0.52 3.76
4 74.62 70.17 67.73 61.97 4.45 5.77
5 68.65 67.64 61.50 57.88 1.01 3.62
6 71.84 71.49 70.47 67.97 0.36 2.50
7 83.76 79.46 54.02 47.62 4.30 6.40
8 72.40 71.59 77.83 74.28 0.81 3.55
Average 75.42 73.22 66.37 62.55 2.19 3.82

*이 논문은 한국교육과정평가원 이슈페이퍼(이채희 외, 2018)의 데이터를 일부 활용하여 수정 보완함.

선다형 문항의 경우 지필 평가에서의 평균 정답률은 75.42%, 컴퓨터 기반 평가에서의 평균 정답률은 73.22%이며, 서답형 문항의 경우 각각 66.37%, 62.55%이었다. 8종의 검사지 모두 지필 평가의 평균 정답률이 컴퓨터 기반 평가의 평균 정답률보다 높았다. 또한 선다형과 서답형 문항에서 지필 평가와 컴퓨터 기반 평가 간의 평균 정답률 차이값의 평균을 보면, 선다형의 경우 2.19%, 서답형의 경우 3.82%였다. 서답형 문항에서 차이가 좀 더 크게 나타났고, 문항 유형에 관계없이 컴퓨터 기반 평가보다는 지필 평가에서 평균 정답률이 높기는 하나, 그 차이가 크지 않음을 알 수 있다.

4학년 8종의 검사지에 대해, 선다형과 서답형 문항의 평균 정답률을 Fig. 1에 제시하였다. Fig. 1을 보면, 선다형 문항과 서답형 문항의 평균 정답률 패턴은 다르지만 문항 유형별로 지필 평가와 컴퓨터 기반 평가의 평균 정답률 패턴은 매우 유사한 것을 알 수 있다. 그리고 검사 매체에 따른 평균 정답률 차이값을 Fig. 2에 제시하였다. Fig. 2를 보면 서답형 문항에서 정답률 차이값이 좀 더 크기는 하나, 선다형과 서답형의 패턴이 그 차가 작고 거의 유사한 형태를 나타내고 있으므로 두 문항 유형 모두에서 검사 매체에 따른 평균 정답률 차이가 크지 않음을 알 수 있다.

Figure1.

Comparison of the average correct answer rate of 4th grade science items.

jkcs-65-48-f001.tif
Figure2.

Comparison of the difference the average correct answer rate of 4th grade science items.

jkcs-65-48-f002.tif

8학년 과학과의 선다형 문항과 서답형 문항의 평균 문항 정답률을 비교한 결과는 (Table 2)와 같다.

Table2.

Comparison of average percentage of correct answers between multiple-choice and constructed items by 8th grade science tests (%)1

Test Multiple-choice Constructed Item Difference Between Paper and Computer

Paper Computer Paper Computer Multiple-choice Constructed Items
1 65.75 62.20 48.81 46.80 3.55 2.01
2 71.55 68.41 55.90 51.52 3.14 4.38
3 62.27 61.60 58.41 53.83 0.67 4.59
4 67.46 65.16 46.93 42.72 2.30 4.22
5 77.94 77.34 41.64 46.06 0.61 -4.41
6 67.65 68.88 53.93 56.34 -1.23 -2.41
7 66.36 66.33 65.07 63.06 0.04 2.01
8 67.64 64.29 66.86 62.54 3.35 4.31
Average 68.33 66.77 54.70 52.86 1.55 1.84

선다형 문항의 경우 지필 평가에서의 평균 정답률은 68.33%, 컴퓨터 기반 평가에서의 평균 정답률은 66.77%이며, 서답형 문항의 경우 각각 54.70%, 52.86%로, 선다형 문항과 서답형 문항 모두 지필 평가의 평균 정답률이 컴퓨터 기반 평가의 평균 정답률보다 높았다. 또한 선다형과 서답형 문항에서 지필 평가와 컴퓨터 기반 평가 간의 평균 정답률 차이값의 평균을 보면, 선다형의 경우 1.55%, 서답형의 경우 1.84%로, 문항 유형에 관계없이 평균 정답률의 차이가 작았다. 그런데 8종의 검사지 중에서 검사지 5의 서답형 문항과 검사지 6의 경우 컴퓨터 기반 평가의 평균 정답률이 높게 나타났다.

8학년 8종의 검사지에 대해, 선다형과 서답형 문항의 평균 정답률을 Fig. 3에, 검사 매체에 따른 평균 정답률 차이값을 Fig. 4에 제시하였다.

Fig. 3을 보면, 선다형과 서답형 문항 모두에서 4학년의 경우보다 검사 매체에 따른 차이가 적음을 알 수 있다. 그리고 Fig. 3Fig. 4를 보면 8학년의 경우 크기는 그리 크지 않으나, 지필 평가보다는 컴퓨터 기반 평가의 평균 정답률이 좀 더 높게 나타난 검사가 있었다.

Figure3.

Comparison of the average correct answer rate of 8th grade science items.

jkcs-65-48-f003.tif
Figure4.

Comparison of the difference the average correct answer rate of 8th grade science items.

jkcs-65-48-f004.tif

지필 평가와 컴퓨터 기반 평가 간의 차이 값에 대한 빈도 분석. 검사 매체에 따른 정답률 차이 정도를 10~20%, 20~30%, 30% 이상으로 구분하여, 학년별, 문항 유형별로 해당 구간에 속하는 문항의 빈도를 구한 결과는 (Table 3)과 같다.

Table3.

The difference of frequency by section between the paper and computer tests.1

Difference (%) section 4th grade 8th grade Sum

Multiple-choice Constructed items Multiple-choice Constructed items
10~20% 1 5 2 11 19
20~30% 0 1 0 0 1
30% or more 0 0 0 0 0
All 1 6 2 11 20

정답률 차이값이 10~20% 구간에 해당되는 문항의 수가 19개였고, 20~30% 차이가 나는 문항은 1개였으며, 30%이상 차이가 나는 문항은 없었다. 그리고 서답형 문항에서 정답률 차이가 10% 이상 나타나는 문항은 17개로, 선다형 문항의 경우보다 많았다. 학년별로 살펴보면 4학년 문항의 경우 7개, 8학년 문항의 경우 13개로, 8학년 문항에서 정답률 차이가 10% 이상 나타나는 문항의 수가 더 많았다.

검사 매체 영향에 대한 과학과 평가 문항 내용 분석

본 연구에서 검사 매체 영향에 대한 과학과 평가 문항 내용의 분석은 문항별, 학년별로 분석하였다. 문항별 분석은 선다형과 서답형으로 구분하여 진행하였고, 학년별 분석은 4학년과 8학년으로 구분하여 분석하였다. 학년을 구분하여 검사별 문항들의 지필 평가와 컴퓨터 기반 평가의 문항 정답률을 비교한 그래프를 Fig. 5Fig. 6에 제시하였다.

이 그림들로부터 TIMSS 사전 검사에서 학생의 검사도구가 1부터 8까지 있는데 4학년의 경우는 11개에서 14개의 문항이 포함되어 있고, 8학년의 경우는 14개부터 21개의 문항이 포함되어 있음을 알 수 있다. 이는 TIMSS에서 다년간의 동등화를 위한 추이 문항 등을 통해 각 검사 도구 별로 난이도나 풀이 소요 시간 등을 고려하여 세부 문항의 개수를 결정하기 때문이다. TIMSS의 경우 추이 문항으로 동등화를 하여 추이 변화를 보는 주기성 평가이기 때문에 문항 보안이 철저하여 세부 문항을 보여줄 수는 없지만 전반적인 내용 영역별 경향을 살펴보면 다음과 같다. Fig. 5에서 검사지 1과 3의 경우 지필평가와 컴퓨터 기반 평가에서 정답률이 차이가 나는 문항은 생명과학 문항이었고 검사지 2와 5의 경우는 물상과학 중 물리 문항, 검사지 4와 7은 물상과학 중 화학 문항, 검사지 6과 7은 지구과학 문항에서 다소 차이가 있었으나 세부 내용 영역별로 차이가 있지는 않았다. 마찬가지로 Fig. 6의 8학년의 경우를 살펴보면 지필 평가와 컴퓨터 기반 평가에서의 문항별 정답률 차이가 4학년의 경우보다 더 작음을 알 수 있다. 또한 Fig. 6에서 검사지 1과 7의 경우 지필평가와 컴퓨터 기반 평가에서 정답률이 차이가 나는 문항은 지구과학 문항이었고 검사지 2와 5의 경우는 생명과학 문항, 검사지 3과 4는 화학 문항, 검사지 6과 8은 물리 문항에서 다소 차이가 있었으나 전반적으로 세부 내용 영역별로 차이가 있지는 않았다.

Figure5.

Comparison of the percentage of correct answer in paper and computer test of 4th grade science items.1

jkcs-65-48-f005.tif
Figure6.

Comparison of the percentage of correct answer in paper and computer test of 8th grade science items.1

jkcs-65-48-f006.tif

문항별 분석 결과 전반적으로 검사 매체 효과가 미미한 정도였으나, 간혹 전반적인 경향과 달리 지필 평가와 컴퓨터 기반 평가 간 차이가 두드러지는 문항들이 있어 이러한 문항들을 선다형과 서답형에 따라 구분하여 기술하였다.

우선, 문항 종류별 분석을 살펴보면, 선다형 문항의 경우, 과학 내용과 관련하여 정확한 답을 찾는 방식으로 구성되어 있어 지필 평가와 컴퓨터 기반 평가 간의 정답률에 큰 차이를 보이지 않았다. 서답형 문항의 경우에 지필 평가 문항의 정답률이 높은 경우도 있고, 컴퓨터 기반 평가 문항의 정답률이 높은 경우도 있는데 이를 살펴보면 다음과 같다.

서답형 문항 중 문항에 해석해야 하는 정보가 많이 포함되어 있는 경우, 컴퓨터 기반 평가의 정답률이 약간 낮아지는 경향이 있었다. 학생들이 문항 자체에 밑줄을 쳐서 표시를 하거나 메모를 하면서 문제를 해결해야 하는데 컴퓨터 기반 평가의 경우에는 그런 시스템이 마련되지 않아 학생들이 좀 더 어려워했을 가능성이 있다.22,23 임은정 등(2008)은 컴퓨터 기반 평가에 대한 대학생들의 인식을 조사하였는데 “컴퓨터 화면으로 보니 익숙하지 않아서 집중도가 떨어진다”, “계산이 필요한 경우 메모를 하기 어렵다”와 같은 의견이 제시되었다.23 그리고 지필 평가는 문항을 풀다가 이해가 되지 않으면 앞 문항을 돌아보거나 다음 문항부터 풀 수 있는 반면에, 컴퓨터 기반 평가의 경우 문항을 순서대로 풀어야 하고 다시 앞 문항으로 돌아가는 데 어려움이 있기 때문에 학생들의 정답률에 영향을 미칠 수 있다고 본다. Pommerich(2004)는 지필 검사가 유리한 원인으로 위치 기억을 언급하면서, 스크롤이 이동함에 따라 위치가 달라지는 컴퓨터에 비해 상대적으로 정보위치 변화가 적은 지필 검사가 유리할 수 있다고 언급하였다.20

학년별로 살펴보면, 4학년과 8학년에서 컴퓨터 기반 평가와 지필 평가의 정답률을 비교했을 때, 4학년에서 정답률의 차이가 조금 더 크게 나타나는 것은, 4학년 학생들의 컴퓨터 활용 능력이 다소 미숙한 것으로 판단되었다. Pomplun과 Custer(2005)는 초등학교 저학년의 경우 컴퓨터 사용에 미숙하여 검사 매체 효과를 일으킬 수 있다고 하였다.24

문항에서 지식에 기반하여 자료를 꼼꼼히 살펴야 하는 경우에는 지필 평가의 문항 정답률이 높았으나, 정해진 정답보다는 직관적인 사고를 요하는 문항의 경우 컴퓨터 기반 평가의 정답률이 높게 나타난 경우가 있었다. 이렇듯, 컴퓨터 기반 평가의 문항 정답률이 높은 경우의 원인으로는 자신의 생각을 자유롭게 작성하는 서술형 문항의 경우, 컴퓨터 기반 평가의 정답률이 일부 문항에서 높게 나타나는 경우가 있는데 이것은 학생들 입장에서 컴퓨터에 타이핑을 하면서 문자를 입력하고 수정하는 것이 지필평가보다 정답을 자세히 작성하기가 용이하기 때문인 것으로 보인다. 뿐만 아니라, 문항에 표나 그래프 등이 제시되어 있는 경우, 컴퓨터 기반 평가의 정답률이 높게 나타났는데, 이는 컴퓨터 화면에 제시된 표나 그래프가 지필평가에서 보다 명확하게 나타나 학생들이 문항을 해결하는데 더 용이한 것으로 판단된다.

결론 및 제언

본 연구의 결과를 토대로 내릴 수 있는 결론은 다음과 같다. 첫째, 전반적으로 TIMSS 2019 과학 검사에서 지필 평가와 컴퓨터 기반 평가에 따른 매체 차이가 없는 것으로 보이며 특히 물리, 화학, 생물, 지구과학과 같은 내용 영역별로는 큰 차이가 없었다. 그러나 컴퓨터 평가로 전환하면서 다양하게 분류될 수 있는 문항 유형에 따라서는 다소 차이가 있을 것으로 보인다.

특히 화학 교과에서 컴퓨터 기반 평가를 개발할 때, 학생들의 능력을 보다 타당하게 측정할 수 있고, 학생들의 학습동기 유발에 효과적이며, 평가 시행의 효율성이 높은 주제를 우선 선정하여 컴퓨터에서 시행할 수 있는 문항유형을 개발할 필요가 있다. 무엇보다 컴퓨터를 이용한 평가에서는 평가 결과에 대한 피드백을 통해 학생에게 제시되는 학습 내용과 평가 내용을 직접적으로 연계시킴으로써 학습효과를 확장시키는 효과를 얻을 수 있다. 피드백은 학습자의 장점과 부족한 부분에 대한 정보를 제공해 줌으로써 학습자의 능력을 증진하는데 중요한 역할을 할 수 있다.25 그 예로 중학교 1학년 화학의 ‘물질의 세 가지 상태’ 및 ‘분자의 운동’ 단원의 개념 학습에 컴퓨터 보조수업 프로그램을 도입하여 화학 교과의 추상적인 개념을 학습하는데 있어서 컴퓨터 기반 학습 및 평가의 효과성을 확인한 바 있다.25 또한 입자 개념을 강조한 컴퓨터 보조수업 자료가 중학생들의 물의 상태변화 관련 개념 향상에 미치는 긍정적 영향과 교육적 효과를 확인한 바 있다.26

둘째, 문항 유형별 정답률 분석을 통한 검사매체의 효과에 대한 후속 연구가 필요하다. 즉, 문항 유형을 선다형과 서답형으로만 구분하였는데 컴퓨터 기반 평가에서 다양한 유형의 문항이 구현되었으므로 이를 세부적으로 나누어 문항 유형별 정답률을 분석해 볼 필요가 있다. 예를 들면, 전통적 선다형, 다답형, 군집 선다형, 군집 선택형, 배열형과 배합형, 단답형, 완성형, 서술형, 논술형, 판단서술형, 수행형(도식완성형, 조작완성형) 등으로 구분하여 정답률을 살펴본 후, 특정 문항 유형에서 컴퓨터 기반 평가의 정답률이 현저히 높거나 낮은 경우를 찾아낼 수 있을 것이며, 이렇게 나타난 원인을 분석하여 컴퓨터 기반 평가에 제시된 문항의 내용이나 형식을 수정 보완할 수 있게 할 필요가 있다.

셋째, 컴퓨터 기반 평가는 문항 자체에 여러 가지 표, 그래프, 그래픽, 가상 실험 모듈 등이 포함되며 이러한 자료의 활용을 높이기 위해서는 각 학교에 이러한 평가 시스템을 구현할 수 있는 컴퓨터 기반 환경이 조성되어야 하는 것이 매우 중요하다. 따라서, 컴퓨터 기반 평가를 원활히 실시할 수 있는 수준의 컴퓨터, 태블릿 등과 컴퓨터 기반 평가를 실시할 수 있는 환경 구축 등이 필요하다. 이러한 환경이 구축되면 컴퓨터 기반 수업으로 연결되어 학생들이 컴퓨터 기반 평가를 실시하는데 보다 익숙해질 수 있을 것이라 사료된다.

넷째, 우리나라 컴퓨터 기반 평가의 개발과 현장 도입이 활성화 되고 폭넓게 적용되기 위해서는 교과별 문항 유형에 따른 검사 매체 효과 연구를 추진해야 할 것이다. 이러한 연구를 결과를 적용하고 컴퓨터 기반 교수 학습 및 평가 방식을 현장에 원활히 도입할 수 있는 컴퓨터 기반 평가 시행을 위한 환경 조성 등의 구체적인 방안을 제공해야 할 것이다.

Acknowledgements

이 논문은 2020년도 전북대학교 연구기반 조성비 지원에 의하여 연구되었음. Publication cost of this paper was supported by the Korean Chemical Society.

References

1. 

C. H. Lee H. K. Kim K. A. Sang J. S. Choi KICE ISSUE PAPER2018ORM 2018-39-22

3. 

Department for Education (DfE)The National Curriculum for England. GOV.UK. Framework document2013from https://www.gov.uk/national-curriculumRetrieved July 29, 2020

4. 

Australian Curriculum, Assessment and Reporting Authority (ACARA)The Australian curriculum2013from http://www.australiancurriculum.edu.auRetrieved July 29, 2020

5. 

S. Bocconi A. Chioccariello G. Dettori A. Ferrari K. Engelhardt European Commission, Joint Research Centre2016

6. 

S. H. Kim J. H. Kim H. Y. Kim U. J. Lee I. J. Park M. E. Kim E. H. Lee B. K. Gye J. S. Kim Korea Education Research Information Service. Research Report2017KR 2017-4

7. 

OECDPISA 2018 Technical ReportOECDParis2020

8. 

I. V. S. Mullis M. O. Martin TIMSS 2019 Overview eTIMSS and paper TIMSS Item Development ActivitiesBoston CollegeMA2017

9. 

Y. H. Choi H. K. Kim Journal of Learner-Centered Curriculum and Instruction2019191335

10. 

A. AERA 2nd ed.American Educational Research AssociationWashington DC1999

11. 

W. D. Way L. L. Davis S. Fitzpatrick In annual meeting of the National Council on Measurement in EducationSan Francisco, CA2006

12. 

J. J. Song A Validity Study of Computer-based Tests in An Elementary Social Study: Comparability with Paperand-pencil Tests. MD thesisJeonju National University of Education2009

13. 

S. R. Kim J. D. Kim The Journal of Korean Teacher Education200724347 [CrossRef]

14. 

M. J. Lee The Journal of Education Research200424121

15. 

H. J. Lim T. J. Seong Education Evaluation Research200114193

16. 

Y. Karay S. K. Schauber C. Stosch K. Schüttpelz-Brauns Teaching and Learning in Medicine20152757 [CrossRef]

17. 

B. Anakwe Journal of Education for Business20088413 [CrossRef]

18. 

O. Akdemir A. Oguz Computers & Education2008511198 [CrossRef]

19. 

D. S. Park J. P. Kim G. S. Yang Korean Educational Evaluation Society200215247

20. 

M. Pommerich The Journal of Technology, Learning and Assessment20042

21. 

A. A. Prisacari J. Danielson Computers in Human Behavior2017771 [CrossRef]

22. 

S.-K. Shin Journal of Research in Curriculum & Instruction2014181305 [CrossRef]

23. 

E.-J. Im W.-K. Lee Y.-C. Lee B.-H. Choe S.-K. Chung T.-H. Lee H. Cho J.-H. Cohn D.-I. Won H.-H. Kong B.-H. Chang J.-M. Lee Korean Journal of Medical Education200820145 [CrossRef]

24. 

M. Pomplun M. Custer Journal of Educational Computing Research200532153 [CrossRef]

25. 

K. Kim K. Chung J Cha Y. Kang T. Noh Journal of the Korean Chemical Society200751193 [CrossRef]

26. 

S. Paek Center for Education Research20062268