[썩빡꾸의 세이버메트릭스] 과거 WAR을 활용해 올해 WAR을 예측하는 방법은?
'WAR 머신' 김재환, 올해도 타자 대세?
[썩빡꾸의 세이버메트릭스] 과거 WAR을 활용해 올해 WAR을 예측하는 방법은?
타자의 최근 수년 간의 WAR(대체선수 승리기여도) 수치를 기반으로, 다음 연도의 WAR를 미리 예측할 수 있을까? 그렇다면 그 정확성은 어느정도 수준일까?
일단 과거 WAR을 바탕으로 다음 연도의 WAR을 예상하는 방법을 알아보자.
충분한 표본을 확보하기 위해 "메이저리그에서 1920년 이후 2018년까지 수년 간 연속으로 최소 10타석 이상을 기록한 타자"들의 시즌 데이터를 대상으로 관측했다.
이전 몇 년간의 성적과 다음 연도의 성적 간의 관계를 다변량 선형회귀(multivariate linear regression)로 확인했다. (*다변량 선형회귀란?)
관측한 연도의 수를 1년부터 5년까지 늘려가며 예측한 다음 해의 성적의 결정계수(R^2)는 다음과 같다.
이전 연도를 많이 관찰하면 관찰할수록, 다음 해의 WAR 예측력이 더 좋다는 점을 확인할 수 있다. (5년 기록 확인 시 .674)
특히 직전 1~2년 성적이 매우 중요한 정보이며, 최근 3년 이전의 성적은 1-2년전 기록과 달리 예측력을 비약적으로 높이진 못했다. 이를 감안할 때 다음 해의 성적을 예측할 때 이전 3년의 성적을 기준점으로 하더라도 큰 차이가 없을 것으로 판단된다.
이 때 결정계수(R-squared)는 .646, 평균제곱근오차(RMSE)는 1.33이었다. 대략적인 성적의 추정은 가능하나, 오차가 큰 편이어서 정교한 예측은 어렵다고 봐야겠다.
이전 3년의 성적을 기반으로 예측할 때, 각 연도 성적에 대해서는 얼만큼의 가중치를 부여해야 할까? 회귀분석을 통한 연도별 각 가중치는 다음과 같다.
이 세 가중치의 합은 .822이다. 가중치의 합이 1보다 작다는 것은 이전 3년의 성적보다 이후 1년의 성적이 평균적으로 더 떨어진다는 뜻이다.
이는 평균회귀로 현상으로 설명 가능하다.
평균회귀 현상을 무시하고, 가중치의 합을 1로 조정하면, 연도별 가중치는 다음과 같이 조정된다.
이는 이전 연도 WAR로부터 다음 해의 WAR를 예측할 때, 평균회귀 현상을 고려하기 전 각 연도에 대한 가중치이다. 이를 정수배로 간단히하면 약 6, 3, 1 비율로 정리할 수 있다.
즉, 타자의 실력을 WAR만으로 판단한다면, 이전 3년 성적에 대해 약 6:3:1의 가중치로 고려하면 된다는 것이다.
이를 감안하여 아래와 같이 '가중평균 WAR'의 식을 도출했다.
이제 이 가중치를 KBO리그 기록에 다시 적용해 보자.
리그수준과 경기 수가 다른 KBO리그에 이를 그대로 적용하기엔 다소 차이가 있겠지만 가중치가 실제와 큰 차이가 나진 않을 것임을 전제로 메이저리그에서 구해진 가중치를 간단히 그대로 적용해봤다.
2018-2017-2016시즌 성적에 대해 각 6:3:1의 비율로 가중평균한 WAR 순위는 다음과 같다. (WAR 수치는 KBReport.com(케이비리포트 기록) 참조)
* 2019시즌 타자 WAR 예상 순위(가중 평균 기준, 1~15위)
타이론 우즈 이후 20년만에 배출된 역대 3번째 잠실홈런왕이자 2018 정규시즌 MVP로 선정된 두산 김재환의 가중평균 WAR가 7.0으로 가장 높았다.
그는 직전 시즌인 18시즌(7.0) 뿐 아니라 16~17시즌에도 모두 성적이 뛰어났다. 최근 3시즌의 성적을 모두 고려하는 [가중평균 WAR]에서 김재환이 1위를 차지한 것은 어찌보면 당연하다.
* 3/31 연타석 홈런을 터뜨린 김재환
그 뒤는 바로 KIA의 100억 FA타자인 최형우가 이었다. 2016~17 시즌 기록(8.9-7.2)이 매우 좋았지만, 가중치가 가장 높은 2018시즌 성적이 5.3으로 다소 하락하면서 2위로 순위가 밀려났다. 그 외에 손아섭, 양의지, 최정 등 FA 고액 타자들이 5.0 이상의 높은 가중평균 WAR를 기록했다.
지난해 타자 WAR 1위(케이비리포트 기준)를 기록한 박병호의 경우 미국 진출로 인해 16~17시즌 기록이 없기 때문에 직전해 성적이 가장 좋음에도 불구하고 4.5로 하락하는 것으로 나타났다. 데이터가 없는 상태에서 나온 예상치가 실제 결과와 어느정도 차이를 보일지 주목된다.
'가중평균 WAR'는 최근 3년 WAR에 대해 단순히 가중치를 주어 평균을 계산한 수치이다. 하지만 직전 시즌의 성적 뿐 아니라 그 이전 연도의 성적도 감안함으로써, 다음 해 성적과의 상관성을 높인 지표다.
계산이 간단하면서도 직전 시즌 WAR보다 현재 선수의 실제 실력을 근접하게 예측할 수 있어 유용히 사용할만하다. 올시즌 상위권으로 예상된 타자들의 기록과 시즌 후 결과를 비교해 보는 것도 흥미로운 관전포인트다.
[기록 참고 : 야구기록실 KBReport.com, 스탯티즈, KBO기록실, suxism.com]
글: 세이버메트릭스 칼럼니스트 박지훈(a.k.a 썩빡꾸), 김정학 / 감수 및 편집: 김정학 기자