이 책의 원제는 ‘The Tyranny of Metrics(측정지표의 횡포)’이다. 이 책의 제목을 처음 접한 순간, 직장인으로서 10년이 넘는 기간동안 반기마다 팀장과 국장에게 근무성적평가를 받고, 팀원들로부터는 동료평가를 받고, 매년말 성과급과 함께 공개되는 근무성적평정 결과를 확인하고 스트레스를 받던 순간이 주마등처럼 스쳐갔다. 그 결과를 확인하고는 친한 동료들과 ‘나는 정말 열심히 했는데... 팀장님, 정말 너무 하시네...’ 등의 푸념을 늘어 놓았었다. 이 책을 통해 내가 늘 막연히 느껴왔던 성과지표에 대한 불만과 불합리성에 대해 이해할 수 있었다.
서문에서 저자는 오클랜드 야구팀이 측정지표를 이용해 팀의 순위를 끌어올린 감동적인 실화를 다룬 소설인 ‘머니볼’을 비판하며 흥미를 유발한다. ‘머니볼’은 브래드 피트가 주연한 영화로도 만들어져서 나도 정말 재미있게 보았는데, 저자가 비판하는 이유는 무엇일까? 그것은 바로 메이저리그에서 이기기 위해 안타를 몇 번 치는 것보다 홈런을 한번 치는 것이 더 유리하다는 분석에 따라 야구가 능률화되고 규칙성을 띠게 되면서 사람들의 손에 땀을 쥐게 하는 안타와 도루는 줄어들고 결국 경기가 지루해지게 되었다는 것이다. 그러면서 관객들의 발길이 뜸해졌는데, 이것이 ‘측정강박’ 현상을 단적으로 보여주는 예라고 지적한다. ‘어? 그럴듯한데?’라는 생각과 함께 나는 저자의 논리가 더욱 궁금해졌고, 점점 책속으로 몰입되었다.
서론에서 저자는 미드 ‘더 와이어(The Wire)’를 언급하며 책을 쓰게 된 배경을 밝힌다. ‘더 와이어’에서 경찰 지휘관들은 범죄 해결 건수, 마약범 검거 수, 범죄율 같은 수치를 맞추는 데 혈안이 되어 있고, 이런 통계적 목표치를 맞추기 위해 효과성을 희생시키는 다양한 수단까지 동원한다. 살인사건이 관할 구역으로 배정되지 않도록 몸을 사리고, 체포에 많은 시간과 비용이 드는 마약조직의 두목은 체포하지 않고, 쉽게 체포할 수 있는 잔챙이 마약상들만 체포하는 것이다. 저자는 이러한 행태를 측정지표와 관련된 ‘꼼수’라고 표현한다. 이런 꼼수가 발생하는 이유는 세상에는 측정 가능한 것이 있고, 측정할 가치가 있는 것이 있으며, 측정할 수 있다고 해서 꼭 측정할 가치가 있는 것이 아니고, 측정되는 항목이 우리가 정말 알고자 하는 것과 무관할 수 있기 때문이다.
저자는 ‘측정강박’이 문제가 될 수 있다고 말한다. 중요한 것이라고 해서 모두 측정할 수 있는 것이 아니고, 측정할 수 있는 것 중에는 중요하지 않은 것도 많은데, 성과의 다양한 요인 중 측정이 가능한 몇 가지만 측정한다면 나머지 요인들은 등한시하게 되는 결과가 초래되기 때문이다. 그리고 상황은 점점 악화되게 된다. 이러한 사실을 알아차리게 되면 성과측정 수단을 보완하기 위해 더 추가하고, 그 결과 점점 쓸모없어지는 데이터가 발생하며, 이를 수집하는 데 점점 더 많은 시간과 자원이 투입, 낭비되기 때문이다. 이 과정에서 측정이 불가능한 사명감 등으로 일하는 직원들은 사기가 저하된다. 또한 데이터를 날조하거나 성과지표를 높여주는 사례만을 보고하고, 부정적인 경우는 보고하지 않게 되며 극단적인 경우 증거를 조작하는 사례가 발생하기도 한다. 이러한 대표적인 역기능을 미국과 영국의 두 사회과학자가 사례를 통해 공식화기도 하였는데, 미국의 캠밸은 “사회적 의사결정에 더 많이 활용되는 정량적 사회 지표일수록 부패 압력에 더 많이 시달리고, 이 지표로 감시하려는 사회적 절차 또한 더 쉽게 왜곡되고 부패한다”고 주장하였으며, 영국의 굿하트는 “통제에 사용되는 모든 측정수단은 신뢰할 수 없다”고 설명한다.
이러한 측정지표의 횡포는 어떻게 생겨났고 왜 발생한 것일까? 표준화된 측정법으로서 책임성의 문화에 크게 기여한 사람은 바로, 24살에 하버드경영대학원 최연소 교수가 된 회계사 로버트 맥나마라다. 1950년대부터 경영대학원의 궁극적인 목적은 특정 산업과 관계없이 일련의 기술을 갖춘 일반 관리자들을 배출하는 것이었는데, 경영을 학문으로 바꿔 장래의 미국 재계 간부들을 키워내려던 이러한 시도는 관리주의 신조로 탈바꿈했고, 경험과 깊은 배경지식을 바탕으로 하는 판단의 역할은 경시되었다. 자동차 분야 간부들은 자동차 업계에서 경력의 대부분을 보낸 일명 ‘자동차맨’들이었으나, 이들의 자리는 비용과 이윤을 계산하는 데 능숙한, 맥나마라 같은 “숫자쟁이”들로 점점 대체되었다. 베트남전 당시 국방부 장관이었던 맥나마라는 미국의 전승상황을 판단하는 척도로서 “적의 전사자 수”라는 측정지표를 내세웠고, 각 군대는 폭격출격 횟수, 포탄발사 횟수, 사망자 수 등 측정이 가능한 지표를 극대화하고자 노력했다. 전략, 리더십, 집단 응집력, 군인의 사기처럼 만질 수 없는 인적 요인이 아니라 만질 수 있는 투입과 산출을 측정하는 데 목표를 두었고, 정말로 중요한 요인들을 무색하게 만들었다.
고등교육 분야에서 영향력이 점점 커지고 있는 또 다른 성과측정지표는 대학 순위다. 이런 랭킹은 대학 명성의 주요 원천이기 때문에 졸업생과 평의원회 위원들은 잠재적 기부자와 지망생들에게 자신의 대학이 높게 평가되기를 소망한다. 하지만 대학 순위가 갈수록 부각됨에 따라 고객선별, 데이터의 생략 또는 왜곡을 통한 수치개선 등의 방법을 이용한 새롭고 다양한 꼼수가 나타났다. <USNWR>의 로스쿨 순위는 정규 입학생들의 LSAT 점수와 평점을 기준으로 결정된다. 그래서 통계치를 개선하기 위해 점수가 낮은 학생들을 “시간제” 또는 “가급제” 기준으로 받아들이고 이 학생들의 점수를 통계에 포함시키지 않는다. 또한 편입생의 점수는 계산되지 않는 점을 이용해 많은 로스쿨 입학처에서는 순위가 낮은 학교 출신의 학생들이 1학년이 지난 후 편입을 하도록 권유한다. <USNWR> 등에서 매기는 공적 순위는 정보가 부족한 사람들에게 여러 교육기관의 평판을 미리 알려주는 순기능이 있지만, 결국은 대학이 그 측정 항목의 지수를 높이도록 유인함으로써, 각 대학의 특별한 개성을 버리고 모두 균일화되는 결과를 초래한다.
부시의 대통령 임기 초기에 시행된 NCLB(낙제학생방지법)에 따라 각 주에서는 매년 모든 3~8학년 학생에게 수학, 읽기, 과학 시험을 치르게 했다. 이 법의 목적은 2014년까지 모든 학생이 “학업능숙도”를 갖추게 하고, 각 학교의 각 학생그룹이 매년 능숙도 면에서 “적정 수준의 연간 성과”를 내도록 보장하는 것이었다. 따라서 지정된 학생 그룹이 충분한 성과를 내지 못할 경우 일련의 처벌과 제재를 강화하는 조치가 취해졌다. NCLB가 초래할 결과는 명백했다. 교사들은 수업시간에 수학과 영어 같은 시험과목을 가르치고 역사, 사회, 미술, 음악, 체육 같은 과목은 다루지 않았으며, 수학과 영어 수업 역시 폭넓은 인지 과정보다 표준화된 시험에 필요한 기술을 가르치는 것으로 한정되었다. 그리고 텍사스와 플로리다에 소재한 학교들을 대상으로 진행한 연구에 따르면, 열등생들을 장애학생으로 재분류해 평가군에서 제외하거나 교사가 학생의 답안을 바꾸고 성적이 낮을 것 같은 학생들의 시험을 포기하도록 하는 편법이 발생하기도 하였다. 또한 성적이 낮은 그룹의 읽기와 수학점수를 향상시키는 데 관심이 집중됨에 따라 역사와 윤리, 사회를 교육한다는 학교의 더 큰 사명은 무시되었으며, 성취도가 낮은 학생에게만 효과적인 교수법이 우수한 다른 학생들에게까지 확대되는 역효과까지 발생하게 되었다.
측정지표의 지지자이자 하버드경영대학원 경제학교수인 마이클 포터는 의료부문에 대한 측정지표의 성공사례로 클리블랜드 클리닉, 게이싱어헬스시스템, 키스톤프로젝트를 꼽는다. 이 사례들이 성공할 수 있었던 이유는 측정지표가 대형 시스템에 통합되는 방식 때문이다. 측정기준의 수립과 성과평가를 수행하는 주체가 행정관리자와 의사로 구성되고, 따라서 성과의 측정지표는 직접적인 실전 지식이 없는 상부의 행정관리자가 도입하거나 평가하지 않고, 협업과 동료심사가 그 기준이 된다. 여기서 얻을 수 있는 교훈은 서비스 제공자에게 성과 측정수단을 개발하고 감시하도록 하는 것의 중요성이다. 그 측정수단이 이들의 직업적 사명감과 일치하게 되기 때문이다. 그러나 미국정부의 메디케어는 2011년에 감염률을 공개하기 시작하고 1년 뒤에 감염률이 높은 병원에 환급을 보류하는 방법으로 징계를 내리기로 한다. 이는 외적 동기보다 내적 동기에 의존하던 앞선 의료기관들의 성공사례와 상이한 인센티브 구조를 만들어냈다. 입원횟수를 줄이기 위해 “퇴원 후 30일 이내에 발생한 뜻하지 않는 재입원의 비율”을 산정하였는데, 이는 병원들이 재입원을 제한하도록 의도하지 않은 효과를 발생시켰다. 통계적으로 재입원율은 감소하였으나, 실상은 다시 찾아온 환자를 공식적으로 입원시키는 대신 “관찰상태”로 일정기간 병원에 머물게 하면서 “입원”이 아닌 외래환자 서비스 비용을 청구하거나 재방문 환자를 응급실에서 치료하는 일이 발생하기 시작하였다. 재입원율 지표의 개선이 환자 치료의 질 개선과 이어지는 것은 아니었다.
콤프스탯은 범죄분석 및 책임성 시스템으로 1994년에 뉴욕경찰청에서 처음 개발했다. 범죄가 몰리는 범죄 빈발지역을 정확히 짚어내고 그에 따라 경찰 인력을 배치하는 데 사용된다. 하지만 시장으로부터 전반적인 수치를 개선하라고 압박을 받은 경찰청창은 보고된 범죄가 늘어날수록 벌점이 높아질 것이라는 메시지를 전달하고, 하부 직원들은 여기서 수치를 조작해야 한다는 중압감에 시달리게 되었다. 수년간의 조사 끝에 마약 조직 우두머리를 체포하는 것보다 길 모퉁이에서 마약을 판매하는 십대를 하루에 다섯명 체포하는 것이 통계상 더 나았기 때문에 경찰관들은 수치를 빠르게 올리는 방향을 더 선호했다. 경찰의 상관들과 상부보고체계에 있는 정치인들의 관점에서 각각의 체포는 통계적으로 모두 동일한 가치를 지녔기 때문이다. 이는 마약의 판매를 줄이는 데 거의 도움이 되지 않았고, 모든 부서의 경찰들은 가장 쉬운 사건을 쫓게 되었다.
미국은 베트남 전쟁시절부터 대반란캠페인(COIN)에 측정지표를 사용하려고 노력해왔다. “책임성”도모를 위해 “투명한” 성과 측정지표를 개발하려는 욕심은 대체로 표준화되고 중앙화된 측정지표의 사용으로 직결되는데, 상관들을 비롯해 작전 현장에서 멀리 떨어진 대중에게는 그러한 측정지표가 더 이해하기 쉽기 때문이다. 하지만 베트남전에서 미국 군인들이 맥나마라 국방장관이 그토록 자랑스럽게 여긴 “사망자의 수”에 포함시킬 적군의 시신을 찾느라 생명을 잃는 등 현장에서는 부정적인 결과를 초래하였다. 미군과 국무부의 대반란 전략가로 일했던 데이비드 킬컬런은 “반란 및 테러 분자들은 대항책에 신속하게 반응해 진화하기 때문에 한 때 효과 있던 방법은 시간이 흘러 효과가 없을 수 있고, 한 지역 또는 한 시대에 유효했던 통찰은 다른 곳에 적용하기 힘들 수 있다”며 측정지표는 사건의 독특성에 맞춰 적용해야 하고, 아무리 우수한 성과 측정지표라 하더라도 경험에 기초한 판단에 맞춰 사용해야 한다고 강조한다.
측정은 판단의 대안이 될 수 없다. 측정에는 판단이 요구된다. 다시 말하면, 측정여부, 측정항목, 측정항목의 중요도를 평가하는 방법, 보상과 처벌의 기준을 결과에 둘지의 여부, 측정결과를 이용할 대상 등에 대한 판단이 필요하다. 첫째, 어떤 유형의 정보를 측정할 것인가? 둘째, 그 정보는 얼마나 유용한가? 셋째, 측정지표가 많을수록 유용한가? 넷째, 표준화된 측정에 의존하지 않을 경우의 대가는 무엇인가? 다섯째, 측정의 용도는 무엇인가? 여섯째, 측정지표를 확보하는 데 드는 비용은 얼마인가? 일곱째, 조직의 상부 경영진에게 상과 측정지표가 필요한 이유는 무엇인가? 여덟째, 성과 측정수단을 누가, 어떻게 개발할 것인가? 아홉째,아무리 좋은 측정수단도 부패나 목표전치의 대상이 될 수 있다. 끝으로 측정지표로 해결할 수 있는 문제는 훨씬 적다는 한계를 인식해야 한다.
'독서일기 > 경제,경영,사회' 카테고리의 다른 글
[대변동 : 위기, 선택, 변화] 재레드 다이아몬드 (3) | 2025.02.12 |
---|---|
[어떻게 민주주의는 무너지는가] 스티븐 레비츠키, 대니얼 지블랫 (0) | 2025.02.11 |
[오일의 공포]손지우, 이종헌★★★ (0) | 2020.03.20 |
[2020 부의 지각변동] 박종훈★★★☆ (0) | 2020.02.17 |
[전략적 사고의 기술] 하버드 비즈니스 리뷰 ★★★ (0) | 2019.12.10 |