h 인덱스

지표 (metrics)
저자 수준	저널 수준	문헌 수준
h 인덱스 g 인덱스	임팩트 팩터 SJR SNIP	피인용수

1. 개요2. 상세3. 한계4. 이야깃거리5. 예시6. 관련 문서

1. 개요

Hirsch index, h-index

지표 혹은 계량(metrics)의 한 종류로, 개별 연구자의 연구업적과 성취, 학계에 미치는 영향력을 자연수로 표현한 것.
~~학자의 전투력~~

IF가 저널의 품질을 가늠해 보는 데 쓰이고, 피인용수가 논문의 인기를 가늠해 보는 데 쓰인다면, 이 h 인덱스는 연구자의 역량을 가늠해 보는 데 쓰인다. 이게 단순해 보이면서도 그만큼 직관적이고 깔끔한지라, 오늘날 어마어마하게 적용되어 쓰이고 있는 중.

2. 상세

처음에 만들어진 것은 2005년으로, 만들어진 지 10년도 채 못 되어 학술세계를 완전히 장악해 버릴 정도로 인기를 얻었다. 캘리포니아 대학교 샌디에이고 캠퍼스에 있던 물리학 교수 조지 허시(Jorge E. Hirsch)가 자신의 논문 《개인의 과학적 산출량을 계량하기 위한 지표》(An Index to Quantify an Individual’s Scientific Output)를 발표한 것이 그 시초.

h 인덱스 값은 허시의 논문 그림자료 1번에 제시된 그래프를 따라 공식화되는데, 구체적인 내용은 다음과 같다.

가로축을 긋고 "논문의 수"(paper number)로 정한다.
세로축을 긋고 " 피인용수"(number of citation)로 정한다.
만들어진 좌표평면 위에 원점에 대하여 볼록한 형태의 곡선을 그린다.[1]
만들어진 좌표평면 위에 원점을 지나면서 기울기가 45도인 직선을 그린다.

여기서 곡선과 직선이 만나는 점, 즉 한 연구자가 출판한 논문의 수와 인용의 수가 같은 점이 생기는데 이를 h 값이라고 하고, 곡선 아래의 전체 넓이는 이 연구자가 지금껏 출판한 모든 논문들의 모든 피인용수라고 할 수 있다. 정리하면, "어떤 연구자의 h 인덱스 값이 h 일 때, 이 연구자의 논문 중 h 편이 h 회 이상 인용되었다."[2]

이 지표가 쌈빡한 이유는 따로 있는데(…) 정량적인 지표이면서도 그와 동시에 양적 수준과 질적 수준을 모두 포괄하여 보여준다는 특징이 인정받았기 때문이다. 머릿속으로 간단한 사례를 가정해서 계산해 보면 알겠지만, h 인덱스는 " 어쩌다 불후의 논문을 쓰거나" 아니면 " 그냥저냥한 논문들을 공장처럼 뽑아내는" 연구자들에게 결코 좋은 숫자를 내놓지 않는다. 다시 말해, h 인덱스가 높게 나오는 연구자들은 양적으로도 우월하고 질적으로도 범접할 수 없는 넘사벽의 석학이라는 얘기다.

3. 한계

단 어느 지표나 다 그렇듯이 이것 역시 한계점은 존재한다. 가장 우선 떠오르는 것은 역시 원로 석학들에게는 유리하지만 박사후 과정이나 초짜 연구자들에게는 불리하다는 것. 이제 막 학계에 발을 들여놓은 연구자치고 좋은 h 값이 나올 리가 없고[3], 이 경우 h 값은 이 새파란 연구자가 얼마나 실력이 대단한지를 제대로 보여주지 못하게 된다. 또한 인용을 근거로 측정하는 지표가 다 그렇듯이, 서로 다른 분야의 연구자들끼리 비교하는 건 영 무리다. 더불어 자기인용 부분을 제거하지 않았기 때문에 실제보다 다소 과장되었을 위험이 있고, 마지막으로 한 논문을 여러 연구자들이 쓰게 될 경우 그 기여의 정도가 다 다를 수 있는데 이 부분이 모두 동일하다고 간주하고 측정된다는 한계가 있다.

극단적인 예시로 다음과 같은 사례를 생각해 볼 수 있다.

유능한 박사후과정 A박사

각각 350, 452, 877회 인용(citation)된 단독 1저자 논문 3개를 출판했다. 숫자에서 볼 수 있듯 상당히 업계에서 유명한 논문들이고, 본인도 유명하지만, SCI 논문은 이 3개 뿐이다.
A박사는 웬만한 교수들은 그냥 동급 이상으로 인정해주는 장래가 촉망되는 젊은 연구자다.
이 경우 A박사의 h index는 3이다.
(3회 이상 인용된 논문 3개를 낸 건 사실이지만 4회 이상 인용된 논문 4개를 낸 것은 사실이 아니므로)

거대 유명그룹에 소속되어 교수의 통제를 받는 박사후과정을 보조하는 박사과정이 시킨 잡일을 하는 석사 2년차 B학생

1저자는커녕 2저자나 3저자 논문도 하나도 없고 끝에서 2저자 논문만 자기도 모르는 새 10개다.
그냥 양산형 실험논문이라 10개의 논문이 인용(citation)된 횟수는 각각 8, 7, 7, 6, 5, 5, 3, 0, 0, 0이다.
심지어 앞의 8, 7, 7, 6, 5, 5, 3번 인용되었다는 7개의 논문은 절반이 자기인용이다.
이 경우 B학생의 h index는 5이다.
(뭔가 좀 부실하지만 어쨌든 본인 이름이 들어간 5회 이상 인용된 논문 5개를 낸 것이 사실이므로)||

위 사례에서 볼 수 있듯이, h인덱스를 높이려면 일단 다작이 기본이 되어야 하고, 그 저자가 쓴 논문의 품질이 온전히 반영이 안되는 문제가 있다. 그리고 앞서도 언급되었듯이 자기인용에 의한 뻥튀기도 제거가 안되고, 논문에 대한 기여도도 반영이 안된다. 그리고 별로 관여도 안했으면서 이름만 빌려주고 여기저기 기웃거리면서 학계에서 20년 이상 버티면 누구도 무시 못할 엄청난 h-index 보유자가 되는 경우도 가능하고, 실제로도 국내외를 불문하고 생각보다 이런 사람이 많다.

4. 이야깃거리

h 인덱스는 구글 스콜라에서도 지원하며, 연구자 프로필 내역으로 들어가면 우측 상단에 심지어 시계열 추세까지 보여주면서 상세히 보고서를 뽑아놓는다. WoS나 SCOPUS 같은 몇몇 학술 데이터베이스들에서도 열람이 가능하다. 단, 이들끼리는 서로 h 값이 다른 경우가 많은데, 그 이유는 이들이 서로 다른 기준에 입각하여 피인용수를 정리해 보여주고, 그 결과 피인용수를 근거로 하여 계산되는 h 값 역시 달라지게 되기 때문.

유사품도 많이 있다. 그 중에서 i10 인덱스(i10-index)는 구글 스콜라에서 함께 제공하는 것인데, 어떤 연구자의 논문 중에서 10 이상의 피인용수를 얻은 논문의 수를 나타낸 것이다. 한편 h 코어(h-core) 역시 구글 스콜라에서 제공하는데, 어떤 연구자의 논문을 피인용수에 따라 내림차순 정렬한 다음, h 값만큼의 상위 논문들을 취합한 데이터이다. 그 연구자의 연구업적 중 핵심 중의 핵심이라고 할 수 있겠다. 그 외에도 h5 인덱스(h5-index) 같은 것도 있는데, 구글 스콜라에서는 희한하게도 이걸 가지고 저널을 계량하는 데 써먹고 있다.(…)[4] 하여간 개량이나 대안이 꽤나 많이 나온 거라서, 이듬해인 2006년에 레오 에게(L.Egghe)에 의해 제안된 g 인덱스(g-index) 같은 것도 있는 등 한도끝도 없다.

5. 예시

몇몇 사례들을 들자면 다음과 같다. 예컨대 심리학 분야에서 2015년 기준 최종보스 급으로 활약중인 석학 두 명을 들자면, R.Baumeister의 경우 h 값이 153이며, R.R.McCrae의 경우 h 값이 136이다. 우리가 잘 아는 저 유명한 존 스튜어트 밀의 h 값은 86. 폴리아세틸렌등 고분자의 전자기적 성질에 대한 규명으로 노벨화학상을 수상한 물리학자 앨런 히거가 186. 한편 무신론 성향으로 유명한 심리철학자 대니얼 데닛(D.C.Dennett)의 h 값은 같은 해 기준으로 88. 초끈 이론의 거장인 에드워드 위튼의 h 값이 191이고, 우리나라 컴퓨터공학과 교수님들의 h 값의 평균은 약 30정도.

구글에서 프로필이 관리되는 인문사회분야 학자들 중 최댓값은 미셸 푸코의 245로 보인다. 지그문트 프로이트도 273으로 높다. 구글 전체에서 가장 높은 인물은 그레이엄 콜디츠로, h 값이 293이다. # 물론 다른 분야의 학자끼리 비교해서 점수가 높은 사람이 더 우월하다는 식의 비교는 성립하지 않는다.

6. 관련 문서

과학계량학

[1] 곡선이라고 표현되어 있지만 사실은 피인용수가 높은 논문 순서대로 나열한 후 각 논문의 피인용수 값을 이은 선을 말한다. 논문 수가 많아질수록 부드러운 곡선에 가까워진다. [2] 구글 스콜라에 따르면, 어떤 연구자의 h 개의 논문들의 피인용수가 h 회 이상이 되기 위한 가장 큰 수가 h 이다. [3] 왜냐하면 논문 한 편이 출간되고 나서 해당 논문의 인용 횟수는 시간이 지날수록 기대값이 상승하는 것이 자연스럽기 때문이다. 즉, 연구 경력이 긴 학자들일 수록 시간에 따른 인용횟수의 기대값이 높은 논문들이 많다. 이게 h 값에 영향을 준다. [4] h5 인덱스도 어떻게 보면 꽤 설득력 있어 보이는 지표지만, 게재되는 논문의 양이 일단 압도적으로 많은 저널이 유리할 수밖에 없으므로 비판이 많다.