mir.pe (일반/어두운 화면)
최근 수정 시각 : 2024-11-29 22:09:15

벤치마크


파일:나무위키+유도.png  
은(는) 여기로 연결됩니다.
경영학에서의 용어에 대한 내용은 벤치마킹 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
참고하십시오.
1. 사전적 의미2. 토목공학에서의 용례3. 컴퓨터공학에서의 용례
3.1. 점수의 사용도3.2. 의미가 없다?3.3. 벤치마크 조작3.4. 벤치마크 툴 목록
3.4.1. 연산성능3.4.2. 저장장치3.4.3. 배터리3.4.4. 인터넷3.4.5. 벤치마크 용도로 사용되는 게임

1. 사전적 의미

기준점, 혹은 표준점의 의미. 원래는 토목공학쪽 용례만을 뜻하였으나, 점차 의미가 확장되어 현대 용어 사전에서는 이를 '명백한 판정으로 결정 지을 수 있는 표준'이라고 확대 해석하고 있다. 즉 벤치마크가 담고 있는 의미는 조사 대상을 여러 가지 방법으로 측정하여 누구라도 인정할 수 있도록 표준화시키는 과정이라고 할 수 있다. 경영학에서의 용어 벤치마킹 역시 이러한 표준화된 다른 기업을 본받는다는 의미에서 사용되는 용례다.

2. 토목공학에서의 용례

'토지 측량에서 사용되는 수준 기표', 즉 어떤 것이 높고 낮음을 나타내는 기준점을 의미한다. 해발고도를 측정하여 전 국토에 기준점을 세워둔 것으로 수준측량 등 측량 분야에서 필수적으로 사용된다. 단어의 원래 기원이지만, 국내에는 수준점이라는 한자 단어로 사용하지 영단어 벤치마크로는 사용하지 않는 편이다.

3. 컴퓨터공학에서의 용례

컴퓨터, 스마트폰 등 전자기기의 연산성능을 시험하여 수치화하는 것을 말하는 단어. 특히 전산용어로써 벤치마크는 여러 가지 전자기기의 성능을 비교 평가하는 의미의 동사로 쓰이고 있으며 주로 소프트웨어보다는 하드웨어 부분에 많이 적용되고 있다. 일반적으로 국내에서 벤치마크라고 하면 99% 이 쪽 용례를 뜻한다.

컴퓨터 게임 상에서 종종 보이는 벤치마크 기능은 이를 보여주기 위해 게임의 엔진이 구현할 수 있는 최상급의 환경을 조성한 뒤, 사용자의 컴퓨터로 구동해보는 것을 말한다.

3.1. 점수의 사용도

벤치마크 점수는 매니아들의 심도 있는 구매 가이드와 같은 역할을 하고 있으나, 테스트 기준과 방법에 따라 의도적으로 잘못된 결과를 만들 수 있는 것 또한 가능한 일이기 때문에 일반 소비자들을 현혹시키는 데 악용될 수도 있다. 때문에 일반적으로 구매평 교차검증해서 대략 일치할 때 벤치마크 점수가 제 역할을 한다고 보면 되겠다. 또한 단순히 점수를 합산하는 것보다 세부적인 항목에서 어떤 결과를 나타내는가 또한 더욱 중요해지고 있다.

벤치마크 시 중요한 점은 테스트 툴과 환경, 그리고 기기 상태에 따라 점수가 달라질 수 있다는 점이다. 이를 잘 고려하여 시행한 결과는 일반적으로 높은 신뢰도를 얻는다. PC의 그래픽카드에서는 크라이시스 등장 이후 필수요소화 되었다. 그 이후에는 메트로 2033이 있다. TV 업계에서는 자체적으로 테스트용 영상 샘플이 주어지는데 Demonstration Disc라는 이름으로 제조사( 삼성전자, LG전자, 소니, 파나소닉)에서 자체적으로 벤치마킹 전용 디스크를 배포한다. 또는 대표적으로 아바타, 살아있는 지구 등이 자주 사용되는 편. 찰리와 초콜릿 공장 2005년판도 벤치마크용으로 훌륭하다고 인정받는다.

3.2. 의미가 없다?

OS가 다른 경우 벤치마크 테스트 결과 비교 분석이 의미가 없다는 주장도 있다. 특히 모바일 쪽에서 iOS와 안드로이드, 윈도우 기기간 벤치마크 테스트를 한 다음 비교 리뷰하는 게 무의미하다고 생각하는 이들이 있다. 선스파이더나 산드라 역시 Xcode쪽으로 최적화가 되어 있다는 소문이 있어 안드로이드의 점수가 iOS보다 비교적 안 좋게 나온다는 것. 그래서 구글은 Octane(옥테인)이란 벤치마크를 만들기도 했었다.

다만 위 주장은 과장이 있는 것이, 일부 벤치마크 소프트웨어가 한쪽에 최적화되어 있을 수는 있지만 그로 인해 생기는 오차는 생각보다 크지 않다. 참고로 말하자면 아이패드 에어 아이패드 미니 레티나 모델은 구글이 내세운 옥테인에서도 높은 벤치마크 스코어를 찍었다. 애초에 벤치마크 테스트 결과가 사용자들이 느끼는 "체감 성능"을 수치로 설명하는데 널리 사용된다는 것을 보면 저런 걸 수치화하는 게 문제라고 볼 수는 없다. 안드로이드 기기의 이러한 한계는 단순 하드웨어 스펙 수치에서 나타나지 않는 소프트웨어 관련 부분이다.

당장 저 주장이 말이 된다면 iOS, 안드로이드, 윈도우 모바일 기기를 벤치마크 테스트로 지금도 열심히 비교분석하고 있는 대다수의 전문 IT 리뷰어들은 헛짓을 하고 있다는 말이 된다. 이들도 벤치마크 테스트의 한계를 모르는 게 아니기 때문에 벤치마크 테스트를 한개만 돌리는 게 아니라 5-10가지를 돌리면서 OS간 성능 비교분석을 하므로, 일반 사용자 입장에선 충분히 지표로 활용할 수 있다.

벤치마크 테스트에 여러가지 이유로 오차가 존재할 수 있다는 주장이 틀린 건 아니며 그건 수많은 IT 기기를 테스트하는 걸 업으로 삼는 전문가들도 모르는 게 아니다. 하지만 거기서 더 나아가 iOS와 안드로이드, 윈도우의 벤치마크 분석이 아예 무의미하다고 단정짓는 건 침소봉대급 주장이라고 봐도 무방하다.

한편, 같은 안드로이드끼리도 벤치마크 점수가 의미가 없다고 하기도 한다. 첫 번째로 서로 다른 기기의 경우 최적화 정도가 다를 때, 예를 들어 넥서스 5 G2 갤럭시 S4 LTE-A와 같은 AP인 스냅드래곤 800을 사용하고, 오히려 AP 외에 타 부분의 스펙은 조금 떨어지지만[1] 구글의 지원을 필두로 한 최적화가 잘 되어 반응성이 좋다고 평가되고 실제로 점수도 더 잘 나온다. 두 번째로 같은 기기에서 서로 다른 커스텀 롬을 올리는 경우. 이 경우는 스펙도 같고 최적화 정도도 비슷하지만 롬이나 커널 상에서 추가한 패치나 트윅이 체감에 비해 벤치마크 점수에 더 큰 영향을 미치는 경우다. XDA에서는 개발자들이 나서서 커스텀 롬을 점수로 비교하는 것은 무의미하다고 열을 올리기도 한다.

다만 또 다른 뜻의 "의미가 없다"라면 일정 부분 맞는 말이다. 요즘 스마트폰들의 성능이 워낙 상향 평준화 되었음에 반해 안드로이드 iOS에서 할 수 있는 작업이나 구동 가능한 S/W의 사양이 별반 올라가지 않았기 때문. 이는 스마트폰과 7~9인치의 컨텐츠 소비 위주 태블릿 PC가 작은 화면, S/W 키보드, 터치스크린 기반 조작방식, ARM 아키텍처 프로세서 등의 한계로 컨텐츠 소비를 목적으로 하고 판매되는 기기이기 때문이다. 스마트폰과 소형 태블릿의 그 조그만 화면과 키보드, 터치 기반 인터페이스, 그리고 아무리 많아봤자 5000mAh 수준인 배터리 용량으로 클라이언트 용량이 50~70GB에 육박하는 PC/콘솔 게임을 하려 드는 사람은 많지 않을 것이다.

그리고 매우 중요한 부분이지만 벤치마크가 모든 성능을 입증하지 않는다. 그 때문에 무의미하다고 주장하는 사람들이 엄연히 존재하는 것이고 2022년 기준으로도 현재 진행형인 논란이다. 전력 소모량에 따른 성능 차이도 있거니와 이마저도 사용하는 소프트웨어에 따라 최적화된 성능과 스펙이 다 다른 걸 벤치마크를 무조건 신뢰하는 건 잘못된 것이다. 결국 오차가 매우 커질 수밖에 없는 변수들이 많아 실질적으로 큰 의미가 없다고 볼 수도 있다. 애초에 많은 전문 리뷰어들도 벤치마크만 테스트하는 게 아니라 게임이나 작업용 소프트웨어같은 제대로 된 소프트웨어로 테스트하여서 결과를 내놓는 게 다반사다. 오히려 이쪽이야말로 제대로 테스트할 수 있다고 볼 수 있다. 즉, 벤치마크상으론 고성능인데 정작 실제 테스트상에선 결과가 다를 수 있다는 것.

요약하자면 벤치마크는 참고용으로는 훌륭한 지표이지만, 벤치마크상 성능만으로 전체 성능을 가늠해서는 안된다. 즉 벤치마크 만능설과 무용설 모두 극단적인 시선이다.

3.3. 벤치마크 조작

벤치마크 테스트도 소프트웨어를 돌려서 하는 것인만큼 조작이 가능할 수 있다. PC 쪽도 그런 일이 가끔 크게 한번씩 터졌고(관련 사건사고의 '원조' 드라이버 치팅 사건이 대표적이다), 애플도 2000년도 초기에는 매킨토시에서 의혹이 제기된 바 있다. 최근 모바일 기기 쪽에선 상당수 프리미엄급 안드로이드 기기들이 조작을 하다가 걸렸는데 삼성전자, HTC, LG 같은 제조사들이 그런 짓을 했다. 2013년에 IT기기 리뷰 사이트인 AnandTech에서 밝혀낸 것으로, 그 전부터도 일부에서 의혹은 제기되고 있었던 문제인데 "정말 그런가?"해서 한번 실험을 해보니 사실로 드러났던 것이다(...). 해당 기기들은 특정 벤치마크 앱이 구동되면 이걸 인식하고 평상시와 다르게 비정상적으로 풀가동을 함으로써 벤치마크 수치가 높아지도록 하게끔 코드를 심어놓았다가 걸린 것이었다. 삼성전자는 이 의혹에 대해 극구 부인하고 해명까지 올렸지만, 이 해명이 또 거짓인 게 밝혀진 후에는 함구하는 중. 이 때문에 한동안 해당 기기들에 대해 정정 리뷰들이 올라오기도 했다. 한 웹사이트에선 해당된 삼성과 HTC 기기들을 블랙리스트 처리까지 하는 등 여러모로 파장이 컸다. 그 이후로 AnandTech에선 이런 꼼수를 우회하는 방법을 찾아내 적용해왔다고. 방법은 의외로 간단해서 벤치마크 앱의 이름을 바꾸고 내부 애플리케이션 ID를 바꿈으로써 소프트웨어 인식이 안되도록 했다고 한다.

그렇게 잠시 논란이 사그라드나 했더니 HTC는 2014년에 출시한 HTC ONE M8에서 좀 더 치밀한 방식으로 조작을 했다는 게 드러났다. Anandtech은 용케 이것도 잡아냈다(...)

그렇게 벤치마크 치팅논란은 사그라들줄 알았으나 2018년 화웨이에서 또 걸렸고, 해명에 따르면 중국의 경우 여전히 관행적으로 쓰인다고하며, 2022년 갤럭시에 탑재되어 강제로 비활성화 할 수도 없게된지 얼마 안된 Game Optimizing Service 다시금 벤치마크 치팅에 대해 불을 붙이고 있다.

이와는 반대로, 벤치마크 앱 자체에서 특정 제조사에게 유리하도록 조작을 하는 경우도 있다. 벤치마크 앱 제조사가 뒷돈을 받은 모양. 이쪽 대표주자는 바로 Antutu인데, 스마트폰 이름을 샤오미 것으로 바꾸니 벤치마크 점수가 급상승하는 기적을 보여줬다. #

치트를 잡아낼 목적은 아니지만, 플레이웨어즈 쓰로틀링 테스트도 효과가 있다. 냉장고에서 Antutu 테스트 → 30분간 동영상 재생 후 Antutu → 30분간 웹서핑 후 Antutu 8회 연속 실행으로 나온 10개의 점수를 모두 나열하는 방식인데, '평상시와 다르게 비정상적으로 풀가동을 함으로써 벤치마크 수치가 높아지도록' 한다면 처음 점수들은 잘 나올 수 있어도 뒤로 갈수록 과열 누적으로 망신 수준의 결과가 나올 것이기 때문.

긱벤치 등의 벤치마크 테스트의 경우 지나친 ARM 편향성 및 OS 편향성이 지적되기도 하며 이에 대해 리누스 토르발스가 비판하기도 하였다. #, 참조 실제로 안드로이드가 뜨면서 X86 CPU들도 이걸로 측정하는 일이 많아졌는데 긱벤치의 X86 벤치는 개차반에 가까울 정도로 조금만 환경이 바뀌어도 널을 뛰는 성질이 있어서 기준이 되지 못한다는 평이 다수다. 그러나 이러한 지적은 벤치마크 조작에 대한 비판과는 별 상관이 없는 벤치마크 자체에 대한 비판으로 봐야 한다. 벤치마크 조작이 비난받는 이유는 전자기기 제조사들이 벤치마크 테스트 결과가 기기 구매에 영향을 미친다는 것을 인지하고 그에 따라 결과가 긍정적으로 나오게끔 조작을 한 것이기 때문이다. 여기서 벤치마크 테스트 자체에 대한 비판은 논점 흐리기일 뿐이다.

컴퓨터나 스마트폰 외에서도 비슷한 사례가 발생하였으니 바로 디젤게이트 사건이다. 소프트웨어적 조작인것도 감안하면 여러모로 위의 모바일 기기 벤치마크 조작 사건과 비슷한 사건이다.

3.4. 벤치마크 툴 목록

참고 기사: 어떤 벤치마크를 써야 하나요

3.4.1. 연산성능

3.4.2. 저장장치

3.4.3. 배터리

3.4.4. 인터넷

3.4.5. 벤치마크 용도로 사용되는 게임

점수에 집착하는 유저들이 아닌 이상 벤치마크를 보는 목적 그 자체이자 가장 도움이 많이되는 벤치마크 툴. 물론 일부 게임은 벤치마크로 쓸 것을 고려해서 자체적인 벤치마크 기능을 넣어놓는 경우도 있다.
[1] 단, 대부분의 벤치마크 프로그램이 AP와 램을 기반으로 한 성능을 측정해서 이를 제외한 다른 부분의 스펙 차이는 점수에 큰 영향을 미치지 않는다 [KR] 한국에 측정 서버가 존재. [KR] [KR] [KR] [KR] [KR] [KR] [9] 일단 긱벤치에서 밝힌 샤오미 12와 샤오미 12X의 퇴출 근거가 벤치마크 어플과 원신만 성능 제한 완화 #하는 벤치마크 치팅이라 벤치마크와 마찬가지로 성능조작 대상이 된게 확인되며, 삼성 갤럭시 GOS 성능 조작 사건 당시 Game Optimizing Service로 인한 성능 저하를 증명할때 성능 테스트 예시로 자주 쓰였다. (여기엔 기자가 직접 돌리는 기사도 포함.) [10] LowLevelFatalError GPU 가 나올 경우 불량. 물론 다른 원인 일수도 있지만 13~14세대라면 CPU원인인 경우가 많았다.

분류