이미지넷

이미지넷 ImageNet

<colbgcolor=#000000><colcolor=#ffffff> 프로젝트 시작	2006년
기능	벤치마크, 대회 주최
분야	컴퓨터 비전
창안자	페이페이 리
링크

1. 개요2. 상세3. 역사4. 관련문서

[clearfix]

1. 개요

이미지넷은 대규모 데이터베이스로, 이미지 분류를 위한 벤치마크를 제공한다.[1] 딥러닝과 컴퓨터 비전 분야 발전을 목표로 하며, 비상업적 용도에 한하여 해당 분야 연구원들에게 무료로 제공한다. 2023년 기준으로 약 1,420만 개의 이미지와 20,000개 이상의 카테고리 분류를 제공하고 있다.

비영리 프로젝트인 만큼, 구글, 엔비디아, 스탠퍼드 대학교, 프린스턴 대학교 등으로부터 지원을 받고 있다.

2. 상세

2000년대는 합성곱 신경망 방법론의 실용성이 어느정도 입증된 시기였으나, 데이터셋과 반도체 성능의 부족으로 인해 제대로 된 모델을 구축하긴 힘들었다. GPU를 쓰지 않아서, 이 당시 가장 거대했던 모델의 매개변수가 고작 수백만 단위에 불과했다. 이러한 시기에 등장한 것이 바로 막대한 데이터셋을 카테고리화시키고 이를 학계에 무료로 공급해주는 이미지넷이었다. 제프리 힌튼, 앤드류 응 교수 등에 의해 그래픽 처리용으로 쓰이던 GPU의 용도변경이 이뤄지고 반도체의 성능 향상, 이미지넷과의 결합 덕분에 인공지능 분야가 드디어 제대로 된 호황기를 맞게된 것.

3. 역사

기존의 모델 구축 과정에서 불편함을 느껴서 정확하고 많은 양의 데이터를 확보하고 이를 기반으로 강력한 알고리즘을 구상하기 위해, 2006년에 페이페이 리 교수가 프로젝트를 시작한다. 아마존 M-Turk [2]라는 설문 연결 소셜 서비스를 활용하여 라벨링을 진행했다. 이러한 크라우드 소싱 덕분에 수 천만 장 이상의 라벨링 이미지를 수집했다.

2009년, CVPR이라는 컴퓨터 비전 컨퍼런스에 포스터를 제출하며 외부에 프로젝트를 처음 공개했다.

2010년부터는 ILSVRC (ImageNet Large Scale Visual Recognition Challenge)라는 대회도 매년 개최하고 있다. 2012년 대회에서 알렉스 크리제브스키, 일리야 수츠케버, 제프리 힌튼 팀의 합성곱신경망 아키텍처인 알렉스넷이 상위 5개 이미지 분류 분야에서 15.3%만의 오답률을 기록하며 경쟁팀 대비 10% 이상의 정확도를 보여주며 압도적으로 우승했다. 이 2012년 대회로 인해 딥러닝은 인공지능 방법론에서 대세를 굳혔으며, 컴퓨터 비전 영역에서도 기존의 SIFT 방법론을 누르고 양지로 올라간다.

딥러닝 모델이 발전을 거듭하면서, 2022년의 상위 1개 이미지 분류에서는 91%의 정확도를 기록했다. 이는 앞서 상술했던 2012년 대회보다 무려 28% 향상된 수치이다. 이렇게 초기 비전대로 딥러닝과 컴퓨터 비전 영역에서 혁혁한 공을 세우고 있다.

4. 관련문서

* 대규모 언어 모델

[1] 다만 이미지넷이 수집한 데이터의 저작권 자체는 이미지넷이 아니라 원작자에게 있다. 사실 이미지넷은 카테고리 분류가 알파이자 오메가 기능이기 때문에 이미지는 자유롭게 비상업적 용도로 가져다 써도 된다고 봐도 무방하다. [2] Mechanical Turk. 1770년 인간을 이긴 최초의 체스 기계인 오스트리아의 Mechanical Turk에서 이름을 따왔다. 단풍나무로 조각된 거대기계이며 매우 복잡한 래버와 태엽으로 구성되어있다. 터번을 머리에 두른 터키인 인형이 체스를 두는데, 나폴레옹과 벤저민 프랭클린 등 당대 유명인들 다수가 해당 기계와 체스를 두었다고 한다. 체스 초보였던 나폴레옹의 경우 19수만에 패배했다고 한다. 다만 해당 기계는 체스마스터가 기계 안에서 조작해온 사기극이었다는 사실이 뒤늦게 알려졌다. 아마존의 서비스가 기초 데이터를 사람이 직접 수작업으로 분류한다는 점에서 작동원리가 일맥상 통한다고 볼 수 있다.