알파스타

1. 개요2. 상세3. 개발 현황

3.1. 2019년 1월 25일 데모 시연3.2. 래더 게임 참여3.3. 그 이후

4. 관련 문서

1. 개요

알파스타는 알파고로 유명한 구글 딥마인드에서 개발중인 스타크래프트 2 인공지능 프로그램이다.

2. 상세

구글 딥마인드 챌린지 매치 이후 구글이 향후 딥마인드의 인공지능 기술을 바둑에 이어서 스타크래프트 시리즈에도 접목하는 방안을 검토중이라는 소식이 나왔고. # 이는 2017년에 현실화되었다.

한국 언론사의 확대해석으로 SBS 8 뉴스에서 보도한 건 알파고 관련 팀장이[1] 스타크래프트를 예시로 언급한 것을 확대해석했다는 주장이 있는데 사실이 아니다. 잘 들어보면 알겠지만 데미스가 관심이 있다라 말했고, 할 예정이라는 이야기도 있다. 딥마인드의 수장 데미스 허사비스는 인터뷰에서 스타크래프트 도전 루머에 대해 게임을 잘 하느냐가 중요한 게 아니라 실험이 인공지능에게 도움이 될 수 있는가가 더 중요하다며 선을 그은 것은 맞지만, 하사비스 입장에서는 아직 구체적으로 계획을 밝힌 것이 없어 바로 부정했을 수 있다.

딥마인드가 스타에 도전하지 않아도 일단 스타를 비롯하여 RTS 게임을 하는 AI 자체는 있었다. 아예 BWAPI라고 브루드워 인공지능용 툴도 있으며, SSCAIT, CIG, AIIDE등의 AI토너먼트도 열리고 있다. starcraft AI competition항목 참고. 다만 여러 까닭들 탓에 여전히 인간에게 도전할 수준의 실력은 없다고.

디시 스타크래프트 갤러리에서 딥마인드 스타크래프트 관련으로 문의 메일을 보내자 이런 답변이 왔다고 한다. 그렇게 설레발로 마무리되나 싶었는데 3월 27일 중국 상하이 WCS 결승전에서 공허의 유산 수석 프로듀서 팀 모튼이 딥마인드와의 스타크래프트 2 대전을 놓고 구글과 블리자드가 논의 중이라고 언급하였다. 방한한 모하임 블리자드 CEO도 국내 언론사와의 인터뷰에서 구글 측과 실무협상을 벌인다고 밝혔다. 스타1, 2 등 종목과 선수, 장소 등을 협의한다고 했다가 다른 인터뷰 기사에서는 접촉만 있었을 뿐 실무협상은 없었다며 사실이 아니라고 부정했다.

5월 19일 구글이 로봇팔을 훈련 중이라는 기사가 나오면서 스타크래프트 도전설이 재점화됐다. 구글 “로봇팔 훈련중”…스타크래프트 진검승부 가시화?

그리고 결국 2016년 블리즈컨에서 정식으로 딥마인드와 협역 중이라는 발표가 나서 조만간 프로게이머와 대결이 이뤄질 것이 가시화됐다. 하지만 스타크래프트 1 팬들의 바람과는 다르게 스타크래프트 2로 적용하게 되었다. 사실 당연하다면 당연한 것이, 스타1에 비해 스타2가 버그가 적고 유닛의 움직임이 더 부드러우며 무엇보다 외부 API 적용도 더 쉽다. 실제로 브루드워 AI대회 영상을 보면 AI들의 마이크로가 별로 뛰어나지 않다. 외부API를 쓰는 AI에게도 스타크래프트 1의 환경은 불친절하다. 블리자드측에서도 2017년에 스타2의 API를 공개한다고 밝혔다. 그리고 AI의 APM은 2만에 육박하기 때문에 APM을 프로게이머 수준으로 조정한단다. # #

스타크래프트2 AI 제작을 딥마인드에서 블리자드와 함께 진행중이다. 블리자드는 프로그램이 게임 상황을 읽고 제어하기 쉽게 프로그램이 보는 화면을 저해상도 RGB 데이터로 제공 하고, 지형 높이, 유닛 상황, 유닛 상태 등을 별도의 레이어로 분리해주는 오션을 개발해 제공한다. 딥마인드 홈페이지 발표

10초 부터 나오는 왼쪽 영상 참조.

딥마인드 프로그램의 스타크래프트2 연습장면이 공개되었다.

프로그램이 스타크래프트2의 원활한 진행을 위해 여러과정들을 작은 '미니게임'으로 분해하여 가르친다는 내용인데, 기본적인 미네랄가스 채취부터 유닛이동, 마린생성하기까지의 내용이 담겨있다.
아래의 영상은, 훈련 전/후의 영상이다. 훈련 전의 영상은 인간이 가장 기본적이라고 생각하는 미네랄 채취는 커녕, 허공에 마우스를 찍는 모습을 보여주고 있으나, 훈련 후 훨씬 '의미있는 일'들을 수행하는 모습을 볼 수 있다.

딥마인드 스타크래프트 2팀의 인터뷰에서 적게나마 정보가 공개되었다. 전장에서 흩어진 광물을 습득하는 미션을 주었는데 이 미션의 핵심은 해병을 개별적으로 이용하는 것이었지만 일정 거리를 유지한 상태로 움직여서 성공했다. 예전보다는 발전한 모습이다. 영상

블리자드 엔터테인먼트 측에서는 AI와 대결할 가장 적합한 테스트 플레이어로 박령우를 지목하고 있다. ~~0과 1밖에 모르는 녀석에게 2의 무서움을 보여달라는 드립도 있다.~~

3. 개발 현황

3.1. 2019년 1월 25일 데모 시연

2019년 1월 25일 새벽 3시에 '알파스타(AlphaStar)'라는 이름으로 데모 버전의 시연을 하였다. # 알파스타는 3개의 종족 중 프로토스만을 플레이하고, 프로 선수의 플레이를 본떠 만들어진 1세대의 알파스타들을 서로 경쟁시켜 딥러닝을 통해 성장시켰다고 한다. 그 덕에 알파스타는 프프전 이외에는 플레이할 수 없다는 특징을 지닌다. 딥러닝 끝에 최종적으로 승률이 우수한 다섯 개체의 알파스타들을 추려 프로 선수와 경기하도록 했다.11경기의 리플레이 파일은 홈페이지에 공개되어 있다. 리플레이 파일
TLO 5개 경기 해설 MaNa 6개 경기 해설 국내 지상파 뉴스 보도

1경기 (2018년 12월 12일)
선수	결과		선수	맵
TLO	0	5	AlphaStar	카탈리스트

2경기 (2018년 12월 19일)
선수	결과		선수	맵
MaNa	0	5	AlphaStar	카탈리스트

알파스타와 Team Liquid의 TLO [2], 그리고 MaNa 선수와의 리플레이가 총 다섯 개 공개되었고, 그 외에도 공개되지는 않았지만 총 다섯 경기가 더 진행되었다.[3] 결과는 10:0으로 알파스타의 완승.

알파스타는 수정탑과 관문 두 개로 입구를 막고 시작하지 않는 모습을 대개 보여주었다.[4] 그 외에도 정찰 온 탐사정을 두세 기 이상의 탐사정이 따라다니거나, 징그러울 정도의 다수 불사조, 분열기를 운용하는 모습이나, 관측선 대여섯 개가 쓸데없이 본대와 동행하는 등 사람답지는 않은 플레이가 눈에 띄었다. 특히 불멸자와 파수기 등을 아예 사용하지 않는 모습을 보였다.

마이크로적인 컨트롤 부분에 있어서는 제한된 APM이라 하나 순간적으로 1천이 넘는 모습을 보이면서 탈인간의 모습을 자랑했다. 차원 분광기를 이용한 아케이드 교전을 펼치거나, 특히 땡점멸추적자를 빌드로 선택한 경우, 상대의 앞마당 앞에서 농성하면서 전 추적자가 정면으로 들이받고 앞 추적자부터 투사체를 맞기 전에 점멸을 사용해 뒤로 순서대로 후퇴하고 점멸 쿨이 돌아올 때마다 이를 반복하는 초월적인 컨트롤도 보여주었다.

그 외에도 인간적인 모습도 다수 보여주었는데, 분열기의 정화 폭발로 아군 추적자를 단체 몰살시키기도 하고, 가스통에 탐사정을 네 기 붙여놓는 해프닝도 있었다. 전자는 명백한 실수로 판단되겠지만, 후자는 무슨 계산이 되었었는지는 모를 일이기는 하다.

쇼매치 (2019년 1월 24일)
선수	결과		선수	맵
MaNa	1	0	AlphaStar	카탈리스트

알파스타와 경기를 진행했던 두 선수 중 MaNa 선수가 라이브로 쇼매치를 벌이게 됐다. 알파스타는 쇼매치의 경우, 리플레이로 기록된 경기와는 다르게 화면 시야를 인간 수준으로 제한한 상태에서 진행한다고 한다.[5][6]

알파스타는 이번에도 땡점멸추적자를 선택했고, 꾸준한 예언자를 소모하면서 상대의 일꾼을 잡아내며 상대보다 더 빨리 확장을 늘리며 중반까지 유리한 상황을 만들어냈지만 병력을 모아 진출하려는 타이밍에 불멸자 2기를 태운 분광기에 견제를 당하면서 공격을 가다가 본진으로 되돌아오는 모습을 반복해서 보여주며 휘둘린 끝에 다수의 불멸자를 모아온 MaNa의 조합된 병력 앞에 무너지고 말았다. 특이한 점은 분명 예언자를 뽑기 위해 미리 우주관문이 지어져 있었음에도 병력 교전만을 고려했는지 분광기 수비를 위한 불사조를 끝까지 뽑지 않고 예언자만 뽑았다는 점 추적자의 공격이 닿지 않은 위치에 분광기가 대기하고 있었는데도 가까운 땅에 추적자가 우글우글 모여서 쳐다보기만 하는 모습은 영락없는 AI였다. 자원적으로 매우 유리한 상황이었고, 당장의 병력도 더 많을 상황이었기 때문에 불사조 하나를 뽑고 분광기 견제만 조기에 차단했어도 알파스타가 매우 유리한 경기였음에도 해당 상황에 대한 학습이 되어있지 않은 듯한 모습을 보여주었다. 그 후 불멸자를 모아온 MaNa와의 교전에서는 이긴다는 판단이 안 섰는지, MaNa의 물량이 앞마당에 들어오는 동안 추적자 물량은 코빼기도 MaNa의 시야에 비치지 않았고, 앞마당이 파괴된 뒤 트리플마저 두드리기 시작하자 그제서야 승리 가능성이 없는 교전을 걸어왔고 병력은 전멸했다.

그 뒤, GG를 선언할 줄 모르는 알파스타가 연결체를 다른 곳에다 건설하는 등의 ~~비매너~~모습을 보이다가 엘리당하면서 끝났다.

딥마인드에 따르면 스타크래프트2 프로선수 Mana는 “AlphaStar의 놀라운 움직임과 매 경기 다른 전략으로 다가오는 것에 큰 감명을 받았다. 내가 전혀 생각하지 못했던 사람 같은 플레이를 보여주었다.” “나는 내 전략이 상대방의 실수를 유도하고 그의 인간적인(감정적인) 반응을 나에게 유리하도록 하는 것에 의존하고 있다는 사실을 깨달았다.”고 말했다.[7]

데모 시연을 시청한 사람들은 해당 결과에 놀라움 반, 실망 반이 섞인 반응을 보였다. 일단 기존의 기존에 정립된 인간의 플레이와는 다른 플레이를 보여주었는데, 대표적으로 기지 최적화를 광물 당 3개로 일꾼을 24기 붙여두는 모습[8] 구글 시연 방송에서 보여준 경기는 입구 심시티를 하지 않는 모습, 그리고 점멸 추적자만 고집하는 모습을 주로 보여줬지만 시연 방송에서 보여주지 않은 리플레이 파일에는 입구 심시티를 한 경기도 있고 마나선수를 당황하게 하는 경기도 포함되어 있다.

가령, 5번째 경기에서 알파스타는 MaNa 선수에게 가스통 러쉬를 시도하다가 마나선수가 차단하니까 MaNa 선수의 진영에 수정탑을 짓고 전진 로보틱스를 시도한다. 알파스타는 보호막 충전소와 불멸자를 통해 강력하게 압박하면서 MaNa 선수의 앞마당에 우주 관문을 건설하고 MaNa 선수를 능욕하였다.

한 편, 알파스타가 비록 스코어 상으로는 인간을 압도했다지만, 그 내용이 맵 전체 줌아웃으로 관찰+ 인간이 절대 흉내를 낼 수 없는 컨트롤 싸움으로 압도하여 이긴 것이라 [9] 이에 실망한 반응도 많다. 단순히 컨트롤로 상대를 압도하는 것이라면 딥마인드 수준의 인공지능도 필요없이 단순한 프로그램 만으로도 가능한, 그닥 특별할 것이 없는 것이기 때문. 대부분의 사람들은 알파스타가 인간과의 두뇌싸움을 하여 이길 수 있는지를 기대했기 때문에 보이는 반응이다. 당장 마나와의 경기에서 벌인 땡추적자 빌드는 알파스타라서 가능한 짓이지 일반 인간들이 했다가는 뼈도 못추리고 추적자가 녹아내려서 지게 된다.
물론 사람들에 따라서는 사람과 같은 시야에서 경기하도록 한 마지막 경기에서 알파스타가 마나에게 빌드상으로 이기고 들어가는 모습을 보며 고평가를 하기도 한다.

여하튼 이번 데모는 완성본이 아닌지라 추후에 충분히 수정을 가하며 개선될 여지가 다분하다. 때문에 이번 시연에 만족했든 실망했든 간에 시청한 사람들 모두 다음번에 알파스타가 더욱 개량되어 다시 공개될 때를 기대하고 있다.

3.2. 래더 게임 참여

2019년 7월 10일 블리자드 홈페이지에 '알파스타(AlphaStar)'와 래더 게임을 붙어볼 수 있다는 소식이 올라왔다. 새소식 이로써 선별된 게이머가 아닌, 일반인도 알파스타와 대전할 기회를 얻게 되었다. 다만 유럽서버에서만 가능하고, 1월 25일 시연과는 다르게 알파스타가 세개의 종족 모두 플레이한다.

저그의 경우, 단축키 없이 여러 부화장의 애벌래를 선택하는 모습이 리플래이로 확인되어 금방 특정되었고 테란도 해당 레이팅에서 보기 어려운 심시티 오류를 보여 현재는 세 종족 모두 배틀넷 계정이 확정된 모양새로 유투브에 리플래이가 올라오고 있다. 2019년 8월 기준 3종족 모두 60전 52~53승의 성적을 보여주고 있다. 저그와 프로토스는 MMR 5700, 테란은 5500대를 찍고 난 이후로는 다른계정을 돌리는지 해당계정으로는 추가적인 기록이 없다. 빌드가 굉장히 정형화 되어있어 광자포러쉬 같은 이른바 치즈 전략에 꽤나 무력하다. 저그의 경우는 바퀴 궤멸충 여왕위주의 지상군 조합을 주로 사용하며 프로토스는 우주관문을 빠르게 올리는 편이다.

테테전에서 매스 레이븐(밤까마귀)에 박살난 전력이 있다.

10월 31일 구글 딥마인드는 네이처 학술지에 알파스타가 스타 2 배틀넷 그랜드마스터 레벨에 올랐다고 발표했다 pdf버전. 알파고 개발에 판 후이가 참여했듯이 팀 리퀴드의 TLO가 논문 공동저자로 등록되어 있다. 딥마인드 블로그를 보아 TLO는 알파스타에게 걸 적절한 제한을 정할때 도움을 준 듯 하다. 논문에서는 TLO 외에도 블리자드 측 인원과 함께 시야 문제, 반응 딜레이등이 사람과 대결하기 적절한지 고려했다고 한다.
행동수 제한은 5초당 최대 행동 22회이나 이 행동을 세는 단위가 APM과는 달라서 APM 264제한이라는 뜻은 아니다. 예를 들면 화면이동이 액션 1회로 카운트 되는 대신 유닛선택-능력선택-시전을 1회로 쳐서 계산했다. APM은 전자는 0 후자는 3으로 센다. 최종버전이 실제 기록한 순간 최대 APM/EPM 은 저그 1192/823 테란 755/571 플토 621/587. 화면의 경우는 화면 밖의 유닛을 부대지정 없이 선택하는 능력이 존재하며 위치를 지정(어택땅 등)하는 명령의 경우 화면 안과 밖이 동일하게 맵전체를 256*256의 해상도로 지정가능 하다. 사람의 경우 화면 밖은 미니맵을 써야 하므로 화면 안에선 알파스타보다 정확할 수 있으나 밖에선 정확도가 떨어진다. 화면 바깥의 유닛 정보는 일부 숨겨진 채로 알파스타에게 제공된다고 논문에 밝히고 있으나 이게 정확히 어떤 수준으로 제한되는 지는 논문에서도 명확하게 제시되진 않는다. 반응 속도의 경우 정보 획득 주기는 평균 369 ms, 정보 획득 후 행동하기까지 평균 113 ms을 기록했다.

세 종족을 컨트롤하여 모두 그마에 올랐으며 8월까지 활동하던 중간버전과는 달리 저그가 5800대로 꼴지 테란은 6000대로 중간이다. 특이하게도 저그는 동족전만 따지면 MMR 6500으로 4전 4승이라 MMR추산이 불가능한 플토 알파스타의 대 테란전을 제외하면 1위지만 대 테란전 5500, 대 플토전 5700으로 타 종족에게 약한모습을 보인다. ~~구글도 인정한 저징징~~. 이 와중에 MMR 상위 0.2%를 기록한 것을 승률 99.8%라고 왜곡하는 기레기도 등장하고 있다.[10]논문을 보면 알겠지만 최종버전 알파스타는 종족별로 30판만 돌렸고 저그,테란은 승률 60% 프로토스는 승률 83%다. 딥마인드에서 공개한 리플레이와 래더 리플레이 직링

블리즈컨 2019에서 알파스타와 대결할 수 있는 기회가 주어졌는데 Serral이 1승 4패했다고 한다. GSL 중계진인 Artosis의 리플레이 분석 스리즈 프로토스 상대로 3연패한 것으로 보아 확실히 프로토스 알파스타가 강한 듯하다.

3.3. 그 이후

알파스타 프로젝트는 종료되었다.

구글이 밝힌바에 의하면 알파스타가 프로게이머를 압도적으로 이기는 것에는 문제가 없었으나, 알파고처럼 구글이 기대했던 '인간이 몰랐던 참신한 빌드나 개념'같은 창의적인 모습이 전혀 등장하지 않았고 '더욱 정교한 점멸 추적자, 그것이 막힐 경우 더더욱 정교한 점멸 추적자' 같은 컨트롤 부분만 극한으로 몰두하는 성향을 보였기 때문이다.

이후 블리즈컨에서 세랄과 붙은 경기들은 보면 빌드나 병력 구성 등의 매크로적인 측면에서는 초기 버전에 비해 훨씬 더 진보한 모습을 보여주었으나, 역시 기존에 기대했던 것처럼 인간이 상상할 수 없는 빌드나 조합처럼 기발한 매크로는 나오지 않았다. 그저 매 교전 때마다 극도로 정교한 컨트롤로 우수한 교환비를 가져가고 이를 통한 힘의 우위로 게임을 끝내는 단순한 경기 구성을 보여주어, 바둑처럼 새로운 전략의 발굴을 기대했던 사람들에게 실망을 안겨주었다.

다만 이후에 스타크래프트 2의 인공지능은 상당히 발전하여, APM의 제한을 풀어 AI끼리의 대전을 위한 인공지능들이 만들어지고 있다. 이들은 알파스타의 쇼타임때 처럼 정찰을 해야하며, 인간과의 전투가 아니기에 스플래시 유닛을 상당히 기피하는 모습을 보인다. 기본적으로 APM이 1만 이상이 되므로 별의 별 해괴한 최적화 방식을 구현할정도로 발전하였다.

4. 관련 문서

알파고

[1] 알파고 개발과 관련이 없는 구글의 전설적인 개발자다. 제프 딘은 하사비스보다 못지않게 영향력이 크고, 현재 구글 딥러닝 개발의 총괄책임자다 [2] 주종인 저그가 아닌 부종인 프로토스로 플레이. [3] 딥마인드의 학습 능력의 이유로 인해 버전은 4.6.2, 맵은 카탈리스트로만 진행되었다. [4] 프프전은 사도 견제 등의 이유로 입구를 무조건 막고 시작하는 것이 필수 전략이다. 일부 개체는 막기도 하였다. [5] 알파스타도 맵핵은 아니다. 전장의 안개 자체는 존재하며, 상대의 플레이를 정찰 없이는 확인할 수 없다. 그러나 화면을 끝까지 줌아웃해 모든 전장이 한 화면에 들어오는 상태로 게임하고 있었다. 그것을 인간과 같은 수준의 해상도로 공평하게 제한하는 것. [6] 물론 이는 인간 관점에서의 표현이고, 모든 정보를 데이터로 받아서 처리하는 알파스타 입장에서는 단순히 데이터 수집이 명령을 내린 유닛 주변에서만 이루어지도록 하고, 그 외에는 수집이 원활하게 되지 않도록 해 둔 페널티일 뿐이다. [7] https://korchris.github.io/2019/01/25/Alphastar/ [8] 스타2에서 최적화는 광물 당 일꾼 2기다. 광물 당 3개를 붙이면 채집량 자체는 많지만, 인구수 대비 광물 2기에 비해 비효율적이다. [9] APM 제한을 두었지만, 그저 평균일 뿐이라 필요할 때에는 1400이 넘는 APM을 자랑하며 인간을 피지컬로 찍어눌렀다. 더 무서운건 이게 전부 유효 APM으로 인간과는 달리 잔손질이 없고, 반응이 빨라 훨씬 정교한 컨트롤이 가능하며 물리적인 제약이 없으므로 당하는 사람은 유닛 하나하나를 각각 다른 사람이 움직이는 팀 밀리(스타1의 표현방식으로는)를 겪은 것이다. [10] 왜곡이라기보다는 게임관련 용어, 더 넓게 보면 스포츠 용어의 기본 조차도 학습되어있지 않은 멍청함, 좀 더 세부적으로 보면 '상위 몇 %' 등의 표현이 무슨 뜻인지도 모르는 사회상식 용어 까막눈이 그 근원적 문제라 할 수 있다.

알파스타

1. 개요

2. 상세

3. 개발 현황

3.1. 2019년 1월 25일 데모 시연

3.2. 래더 게임 참여

3.3. 그 이후

4. 관련 문서

분류