관련 문서: 인텔/GPU
||<table align=right><table width=400><tablebordercolor=#0068b5>
||
intel® ARC™ |
|
intel® ARC™ GRAPHICS 배지 |
공식 홈페이지 |
[clearfix]
1. 개요
2022년 3월 30일에 런칭된 인텔의 고성능 그래픽스 하드웨어 솔루션.인텔이 1998년 intel740 이후 거의 24년만에 도전하는 고성능 외장형 그래픽카드이며, 동시에 인텔의 첫 외부 파운드리에게 위탁생산하는 그래픽 카드인데 현재 모든 Arc 라인업은 전부 TSMC를 통해 제조되고 있다.[1] 또한 S3 Graphics, ATi, AMD 출신의 라자 코두리를 영입하면서 본격적인 개발을 한 브랜드라 그런지 경쟁사의 Graphics Core Next처럼 메인이 되는 Xe 코어를 게이밍 제품과 연산용 제품이 설계를 공유하는 형태로 만들어져 있다. 어떻게 보면 라데온과의 배다른 형제스러운 제품이기도 하다. 2023년 12월부터 인텔 CPU의 iGPU에도 Arc 브랜드를 채택하기 시작하면서, Arc가 더 이상 외장 그래픽 전용 브랜드가 아니게 되었다.
특이하게도 코드네임이 모두 롤플레잉 게임에나 나올법한 직업명으로 이루어져 있다. 또한, 경쟁사들처럼 각자 상징하는 대표 색상이 있는 것처럼[2] 인텔 아크도 파란색을 대표 색상으로 사용하고 있는데, 이로서 3원색 RGB가 전부 모인 셈. 정확히는 남색 계열이 주로 쓰이는 편이다.
2. 정식 발표 전 타임라인
인텔의 전용 그래픽스에 관한 떡밥은 1998년 3월에 출시된 intel740으로부터 20년 뒤에 시작되었다. 2010년에 중단된 Larrabee 프로젝트랑 그 후신으로 2012년부터 2020년까지 판매된 인텔 제온 파이 시리즈는 게이밍에 필수적인 그래픽스 기능이 없기 때문에 인텔의 전용 그래픽스 계보에 포함된다고 보기에는 애매하다.- 2017년 11월 8일 : AMD Radeon Technologies Group 수석 부사장 겸 아키텍트 출신이었던 라자 코두리(Rajabali Makaradhwaja Koduri)가 IAGS(Intel's Architecture, Graphics and Software) 사업부의 수석 부사장 겸 아키텍트로 임명되었다.
- 2018년 1월 14일 : AMD 라데온 RX Vega M 그래픽스 및 HBM2이 탑재된 8세대 코어 i 시리즈(카비 레이크 G)가 정식 발표된지 1주일밖에 안 되었을 즈음에 Ashraf Eassa(@TMFChipFool)라는 트위터리안이[3] 개별 GPU에 관한 정보가 처음 언급되었다. 코드네임 Arctic Sound와 Jupiter Sound가 이때 처음 알려졌다.
- 2018년 4월 8일 : 지난 1월에 언급했었던 Ashraf Eassa가 인텔의 개별 GPU 프로젝트가 초기에는 GPGPU를 적극적으로 활용할만한 데이터 센터용 및 비디오 스트리밍용이었으나, 데스크탑용으로도 확장되었다고 한다.
- 2018년 6월 12일 : 인텔의 개별 GPU가 2020년에 출시될 것임을 알렸다.
- 2019년 10월 26일 : 인텔의 CEO였던 밥 스완이 개별 GPU를 처음 작동시켰다고 알렸으며, 인텔의 그래픽스 및 비주얼 기술 마케팅 책임자인 크리스 후크가 트위터를 통해 '살아있어!(It’s alive!)'라고 강조함으로써 존재감을 부각시켰다. 이때 Xe 및 DG1이라는 이름으로 처음 알려졌다.
-
2020년 8월 13일 : 인텔
아키텍처 데이 2020에서 게이밍용 그래픽 카드에 채택될 Xe HPG(High Performance Gaming) 마이크로아키텍처가 정식으로 소개되었다.
-
2021년 8월 19일 : 인텔
아키텍처 데이 2021에서 Xe HPG 마이크로아키텍처에 관한 자세한 정보가 소개되고, 코드네임은 DG2가 아닌 Alchemist로 밝혀졌다. 발표된 코드네임은
D&D판타지 세계관의 직업/종족명에서 따왔으며,[4][5] 전용 그래픽스의 브랜드 네임도 ARC 그래픽스로 확정됨과 동시에 로드맵에 2022년 1분기로 명시되었다.
3. 마이크로아키텍처 및 제품군 목록
3.1. Xe HPG ( Alchemist) : Arc A-시리즈
|Xe HPG (Alchemist)|<tablewidth=100%><tablealign=center><tablebordercolor=#0068b5><bgcolor=#0068b5><color=white> 최대 내부 구성 요소 ||
}}}}}}}}} ||
}}}}}}}}} ||
}}}}}}}}} ||
{{{#!wiki style="margin:0 -10px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -15px" |
<colbgcolor=#9addf7,#00285a><colcolor=#00285a,#9addf7> 패밀리 | Alchemist | ||
이름 | ACM-G10 | ACM-G11 | ACM-G12 | |
공정 노드 (㎚) | TSMC N6 | TSMC N6 | TSMC N6 | |
면적 (㎟) | 406 | 157 | ??? | |
트랜지스터 (개) | 217억 | 72억 | ? | |
트랜지스터 밀도 (MTr/㎟) | 53.448 | 45.860 | ? | |
호스트 인터페이스 | PCI Express 4.0 ×16 | PCI Express 4.0 ×8 | PCI Express 4.0 ×16 | |
Render Slice | 8 | 2 | 4 | |
Geometry Pipeline | 8 | 2 | 4 | |
Rasterization Pipeline | 8 | 2 | 4 | |
Xe-Core | 32 | 8 | 16 | |
명령어 캐시 메모리 (KB) | 96×32 | 96×8 | 96×16 | |
Xe Vector Engine | 512 | 128 | 256 | |
레지스터 파일 (KB) | 32×512 | 32×128 | 32×256 | |
FP32 Unit | 4096 | 1024 | 2048 | |
INT32 Unit | 4096 | 1024 | 2048 | |
EM Unit | 1024 | 256 | 512 | |
Xe Matrix eXtensions Engine | 512 | 128 | 256 | |
L1 데이터 캐시 & 공유 로컬 메모리 (KB) | 192×32 | 192×8 | 192×16 | |
텍스처 캐시 메모리 (KB) | 64×32 | 64×8 | 64×16 | |
Thread Sorting Unit | 32 | 8 | 16 | |
Ray Tracing Unit | 32 | 8 | 16 | |
Texture Sampler | 32 | 8 | 16 | |
Texture Unit | 256 | 64 | 128 | |
Pixel Backend | 16 | 4 | 8 | |
Render Output Pipeline | 128 | 32 | 64 | |
L2 캐시 메모리 (MB) | 16 | 4 | 8 | |
외부 메모리 규격 | GDDR6 SGRAM | GDDR6 SGRAM | GDDR6 SGRAM | |
외부 메모리 컨트롤러 (bit × 채널) | 32×8 | 32×3 | 32×6 |
이론적인 클럭당 최대 성능 | ||||
{{{#!wiki style="margin:0 -10px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -15px" |
<colbgcolor=#9addf7,#00285a><colcolor=#00285a,#9addf7> 패밀리 | Alchemist | ||
이름 | ACM-G10 | ACM-G11 | ACM-G12 | |
삼각형 생성 (개/clock) | 16 | 4 | 8 | |
래스터화 (pixels/clock) | 128 | 32 | 64 | |
FP32 연산 (FLOP/clock) | 8192 | 2048 | 4096 | |
FP16 연산 (FLOP/clock) | 16384 | 4096 | 8192 | |
INT8 연산 (OP/clock) | 32768 | 8192 | 16384 | |
XMX FP16 연산 (FLOP/clock) | 65536 | 16384 | 32768 | |
XMX BF16 연산 (FLOP/clock) | 65536 | 16384 | 32768 | |
XMX INT8 연산 (OP/clock) | 131072 | 32768 | 65536 | |
XMX INT4 연산 (OP/clock) | 262144 | 65536 | 131072 | |
XMX INT2 연산 (OP/clock) | 262144 | 65536 | 131072 | |
Ray Traversal (회/clock) | 64 | 16 | 32 | |
Ray Box Intersection (회/clock) | 384 | 96 | 192 | |
Ray Triangle Intersection (회/clock) | 32 | 8 | 16 | |
텍스처 필레이트 (texels/clock) | 256 | 64 | 128 | |
픽셀 필레이트 (pixels/clock) | 128 | 32 | 64 | |
L2 캐시 메모리 대역폭 (Byte/clock) | 2048 | 512 | 1024 | |
외부 메모리 대역폭 (Byte/clock) | 32 | 12 | 24 |
API 지원 레벨 | ||||
{{{#!wiki style="margin:0 -10px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -15px" |
<colbgcolor=#9addf7,#00285a><colcolor=#00285a,#9addf7> 패밀리 | Alchemist | ||
이름 | ACM-G10 | ACM-G11 | ACM-G12 | |
그래픽 가속 | DirectX 12 (FEATURE_LEVEL_12_2), OpenGL 4.6, Vulkan 1.3 | |||
GPGPU 가속 | OpenCL 3.0 | |||
미디어 가속 | Quick Sync Video 9 | |||
디스플레이 출력 | HDMI 2.0b, DisplayPort 2.0, eDisplayPort 1.4 |
- Introduction to the Xe-HPG Architecture white paper
2022년 4월 1일에 정식 출시된 1세대 Xe HPG 마이크로아키텍처. 1년 반이나 먼저 출시된 Xe LP 마이크로아키텍처를 계승하면서도 차이점들이 적지 않으므로, Xe LP의 단순 확장판이 아니다. 이렇게 다를 정도면 Xe LP를 1세대 Xe로 보았을 때, Xe HPG를 1.5세대 Xe로 취급할 수도 있는데, 차세대 인텔 CPU 내장 그래픽스에서 Xe HPG에 처음 도입된 요소들이 반영될 수 있기 때문. 변경된 사항은 다음과 같다.
- 기존에 사용된 단위 용어의 변경
- Execution Unit → Xe Vector Engine
- Subslice → Xe-Core
- Slice → Render Slice
- Xe Vector Engine 레벨
- Xe Vector Engine당 4 KB 레지스터 파일이 7개 → 8개로 증가 : 2개씩 묶어서 작동하는 4스레드 모드도 지원하게 되었다.
- Xe Vector Engine당 레지스터 파일 용량이 28 KB → 32 KB로 확장
- FP (Floating Point) Execution Port와 INT (Integer) / EM (Extended Math)[6] Execution Port의 서로 독립화 : 경쟁사의 Turing 마이크로아키텍처처럼 동시 연산이 가능해졌다.
- Xe-Core 레벨
- XMX (Xe Matrix eXtensions) Engine 1개씩 추가
- Load/Store : 클럭 사이클당 512 바이트의 대역폭을 제공한다.
- 텍스처 및 L1 캐시 메모리 64 KB + 셰어드 로컬 메모리(SLM) 128 KB → 텍스처 캐시 메모리 64 KB + L1 캐시 및 셰어드 로컬 메모리 192 KB로 재구성 : XMX 엔진 추가에 따른 용량 확장으로 보이지만, 당대 경쟁사들의 128 KB보다 더 많은 용량이 탑재되었다.
- Thread Sorting Unit 1개씩 추가 : 일관성 향상을 위한 기능으로, 비동기 레이 트레이싱을 구현할 수 있는 비결이기도 하다.
- Ray Tracing Unit 1개씩 추가 : GDC 2022에서 연설한 내용을 따르면 Thread Sorting Unit을 이용하여 기능적으로 AMD의 Ray Accelerator는 물론이고 NVIDIA의 2세대 RT Core보다 더 진보된 Bounding Volume Hierarchy (BVH) with Coherency Sort 처리 구조를 지니고 있다. 그리고 인텔 게이밍 액세스에 따르면, NVIDIA의 2세대 RT Core와 같은 광선 탐색 전용 가속기가 탑재되어 있고, AMD의 Ray Accelerator보다 3배 빠른 박스 교차 성능을 보여준다고 한다. 단, 삼각형 교차 성능은 NVIDIA의 2세대 RT Core의 절반이자 AMD의 Ray Accelerator와 같은 수준. BVH 탐색 데이터는 기존의 캐시 메모리 계층에 공유 캐싱되는 경쟁사들과는 다르게 BVH 전용 캐시 메모리에 캐싱된다고 한다. BVH 전용 캐시 메모리의 용량은 훗날에 8 KB로 밝혀졌다.
- Ray Traversal 가속 지원 : 클럭 사이클당 2회 순회
- Ray Bounding Box Intersection 가속 지원 : 클럭 사이클당 12회 교차
- Ray Triangle Intersection 가속 지원 : 클럭 사이클당 1회 교차
- Render Slice 레벨
- Texture Sampler의 재구성 : 경쟁사들과 다르게 Xe-Core와 별개로 구성할 수 있게 되었다.
- Texture Sampler 6개씩 (Texture Unit 48개씩) → 4개씩 (Texture Unit 32개씩)으로 1/3 축소
- Pixel Backend 3개씩 (ROP 24개씩) → 2개씩 (ROP 16개씩)으로 1/3 축소
- L2 캐시 메모리 최대 16 MB까지 구성 가능 : CPU 내장 그래픽스의 L3 캐시 메모리에 대응되는 라스트 레벨 캐시 메모리 계층으로, Xe LP에서도 이론상 16 MB까지 가능했으나 실제로는 3.75 MB로 탑재되었는데 Xe HPG에서 실현되었다고 볼 수 있다. 경쟁사들과는 다르게 GPU 외부 메모리 버스 폭에 종속되지 않고 렌더 슬라이스 개수에 종속되어 있다. 대역폭은 ACM-G10 기준, 클럭 사이클당 2048 바이트.
- Xe Media Engine : AV1 인코딩 기능이 추가
- Xe Display Engine
- HDMI 2.0b : 발표 직후에는 HDMI 2.1 지원이 빠져있고 HDMI 2.0b만 지원한다고 써있었지만 실제 제품출시 이후 업데이트된 스펙에는 HDMI 2.1 지원이 포함되어 있으며 제조사가 지원수준을 정할수 있다고 언급하고 있다. #
- DisplayPort 2.0 사양을 부분적으로 지원 (10G Ready) : 10G가 무엇을 의미하는지 불분명하지만, 총 40 Gbps인 UHBR 10 (Ultra High Bit Rate 10) 사양을 의미할 가능성이 높다. 총 10 Gbps는 이미 DisplayPort 1.0 버전부터 지원했기 때문.
- eDisplayPort 1.4
{{{#!wiki style="word-break: keep-all"
지포스의 2세대 RT 코어 | 라데온의 레이 엑셀러레이터 | 아크의 RTU |
Ray Box Traversal | 전용 하드웨어로 이용 | 스트림 프로세서로 이용 |
전용 하드웨어로 이용 (클럭당 2회) |
Ray Box Intersection | 클럭당 2회 | 클럭당 0~4회 | 클럭당 12회 |
Ray Triangle Intersection | 클럭당 2회 | 클럭당 0~1회 | 클럭당 1회 |
자원 | SM의 L1 캐시 겸 공유 메모리 | WGP의 L0 벡터 캐시 메모리 | RTU의 BVH 전용 캐시 메모리 |
자원 공유 | FP32 CUDA 코어, INT32 코어, 텐서 코어 | 텍스처 유닛 | (불명) |
}}}
Xe Vector Engine의 레지스터 용량이 약 14% 증가되었고, L1 캐시 및 셰어드 로컬 메모리 용량이 50% 증가되면서 클럭당 연산 성능이 약간 향상되었다. 또한, 인텔 GPU 역사상 레이 트레이싱 가속 기능이 최초로 도입되었는데, 다른 경쟁사들과 다르게 박스 교차 성능이 유난히 높은 성능을 보여주고 있으며, 당시 경쟁사들이 도입하지 않았던 스레드 정렬 기능이 가장 먼저 탑재되었다.
제품군에 대한 자세한 내용은 인텔 Arc A-시리즈 참조.
3.1.1. Xe LPG (Alchemist) : Arc 시리즈
||<table align=center><tablebordercolor=#0071C5><rowbgcolor=#0071c5><rowcolor=white><|2> 모델명 ||<-4> GPU ||<-4> 시스템 메모리 (최대 구성 기준) ||
<rowcolor=white> 코드네임 |
FPU:TU:ROP (GP, RZ) |
클럭 (최대) (MHz) |
L2C 메모리 (MB) |
버스 (bit) |
규격 |
비트레이트 (MHz) (Mbps) |
DVMT (GB) |
||
일반 노트북용 제품군 | |||||||||
<colbgcolor=#003F6B><colcolor=white>ArcTM Graphics | 메테오 레이크 |
1024:64:32 (2, 2) |
2200 ~ 2350 | ? | 128 | DDR5 |
2800 (5600) |
96 | |
LPDDR5(X) |
3733 (7467) |
||||||||
896:56:32 (2, 2) |
2200 | ? | 128 | DDR5 |
2800 (5600) |
||||
LPDDR5(X) |
3733 (7467) |
||||||||
512:32:16 (1, 1) |
1750 ~ 2000 | ? | 128 | DDR5 |
2800 (5600) |
||||
LPDDR5(X) |
3733 (7467) |
2023년 12월에 출시된 인텔 코어 울트라 100 시리즈(메테오 레이크)의 iGPU. 코드네임은 Arc A-시리즈와 같은 Alchemist. 제조 공정은 TSMC N5.
Arc 시리즈 최초로 CPU의 iGPU에도 Arc 브랜드가 명명된 시리즈로, 기존 Arc A-시리즈에 사용된 Xe HPG 마이크로아키텍처 기반의 저전력 파생형인 Xe LPG 마이크로아키텍처로 나왔다. 이전 세대 대비 전성비 최대 2배를 달성했으며, Xe HPG 파생형답게 레이 트레이싱을 지원하고 XeSS도 당연히 지원하지만, RTU가 온전히 탑재된 것과 다르게 XMXE가 빠진 구성이다. 그 대신 일반 연산을 담당하는 XVE가 분담해주지만, 성능에 손해볼 수밖에 없으므로 사실상 반쪽짜리 XeSS인 셈.
미디어 엔진은 SoC 타일로 옮겨가는 구조를 취함에 따라, GPU 타일 내에서는 따로 존재하지 않는다.
3.2. Xe2 ( Battlemage) : Arc B-시리즈
|Xe2 Battlemage|<tablewidth=100%><tablealign=center><tablebordercolor=#0068b5><bgcolor=#0068b5><color=white> 최대 내부 구성 요소 ||
}}}}}}}}} ||
}}}}}}}}} ||
}}}}}}}}} ||
{{{#!wiki style="margin:0 -10px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -15px" |
<colbgcolor=#9addf7,#00285a><colcolor=#00285a,#9addf7> 패밀리 | Battlemage |
이름 | BMG-G21 | |
공정 노드 (㎚) | TSMC N5 | |
면적 (㎟) | 272 | |
트랜지스터 (개) | 196억 | |
트랜지스터 밀도 (MTr/㎟) | 72.058 | |
호스트 인터페이스 | PCI Express 4.0 ×8 | |
Render Slice | 5 | |
Geometry Pipeline | 5 | |
Rasterization Pipeline | 5 | |
Xe-Core | 20 | |
명령어 캐시 메모리 (KB) | ?×20 | |
Xe Vector Engine | 160 | |
레지스터 파일 (KB) | ?×160 | |
FP32 Unit | 2560 | |
INT32 Unit | 2560 | |
EM Unit | 640 | |
FP64 Unit | 320 | |
Xe Matrix eXtensions Engine | 160 | |
L1 데이터 캐시 & 공유 로컬 메모리 (KB) | 256×20 | |
텍스처 캐시 메모리 (KB) | ?×20 | |
Thread Sorting Unit | 20 | |
Ray Tracing Unit | 20 | |
Texture Sampler | 20 | |
Texture Unit | 80 | |
Pixel Backend | 10 | |
Render Output Pipeline | 80 | |
L2 캐시 메모리 (MB) | 18 | |
외부 메모리 규격 | GDDR6 SGRAM | |
외부 메모리 컨트롤러 (bit × 채널) | 32×6 |
이론적인 클럭당 최대 성능 | ||
{{{#!wiki style="margin:0 -10px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -15px" |
<colbgcolor=#9addf7,#00285a><colcolor=#00285a,#9addf7> 패밀리 | Battlemage |
이름 | BMG-G21 | |
삼각형 생성 (개/clock) | 30 | |
래스터화 (pixels/clock) | 80 | |
FP32 연산 (FLOP/clock) | 5120 | |
FP16 연산 (FLOP/clock) | 10240 | |
INT8 연산 (OP/clock) | 20480 | |
XMX FP16 연산 (FLOP/clock) | 40960 | |
XMX BF16 연산 (FLOP/clock) | 40960 | |
XMX INT8 연산 (OP/clock) | 80920 | |
XMX INT4 연산 (OP/clock) | 163840 | |
XMX INT2 연산 (OP/clock) | 163840 | |
Ray Traversal (회/clock) | 60 | |
Ray Box Intersection (회/clock) | 360 | |
Ray Triangle Intersection (회/clock) | 40 | |
텍스처 필레이트 (texels/clock) | 160 | |
픽셀 필레이트 (pixels/clock) | 80 | |
L2 캐시 메모리 대역폭 (Byte/clock) | 2304 | |
외부 메모리 대역폭 (Byte/clock) | 24 |
API 지원 레벨 | ||
{{{#!wiki style="margin:0 -10px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -15px" |
<colbgcolor=#9addf7,#00285a><colcolor=#00285a,#9addf7> 패밀리 | Battlemage |
이름 | BMG-G21 | |
그래픽 가속 | DirectX 12 (FEATURE_LEVEL_12_2), OpenGL 4.6, Vulkan 1.3 | |
GPGPU 가속 | OpenCL 3.0 | |
미디어 가속 | Quick Sync Video 10 | |
디스플레이 출력 | HDMI 2.1, DisplayPort 2.1, eDisplayPort 1.5 |
2024년 9월에 발표된 2세대 Xe 마이크로아키텍처로, 코어 울트라 200V 시리즈에 채택된 루나 레이크의 iGPU와 Arc B-시리즈에 채택되었으며, 라자 코두리가 본격적으로 직접 감독을 하여 개발된 GPU 마이크로아키텍처이기도 하다. 발표 전까지는 'Xe2 HPG'로 표기되었고 비공식으로 코어 울트라 200V 시리즈 iGPU를 'Xe2 LPG'로 구분되어 왔으나, 발표 이후에는 LPG, HPG로 덧붙여서 구분하지 않고 코어 울트라 200V 시리즈 발표 자료와 Arc B-시리즈 발표 자료 둘 다 'Xe2'로 동일하게 표기되었다. 전체적으로 이전 세대 대비 더 높은 SIMD 활용률, 개선된 작업 분배, 소프트웨어 오버헤드 최소화를 골자로 나왔으며, 구체적인 변경 사항은 다음과 같다.
- Xe Vector Engine 레벨
- Xe Vector Engine당 FP, INT, EM 개수가 각각 8, 8, 2 → 16, 16, 4개씩으로 2배 증가
- Xe Vector Engine당 FP, INT 개수가 16개씩으로 재분할되면서 SIMD 실행 구조가 SIMD32 → SIMD16으로 변경
- FP64 유닛이 Xe Vector Engine당 2개씩 탑재되면서, FP64(배정밀도 부동소수점) 연산을 네이티브로 지원
- FP를 1번째 실행 포트, INT/EM/FP64를 2번째 실행 포트, XMX를 3번째 실행 포트로 묶어서 3종류 동시 연산 지원. 단, 2번째 실행 포트 내에서 INT, EM, FP64 셋 중에 한 종류만 작동할 수 있다.
- XMX Engine 내에서 TF32 연산이 추가 지원 (단, 코어 울트라 200V 시리즈의 iGPU는 미지원)
- Xe-Core 레벨
- Xe-Core당 Xe Vector Engine 개수가 16 → 8개씩으로 절반 감소
- L1 캐시 및 셰어드 로컬 메모리 용량이 192 KB → 256 KB로 확장 (단, 코어 울트라 200V 시리즈의 iGPU는 192 KB 그대로 유지)
- Ray Tracing Unit
- BVH 전용 캐시 메모리의 용량이 8 → 16 KB로 2배 증가 (단, 코어 울트라 200V 시리즈의 iGPU는 8 KB 그대로 유지)
- Ray Traversal 클럭 사이클당 2 → 3회 순회로 50% 증가
- Ray Bounding Box Intersection 클럭 사이클당 12 → 18회 교차로 50% 증가
- Ray Triangle Intersection 클럭 사이클당 1 → 2회 교차로 2배 증가
- Render Slice 레벨
- Geometry : 정점 인출 스루풋이 3배 증가됨으로써 메시 셰이딩 성능도 3배 증가.
- Texture Sampler : 텍스처 압축과 함께 비순차적 샘플링을 지원하고, 텍스처 필터링 없는 샘플링 스루풋이 2배 증가[7]
- Hierarchical-Z, Z, 스텐실용 캐시 메모리 용량이 50% 증가, 작은 폴리곤들의 조기 Hierarchical-Z 컬링 지원
- Pixel Backend : 고세분성 패스 처리를 위한 블렌딩 스루풋이 2배 증가,[8] 픽셀 컬러 캐시 메모리 용량이 33% 증가, 렌더 타겟 프리페치 지원
- Command Front End 또는 Global Dispatch : 대기 시간 및 지연 시간이 감소되었고, 간접 명령 실행을 네이티브로 지원하며, 하드웨어와 소프트웨어간 핸드셰이크가 개선되었다.
- L2 캐시 메모리 : 코어 울트라 200V 시리즈 iGPU 기준 8 MB, BMG-G21 기준 최대 18 MB 구성
- Xe Media Engine : H.266 디코딩 추가 지원 (단, Arc B-시리즈는 H.266 디코딩 미지원)
- Xe Display Engine : HDMI 2.1, DisplayPort 2.1 UHBR 13.5, eDisplayPort 1.5 지원
{{{#!wiki style="word-break: keep-all"
지포스의 3세대 RT 코어 | 라데온의 2세대 레이 엑셀러레이터 | 아크의 2세대 RTU |
Ray Box Traversal | 전용 하드웨어로 이용 | 스트림 프로세서로 이용 |
전용 하드웨어로 이용 (클럭당 3회) |
Ray Box Intersection | 클럭당 2회 | 클럭당 0~4회 | 클럭당 18회 |
Ray Triangle Intersection | 클럭당 4회 | 클럭당 0~1회 | 클럭당 2회 |
자원 | SM의 L1 캐시 겸 공유 메모리 | WGP의 L0 벡터 캐시 메모리 | RTU의 BVH 전용 캐시 메모리 |
자원 공유 | FP32 CUDA 코어, INT32 코어, 텐서 코어 | 텍스처 유닛 | (불명) |
}}}
Xe-Core 내부의 스레드 컨트롤이 Xe Vector Engine 2개씩 묶여있던 구조에서 1개씩으로 크게 바뀜으로써 SIMD 실행 구조가 SIMD32 → SIMD16으로 크게 변경되었고, SIMD 활용률이 증가되었으며, 오버헤드가 감소되었다. 또한, 명령어 캐시 메모리를 제외한 각종 캐시 메모리들의 용량이 각각 증가되면서 데이터 병목이 완화되었고, GPU 발전 역사상 최근에 들어 잘 건드리지 않는 텍스처, 픽셀, 깊이[9] 처리 성능이 개선되었는데 전체적인 큰 향상은 아니지만 어느 정도 향상되어 소홀히 하지 않았다. 특히, 지오메트리 성능이 3배 향상되었고, 레이 트레이싱 성능이 최소 1.5배, 최대 2배 향상되는 등 골고루 변경되었다.
몇몇 상이한 특징들 때문에, 발표 전처럼 코어 울트라 200V 시리즈 iGPU의 Xe2를 Xe2 LPG로, Arc B-시리즈의 Xe2를 Xe2 HPG로 구분해야 되지 않냐는 소수 의견이 나오고 있다.
제품군에 대한 자세한 내용은 인텔 Arc B-시리즈 참조.
- 발표 전 정보 [ 펼치기 · 접기 ]
- 플래그십 제품이 포함되어 있어서 본격적인 인텔 GPU의 성능을 보여준다고 하며 문제가 발생할때마다 해결이 느린 AMD를 제압하고 성능면에서도 AMD를 압도하여 업계 2위를 장악할 계획이라고 한다. 꿈같은 이야기 일지도 모르지만 현재 경쟁사의 라데온 RX 7000 시리즈가 출시 초부터 구설수에 오르고 있기에 AMD가 빠르게 드라이버 안전성을 확보하지 못할 경우와 배틀메이지의 출시일이 빨라진다면 불가능한 상황은 아니다. 2022년 12월 13일, 경쟁사의 라데온 RX 7000 시리즈 출시 당일에 라자 코투리의 언급에 의하면 225 W에 그래픽카드 수요층이 많기에 이쪽에 더 중점을 둘 거라는 언급을 했다. 이로 인해 앞으로 출시할 배틀메이지의 성능이 경쟁사의 지포스 RTX 4070 Ti급 성능일 것이라는 추측을 하고 있다. 라자 코투리가 퇴사하였기에 그에 인텔에서 마지막으로 개발된 인텔 그래픽칩이 되었다.
현재 비공개로 알려진 정보로 차세대 메모리 서브 시스템과 압축, 레이트레이싱과 아키텍처 개선, 차세대 머싱러닝기반 렌더링 기술 그리고 최신 딥 링크 호환으로 예상된다.
현재까지 루머로 공개된 예상되는 출시일은 2024년 하반기로 보고 있다. 4nm 수율 등을 고려하면 어느정도는 일리가 있다는 상황이며 문제는 이렇게 발매가 늦어진다면 이때쯤에 지포스 RTX에 슈퍼 또는 차세대 RTX5000시리즈에 출시일이 겹쳐질 것으로 예상되기에 가격이 저렴하지 않는 이상 매우 힘든 싸움이 될 것으로 보인다.
2023년 1월 6일, 인텔 Arc 로드맵이 유출되었는데, 출시일이 2024년 1분기로 표시되어 있다. #
2023년 12월 말에 로드맵이 공개되면서 2024년 중에 배틀메이지 출시를 명확하게 보여주었다.
이번 2024 CES에서 인텔의 배틀메이지 제품은 공개되지 않았지만 지포스 4070S의 등장으로 대략적인 배틀메이지에 성능을 유추를 짐작하는 부분이라 할수 있는데 드라이버 최적화나 소비 전력을 감안해서 대략 4070~4070S사이의 성능으로 추측되고 있다.
CES 2024에서 인텔과 PCWorld인터뷰를 통해 배틀메이지에 칩이 완성되었고 연구소에서 30%의 개발팀[10]인력이 투입되어 소프트웨어 개발에 전념하고 있으며 나머지 70%의 개발팀은 3세대 Celestial개발에 투입되었다고 한다. CES 2025 전에는 발매할 것이라고 한다. 꽤나 놀라운 기능이 있지만 아직 언급할 수 없다고 한다.
2024년 2월 15일 인텔에서 라데온의 Radeon Image Sharpening와 비슷한 샤프닝 필터 기능을 루나레이크에 Xe2[11]칩에 들어갈 기술을 개발중이라고 한다. 소프트웨어 방식이 아닌 내장된 미디어 엔진에서 처리하는 방식이기에 인텔 Xe2에서만 사용가능하다고 한다.
2024년에도 수많은 루머가 나왔지만 공통적으로 2024 말에 배틀메이지가 발매한다는 것이 공통된 루머이다. 블랙 프라이데이를 노린 늦어도 11월 발매가 유력하다고 한다.
2024년 컴퓨텍스를 통해 베틀메이지에 대한 정보를 살짝 공개 했는데 FSR3.0과 같은 프레임 생성 기능과 최적회된 소비전력 그리고 호환성을 높인 아키텍처구조로 DX9~11에서 최적의 성능을 낼 수 있게 개선되었다고 한다. 동영상에서는 H266 VVC 디코딩을 지원이 확정되었다. 다만 인코딩은 지원하지 않는다.
2024년 7~8월에 들어와서 리눅스 드라이버 정보 유출과 인텔 개발자 인터뷰등을 공개하면서 4분기에 인텔 배틀메이지에 출시에 대한 윤각이 서서히 들어나고 있다. 인터뷰 내용중 가장 흥미로운 것은 하이엔드 게이밍용 그래픽카드라는 것을 강조한 부분으로 게임부분에 하드웨어 적인 최적화가 많이 되었음을 알려주고 있다.
인텔 아크 배틀메이지에 출시가 늦어지면서 인텔 그래픽카드 시장에 판매율이 2024년 1~2분기 0% 판매량이라는 최악의 성적을 내었다.
2024년 9월 25일 긱밴치에 OpenCL 밴치로 인텔 배틀메이지 G21 [12]의 자료가 등장했다. 성능은 이전 ARC A750보다 약간 좋은 정도로 성능이 많이 향상된 모습을 보여주고 있다. 이보다 두배의 코어를 가진 32코어 버전인 G31은 지포스 4070급 성능을 기대할 수 있을 만큼 기대치가 높은 편이다. 무엇보다 루나레이크에서 보여준 전성비로 그간의 A시리즈의 고질적인 문제였던 전성비가 해결되었을 것으로 기대하고 있다.
2024년 11월 16일에 티저 이미지가 유출되었고 이에 따르면 12월에 출시할 예정이라고 한다. AMD와 NVIDIA가 새로운 라인업을 발표할 것으로 예측되는 CES 2025보다 일찍 발표할 계획인 듯하며, 루머에 따르면 배틀메이지가 마지막 외장 GPU가 되지도 않을 것이라고 한다.
2024년 11월 24일 아마존에서 갑작스럽게 등록된 애즈락 배틀메이지 B-580이 유출되었다. 이로서 인텔의 배틀메이지가 B시리즈로 되는 것이 확정되었다.
- 코어 울트라 200V 시리즈의 루나 레이크 iGPU 관련 정보 [ 펼치기 · 접기 ]
- 미국시간 2024년 9월 24일 루나레이크에 들어간 배틀메이지칩인 Arc 130V, Arc V140칩을 위한 드라이버 32.0.101.6078/32.0.101.5736(WHQL)이 추가 되었다. 5736이 해당 드라이버로 아직 통합하지 못했기에 별도로 내놓은듯 하다. 덕분에 드라이버 설치 프로그램 용량이 1.4기가 되었다.
루나레이크에 밴치마크한 톰슨하드웨어에 정보로 루나레이크에 내장된 아크2세대 배틀메이지 140V가 꽤나 좋지 못한 성능을 보여주고 있다. 이전 1세대 아크 알케미스트와 같이 3D마크에서는 우수한 성적을 내고 있지만 정작 대중적으로 유명한 엔진인 언리얼 엔진5로 만들어진 게임인 검은신화 오공에서는 이전 메테오레이크 155H GPU (알케미스트) 보다 느린 성능을 내고 있는데 대략 최적화가 안된 드라이버 문제로 구형드라이버로 추정되는 5796 드라이버의 문제로 보인다. 아크1세대부터 드라이버 최적화가 잘된섀도 오브 더 툼 레이더에서는 당연히 성능이 꽤나 잘나오지만 대략 알케미스트에서 하드웨어적인 성능 버그를 수정하여 드라이버 최적화를 못해도 적어도 기본 성능을 내줄것이라는 기대를 저버린 것으로 이전 1세대 아크와 마찬가지로 따로 드라이버 최적화를 하지 않는다면 성능이 많이 저하되는 문제가 있을 것으로 보인다. 대략 성능이 향상이 기대되는 게임은 5768드라이버기준으로 최적화된 인텔 아크 1세대 드라이버에서 좋은 성적을 내는 게임[13] 들 위주로 성능향상이 있을 것으로 보인다.
3.3. Xe3 ( Celestial)
3.4. Xe3 HPG ( Celestial)
3세대 Xe HPG 마이크로아키텍처로, 3세대 Arc 시리즈에 채택될 가능성이 높으며, 2022년 10월에 나온 뉴스에 의하면 이미 소수의 개발팀이 투입되었다고 한다.인텔의 Tom Petersen은 CES 2024 인터뷰를 통해 배틀메이지 첫 실리콘 칩이 인텔 연구소에 들어갔고 그래픽 개발팀 30%는 배틀메이지 소프트웨어 개발팀으로 투입되었고 나머지 70%의 하드웨어 개발팀 인원이 Celestial 개발에 투입되었다고 밝혔다
2024년 2월까지 알려진 정보에 따르면 셀레스티얼은 2025년말 출시될 모바일 프로세서인 팬서 레이크의 내장 그래픽으로 탑재될 예정이며 데스크탑용 그래픽카드의 출시일은 빨라도 2026년으로 예상된다.
한국시간 2024년 10월 16일, 팬서 레이크 샘플을 공개함으로서 Xe3가 기본 설계가 완료되었음을 보여주었다.
미국시간 2024년 11월 19일 SiSoftware에 벤치마크에서 팬서레이크 내장 그래픽이 발견되었으며 Xe3 코어 4개와 1.6클럭의 스펙 제품이 테스트중인 것을 확인하였다.
2024년 12월 4일 유투브 방송을 통해 Xe3가 거의 완성되었으며 하드웨어 개발팀은 Xe-Next로 넘어갔다고 한다. Xe3는 현재 소트프웨어 팀이 작업중이다.
3.5. Xe Next ( Druid)
2024년 12월 4일 유튜브 방송을 통해 Xe3가 거의 완성되었으며 하드웨어 개발팀은 Xe-Next로 넘어갔다고 한다. Xe3는 현재 소프트웨어 팀이 작업중이다.Xe4가 아닌 Xe Next로 표기된 점을 고려하면 Xe가 아닌 전혀 다른 이름의 HPG 마이크로아키텍처가 될 가능성을 배제할 수 없다. 그때에도 제품군 이름이 Arc 시리즈일 경우, 4세대 Arc 시리즈에 해당될 수도 있다.
가장 개발이 불확실한 것으로 이제품으로 추후 인텔 아크의 개발과 마케팅 방향성을 확실하게 결정되는 제품이다.
2024년 11월 27일 유명한 유출자 JayKihn에 의해 인텔은 외장 그래픽카드 출시를 계속 진행할 예정이며 드루이드도 이것에 포함된다는 정보를 유출하였다.
4. 여담
- 인텔 공식 홈페이지에 따르면, 2020년 11월에 출시된 Iris Xe MAX 그래픽스에 이어서 Arc 그래픽스도 Dedicated Graphics Family로 분류하고 있다. 하지만, 전용(Dedicated)이라는 표현이 어떤 형태의 제품인지 쉽게 연상되지 않는 편이기 때문에, 보통 쉽게 연상되는 외장(external), 개별(Discrete)이라는 표현으로 통용되고 있으며, 일각에서는 독립(Independent)이나 분리(Separate)라고 표현하기도 한다.
- 인텔 커뮤니티를 통해 드라이버 버그 신고를 한다면 SSU라는 인텔에서 제공하는 시스템 로그를 출력해주는 소프트웨어로 로그 TEXT파일을 추출해야 한다. 그리고 이것과 함께 버그 신고를 하는 것이 좋다. 글은 오직 영어로 작성해야 하며 영어를 못한다면 번역기나 챗 GPT로 번역해서 보내면 된다.
- AV1 인코딩 특화 미디어 엔진을 탑재하여 https://youtu.be/x0bLytMdV24?si=ofsKMJaOFRNE1LzP&t=258 체험판 영상을 기준으로, 3080이 7분 50초가 걸리던 인코딩이 a770에서 4분 37초로 단축되었다.
5. 관련 문서
[1]
이전에 라자 코두리가 삼성에 방문한적이 있었는데 아마도 그 수율이 만족스럽지 못하여 TSMC로 돌아선 것으로 보인다.
[2]
NVIDIA 지포스는 녹색, AMD 라데온은 빨간색.
[3]
지금은 이미 존재하지 않는 계정으로 나타난다.
[4]
사진을 잘 보면 해당하는 직업/종족의 사진이 깨알같이 그려져있으며 알케미스트는 발표에는 안 나와 있지만 인텔의 Arc 홈페이지에 갈 경우 그려져 있다.
[5]
또한 Alchemist, Battlemage, Celestial, Druid의 첫 번째 글자가 각각 A,B,C,D인데 인텔 관계자에 따르면 알파벳 순서로 가는것은 의도된 것이라고 언급한다.
[6]
이전 세대와 마찬가지로
삼각함수(SIN, COS),
로그함수(LOG),
지수함수(EXP),
역수(RCP) 등의 특수 함수 연산을 담당한다.
[7]
특정 모드에서만 2배 향상이므로, 전체적인 텍스처 필레이트가 2배 향상되었는지는 검증이 필요하다.
[8]
단, 특정 모드에서만 2배 향상이므로, 전체적인 픽셀 필레이트가 2배 향상되었는지는 검증이 필요하다.
[9]
3D 모델링에 많이 사용되는 그래픽 툴들의 좌표계와(x: 폭, y: 깊이, z: 높이) 다르게, 3D 그래픽 프로그래밍 좌표계에서는(x: 폭, y: 높이, z:깊이) 깊이감을 표현하는 좌표가 Z축이라서 보통 깊이를 'Z'라고 표기하는 편이다.
[10]
소프트웨어팀으로 추정
[11]
배틀메이지 칩명
[12]
ARC A570M과 칩으로 동일 스펙
[13]
카운터스트라이크2, 발더게이트3에서는 좋은 성능을 내주고 있었다.