2021 March 4

7 최소 읽기

inside ubisoft

Snowdrop의 차세대 오디오 개선으로 실시간 ‘레이 트레이싱 오디오'를 구현할 수 있을까

Ubisoft Massive는 The Division®2, 출시 예정인 스타워즈 및 아바타 게임 개발로 널리 알려져 있지만, Snowdrop 엔진이 탄생한 스튜디오이기도 합니다. Ubisoft가 보유한 사내 엔진 중 가장 다방면으로 활용되는 Snowdrop 엔진은 The Division®2, Mario + Rabbids Kingdom Battle, Starlink: Battle for Atlas, South Park: The Fractured But Whole 같은 게임 개발에 큰 도움을 주었을 뿐만 아니라, 앞서 언급한 Ubisoft Massive의 두 차기 프로젝트에 크나큰 원동력이 되어주었습니다.

차세대 콘솔에서 이 엔진의 진화 및 변화 양상을 알아보고자, 저희는 Snowdrop 오디오 아키텍트 Robert Bantin을 이 자리에 모셨습니다. 그는 Ubisoft 개발자 컨퍼런스에서 “Snowdrop 오디오: 최신 기술 개발 동향”이란 제목의 발표를 통해 미래의 게임에서 더욱 강렬한 음향 효과를 구현하는 방법을 조명한 바 있습니다.

Snowdrop 엔진의 음향 효과에 관해 여러 가지 흥미로운 작업을 하시는데, 게임 엔진이란 무엇인지 일반인도 이해할 수 있게 설명해주시겠어요? 독자적인 엔진을 보유함으로써 갖는 이점은 무엇인가요?

RB: 가장 쉽게 설명하자면, 좋은 게임 엔진이란 레고 세트와 같다고 할 수 있습니다. 레고는 각각의 조각이 서로 완벽하게 들어맞도록 설계되어 있습니다. 단 하나의 레고 세트로도 아주 다양한 형태의 조립이 가능하죠. 독자적인 엔진을 보유한다는 것은 개발자들이 단지 게임을 만들 레고를 확보한다는 것에서 그치지 않고, 직접 레고 조각을 만들어 모든 사람이 사용할 수 있도록 Snowdrop 시스템에 환원할 수 있다는 뜻이기도 합니다.

많은 경우에 독자적인 엔진은 특정한 유형의 게임을 만들기 위해 제작되고, 결국 그 특정 게임에 한정하여 커스터마이즈 가능한 버전을 구축하는 데서 끝나버리기도 합니다. Snowdrop은 그런 경향을 단호히 거부하는 취지에서 진정한 의미의 다목적 엔진으로서 제작되었습니다. 플레이어들은 The Division®2를 만든 엔진으로 The Settlers, Starlink: Battle for Atlas, Mario vs Rabbids Kingdom Battle도 만들었다고는 꿈에도 생각 못 할 겁니다. 게임의 심미적 요소는 게임의 구성 요소에 따라 바뀔 수 있으며 충분히 간단한 문제이지만, 이동과 전투, 조종 같은 요소들은 끊임없이 게임 엔진에 구현되며 게임에서 게임으로 옮겨갈 수 있는 기본 요소가 될 수 있습니다. 그런 방식을 쓴다면 저희는 새로운 게임을 만들 때마다 처음부터 하나하나 다시 만들 필요가 없게 되지요. 보유한 자원을 효율적으로 활용할 수 있게 되는 것입니다.

차세대 콘솔은 Snowdrop의 오디오 출력 및 처리 과정을 어떻게 바꾸었나요?

RB: 디자이너들은 늘 한정된 예산 안에서 작업을 해야 합니다. 처리 능력은 얼마나 사용할 수 있는지, 이용할 수 있는 메모리가 얼마나 되는지 등등 고려할 사항이 많죠. 이러한 자원이 늘어나면 저희가 할 수 있는 일도 분명 많아지지만, 가장 두드러지는 변화는 PlayStation 5와 Xbox Series X|S가 사용하는 SSD로 인해 가능합니다. 전 세대 기기에선 새로운 구역으로 진입할 때 메모리에 미리 애셋을 로드해야 했고, 로딩 시간의 일부는 오디오 신호와 음향 효과를 시스템 메모리로 불러들여 빠르게 접속할 수 있도록 하는 데 쓰였습니다. 즉시 재생해야 하는 음향, 예를 들어 충돌음이나 총소리 같은 것들 말입니다. 디스크에서 안전하게 전송할 수 있는 것은 음악 트랙이나 주변음처럼, 저지연이 필요 없는 음향뿐이었습니다.

이들 콘솔이 갖춘 SSD를 보면, 이제는 시스템 메모리에 대부분의 데이터를 로드할 필요가 사라졌음을 알 수 있습니다. 드라이브 자체가 굉장히 빠르기 때문이지요. 이렇게 되면 본질적으로 필요한 때만 SSD에서 다량의 음향 데이터를 전송하는 방식이 가능합니다. 물론 총소리나 발소리처럼 계속 사용하는 음향 효과는 매우 빈번하게 쓰이므로 여전히 시스템 메모리에 통째로 로드하게 되겠지만, 대부분 음향의 경우는 통째로 로드할 필요가 없어질 것입니다.

Netflix와 비슷하다고 생각하면 됩니다. 영화를 시청하기 전에 한 편 전체를 다운로드하는 대신 영화 데이터의 극히 일부만 메모리에 보관하고 스트리밍할 수 있는 것처럼 말이죠. Netflix와 저희의 주요한 차이점이라면 저희의 음향 애셋은 전체 음향 필드의 구성 요소이며, 이러한 구성 요소의 대부분은 이제 통째로 로드할 필요가 없어졌다는 점입니다.

[UN] [News]Snowdrop의 차세대 오디오 개선으로 실시간 ‘레이 트레이싱 오디오'를 구현할 수 있을까 - 레이캐스팅

“레이 트레이싱”은 보통 게임에서 빛이 주변 환경의 표면에서 반사되는 방식을 가리키지만, 지금까지 작업하신 게임과 관련하여 “레이 트레이싱 오디오”라는 표현을 들어본 적이 있습니다. 정확히 무슨 뜻인가요? 플레이 경험에 어떤 영향을 주나요?

RB: 음, 옛날엔 실내 공간에 물리적으로 정확한 음향의 반향을 일으키기 위해 레이 트레이싱을 사용했습니다. The Division®2엔 수천 개 가량이 사용됐는데요. 최종적으론 2,200개 정도로 끝났지만 필요하다면 5,000개까지 늘릴 용의도 있었습니다. 모든 음향 레이 트레이싱은 주요 Snowdrop 개발 도구 내부에서 비실시간으로 처리되었으며 플레이어에게 제공된 게임 데이터에 기록되었습니다. 따라서 그 공간엔 반향 자극 데이터가 각인되었고, 로컬 및 인접 공간의 반향 데이터를 그 공간에서 재생되는 비반향 음향에 적용하는 맞춤형 반향 엔진만이 유일하게 실시간으로 처리되었습니다.

하지만 최근에는 최신 그래픽 카드의 GPU가 생성한 실시간 레이 트레이싱 데이터를 이용할 수 있게 되었습니다. 아직은 정확도가 그렇게 높은 수준은 아니지만, 음향 차단 시험이나 창문/ 문 너머로 전달되는 소리를 보면 거의 지장을 받지 않습니다. 왜냐하면 필요한 정보는 이미 그래픽 렌더러가 처리했기 때문입니다. 즉 이젠 CPU를 혹사하지 않고도 대부분의 작업을 수행할 수 있다는 이야기지요.

그리고 “Slapback” 시스템 같은 Snowdrop만의 오디오 전용 기술이 있습니다. 현재 이 시스템은 CPU에 물리 레이 캐스트를 사용하여 플레이어 사운드가 이동하고 반사되는 지점을 추적하는데, 이런 기술은 소리가 주변 환경에 울려 퍼지게 하므로 똑같은 행동을 하더라도 장소에 따라 극적으로 다른 소리를 낼 수 있습니다.

하지만 이런 노력은 단지 “생산 가치”만을 위한 것은 아닙니다. 저희에게는 독특한 시각적 공간에 독특한 청각적 공간을 구현하고자 하는 타당한 이유가 있습니다.

저희는 요즘 영화에도 큰 관심을 가지고 있는데요, 주인공들이 거대한 협곡을 넘어가야 한다고 가정해봅시다. 많은 경우에 그런 장면에서 여러분은 배경 전체를 보진 못하지만, 인물들의 목소리가 울리는 것을 듣고 그곳이 믿을 수 없을 만큼 깊은 낭떠러지라는 느낌을 받을 것입니다. 이 경우 오디오가 환경에 반응하는 것은 물론, 시청자에게 환경에 관한 정보를 전달하여 위험한 상황임을 알려주지요. 이것이 탁 트인 비탈이나 울창한 밀림 환경에서는 어떻게 구현될지 상상하기는 어렵지 않을 것입니다.

게임 제작과의 차이점이라면, 저희는 카메라를 이동하는 주체가 플레이어이기 때문에 플레이어가 보는 것과 듣는 것을 잘 융합하기 위해 대량의 추가 작업을 해야 한다는 것입니다. 이 감각적 입력 정보 사이에 단절이 일어나기 시작하면 사람의 뇌는 이 정보가 도움이 되지 않는다고 판단하게 되고, 결국 덜 지배적인 정보에는 관심을 끊게 됩니다. 그러면 저희는 소리로 플레이어의 상상력을 자극할 수 없게 되지요.

입체 음향 기기나 헤드폰이 있어야 제대로 감상할 수 있나요?

RB: 적절한 헤드폰 세트로 업그레이드하거나 입체 음향 스피커 시스템을 구축하면 오디오 환경이 훨씬 개선되겠지만, 컴퓨터 모니터의 내장 스피커에만 의존하지 않는다면 대부분의 오디오 처리 작업은 어느 정도 가능할 것입니다. 최근 들어 정말 도움이 된 것은 바로 헤드폰용 3D 오디오 인코딩 기능(HRTF)인데, 이 기능은 현재 Microsoft와 Sony가 모두 제공합니다. 이 기능으로 플레이어는 저렴한 가격에 아주 인상적이고 몰입감 넘치는 3D 음향 효과를 체험할 수 있으며, 이 기술은 저희의 음향 작업에도 딱 맞아떨어지는 기술이라고 생각합니다.

이런 내용을 UDC의 다른 Ubisoft 개발자들과 공유한 목적은 무엇입니까?

RB: 이제 Ubisoft에서 Snowdrop을 사용하는 팀이 꽤 생겼으므로, 내부적으로 계속해서 새로운 정보를 공유하고 다른 오디오 팀에게도 저희가 계속해서 적극적으로 새로운 기능을 추가해 엔진을 개선하고 있음을 보여주는 것이 중요하다고 생각했습니다. 새로운 기능을 이용하면 즉시 본인들의 프로젝트를 한 단계 끌어올릴 수 있다고 알려주는 것이지요. 그게 바로 UDC가 존재하는 이유가 아닐까요?

미래의 음향 디자인 역량에 관해 가장 흥분되는 점은 무엇입니까?

RB: 지금까지 새로운 콘솔 제품이 제작된 방식을 보면, 각자 자기 나름의 방식으로 더 나은 오디오 기능을 탑재하기 위해 노력했음을 알 수 있습니다.

Xbox Series X는 Xbox One이 한창 팔릴 때 추가한 Microsoft의 공간 오디오 API(일례로 Dolby Atmos 지원)의 연속판이지만, 현재는 그보다 더 많은 마력을 탑재했습니다. 이 Xbox Series X|S 오디오 기술은 Windows 10에서도 동일하게 작동하므로, 비교적 적은 노력만으로도 적용할 수 있는 범위가 넓습니다.

PlayStation 5에서 Sony는 저희가 The Division®2를 위해 설계한 오디오 처리 파이프라인을 Tempest Engine이라는 전용 하드웨어에 거의 그대로 복제했습니다. 이는 즉 기존의 CPU 기반 오디오 처리 절차 대다수를 이 새로운 시스템으로 옮길 가능성이 크단 뜻이고, 그렇게 되면 CPU의 부담이 줄어들어 다른 작업을 할 수 있게 된다는 말입니다. 처음에 저는 중간에 있는 처리 블록 하나를 Tempest의 레이 캐스팅을 담당하는 부분에서 처리하지 않는다는 점에 주목했고, 그 때문에 혼란스러웠습니다. 하지만 레이 트레이싱 데이터가 이용 가능해졌음을 깨닫고 나니까 바로 이해가 되더군요. Sony는 여러분에게 레이 트레이싱 데이터를 사용하도록 강요하지 않습니다. 여러분은 앞으로도 계속 맞춤화된 물리 레이 캐스트를 CPU에 사용할 수 있으며, 모든 개발자는 이제 이 문제를 어떻게 처리할지를 그때그때 결정할 수 있게 된 겁니다.

모든 차세대 플랫폼에서 더 많은 오디오 선택권이 있고, 이를 제대로 활용하는 것은 우리에게 달렸습니다. 저는 매일 밤 그 생각만 한답니다.

UDC에서 일어나는 일에 관한 자세한 정보는 인사이드 Ubisoft 페이지를 확인하고 채용 페이지를 방문하여 Ubisoft의 채용 정보를 확인하십시오.