Molti conoscono Ubisoft Massive come lo studio che ha realizzato The Division 2 e che sta lavorando ai prossimi giochi di Star Wars e Avatar, ma sono anche i creatori del motore Snowdrop. Snowdrop, uno dei motori interni più versatili usati da Ubisoft, è servito a creare giochi come The Division 2, Mario + Rabbids Kingdom Battle, Starlink: Battle for Atlas e South Park: Scontri Di-retti, ma sarà impiegato anche nella realizzazione dei due grandi progetti di Massive che abbiamo appena ricordato.
Per scoprire come questo motore si stia evolvendo insieme alla nuova generazione di console, abbiamo incontrato Robert Bantin, Audio Architect di Snowdrop, la cui presentazione intitolata "Snowdrop Audio: Latest Tech Developments" alla Ubisoft Developer's Conference è servita a fare luce su come l'audio dei giochi potrà avere un impatto ancora maggiore in futuro.
State facendo cose incredibili con l'audio grazie al motore Snowdrop, ma come spiegheresti ai profani cos'è il motore di un gioco? Che vantaggi presenta avere un motore di proprietà esclusiva?
RB: In parole povere, un motore di un gioco è paragonabile a un set di Lego. I mattoncini Lego sono progettati per incastrarsi alla perfezione. I singoli mattoncini si possono assemblare in tantissimi modi diversi. Avere un nostro motore non significa solo fornire agli sviluppatori dei mattoncini da usare per costruire un gioco, ma anche che loro stessi possono crearne di nuovi da inserire nell'ecosistema Snowdrop, per poi metterli a disposizione di tutti.
Spesso i motori di proprietà sono pensati per una tipologia di giochi specifica, motivo per cui servono solo a creare versioni personalizzate dello stesso gioco. Snowdrop va nella direzione opposta: nasce per essere versatile. I giocatori non indovinerebbero mai che il motore di The Division 2 è lo stesso usato per The Settlers, per Starlink: Battle for Atlas oppure per Mario + Rabbids Kingdom Battle. L'estetica del gioco varia in base agli asset, questo è ovvio, ma elementi come il sistema di combattimento o l'esplorazione possono essere mantenuti all'interno del motore e semplicemente trasferiti da un gioco all'altro. Questo significa che non bisogna ripartire ogni volta da zero, evitando così lo spreco di risorse.
Come hanno contribuito le console di nuova generazione a cambiare il modo in cui Snowdrop produce ed elabora l'audio?
RB: I designer devono sempre fare i conti con certi limiti tecnici. Quanta potenza di calcolo posso utilizzare? Quanta memoria ho a disposizione? Il miglioramento di questi parametri ci permette ovviamente di fare di più, ma il cambiamento più importante è probabilmente l'impiego di dischi allo stato solido (SSD) da parte sia di PlayStation 5 che di Xbox Series X|S. Nella precedente generazione di console, quando si entrava in una nuova area di gioco era necessario caricare preventivamente gli asset e una parte del tempo di caricamento era impiegato per caricare in memoria l'audio e gli effetti sonori che dovevano essere di rapida accessibilità, perché dovevano essere riprodotti istantaneamente, per esempio gli urti o i colpi di arma da fuoco. L'unico audio che si poteva riprodurre direttamente dal disco era quello che non necessitava di latenza ridotta, come per esempio le tracce della colonna sonora e i rumori ambientali.
Con un SSD come quello delle nuove console, non è più necessario caricare tanta roba nella memoria del sistema perché i dischi sono molto più veloci. Quando necessario, è sufficiente riprodurre i suoni dal disco SSD. Naturalmente è possibile caricare nella memoria del sistema i suoni a cui si accede costantemente, come i colpi di pistola o i passi, ma non è più obbligatorio caricare interamente la maggior parte dell'audio.
Funziona un po' come Netflix. Invece di scaricare un intero film prima di guardarlo, è possibile riprodurlo in streaming salvandone in memoria soltanto una piccola porzione per volta. La differenza nel nostro caso è che gli asset audio sono parte integrante dell'intero panorama sonoro e questi elementi ora non devono essere più caricati totalmente.
Con "ray-tracing" di solito si intende il modo in cui la luce viene riflessa dalle superfici degli ambienti di gioco, ma in riferimento al vostro lavoro ho sentito usare il termine "ray-tracing audio". Di che cosa si tratta esattamente? Che effetto può avere sull'esperienza del giocatore?
RB: In passato abbiamo usato il ray-tracing per generare un riverbero fisicamente accurato all'interno degli ambienti chiusi. Se ne trovano migliaia di esempi in The Division 2. Ne abbiamo realizzati circa 2.200, ma l'obiettivo era arrivare a 5.000 se necessario. Tutto il ray-tracing audio è stato realizzato attraverso un'elaborazione in tempo non-reale, all'interno del principale tool di sviluppo di Snowdrop, e poi trascritto nei dati di gioco inviati ai giocatori. In sostanza le stanze avevano già impressi i dati necessari per il riverbero, l'unico elemento che avveniva in tempo reale era frutto delle elaborazioni del nostro motore che applicava i dati per il riverbero della stanza in uso e di quelle vicine ai suoni non riverberati riprodotti in quelle stanze.
Recentemente invece abbiamo avuto accesso a dati di ray-tracing in tempo reale generati dalle GPU delle schede grafiche più avanzate. La resa del riverbero non è ancora perfetta, ma la riproduzione degli ostacoli alla diffusione del suono e quella della propagazione attraverso porte o finestre è praticamente già fatta: non richiede altre risorse perché le informazioni necessarie sono già state calcolate dal renderizzatore grafico. Questo significa che probabilmente non dovremo gravare quasi per nulla sulla CPU.
Poi c'è la tecnologia di Snowdrop specifica per l'audio, come per esempio il sistema "Slapback". Basandoci sul ray-casting della CPU, possiamo calcolare le traiettorie lungo le quali il suono viaggia e rimbalza, e questo permette di produrre un'eco ambientale tale per cui la medesima azione può risuonare in maniera totalmente diversa a seconda di dove si trova il giocatore.
Ma questo non è un valore aggiunto fine a se stesso. Abbiamo ottime ragioni per volere che gli spazi visivi unici corrispondano a spazi acustici altrettanto unici.
Pensiamo per esempio a un film, nello specifico a una scena in cui i protagonisti devono superare un abisso. Spesso queste scene vengono girate senza mai inquadrare l'ambiente nella sua interezza, ma il senso della profondità dell'abisso è semplicemente suggerito dall'eco delle voci. L'audio risponde all'ambiente e allo stesso tempo fornisce informazioni agli spettatori, che percepiscono la pericolosità della situazione. È facile immaginare come suonerebbero invece le voci in un hangar o magari nel fitto della giungla.
La differenza per noi che realizziamo videogiochi è che il controllo della visuale è nelle mani del giocatore, perciò occorre molto più lavoro perché l'audio corrisponda a ciò che si vede. Se si crea un disallineamento tra gli input sensoriali, il cervello umano ne deduce che non si tratta di informazioni utili e smette di prestare intenzione all'input secondario. A questo punto l'audio non può più suggerire un'immagine visiva.
Servono un sistema audio surround o delle cuffie per rendersene conto?
RB: La resa si può migliorare notevolmente acquistando un buon paio di cuffie o un sistema di audio surround, ma è sufficiente non utilizzare l'audio che esce dal monitor del computer per beneficiare almeno in parte dell'elaborazione audio. Il sistema di audio 3D per le cuffie (HRTF) recentemente ha fatto la differenza, e sia Microsoft che Sony l'hanno integrato. Questo nuovo sistema offre un'immersività sonora 3D davvero notevole a un prezzo decisamente abbordabile, e dal nostro punto di vista questa tecnologia si integra con il nostro lavoro.
Come mai hai deciso di condividere la tua presentazione con gli altri sviluppatori Ubisoft durante la UDC?
RB: Ora che diversi team Ubisoft utilizzano Snowdrop, per noi è fondamentale incoraggiare la condivisione interna e mostrare agli altri team audio che puntiamo a mettere a loro disposizione nuove funzioni che serviranno a migliorare i loro progetti. A questo serve l'UDC!
Quale delle potenzialità del sound design del futuro ti solletica di più?
RB: Osservando come sono costruite le nuove console, si nota che tutte hanno puntato su un miglioramento dell'audio.
Su Xbox Series X, esiste una continuità con le API di Microsoft per l'audio spaziale (che supportano Dolby Atmos, per esempio) che erano già stata introdotta con Xbox One: ora però la potenza è decisamente superiore. La tecnologia audio di Xbox Series X|S è identica a quella di Windows 10, perciò otteniamo grandi risultati con uno sforzo ridotto.
Con PlayStation 5, Sony ha sostanzialmente ripreso la pipeline di elaborazione audio che avevamo messo a punto per The Division 2, ma utilizzando un hardware dedicato che si chiama Tempest Engine. Questo significa che sposteremo buona parte dell'elaborazione audio dalla CPU al loro nuovo sistema, e questo permetterà di utilizzare la CPU per altre cose. All'inizio ho notato che un blocco centrale dell'elaborazione, ovvero il ray-casting, non era gestito da Tempest Engine, e sono rimasto interdetto. Ma poi, quando ho visto che avevamo a disposizione i dati del ray-tracing, ho capito. Sony non ci obbliga a usare i dati del ray-tracing: si può comunque ricorrere al ray-casting sulla CPU, ma ora ogni sviluppatore può decidere quale metodo adottare in base alle specificità del singolo progetto.
Su tutte le piattaforme di nuova generazione l'audio beneficia di nuove opzioni: sta a noi utilizzarle al meglio. Questo è il mio sogno!
Per le ultime novità dalla UDC visita la nostra pagina Inside Ubisoft. Se ti interessano le posizioni aperte in Ubisoft, le troverai nella sezione Careers.