Hur låter ditt favoritspel?

Nu kanske du tänker på musiken, dånet av skottlossning, eller ett visst replikskifte mellan två eller flera älskvärda karaktärer. Men innan vi återkommer till den frågan vill jag att vi stannar upp och tar itu med varför just ljud är minst lika viktigt som spelmekanik och grafik. Speciellt med tanke på hur lång tid det ändå har tagit att komma dit vi är idag, och inte minst med tanke på att vi enligt många aspekter bara har snuddat vid potentialen som riktigt bra ljuddesign kan erbjuda i spel.

I betalt samarbete med EPOS Denna artikel produceras i samarbete med EPOS. Tack vare sponsorskap och samarbeten kan FZ fortsätta erbjuda högkvalitativt innehåll utan kostnad för läsaren.

"...bara har snuddat vid potentialen som riktigt bra ljuddesign kan erbjuda i spel"

När skaparna bakom podcasten Pixelated Audio, Bryan Mosley och Gene Dreyband, föreläste om musik i spel för amerikanska kongressbibliotekets musikdivision i april 2019, inledde de lustigt nog med att titta på filmmediets utveckling. Från den första bildserien som gav en illusion av rörelse vid slutet av 1800-talet tog det drygt 50 år innan vi fick se den första filmen helt i färg med synkroniserat ljud.

Även om Mosleys och Dreybands idé med den resan var att understryka hur tacksamt det är att vi idag har lättare att bevara och ta del av spelmediets historia, förde detta mig in på en annan tankebana. En med fokus på ljudets resa och betydelsen i spel genom historien fram till idag.

Pionjären Pong.

Om vi tittar på ljuddesign i spel under ett lika långt tidsförlopp, har vi alltså gått från Pong (1972) med sina tre enkla ljudsignaler – om 16, 96 och 257 millisekunder via frekvenserna 226, 459 och 490Hz i respektive ordning – till fullfjädrade orkestrar med dedikerade stycken skrivna av många av musikindustrins idag största kompositörer. Nu är Pong förvisso historiskt sett inte det första spelet, men det var i alla fall det första med faktiska ljudeffekter. Precis som att tekniken inte fanns där för de tre föregångarna CTRAD (1947), Tennis For Two (1958) och Magnavox Odyssey (1972), har just de tekniska tillkortakommandena haft en roll att spela i vad vi nostalgiker har att tacka för när det kommer till många av våra allra första spelminnen.

"De kunde enkelt inte gå loss på samma sätt som det går att göra med dagens hårdvara"

Det finns många hemdatorer och spelkonsoler att titta på för att följa ljudets utveckling, men om vi ska nämna några av de tidigt mer inflytelserika har vi tveklöst Commodore 64 (1982) och Nintendo Entertainment System (1983). Båda med närbesläktade, men ändå skiljaktiga, ljudkort står för mycket av den ljudkaraktär som många av oss än idag minns med värme. En intressant, återkommande aspekt runt begränsningarna är just vad många tror ligger till grund för varför vissa ledmotiv blev så tidlösa. I och med att utvecklare och kompositörer tvingades att förhålla sig till endast ett fåtal kanaler kunde de helt enkelt inte gå loss på samma sätt som det går att göra med dagens hårdvara.

Ett självklart exempel är givetvis de fem kanaler som utmanade en ung Koji Kondo att ge oss spelvärldens kanske mest minnesvärda jingel för Level 1:1 i Super Mario Bros. 1985. Det är en kittlande tanke att föreställa sig om de tonerna verkligen hade låtits ta samma plats om Kondo hade haft dagens teknik till sitt förfogande. Sedan är det givetvis kul att spekulera i om inspirationen kom från T-Squares låt Sister Marian (som släpptes bara ett år innan lanseringen av Super Mario Bros.) eller inte.

NES ljudpotential var inte stor – och kanske var det en styrka?

Hur som helst hade begränsningarna en stor betydelse i det som formade spelens ljud och musik. Idag ser vi gott om utvecklare som anstränger sig för att efterlikna dåtidens ljudbild. Om det handlar om tekniska begränsningar eller strävan efter att spela på nostalgikers strängar låter vi vara osagt.

Letar vi oss framåt genom historien tåls det också att nämna hur viktiga The Commodore Amiga (1985) och Super Nintendo Entertainment System (1990) var som bröt ny mark med dedikerade samplingskanaler. Med dessa kunde utvecklare plötsligt spela in helt nya typer av ljud tack vare den bredd tekniken tillät. På samma sätt var genombrottet för cd-formatet i mitten på 90-talet, och senare dvd-formatet runt millennieskiftet oerhört signifikant när det kommer till den sortens ljudbild vi har idag. Den enorma bandbredden gav upphov till fullt inspelade röster, musikaliska stycken och "riktiga" ljudeffekter. Allt inspelade i studior dedikerade till ett enda syfte: att förhöja spelupplevelsen som aldrig förr.

Snabbspolar vi fram till idag har vi såklart kommit ännu längre med etablerade låtskrivare och kompositörer. Musik till populära spel får miljontals spelningar på Spotify och Youtube, och lägg därpå slutsålda live-konserter med dedikerade klassiska stycken från de största verken. Utvecklare som inte har egna dedikerade ljudteam behöver inte längre skapa allt ljud internt utan har nu möjlighet att anlita experter hos externa företag vars plattformar och kompetens hjälper de allra minsta till det allra största med ljuddesign. På många sätt finns det gott om argument för varför ljud i spel aldrig har låtit bättre än vad det gör idag.

Företaget EPOS är för de flesta av oss kanske ett nytt varumärke inom just spel, men faktum är att EPOS växte ur Sennheiser Electronic som 2003 i ett samarbete med företaget Demant A/S (världsledande inom hörselhälsa och teknologi), lanserade deras första gaming-headset. Efter 15 år valde Sennheiser Electronic och Demant A/S att gå skilda vägar och 2019 lanserades det nya varumärket EPOS, dit även samtliga anställda från Sennheisers speldivision skulle ansluta året efter.

Även om EPOS ser fram emot jubileumsåret 2022 då ljud i spel fyller 50 år, har de själva arbetat med ljud i över 100 år (trots att varumärket är färskare). Med lanseringen av sitt nya flaggskepp H6PRO inom trådlösa hörlurar satsar nu EPOS stenhårt på att leverera ljudlösningar som optimerar spelandet – oavsett om det gäller professionellt eller för underhållnings skull.

Troels E. Rasmussen är en av de som arbetar på EPOS, där han i rollen som produktägare tillhör den interna eliten när det kommer till hårdvarudesign av hörlurar. Jag ber Rasmussen bryta ner lingot inom surround och 3d-ljud så det blir lättare att förstå vad skillnaderna (eller avsaknaden av dem...?) faktiskt är.

Ljud- och spelindustrin är fylld med modeord och som konsument kan det vara mycket svårt att bedöma olika uttalanden.

Rasmussen fortsätter med att förklara att det också är vanligt att olika företag använder egna ord för samma tekniker, vilket försvårar för konsumenter som vill göra informerade köp.

Vi har nått otroligt lång inom ljuddesign, men har vi verkligen nått hela vägen?

Inte enligt Måns Ortner, produktägare på Elias Software i Stockholm, där han till vardags jobbar med att identifiera de verktyg stora som små spelutvecklare behöver för att kunna implementera ljud och musik i sina spel. Jag ber honom utveckla resonemanget.

När det kommer till det interaktiva berättandet har vi bara skrapat på ytan. Det finns så otroligt mycket kvar att utforska och eftersom det händer så mycket hela tiden leder det till att vi fortfarande lär oss nya saker varje dag.

En av de saker Ortner lägger extra tyngd vid är hur spelmediet fortfarande inte är i närheten av att kunna förväntas leverera samma precision med ljud och musik, som vi exempelvis får i film. Till skillnad från just film, där varje millisekund av en dramatisk upplösning är planerad i förväg, har spelmediet andra utmaningar när det kommer till just den sortens tajming. Ortner fortsätter.

Precis den upplevelsen vill du ju ha i spel också. Du vill vara så himla inbäddad i upplevelsen att du inte ens tänker på att du spelar ett spel. Du vill vara i centrum, du vill vara karaktären som upplever det som sker till följd av dina knapptryckningar.

Mycket av det Ortner pratar om får mig att tänka på hur ljudet har en möjlighet att tränga igenom till oss spelare på ett annat sätt än visuella signaler. Ljud är ju, till skillnad från ljus, vibrationer. Vibrationer som efter att ha färdats från sin källa i 340 meter per sekund hela vägen fram till respektive trumhinna, får oss att känna. Oavsett om det kommer från ett par högtalare, ett par hörlurar eller en handkontroll. Kanske är den här egenskapen av hur ljud påverkar oss människor som förklarar varför tystnad kan påverka oss så kraftfullt. Endera kan tystnad frambringa obehag för den ena, medan samma tystnad för den andra kan innebära harmoni.

Även i spel har tystnaden ofta en viktig plats i kombination med välplacerat ljud, enligt Ortner.

Att använda tystnad som en förstärkare är supereffektivt. Många tänker kanske inte på det, men när man jobbar med skott och explosioner i olika former, lägger man väldigt ofta in några få millisekunder av tystnad precis innan explosionen eller skottet kommer. Man markerar och lämnar utrymme åt ljudeffekten så den får en mycket mer attackerande kraft vid släppet.

Just skottlossningar och explosioner är ett område där värdet av ljud i samband med, bland annat, e-sportens framfart fått en viktig roll. Väl implementerat ljud kan ofta hjälpa de mest erfarna spelarna att förstå vad som händer runtom dem på ett sätt som kan innebära vinst eller förlust. Kraven är med andra ord skyhöga, och om en utvecklare rubbar på den ljudbild som spelarna vant sig vid kan vi räkna med att de får höra det högt och tydligt.

Även om vi lätt kan anta att de höga förväntningarna på detaljer i ljudbilden inom e-sport är omatchade, finns det faktiskt en specifik spelargrupp som har ännu högre krav.

De som helt enkelt inte har något val.

I södra England bor streamern och youtubern Sightless Kombat. Precis som namnet antyder är han blind, och är det sedan födseln. Han har spelat i nästan hela sitt liv. Utöver att pedagogiskt dela med sig av hur han tar sig an spel med enorma krav på tajming likt Killer Instinct, arbetar han sedan sex år med att konsultera kring tillgänglighet inom spelmediet.

När jag frågar om han minns sin första spelupplevelse nämner han Fighter Pilot (1998) på pc samt Street Fighter EX Plus Alpha (1997) och Tekken 3 (1997) på konsol. Även om mycket bestod av att gissa sig fram minns han ändå spänningen som fanns där, om bara något så litet som att förstå vad som pågick i spelet i samband med hans knapptryckningar. Både för honom själv och för dem han spelade med.

Jag funderar över hur han ser på dagens spel när det kommer till ljuddesign, med tanke på att det ändå gått över 20 år sedan han chansade sig fram framför datorn. Och visst, även om Sightless Kombat anser att mycket förbättrats med tiden, förklarar han att det än idag är alldeles för få som arbetar med tillgänglighet genom ljuddesign. Detta samtidigt som vi fått andra initiativ inom samma område (tillgänglighet), så som omplacering av knappar på kontrollen, undertexter eller alternativ för exempelvis färgblindhet.

I stället uppnås tillgänglighet för ljuddesign genom oavsiktliga element likt specifika ljud som exempelvis signalerar ett huvudskott eller en fiendes död i allmänhet. Detta gäller inte bara ljudeffekter, utan även musik. Bioshock Infinite (2015) ger till exempel information till spelaren om när fiender besegras individuellt och det ursprungliga Dead Space (2010) har musik som informerar dig om när en fiende är på väg att dyka upp.

Sightless Kombat förklarar vidare hur de flesta spel idag inte inkluderar ljud som motsvarar visuella signaler till spelaren, något Assassin's Creed Valhalla (2020) får stå som exempel för.

Även om det har distinkta signaler för när jag ska parera en inkommande attack visuellt, erbjuder spelet ingenting i ljudväg. Vilket innebär att du antingen måste gissa och ha tur, eller tillbringa hela din tid med att blockera. Något som ärligt talat inte heller är särskilt roligt.

Bakläxa för Assassin's Creed Valhalla. Åtminstone ljudligt talat.

När jag frågar Måns Ortner om hur Elias Software arbetar med tillgänglighet menar han att det ska vara en självklarhet inom all bra ljuddesign, och med tanke på att en av de två grundarna till Elias Software själv är blind (Philip Bennerfall), har det visat sig vara något som genomsyrar allt företaget arbetar med.

Vi funderar hela tiden på hur vi förmedlar det som sker för någon som inte kan se det som pågår. Tack vare att han [Philip Bennerfall] utvärderar verktygen vi jobbar med krävs det dessutom att verktygen redan på utvecklarnivå ska fungera för personer med nedsatt eller ingen syn.

Mycket av det Ortner pratar om får mig att tänka på de exempel som dykt upp och slagit ett slag för ökad tillgänglighet genom ljuddesign på senare år. För visst finns det skinande exempel. The Last Of Us Part II (2020) tillhör ett av de spelen som tveklöst bröt ny mark vad gäller ljuddesign, med en uppsjö av detaljer i sin ljudbild vilken tillät spelare helt utan syn att ta sig igenom kampanjen från början till slut.

Sightless Kombat tillhör för övrigt den dedikerade gruppen spelare som överlevde det fruktade Permadeath-läget – tack vare Naughty Dogs arbete.

Han berättar om fördelarna med text-till-tal för i princip alla menyer i spelet, från interagerbara objekt, till information om spelaren behöver hoppa eller krypa för att ta sig vidare. Eller det faktum att spelare kan knäcka ett kassaskåp bara genom att lyssna på de små klicken från kugghjulen. Subtila detaljer som inte bara ger en tillgänglig, utan framför allt uppslukande upplevelse.

Även jag har hänförts av Naughty Dogs makalösa arbete med inte minst sin ljuddesign och de system som samarbetar under huven.

Naughty Dogs andra The Last of Us har en lysande ljudbild.

"Ljud har en tendens att leta sig förbi hjärnan och gå direkt till hjärtat"

Ljuddesignern Beau Anthony Jimenez på Playstation delade tacksamt med sig av hur de arbetade med karaktärernas andning via två trådar på Twitter i fjol. System som låter hjärtslagen, beroende på situation, diktera andningen. Om en karaktär till exempel smyger genom ett rum med fiender och hjärtat slår i hög takt, resulterar det till exempel i en kombination av system där karaktären som försöker hålla andningen nere samtidigt har pulsen i topp.

Jimenez är också inne på hur ljud har en tendens att "leta sig förbi hjärnan och gå direkt till hjärtat" när han skriver om hur just ljudet av andning är något som väldigt få tänker på – men som kan betyda mycket för inlevelsen.

Kanske är det därför de mer skolade inom området tenderar att reagera extra på det här med ljud som de flesta av oss ändå kan relatera till, som hur våra röster låter under specifika handlingar. Det är i alla fall något som Måns Ortner menar att han ofta tänker på när han får frågan om saker i ljudbilden som sticker ut i hans öron.

Eftersom jag själv kommer från en bakgrund [radio] där röster står i fokus blir också det första som jag hör om dialoger är lite "off". Det kanske låter flummigt, men jag kan höra hur de har spelat in det och nästan förstå vilken typ av metod som använts. Och där är exempelvis dialogerna i The Last Of Us Part II väldigt bra. Där hörs det att de verkligen tänkt på i vilken miljö och kontext de inspelade replikerna kommer höras i.

På Dice i Stockholm jobbar Raul Hamilton som voice over director sedan sju år tillbaka. Även om Hamilton menar att det fram tills för bara några år sedan varit ganska unikt med dedikerade designers för voice over i spelbranschen, är det något som blir mer vanligt på både medelstora och stora spelbolag idag. Hamilton ser ljust på framtiden.

Jag tror att kvaliteten på voice over kommer att stiga i takt med att vi får enklare verktyg att jobba med. Förr behövdes det dessutom gigantiska inspelningsbudgetar för att ta fram kvalitativ voice over men tack vare bättre tillgänglighet av bland annat röstskådespelare får fler utvecklare en bra möjlighet numera.

När jag frågar om Hamilton tror att det finns områden inom voice over vi ännu inte helt utforskat kommer han med ett svar jag kanske inte hade väntat mig. Men ett som samtidigt inte är ett dugg förvånande med tanke på hur snabbt tekniken utvecklas idag. Vi snackar om AI-genererade röster.

Jag tror att artificiell intelligens kommer att spela en stor roll i vissa typer av innehåll, både när det kommer till röstgenerering men även vid skapande av allmänt innehåll. Även om det i dagsläget mest förekommer demon på lite flummiga och konstiga AI-genererade tillgångar tror jag att det snart kommer upp i en tillräckligt hög klass för att det ska bli ett intressant element till det konventionella narrativet. Du kanske har en röd tråd som skrivits av en speldesigner och författare, men annat innehåll som exempelvis sidokaraktärer, skulle absolut kunna vara AI-genererade, vad gäller personlighet, röst och utförande.

Tänka sig. Från hundratals studiotimmar med talangfulla röstskådespelare som tränat på sina roller i minst lika många timmar, till något som skrivs... av en dator? Det är en tanke som är lika fascinerande som den är skrämmande.

Kan vi verkligen få prestationer likt Laura Baileys leverans av Abby (The Last of Us Part II) skapat av en maskin? Jag må vara skeptisk idag, men vet också hur teknik ständigt överraskat mig.

Tillbaka till Sightless Kombat. Han har nämligen ett annat favoritspel som kanske inte drog lika många rubriker som The Last Of Us Part II, men faktiskt bröt ny mark redan året innan. Nämligen The Coalitions Gears 5 (2019).

Gears 5 sparkar in dörrar som tidigare varit stängda.

Gears 5 ett bra exempel där viktig navigationsinformation tillhandahålls av ljudsignaler. Även det faktum att varje vapen har ett väldigt distinkt ljud, också på avstånd. Detta betyder att flera spelare utan syn som bekämpar ett stort antal fiender kan kommunicera effektivt om vad som finns i miljöerna och vad alla ska vara medvetna om eller överväga som primära mål. Det faktum att jag inte behöver ha en seende spelare som vägleder mig är extremt befriande, då det betyder att hela laget kan koncentrera sig på målet och spela som det är tänkt att spelas.

Enligt Sightless Kombat handlar ljuddesign inte bara om inlevelse för oss som behöver ljuden som kompletterande information till det visuella.

Ett bra spel tillåter spelare utan syn att få samma information som en seende spelare enkom genom ljudbilden. Ett dåligt spel ger lite till ingen information via ljudet, utan förväntar sig i stället att spelaren ska använda visuella signaler som sitt primära eller enda sätt att förstå situationen.

Precis som att både Måns Ortner och Sightless Kombat föredrar att spela sina spel med hörlurar, gör även jag det, oavsett om det gäller berättelser, högoktanig action eller smekande toner. Ortner menar också att de flesta som köper ett okej headset idag har tillräckligt bra ljud för att verkligen kunna njuta av den ljudbild som utvecklaren tänkt sig. Men det är inte alltid helt enkelt att veta vilken typ av lurar som är rätt. Med marknadsföringsavdelningar som pratar högt och länge om vikten av 3d-ljud, surround, virtuellt surround eller varför inte "riktigt surround", är det lätt att fastna i forumen när vi vill förstå vilken typ av hörlurar som passar oss bäst.

Dead Space är en föregångare sett till ljud. Blir det favorit i repris i remaken?

En av de mer fascinerande poängerna som Troels E. Rasmussen på EPOS lyfter är även det faktum att vi människor i grund och botten egentligen "hör i stereo" (vi har ju trots allt bara två öron). Något som jag personligen ofta har funderat på när det kommer till riktningsbaserat ljud som utgår från ett par kåpor runt öronen. Vad är det egentligen som sker? Rasmussen förklarar.

Ljudvågor reser från en mängd olika föremål runt oss och studsar mellan objekt tills de träffar vår vänstra och högra trumhinna. När vår hjärna tar emot signalerna analyserar den skillnaderna mellan vänster och höger signal och ger oss sedan resultaten. Tekniken bakom surroundljud har som syfte att lura hjärnan att tro att ett ljud kommer från en specifik riktning, vilket med rätt källmaterial kan skapa en extremt engagerande spelupplevelse.

"...det faktum att vi människor i grund och botten egentligen 'hör i stereo'"

Även om Rasmussen menar att tekniken runt surroundljud har avstannat lite under de senaste fem åren, ser han ändå hoppfullt på framtiden. Enligt honom är vissa spel redan framgångsrika när det gäller att tillhandahålla nästa form av objektorienterade ljudeffekter, och hoppas också på en framtid där samarbeten mellan spelutvecklare och hårdvarutillverkare blir mer av en standard.

En del av det Rasmussen pratar om får mig att fundera. Inte bara sett till var vi potentiellt sett är på väg, utan också vad spelskaparna själva har för uppgift framför sig. För det är klart att den största uppgiften vilar hos de som faktiskt skapar spelen.

Någon som Måns Ortner är inne på.

Det spelar ingen roll om du har på dig superbra hörlurar om inte utvecklarna har skapat en tillräckligt intressant ljudbild. Vi befinner oss ändå just nu i en era där nästan alla har möjlighet till väldigt bra hörlurar. På många sätt har många blivit, utan att veta om det, audiofiler.

Ortner förklarar att dagens utvecklare har goda förutsättningar att skapa en ljudupplevelse vi spelare kan ta del av på i princip det sättet som ljuddesignern har föreställt sig.

Troels E. Rasmussen på EPOS berättar mer om hur han ser på framtiden.

När jag tänker tio år framåt kan jag föreställa mig hur spel spelas i en mycket större skala, via molnservrar och internetanslutna enheter där spel och hårdvara arbetar i symbios på en helt annan nivå. Vissa av dessa tekniker ser vi redan idag, men vi är inte riktigt där än. Ska vi nå dit måste varje headset vara lätt och fungera när du är på språng samtidigt som det håller en hög ljudkvalitet, där surround-effekterna är skräddarsydda för den specifika användaren. Detta skulle kunna ge en ljudupplevelse som till slut inte går att skilja från de ljud du hör i vardagen.

Det är en spännande tanke. När vi upplever ljud i spel på samma sätt som vi upplever ljud i vår vardag. En svindlande tanke.

Sightless Kombat får även han frågan, och finns det kortsiktiga förbättringar på ett grundläggande plan understryker han värdet av att själv kunna reglera de olika kanalerna mer i detalj. Ambiens, menymusik, användargränssnitt, signaler som informerar om situationer och så vidare. Exempelvis inte bara ett volymreglage för "musik" och "ljudeffekter" som idag är mer av en standard.

Ljuddesign är lika viktig som grafik och spelmekanik. Många hävdar att en spelupplevelse lever och dör på sin grafik och spelmekanik. Jag hävdar att vi behöver lyfta in även ljud i det tänket och det har inte bara att göra med ökad tillgänglighet, utan det gäller spelupplevelsen i allmänhet.

"Minns du, om så bara för en sekund, hur ditt favoritspel låter?"

Precis som Sightless Kombat är inne på borde de här kraven inte bara gälla spelare utan syn eller professionella e-sportare. Självklart har ljudet en mycket större, om än hittills ouppnådd, potential än så. Vare sig det gäller tajming, positionering, repliker eller musik.

I nästan 50 år har vi hört ljud i spel och mycket pekar på att vi bara snuddat vid spelmediets potential när det kommer till ljuddesign. Att framtiden har så mycket mer att erbjuda än vi någonsin föreställt oss öppnar givetvis upp för ett flöde av spekulationer och "tänk om"-scenarion. Men innan vi beger oss dit, vill jag att vi går tillbaka till början för en stund. Tar ett andetag, sluter ögonen, tänker efter.

Minns du, om så bara för en sekund, hur ditt favoritspel låter?