4:2:0 vs. 4:2:2 vs. Raw:een handleiding voor videografen over Chroma Subsampling

Speciale videocamera's en zelfs hybride camera's bieden nu een overvloed aan formaten voor het opnemen van video, maar wat is het verschil tussen 4:2:0, 4:2:2 en onbewerkt, en welke invloed heeft dit op uw beeldmateriaal? Een goed begrip van de technische details kan nuttig zijn bij het nemen van een weloverwogen beslissing over welk formaat u wilt gebruiken.

De overvloed aan verschillende opnameformaten die worden aangeboden in het videomenu van uw camera kan soms overweldigend lijken, maar als u niets anders uit dit artikel haalt, volgt hier de essentie ervan:afhankelijk van factoren zoals de resolutie, kleurdiepte en framesnelheid van uw videobeelden, kunnen handelingen zoals het coderen en decoderen van uw video, het bewerken van uw beeldmateriaal of het opslaan en herstellen van bestanden uit bestanden uiterst gegevensintensief, tijdrovend en rekenintensief zijn. De nogal cryptisch genoemde videoformaten die in de titel van dit artikel worden genoemd, zijn het antwoord op dit probleem en bieden videografen een verscheidenheid aan opties om een afweging te maken tussen de kwaliteit van hun beeldmateriaal en de hoeveelheid informatie (of gegevens) die nodig is om deze op te slaan.

De grote afweging:beeldkwaliteit versus gegevensopslag

Over het algemeen hebben videoformaten van de hoogste kwaliteit de meeste gegevens nodig voor opslag, terwijl formaten van de laagste kwaliteit het minste nodig hebben. De hoeveelheid data die nodig is om uw videobeelden op te slaan, kan belangrijke praktische gevolgen hebben. De grotere datasets die door de hoogwaardige videoformaten worden gegenereerd, creëren grotere bestanden die enkele potentiële nadelen met zich meebrengen. Er zijn grotere hoeveelheden digitale opslagmedia nodig om de beelden op te slaan, en de langere schrijftijden voor deze videobestanden van hoge kwaliteit kunnen ook beperkingen opleggen aan het vermogen van uw camera om beelden vast te leggen. Als u een videoformaat van hogere kwaliteit kiest, kunt u bijvoorbeeld gedwongen worden om met een lagere framesnelheid en/of resolutie te fotograferen, zodat de gegevenspijplijn van de camera bij kan blijven.

En de problemen eindigen niet bij de camera.

Zodra u deze grotere bestanden naar uw computer heeft geüpload om ze te bewerken, zijn de tijd en de rekenkracht die nodig zijn om deze bestanden te lezen en te verwerken overeenkomstig groter, en kan uw computer zelfs moeite hebben om deze taken uit te voeren als deze niet over het benodigde geheugen of de benodigde rekenkracht beschikt om de verwerking van zulke grote datasets te verwerken.

Aan de positieve kant bieden videoformaten van hogere kwaliteit je – nou ja… beeldmateriaal van hogere kwaliteit (uiteraard) – maar ze kunnen ook een eenvoudigere workflow en superieure resultaten bieden binnen het bewerkingspakket, iets wat we later zullen bespreken.

Een eenvoudig voorbeeld van dit soort afweging tussen beeldkwaliteit en bestandsgrootte dat iedereen begrijpt, is bitdiepte. De pixels op een digitale camerasensor hebben een gespecificeerde bitdiepte voor het coderen van kleuren bij het opnemen van video of foto's. Een pixel met een kleurdiepte van 8 bits kan 2⁸ of 256 kleuren opnemen voor elk van de rode, groene en blauwe (RGB) kanalen, voor een totaal van ongeveer 16,7 miljoen kleuren. Een camerasensor die 12-bits kleurdiepte biedt, kan daarentegen ongeveer 68,3 miljard kleuren opnemen. De kleurweergave van de 12-bits sensor zal in de meeste omstandigheden uiteraard veel beter zijn dan die van de 8-bits sensor, maar een 20-megapixelbeeld vastgelegd met de 12-bits sensor zal 90 megabytes nodig hebben om de kleurgegevens op te slaan, terwijl de 8-bits sensor 60 megabytes nodig heeft (ervan uitgaande dat er in beide gevallen geen beeldcompressie is).

De onderstaande 8-bits kleurenafbeelding (met dank aan Wikipedia) illustreert mooi het soort compromis tussen kwaliteit en bestandsgrootte dat we hebben besproken. Op de blauwe achtergrond van de lucht kun je duidelijk een voorbeeld zien van het banding-fenomeen dat kan worden veroorzaakt door het gebruik van een geringere bitdiepte voor kleur.

Zichtbare strepen in een 8-bits afbeelding (met dank aan Steve F, Wikipedia)

Het is vrij eenvoudig te begrijpen hoe de keuze van de bitdiepte voor uw videobeeld de afweging tussen beeldkwaliteit en bestandsgrootte kan beïnvloeden, maar hoe zit het met deze andere, meer mysterieus genoemde videoformaten zoals 4:2:2 en 4:2:0?

Het 90 jaar oude kleursysteem dat we vandaag de dag nog steeds gebruiken

Om deze videoformaten te begrijpen, moeten we een stap verder gaan dan de wereld van eenvoudige RGB-kleuren en kijken naar een ander systeem voor het coderen van kleuren dat eind jaren dertig ontstond toen televisietechnici begonnen na te denken over de introductie van kleurenuitzendingen. Op een manier analoog aan de manier waarop Microsoft in 1985 hun nieuwe Windows-besturingssysteem nodig had om achterwaarts compatibel te zijn met alle pc's die al op hun vorige Disk Operating System (DOS) draaiden, erkenden televisietechnici dat tijdens de overgangsperiode, toen kleurentelevisie nog steeds werd geïntroduceerd, de nieuwe kleurenuitzendingen ook compatibel zouden moeten zijn met de zwart-wittelevisietoestellen die de meeste mensen nog steeds gebruikten. In 1938 bedacht de Franse ingenieur Georges Valensi een ingenieus systeem om de zwart-witcomponent van het beeld te scheiden van de kleurcomponenten. Voor de nieuwe kleurentelevisies zouden de bestaande zwart-wittelevisies eenvoudigweg de zwart-witcomponent van het signaal gebruiken, terwijl de nieuwe kleurentelevisies uit deze zwart-witcomponent een volledig kleurenbeeld zouden reconstrueren in combinatie met twee extra kleurkanalen.

Ondanks zijn leeftijd is het systeem van Valensi, ook wel YCbCr genoemd, nog steeds in gebruik en vormt in feite de basis van onze moderne videocoderingsmethoden (inclusief de formaten 4:2:2 en 4:2:0 die we hier zullen bespreken). In plaats van een beeld te scheiden in rode, groene en blauwe kanalen, verdeelt het YCbCr-systeem het beeld in twee brede componenten, luma en chroma. De lumacomponent (de Y in YCbCr) is in wezen het zwart-witgedeelte van het beeld, terwijl de chromacomponent bestaat uit twee kleurverschilkanalen:een blauw verschilkanaal (Cb) en een rood verschilkanaal (Cr).

Het werkelijk ingenieuze aspect van dit systeem is dat het direct gebruik maakt van de manier waarop het menselijk oog anders reageert op luminantie (lichte en donkere tinten) en kleur. En dat op een heel slimme manier, waardoor we nauwkeurige videobeelden kunnen coderen met minder informatie.

Omdat het menselijk oog gevoeliger is voor helderheid dan voor kleur, is het mogelijk kleurinformatie met een lagere resolutie te coderen en toch een nauwkeurig beeld te reconstrueren. In het geval van een uitgezonden televisiesignaal komt dit overeen met het gebruik van minder bandbreedte voor de chroma (kleur) componenten dan voor de luma (luminantie) component. Voor een digitaal videobeeld kunnen we ditzelfde ruimtebesparende concept benutten door een kleiner deel van onze gegevens te gebruiken om de chromacomponenten met een lagere resolutie te coderen.

Maar zoals de infomercial zegt:wacht, er is meer...

Onze ogen zijn ook gevoeliger voor het centrale groene gebied van het zichtbare spectrum dan voor de kleuren dichter bij de rode of blauwe uiteinden van het spectrum. Dit betekent dat we de hoeveelheid gegevens die we nodig hebben voor ons videoframe verder kunnen verminderen door minder rode en blauwe kleurinformatie op te slaan dan groene kleurinformatie. En dit is precies wat YCbCr kan doen.

Maar op dit punt vraagt u zich misschien af:"Waar is de informatie over het groene kanaal precies? We hebben de luma-component (zwart-wit) en chromakanalen voor de rode en blauwe kleurverschillen. Gooien we het groene kanaal weg?"

Het antwoord is nee.

Omdat onze ogen gevoeliger zijn voor groen, blijft de groene kleurinformatie behouden binnen de lumacomponent met hogere resolutie. Wanneer de groene kleurinformatie nodig is voor de reconstructie van het originele beeld in RGB, kan deze eenvoudig uit de lumagegevens worden gehaald.

Even terzijde:deze verhoogde gevoeligheid van het menselijk oog voor groen wordt ook weerspiegeld in de lay-out van de gekleurde filters in de Bayer-matrix (of X-Trans als je Fuji gebruikt) die waarschijnlijk voor de sensor van je digitale camera zit en wordt gebruikt om kleur te reconstrueren op basis van het pure luminantiebeeld dat de sensor ziet. Als u naar het onderstaande diagram kijkt, ziet u dat er voor elk rood- of blauwfilter twee groene filters in de Bayer-matrix staan, waarbij de groene component van het beeld zwaarder wordt gewogen in overeenstemming met de natuurlijke kleurreactie van onze ogen.

Bayer-filter (met dank aan Amada44, Wikipedia)

Chroma Subsampling:een slimme hack om gegevensopslag te besparen

Omdat onze ogen gevoeliger zijn voor de helderheid van een beeld dan voor de kleuren ervan, kunnen we wat resolutie in de kleurinformatie opofferen (vooral in de blauwe en rode kanalen) zonder de nauwkeurigheid van ons beeld al te veel in gevaar te brengen. Hierdoor kunnen we de hoeveelheid gegevens die we nodig hebben om de afbeelding op te slaan verder verminderen, met bijbehorende voordelen als het gaat om het omzeilen van enkele van de problemen met grote datasets die we al hebben besproken. Eén manier om deze gegevensreductie te bereiken is door selectief een deel van de chroma-informatie van bepaalde pixels te gebruiken via een methode die bekend staat als chroma-subsampling.

Beschouw deze reeks van 8 kleurenpixels in de originele afbeelding.

Kleurpixelarray| © Gordon Webster

We kunnen de luma- en chromacomponenten van deze pixelarray als volgt scheiden.

Een beeld opdelen in luma- en chromacomponenten | © Gordon Webster

Voordat we verder gaan, is het belangrijk op te merken dat de CbCr-pixels worden weergegeven als een enkele pixelcombinatie van de Cb- en Cr-kanalen, maar in het YCbCr-systeem zou elk van hen feitelijk worden gecodeerd als twee afzonderlijke Cb- en Cr-pixels.

U zult merken dat er twee rijen pixels zijn met vier pixels in elke rij, en dit is waar de namen van de chroma-subsamplingformaten 4:2:0 en 4:2:2 vandaan komen. Het eerste getal is de breedte van het pixelblok waarover we kleuren samplen (in dit geval 4). Het tweede getal is het aantal pixels waarvan we de kleuren in de eerste rij gaan samplen. Het derde getal is het aantal pixels waarvan we de kleuren in de tweede rij gaan samplen.

De volgende afbeelding toont deze subsamplingprotocollen duidelijker en zal ons helpen de details van elk protocol te begrijpen.

Chromasubsampling | © Gordon Webster

In het 4:2:0-formaat nemen we monsters van twee pixels in de eerste rij van CbCr (pixels 1 en 3) en helemaal geen pixels uit de tweede rij. Vervolgens stellen we pixels 1 en 2 in de eerste rij in op de waarde van pixel 1, en pixels 3 en 4 op de waarde van pixel 3. Omdat we in de tweede rij geen pixels hebben bemonsterd, hebben we eenvoudigweg de waarde van elke pixel in de tweede rij ingesteld op de waarde van de pixel erboven in de eerste rij. Als we het lumakanaal weer toevoegen, krijgen we het resultaat dat we onderaan het diagram zien.

Uit het diagram kun je zien dat we met 4:2:0 subsampling de helft van onze chromaresolutie verticaal en de helft horizontaal opofferen.

In het 4:2:2-formaat nemen we monsters van twee pixels in de eerste rij (pixels 1 en 3) en dezelfde twee pixels uit de tweede rij. Vervolgens stellen we pixels 1 en 2 in de eerste rij in op de waarde van pixel 1, en pixels 3 en 4 op de waarde van pixel 3. Maar omdat we deze keer ook twee pixels in de tweede rij hebben bemonsterd, kunnen we dezelfde bewerking uitvoeren voor de pixels in de tweede rij.

Uit het diagram kun je zien dat we met de 4:2:2 subsampling de helft van onze chromaresolutie horizontaal opofferen, maar al onze oorspronkelijke verticale resolutie behouden.

Maar hoe zit het met dat 4:4:4-protocol in de derde kolom?

U zult merken dat we bij 4:4:4-subsampling alle CbCr-waarden in elke rij gebruiken en daarom helemaal geen kleurresolutie opofferen. Het 4:4:4-protocol is wat wij een verliesvrij videocoderingsformaat noemen, en als je het nog niet had geraden, wordt 4:4:4-subsampling vaker raw genoemd.

Dus terug naar de vraag over beeldkwaliteit versus gegevensopslag

Laten we eerst eens kijken hoeveel gegevens elk van deze subsamplingprotocollen ons bespaart bij het coderen van onze videobeelden. Het goede nieuws hier is dat je deze cijfers niet eens hoeft te onthouden, omdat er een heel eenvoudige vuistregel is om dit uit te zoeken, alleen al aan de hand van de naam van het protocol. Ik zal je zo meteen deze korte regel geven, maar laten we eens kijken hoe het werkt.

Als we alle 8 pixels coderen met YCbCr (4:4:4) met een bitdiepte van 8, hebben we 8 bits nodig voor elke lumapixel, 8 bits voor elke Cb-pixel en 8 bits voor elke Cr-pixel, voor een totaal van 192 bits om de volledige 8-pixelarray te coderen. Dit is de opslagvereiste voor het lossless raw-formaat, dat we als basis kunnen nemen, aangezien we met dit protocol geen ruimte besparen.

Voor 4:2:2 hebben we slechts vier Cb- en vier Cr-pixels in plaats van acht van elk, zodat we de volledige array van 8 pixels kunnen coderen met slechts 128 bits – een besparing van een derde.

Voor 4:2:0 hebben we slechts twee Cb- en twee Cr-pixels in plaats van acht van elk, zodat we de volledige array van 8 pixels kunnen coderen met slechts 96 bits – een besparing van de helft.

De snelle en gemakkelijke vuistregel om uit te zoeken hoeveel elk videoformaat u bespaart, is door de getallen in de naam van het protocol bij elkaar op te tellen en te delen door 12. Dus 4:4:4 =12/12 =1, 4:2:2 =8/12 =0,67 en 4:2:0 =6/12 =0,5. Makkelijk!

Hoe zit het met de beeldkwaliteit?

Met al het gepraat over het afschaffen van kleurresolutie zou je in de verleiding kunnen komen om te denken dat 4:2:0 een soort snel en vies protocol is voor het vastleggen van videobeelden van lage kwaliteit met een minimum aan opslagruimte, maar het zal je misschien verbazen als je hoort dat 4:2:0 eigenlijk de standaard is voor digitale videomedia van hoge kwaliteit, zoals Blu-ray. Als je een analogie uit de wereld van de fotografie in ogenschouw neemt, gooien we in feite een enorme hoeveelheid informatie weg wanneer we een afbeelding van het oorspronkelijke onbewerkte formaat naar JPEG converteren, maar we kunnen nog steeds afdrukken op muurformaat maken van een JPEG-afbeelding als de resolutie voldoende is.

In werkelijkheid zou je onder de meeste omstandigheden weinig of geen verschil zien tussen video-opnamen in het onbewerkte formaat en video-opnamen in 4:2:0. De verschillen zijn er zeker als je vastbesloten bent om pixels te bekijken, maar ze zijn meestal subtiel en komen vooral naar voren in scènes waarin het frame wordt gedeeld door scherpe randen aan de grenzen van verschillende kleuren. De onderstaande afbeelding toont een vergelijking tussen de drie subsamplingprotocollen die hier worden besproken, en in de vergrote weergave kun je sporen zien van de subsampling-artefacten voor 4:2:0 en 4:2:2.

Chroma-subsampling-artefacten, met dank aan Janke, Wikipedia

Afgezien van de hogere beeldkwaliteit die het oplevert, blinkt onbewerkte (4:4:4) video echt uit als het gaat om bewerking. Om terug te keren naar onze analogie met fotografie:veel professionele fotografen fotograferen in raw, ook al leveren ze hun afbeeldingen uiteindelijk in een gecomprimeerd formaat zoals JPEG, omdat het hen veel meer flexibiliteit en controle geeft tijdens het bewerkingsproces. Eenzelfde aanpak wordt vaak gevolgd door professionele videografen.

Raw-video is niet-gecomprimeerd (of maakt gebruik van compressie zonder verlies), waarbij de kleuren in volledige resolutie voor elke pixel behouden blijven en problemen met compressieartefacten in de bewerkingsfase worden vermeden. Omdat de video onbewerkt is, heeft de video-editor veel meer flexibiliteit om de beelden te manipuleren en aan te passen, bijvoorbeeld door de witbalans in te stellen, vervaagde highlights of donkere schaduwen te herstellen of kleurcorrectie toe te passen. Voor chroma key-werk (bijvoorbeeld fotograferen tegen een groen scherm) of elke vorm van compositie in postproductie is het gebruik van onbewerkte video essentieel om artefacten zoals kleurranden en gekartelde randen te voorkomen die kunnen optreden als gevolg van chroma-subsampling.

Dus na het lezen van dit artikel hoop ik dat je de volgende keer dat je in het videomenu van je camera duikt, de reeks opties voor videoformaten iets minder intimiderend zult vinden – en dat je een beter idee zult hebben van wat de gevolgen zullen zijn als je het ene formaat boven het andere kiest als het gaat om het opslaan en verwerken van je beeldmateriaal.