Grote taalmodellen (LLM's) zoals ChatGPT, Gemini, Claude, Perplexity en Grok interpreteren video-inhoud voornamelijk via tekstuele aanwijzingen. Ze kunnen:
- Haal inzichten uit videotranscripties.
- Geef links naar video's die relevant worden geacht voor de zoekopdracht van een gebruiker.
- Analyseer het transcript en de metadata van een video wanneer hier expliciet om wordt gevraagd.
In de praktijk verwerken LLM's geschreven taal; ze kunnen bewegende beelden en audiostreams nog niet rechtstreeks parseren. Deze beperking is grotendeels te wijten aan het enorme datavolume dat ermee gemoeid is. 100 woorden gewone HTML wegen bijvoorbeeld ruwweg 0,8 kB, terwijl dezelfde inhoud die wordt weergegeven als een HD-video van 45 seconden ongeveer 20 MB in beslag neemt:grofweg 25.000 keer meer gegevens. Als gevolg hiervan kunnen momenteel alleen gespecialiseerde crawlers videobestanden op aanvraag ontleden, en crawlers voor algemeen gebruik hebben nog steeds niet de capaciteit om dit voor elke aangetroffen video te doen.
Daarom moet video-optimalisatie voor LLM's zich richten op de omringende tekstuele metadata. De belangrijkste elementen zijn:
Transcripties, titels en beschrijvingen
Elke video moet een volledig transcript, een duidelijke titel en een gedetailleerde beschrijving hebben waarin de inhoud wordt uitgelegd. Deze elementen moeten rechtstreeks in de bron van de pagina worden weergegeven, vrij van JavaScript-wrappers of iframes, zodat LLM-crawlers ze kunnen lezen. Helaas is meer dan 95% van de webvideo's afhankelijk van JavaScript- of iframe-levering, waardoor de metadata voor veel AI-systemen verborgen blijft.
De LLM-vriendelijke insluitingen van Wistia pakken dit probleem aan door het transcript in te sluiten als gewone HTML-tekst in de insluitcode en vervolgens JavaScript te gebruiken om die tekst te vervangen door de videospeler. Deze aanpak zorgt ervoor dat crawlers en gebruikers die geen video kunnen weergeven, toch de tekstuele fallback ontvangen.
Voor sites die YouTube-video's insluiten, geldt hetzelfde principe. De iframe-insluitingen van YouTube zijn onzichtbaar voor LLM-crawlers, dus de enige betrouwbare manier voor een AI om de video te begrijpen, is door het transcript als zichtbare tekst op de pagina op te nemen. Het uploaden van nauwkeurige, meertalige transcripties naar YouTube is essentieel, ook al zullen deze transcripties niet worden opgenomen in de algemene trainingsset van de LLM vanwege de servicevoorwaarden van YouTube die bulkscraping verbieden.
Hoe zit het met de relatie van Gemini met YouTube?
Het is een algemene misvatting dat Google’s eigendom van zowel Gemini als YouTube een naadloze integratie garandeert. Hoewel Gemini toegang heeft tot een database met YouTube-video's met aanvullende metadata, blijft de werking ervan vergelijkbaar met die van andere LLM's:het vertrouwt op webcitaten en verwijzingen om relevante video's te identificeren. De rangschikking van video's in de zoekresultaten vertaalt zich niet automatisch naar de video's die door Gemini worden uitgelicht.
Toekomstperspectief:zullen LLM's videobestanden rechtstreeks verwerken?
Deskundigen verwachten dat LLM's de komende jaren de rekenkracht zullen verwerven om video-inhoud meer als mensen te interpreteren. Of deze mogelijkheid mainstream wordt, hangt echter af van de incrementele waarde die het oplevert ten opzichte van de verwerkingskosten. De huidige prognoses suggereren dat LLM's tegen 2028 JavaScript kunnen parseren op een manier die vergelijkbaar is met Googlebot, en dat ze tegen 2031 routinematig ingekapselde videobestanden kunnen verwerken. Tot die tijd blijft de regel eenvoudig:als de inhoud niet als tekst leesbaar is, blijft deze onzichtbaar voor AI.