Visueel redeneren AI:een revolutie in live-uitzendingen met scène-inzicht

Kunstmatige intelligentie (AI) heeft de postproductie van video al getransformeerd. Er zijn nu AI-tools voor alles, van ondertiteling tot speciale effecten en bewerking. Het is zelfs mogelijk om extra frames te genereren om een te kort fragment te verlengen. Deze AI-modellen werken echter allemaal met video die al is gemaakt. De volgende grens is live video.

Visual Reasoning AI is een nieuwe technologie die voortkomt uit een partnerschap tussen PTZOptics en Moondream.ai. Het brengt scène-inzicht naar camera's en live video-workflows in realtime. Het is gratis, open source en draait in elke moderne webbrowser.

Maar wat is het precies en hoe werkt het?

Visietaalmodel

Grote Taalmodellen (LLM’s) hebben de afgelopen jaren het AI-gesprek gedomineerd. Ze zijn getraind in tekstgegevens en vormen de drijvende kracht achter de chatbots en virtuele assistenten die steeds vertrouwder zijn geworden. Maar een LLM begrijpt alleen woorden.

Een Vision Language Model (VLM) zoals Moondream is anders. Een VLM kan zowel video, afbeeldingen en audio als tekstinvoer begrijpen. Dit betekent dat Moondream visuele en audio-informatie kan interpreteren en vervolgens tekst en andere output kan genereren als reactie op wat het ‘ziet’.

Moondream is een open-source VLM gemaakt door M87 Labs, gevestigd in Seattle. Het is ontworpen voor het begrijpen van afbeeldingen, het detecteren van objecten en het analyseren van scènes. Omdat het open source is, kan het kosteloos lokaal worden geïnstalleerd en uitgevoerd. Er is ook cloudgebaseerde toegang beschikbaar, maar daar zijn wel gebruikskosten aan verbonden.

AI voor visueel redeneren

Visual Reasoning AI zorgt voor praktische automatisering van professionele audiovisuele workflows, zoals streaming, uitzending en liveproductie. In de kern genereert de technologie beschrijvingen in natuurlijke taal van wat een camera in realtime vastlegt.

Naast beschrijving kan het elk object lokaliseren en markeren dat in duidelijke taal is gespecificeerd, en objecten binnen het gezichtsveld van de camera tellen en volgen. Misschien wel het meest opvallend is dat het scènes analyseert om te anticiperen op wat er waarschijnlijk gaat gebeuren, waarbij geautomatiseerde reacties worden geactiveerd, zoals het verplaatsen van robotcamera's, het verzenden van waarschuwingen of het updaten van dashboards.

Het resultaat is een flexibele tool die kan worden geconfigureerd voor een breed scala aan productiescenario's.

Hoe het werkt

Visueel redeneren AI:een revolutie in live-uitzendingen met scène-inzicht

Afbeelding met dank aan:Visual Reasoning AI

Visueel Redeneren is een cloudgebaseerde oplossing, wat betekent dat u geen software hoeft te downloaden of installeren en dat er geen speciale hardware vereist is. Het werkt op desktopcomputers, laptops, tablets en smartphones via elke moderne webbrowser en is compatibel met elke camera, inclusief webcams, PTZ-camera's en smartphonecamera's.

Nadat u bent ingelogd op de website van Visueel Redeneren, kunnen aangesloten camera's aan de interface worden toegevoegd. De Moondream VLM verwerkt één enkel videoframe tegelijk, dus om live video te analyseren legt hij meerdere frames vast met een ingesteld interval. Deze afbeeldingen worden geüpload naar het Moondream.ai-platform, waar de AI veranderingen in de loop van de tijd interpreteert.

Het is vermeldenswaard dat deze frame-voor-frame-benadering een natuurlijke beperking introduceert. Met een interval van twee seconden is het systeem zeer geschikt voor omgevingen met een gematigd tempo (vergaderingen, presentaties, erediensten), maar kan het moeite hebben om snelle actie bij te houden, zoals bij snelle sporten. Dankzij de intervalinstelling kunnen operators de responsiviteit afwegen tegen de verwerkingsbelasting, maar realtime continue analyse is niet wat dit systeem momenteel biedt.

De AI kan een scène in natuurlijke taal beschrijven en mensen, objecten en locaties identificeren. Het kan ook het aantal mensen volgen en tellen dat in de loop van de tijd in een videofeed verschijnt. De functie voor detectie van meerdere objecten tekent kaders rond specifieke items in de scène. Een operator typt eenvoudigweg een beschrijving in gewoon Engels, zoals 'deur', 'boek' of 'man in rood shirt', en Visueel Redeneren brengt een gekleurd kader in kaart rond het item. Meerdere objecten kunnen tegelijkertijd worden geïdentificeerd, met aanpasbare dooskleuren.

Visueel redeneren en videoproductie

De Visual Reasoning-website biedt negen gratis, open-sourcetools voor professioneel AV- en uitzendingsgebruik. Het meest overtuigende demonstreert wat mogelijk wordt als AI-scène-inzicht wordt toegepast op live camerabediening.

PTZ automatische tracker

Afbeelding met dank aan:Visual Reasoning AI

De PTZ Auto-Tracker combineert Visual Reasoning AI met PTZOptics-camerabesturing om een intelligent volgsysteem te creëren. In plaats van te vertrouwen op bewegingsdetectie of vaste zones, accepteert het natuurlijke taalbeschrijvingen van het onderwerp (“de spreker in het blauwe jasje” of “de speler met de bal”) en bestuurt het de camera om dienovereenkomstig te pannen, kantelen en zoomen. Voor producties zonder toegewijde cameramensen, zoals erediensten, conferentiepresentaties of kleinschalige sportuitzendingen, is dit waar het potentieel van de technologie het meest direct duidelijk wordt.

Multimodale fusie

Multimodal Fusion is misschien wel het meest ambitieuze van de negen instrumenten. Het analyseert tegelijkertijd video en audio, waardoor Visueel Redeneren een vollediger zintuiglijk beeld van de scène krijgt. In een presentatieomgeving betekent dit dat het systeem kan detecteren wie er spreekt en automatisch van camera kan wisselen. Bij een live muziekoptreden kan het systeem het geluid van een bepaald instrument identificeren en een PTZ-camera sturen om die artiest te volgen – een mogelijkheid waarvoor doorgaans een bekwame menselijke regisseur nodig is die in een fractie van een seconde beslissingen neemt.

De Scoreboard Extractor leest en digitaliseert scorebordinformatie uit elke videofeed. Een camera gericht op het scorebord van een sportschool of een stadiondisplay levert de bron, en de AI extraheert de relevante gegevens. Tot de sporten die momenteel worden ondersteund behoren voetbal, voetbal, basketbal en volleybal, met de mogelijkheid om te specificeren welke gegevens moeten worden gemonitord. De geëxtraheerde informatie kan vervolgens als overlay op een uitzendingsfeed worden geplaatst.

Kleurassistent

Het hulpmiddel Kleurassistent kan de kleurkenmerken van een referentiebeeld analyseren. Vervolgens worden er aanbevelingen gedaan voor het afstemmen van uw camera-instellingen. Dit is ideaal voor producties met meerdere camera's waarbij u consistente kleuren nodig heeft voor verschillende cameramodellen. U kunt ook de tool Color Assistant gebruiken om een specifieke filmische uitstraling te creëren. Het AI-model begrijpt kleurtemperatuur, verzadiging, contrast en toonkarakteristieken.

Zonemonitor

Met Zone Monitor kunt u aangepaste regio's in uw videofeed definiëren. Vervolgens detecteert het automatisch wanneer specifieke objecten of mensen deze zones binnenkomen, verlaten of blijven. Dit kan handig zijn voor natuurfilmers, omdat camera's op afstand specifieke dieren kunnen volgen en andere soorten kunnen negeren.

Scènebeschrijving

De Scene Describer genereert automatisch beschrijvingen in natuurlijke taal van wat er in uw videofeed gebeurt. Het kan nuttig zijn voor inhoudsanalyse of als toegankelijkheidsfunctie.

Detectievakken

Detection Boxes identificeert de objecten die u kiest in uw videofeed en tekent nauwkeurige selectiekaders eromheen.

Slimme teller

Smart Counter maakt gebruik van Visual Reasoning AI om nauwkeurig mensen, voertuigen of andere door u opgegeven objecten te tellen wanneer ze een scène binnenkomen en verlaten.

Scène-analyser

Met Scene Analyzer kun je vragen stellen over wat er in je video gebeurt. Visueel Redeneren AI zal dan reageren met onmiddellijke antwoorden.

De kracht van visueel redeneren

Het Visueel Redeneren-systeem is modulair ontworpen:de tools kunnen worden geconfigureerd en gecombineerd voor verschillende productieomgevingen. Een demonstratie op de website van het bedrijf illustreert dit met een vergaderscenario in de directiekamer. Wanneer deelnemers de kamer binnenkomen, telt en identificeert de AI hen. Zodra de vergadering begint, bepaalt Visueel Redeneren wie er spreekt en past het camerabeeld dienovereenkomstig aan. Het detecteert ook wanneer een videofeed op een monitor verschijnt en snijdt naar die bron.

Het systeem breidt zich uit naar meer dynamische omgevingen zoals livemuziek. Door zowel audio als video te monitoren, kan het een zanger detecteren en een camera sturen om deze te volgen. Tijdens een instrumentale solo herkent het het geluid, identificeert het overeenkomstige instrument en de artiest in de scène en beweegt een PTZ-camera om ze vast te leggen. Wanneer de solo eindigt, wordt er teruggeschakeld naar een brede opname van het volledige podium.

Omdat Visueel Redeneren is gebouwd op een visie-taalmodel, accepteert het natuurlijke taalinstructies in plaats van traditioneel programmeren. Dit betekent dat operators in duidelijke bewoordingen kunnen beschrijven wat ze willen dat het systeem doet en het relatief snel opnieuw kunnen configureren voor verschillende contexten, zoals conferenties, gebedshuizen, live theater, sportverslaggeving, enzovoort. Instructies kunnen voorafgaand aan een evenement worden voorbereid, waarna het systeem tijdens de productie autonoom functioneert.

Ik probeer het uit

Op de website van Visueel Redeneren is er een Playground-pagina waar je de technologie kunt ervaren en de tools kunt uitproberen. Je kunt het gebruiken met je smartphone, desktopcomputer, laptop of tablet. Voeg eenvoudig uw e-mailadres toe en Visueel Redeneren stuurt u een link waarmee u kunt inloggen. Er is een limiet aan het aantal verzoeken dat u naar de AI kunt sturen. U kunt echter naar de website Moondream.ai gaan om een gratis API-sleutel aan te vragen voor meer toegang.

Een grote stap voorwaarts voor AI-videoproductie

Visueel redeneren betekent een belangrijke stap voorwaarts voor AI-videoproductie en -uitzending. In combinatie met PTZOptics-camera's maakt het geautomatiseerde camerasystemen mogelijk die kunnen worden afgestemd op specifieke productiescenario's. De technologie is open source en gratis te gebruiken, wat betekent dat de ontwikkeling ervan waarschijnlijk zal versnellen naarmate de adoptie groeit en meer gebruikers bijdragen aan de evolutie ervan.