Vertex Transcribe Service

Overzicht van de case

Een AI-gestuurd mediaverwerkingsplatform ontworpen om miljoenen minuten audio- en videocontent te verwerken. Het zet opnames van educatieve lezingen — in Aramees en Engels — om in schone, geformatteerde tekst met correcte tekens, diakritische tekens, geverifieerde verwijzingen en getimede ondertitels. Wanneer een videobestand binnenkomt, detecteert het systeem dit automatisch, extraheert het de audiotrack en leidt het door dezelfde transcriptiepijplijn.

Doel: Bouw een mediapijplijn die in staat is miljoenen minuten content te verwerken en publicatieklare tekst, ondertitels en HLS-streams te leveren — met zo min mogelijk handmatig werk. Verwerk zowel audio als video via een enkele pijplijn, transcribeer meertalige content met hoge nauwkeurigheid, en schaal dynamisch op Kubernetes om batches van 300+ gelijktijdige opnames aan te kunnen.

Belangrijke projectinformatie

Sectoren

Educatieve Contentplatforms, Religieuze Instellingen, Mediapublicaties, E-Learning Bedrijven, College Archieven, Academische Contentbibliotheken.

Diensten

AI Transcriptie, Videobewerking, Audio Extractie, HLS Multi-Bitrate Encoding, Ondertitelingsgeneratie, Batch Orkestratie, Verificatie van Bronverwijzingen, Cloudopslag Levering, Miniatuur- & Voorbeeldgeneratie.

Oplossingen

Geünificeerde Audio/Video Pijplijn, Automatische Formaatdetectie, Meertalige Transcriptie, Scriptconversie met Diakritische Tekens, Stilte-gebaseerde Segmentatie, Tijdstempels Samenvoegen, Verificatie van Religieuze Verwijzingen, Dynamische AI Modelselectie.

Technologieën

Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM Instances, HLS (m3u8), Async Python, Connection Pooling, CI/CD Pipeline.

De uitdagingen

Complexiteit van gemengde talen

Audio schakelt halverwege de opname tussen Aramees, Engels en andere talen. Speciale AI-aansturing en meerstaps tekstverwerking waren nodig om de juiste diakritische tekens en opmaak consequent toe te passen.

Video & audio in één pijplijn

Het systeem moest zowel pure audio als videocontainers afhandelen. FFprobe-gebaseerde autodetectie extraheert de audiostream uit elk videoformaat voordat het verwerkt wordt — zonder gebruikersinterventie.

Schaalbaar voor miljoenen minuten

Vanaf de grond opgebouwd voor grote volumes: volledig asynchroon, geparrallelliseerd en Kubernetes-native met correct resourcebeheer om pieken in batchbelasting op te vangen.

Slimme segmentatie voor lange college-audio

Colleges duren vaak langer dan een uur. Stiltedetectie segmentatie verdeelt bestanden op natuurlijke stiltepunten, terwijl tijdstempels samenvoegen een naadloze continue tijdlijn reconstrueert zonder gaten of overlappingen.

Slim retry-systeem voor AI workloads

Honderden gelijktijdige AI taken drukken de limieten van providers hard. Slimme retry-logica, adaptieve exponentiële backoff en wachtrijbeheer zorgen dat de pijplijn blijft lopen zonder verloren taken.

AI modelselectie voor kostenefficiëntie

Drie AI modelniveaus — krachtig, snel en lichtgewicht — worden dynamisch geselecteerd op basis van contentlengte en complexiteit, wat tot 60% lagere API-kosten oplevert voor kortere content.

Het proces

Elk bestand — of het nu een ruwe audiolezing of een volledige video-opname is — gaat door een enkele geautomatiseerde pijplijn. Acht opeenvolgende fasen brengen het van ruwe input naar publicatieklare output, waarbij videobewerking parallel draait zodat niets op iets anders hoeft te wachten.

Media detectie & voorbereiding

FFprobe identificeert of het bestand audio of video is. Voor video wordt automatisch de audiotrack geëxtraheerd. Duur- en formataanalyse bepalen vervolgens de verwerkingsstrategie.

Audio splitsing op basis van stilte

Bestanden langer dan 20 minuten worden opgedeeld in stukken op natuurlijke stiltepunten, zodat geen zin halverwege wordt doorgesneden, wat parallelle transcriptie van alle stukken tegelijk mogelijk maakt.

AI transcriptie

Elk stuk wordt verzonden naar Gemini Pro of Flash — geselecteerd op basis van de inhoudslengte — met een gestructureerd schema dat het model dwingt getimede tekst met sprekerlabels terug te geven.

Tijdlijn samenvoegen

Alle getranscribeerde stukken worden terug aan elkaar geplakt met correcte tijdsverschuivingen in één naadloos document, met 99% nauwkeurige tijdstempelaanpassing gedurende de hele opname.

Tekst naverwerking

Ruwe transcriptie wordt omgezet via scriptconversie, toepassen van diakritische tekens, opruimen van opmaak en verificatie van religieuze bronverwijzingen tegen een externe database.

Videobewerking (parallel)

Terwijl de transcriptie loopt, verzorgt de videomodule HLS multi-bitrate encoding, het genereren van miniaturen, het maken van voorbeeldclips en het afhandelen van meerdere audiostreams via FFmpeg.

Ondertitels & samenvatting generatie

Vanuit de definitieve geverifieerde tekst worden getimede ondertitelbestanden (.vtt / .srt) gegenereerd naast een automatische metadata-samenvatting voor de inhoudsbibliotheek.

Cloudlevering

Alles — transcriptie, ondertitels, samenvatting, HLS-streams — wordt geüpload naar AWS S3 met links die aan het contentteam worden geleverd. 100% databehoud, zelfs bij verbindingsonderbrekingen.

Oplossingen

De belangrijkste kenmerken van de oplossing

Geünificeerde Audio- & Video Pijplijn — FFprobe detecteert automatisch formaten. Eén enkel toegangspunt verwerkt MP4, MKV, WebM, MOV en audio zonder handmatige conversie. 
Meertalige AI-transcriptie — Verwerkt opnames in het Engels, Aramees en gemengde talen met prompten die taalgroepen bewaren en de juiste schrijftaalconventies toepassen.
Dynamische AI-modelselectie — Pro, Flash en Flash-Lite niveaus worden automatisch gekozen op basis van bestandsduur en inhoudstype — wat de nauwkeurigheid maximaliseert en de API-kosten minimaliseert.
HLS multi-bitrate streaming — Parallel videobewerking produceert adaptieve bitrates, miniaturen en previewclips die klaar zijn voor elke moderne videospeler.
300+ gelijktijdige batchtaken— Kubernetes-native asynchrone architectuur verwerkt grote batches zonder blokkering. Helm-diagrammen beheren implementatie en schaalvergroting op ARM-instanties.

Resultaten in cijfers

Transcriptienauwkeurigheid

99%

Precisie voor Engelse en Aramese audio-inhoud met automatisch toegepaste juiste schrift- en diakritische tekens.

Gelijktijdige taken

300+

Transcriptietaken die gelijktijdig worden verwerkt met slimme wachtrijbeheer en adaptieve uitstel.

Lagere API-kosten

60%

Besparingen door dynamische modelselectie — lichtere modellen verwerken automatisch kortere inhoud.

Gegevensbehoud

100%

Geen gegevensverlies zelfs tijdens verbindingsonderbrekingen, met automatische synchronisatie zodra de verbinding is hersteld.