Vertex Transcribe Service

Case overzicht

Een AI-gestuurd mediaverwerkingsplatform ontworpen om miljoenen minuten aan audio- en videocontent te verwerken. Het neemt opnamen van educatieve lezingen — in Aramees en Engels — en zet deze om in schone, geformatteerde tekst met de juiste script, diacritica, geverifieerde referenties en getimede ondertitels. Wanneer een videobestand binnenkomt, detecteert het systeem dit automatisch, extraheert de audiotrack en leidt deze door dezelfde transcriptiepijplijn.

Doel: Bouw een mediapijplijn die in staat is miljoenen minuten aan content te verwerken en publicatieklare tekst, ondertitels en HLS-streams te leveren - met zo min mogelijk handwerk. Verwerk zowel audio als video via één enkele pijplijn, transcribeer meertalige content met hoge nauwkeurigheid, en schaal dynamisch op Kubernetes om batches van 300+ gelijktijdige opnamen aan te kunnen.

Image

Belangrijke projectinformatie

Industrieën

Industrieën

Educatieve Contentplatforms, Religieuze Instellingen, Media-uitgevers, E-Learningbedrijven, Lezingarchieven, Academische Contentbibliotheken.

Diensten

Diensten

AI-transcriptie, Videobewerking, Audio-extractie, HLS Multi-Bitrate Encoding, Ondertitelgeneratie, Batch-orkestratie, Bronverificatie, Cloudopslaglevering, Miniatuur- & Previewgeneratie.

Oplossingen

Oplossingen

Geünificeerde Audio/Video-pijplijn, Automatische Formaatdetectie, Meertalige Transcriptie, Scriptconversie met Diacritica, Zwijgsegmentatie, Tijdstempel Samenvoeging, Religieuze Referentieverificatie, Dynamische AI Modelselectie.

Technologieën

Technologieën

Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM Instances, HLS (m3u8), Async Python, Connection Pooling, CI/CD Pipeline.

De uitdagingen

Gemengde Taalcomplexiteit

Gemengde Taalcomplexiteit

Audio schakelt halverwege de opname tussen Aramees, Engels en andere talen. Speciale AI-sturing en meervoudige tekstverwerking waren nodig om de juiste diacritica en opmaak door het hele stuk toe te passen.

Video & Audio in Eén Pijplijn

Video & Audio in Eén Pijplijn

Het systeem moest zowel pure audio als videocontainers verwerken. FFprobe-gebaseerde autodetectie extraheert de audiostream uit elk videoformaat vóór de verwerking — zonder gebruikersinterventie.

Schaal voor Miljoenen Minuten

Schaal voor Miljoenen Minuten

Vanuit de grond opgebouwd voor enorme volumes: volledig asynchroon, parallel en Kubernetes-native met goed resourcebeheer om pieken in batchlading op te vangen.

Slimme Segmentatie voor Lange Lezingen Audio

Slimme Segmentatie voor Lange Lezingen Audio

Lezingen duren vaak langer dan een uur. Stilte-detectiesegmentatie splitst bestanden op natuurlijke stiltepunten, terwijl tijdstempelsamenvoeging een naadloze doorlopende tijdlijn zonder gaten of overlappingen herstelt.

Slim Retry-systeem voor AI Werklasten

Slim Retry-systeem voor AI Werklasten

Honderden gelijktijdige AI banen testen providerlimieten streng. Slimme retry-logica, adaptieve exponentiële backoff en wachtrijbeheer houden de pijplijn gaande zonder dat banen verloren gaan.

AI Modelselectie voor Kostenefficiëntie

AI Modelselectie voor Kostenefficiëntie

Drie AI-modelniveaus — krachtig, snel en lichtgewicht — worden dynamisch geselecteerd op basis van inhoudslengte en complexiteit, wat tot 60% lagere API-kosten levert voor kortere content.

Het proces

Elk bestand — of het nu een ruwe audiolezing of een volledige video-opname is — beweegt zich door één enkele geautomatiseerde pijplijn. Acht opeenvolgende fasen brengen het van ruwe invoer naar publicatieklare uitvoer, met videoverwerking die parallel loopt zodat niets hoeft te wachten.

Mediadetector & Voorbereiding

Mediadetector & Voorbereiding

FFprobe identificeert of het bestand audio of video is. Voor video wordt de audiotrack automatisch geëxtraheerd. Duur- en formatanalyse bepalen vervolgens de verwerkingsstrategie.

Audio Splitsen op Basis van Stilte

Audio Splitsen op Basis van Stilte

Bestanden langer dan 20 minuten worden opgedeeld in segmenten op natuurlijke stiltepunten zodat geen zin halverwege wordt afgebroken, wat parallelle transcriptie van alle stukken tegelijk mogelijk maakt.

AI-transcriptie

AI-transcriptie

Elk segment wordt verzonden naar Gemini Pro of Flash — geselecteerd op inhoudslengte — met een gestructureerd schema dat het model dwingt getimede tekst met sprekerslabels terug te geven.

Tijdlijn Samenvoeging

Tijdlijn Samenvoeging

Alle getranscribeerde stukken worden met correcte tijdverschuivingen aan elkaar gezet tot één naadloos document, met 99% nauwkeurige tijdstempeluitlijning over de volledige opname.

Tekst Nabewerking

Tekst Nabewerking

Ruwe transcripties worden doorgestuurd voor scriptconversie, toepassing van diacritica, opschoning van opmaak en verificatie van religieuze bronvermeldingen via een externe database.

Videobewerking (Parallel)

Videobewerking (Parallel)

Terwijl de transcriptie loopt, verzorgt de videomodule HLS multi-bitrate encoding, miniatuurgeneratie, previewclipcreatie en multi-audiostreamverwerking via FFmpeg.

Ondertitels & Samenvattingsgeneratie

Ondertitels & Samenvattingsgeneratie

Vanuit de definitieve geverifieerde tekst worden getimede ondertitelbestanden (.vtt / .srt) gegenereerd naast een automatische metadata-samenvatting voor de contentbibliotheek.

Cloudlevering

Cloudlevering

Alles — transcriptie, ondertitels, samenvatting, HLS-streams — wordt geüpload naar AWS S3 met links die aan het contentteam worden geleverd. 100% gegevensbehoud, zelfs bij verbindingsonderbrekingen.

Oplossingen

De belangrijkste kenmerken van de oplossing

  • Geïntegreerde Audio & Video Pipeline FFprobe detecteert formaten automatisch. Eén toegangspunt verwerkt MP4, MKV, WebM, MOV en audio zonder handmatige conversie.

  • Meertalige AI Transcriptie — Verwerkt opnamen in het Engels, Aramees en gemengde talen met prompts die taalgrenzen bewaren en correcte schrijfstijlen toepassen.

  • Dynamische AI Modelselectie — Pro-, Flash- en Flash-Lite-niveaus worden automatisch gekozen op basis van bestandslengte en inhoudstype — waardoor nauwkeurigheid wordt gemaximaliseerd en API-kosten worden geminimaliseerd.

  • HLS Multi-Bitrate Streaming — Parallelle videobewerking produceert adaptieve bitrates, miniaturen en previewclips die klaar zijn voor elke moderne videospeler.

  • 300+ Gelijktijdige Batchtaken — Kubernetes-native async-architectuur verwerkt grote batches zonder blokkering. Helm-charts beheren implementatie en schaalvergroting op ARM-instanties.

Image

Resultaten in cijfers

Transcriptienauwkeurigheid

99%

Nauwkeurigheid voor Engelse en Aramese audiocontent met automatisch toegepaste correcte schrijfwijze en diakritische tekens.

Gelijktijdige taken

300+

Transcriptietaken verwerkt tegelijk met slimme wachtrijbeheer en adaptieve back-off.

Lagere API-kosten

60%

Besparingen door dynamische modelselectie — lichtere modellen verwerken automatisch kortere inhoud.

Gegevensretentie

100%

Geen gegevensverlies, zelfs niet bij verbroken verbindingen, met automatische synchronisatie wanneer de verbinding is hersteld.

Heeft u miljoenen minuten te verwerken? Laten we de pipeline bouwen!

Vertel ons uw contentuitdaging of boek een gratis consult - we schetsen een oplossing op maat van uw schaal, talen en leveringsvereisten.

Message not sent.
Message not sent.
×
Weet u niet waar u moet beginnen? We helpen u de volgende stappen uit te stippelen!
Toestemming voor de verwerking van persoonsgegevens
×
Een uitdaging? Ons team maakt er een oplossing van.
Toestemming voor de verwerking van persoonsgegevens