Vertex Transcribe Service
Case overzicht
Een AI-gestuurd mediaverwerkingsplatform ontworpen om miljoenen minuten aan audio- en videocontent te verwerken. Het neemt opnamen van educatieve lezingen — in Aramees en Engels — en zet deze om in schone, geformatteerde tekst met de juiste script, diacritica, geverifieerde referenties en getimede ondertitels. Wanneer een videobestand binnenkomt, detecteert het systeem dit automatisch, extraheert de audiotrack en leidt deze door dezelfde transcriptiepijplijn.
Doel: Bouw een mediapijplijn die in staat is miljoenen minuten aan content te verwerken en publicatieklare tekst, ondertitels en HLS-streams te leveren - met zo min mogelijk handwerk. Verwerk zowel audio als video via één enkele pijplijn, transcribeer meertalige content met hoge nauwkeurigheid, en schaal dynamisch op Kubernetes om batches van 300+ gelijktijdige opnamen aan te kunnen.
Belangrijke projectinformatie
Industrieën
Educatieve Contentplatforms, Religieuze Instellingen, Media-uitgevers, E-Learningbedrijven, Lezingarchieven, Academische Contentbibliotheken.
Diensten
AI-transcriptie, Videobewerking, Audio-extractie, HLS Multi-Bitrate Encoding, Ondertitelgeneratie, Batch-orkestratie, Bronverificatie, Cloudopslaglevering, Miniatuur- & Previewgeneratie.
Oplossingen
Geünificeerde Audio/Video-pijplijn, Automatische Formaatdetectie, Meertalige Transcriptie, Scriptconversie met Diacritica, Zwijgsegmentatie, Tijdstempel Samenvoeging, Religieuze Referentieverificatie, Dynamische AI Modelselectie.
Technologieën
Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM Instances, HLS (m3u8), Async Python, Connection Pooling, CI/CD Pipeline.
De uitdagingen
Het proces
Elk bestand — of het nu een ruwe audiolezing of een volledige video-opname is — beweegt zich door één enkele geautomatiseerde pijplijn. Acht opeenvolgende fasen brengen het van ruwe invoer naar publicatieklare uitvoer, met videoverwerking die parallel loopt zodat niets hoeft te wachten.
Mediadetector & Voorbereiding
FFprobe identificeert of het bestand audio of video is. Voor video wordt de audiotrack automatisch geëxtraheerd. Duur- en formatanalyse bepalen vervolgens de verwerkingsstrategie.
Audio Splitsen op Basis van Stilte
Bestanden langer dan 20 minuten worden opgedeeld in segmenten op natuurlijke stiltepunten zodat geen zin halverwege wordt afgebroken, wat parallelle transcriptie van alle stukken tegelijk mogelijk maakt.
AI-transcriptie
Elk segment wordt verzonden naar Gemini Pro of Flash — geselecteerd op inhoudslengte — met een gestructureerd schema dat het model dwingt getimede tekst met sprekerslabels terug te geven.
Tijdlijn Samenvoeging
Alle getranscribeerde stukken worden met correcte tijdverschuivingen aan elkaar gezet tot één naadloos document, met 99% nauwkeurige tijdstempeluitlijning over de volledige opname.
Tekst Nabewerking
Ruwe transcripties worden doorgestuurd voor scriptconversie, toepassing van diacritica, opschoning van opmaak en verificatie van religieuze bronvermeldingen via een externe database.
Videobewerking (Parallel)
Terwijl de transcriptie loopt, verzorgt de videomodule HLS multi-bitrate encoding, miniatuurgeneratie, previewclipcreatie en multi-audiostreamverwerking via FFmpeg.
Ondertitels & Samenvattingsgeneratie
Vanuit de definitieve geverifieerde tekst worden getimede ondertitelbestanden (.vtt / .srt) gegenereerd naast een automatische metadata-samenvatting voor de contentbibliotheek.
Cloudlevering
Alles — transcriptie, ondertitels, samenvatting, HLS-streams — wordt geüpload naar AWS S3 met links die aan het contentteam worden geleverd. 100% gegevensbehoud, zelfs bij verbindingsonderbrekingen.
Oplossingen
De belangrijkste kenmerken van de oplossing
Geïntegreerde Audio & Video Pipeline — FFprobe detecteert formaten automatisch. Eén toegangspunt verwerkt MP4, MKV, WebM, MOV en audio zonder handmatige conversie.
Meertalige AI Transcriptie — Verwerkt opnamen in het Engels, Aramees en gemengde talen met prompts die taalgrenzen bewaren en correcte schrijfstijlen toepassen.
Dynamische AI Modelselectie — Pro-, Flash- en Flash-Lite-niveaus worden automatisch gekozen op basis van bestandslengte en inhoudstype — waardoor nauwkeurigheid wordt gemaximaliseerd en API-kosten worden geminimaliseerd.
HLS Multi-Bitrate Streaming — Parallelle videobewerking produceert adaptieve bitrates, miniaturen en previewclips die klaar zijn voor elke moderne videospeler.
300+ Gelijktijdige Batchtaken — Kubernetes-native async-architectuur verwerkt grote batches zonder blokkering. Helm-charts beheren implementatie en schaalvergroting op ARM-instanties.
Resultaten in cijfers
99%
Nauwkeurigheid voor Engelse en Aramese audiocontent met automatisch toegepaste correcte schrijfwijze en diakritische tekens.
300+
Transcriptietaken verwerkt tegelijk met slimme wachtrijbeheer en adaptieve back-off.
60%
Besparingen door dynamische modelselectie — lichtere modellen verwerken automatisch kortere inhoud.
100%
Geen gegevensverlies, zelfs niet bij verbroken verbindingen, met automatische synchronisatie wanneer de verbinding is hersteld.