Vertex Transcribe Service
Overzicht van de case
Een AI-gestuurd mediaverwerkingsplatform ontworpen om miljoenen minuten audio- en videocontent te verwerken. Het zet opnames van educatieve lezingen — in Aramees en Engels — om in schone, geformatteerde tekst met correcte tekens, diakritische tekens, geverifieerde verwijzingen en getimede ondertitels. Wanneer een videobestand binnenkomt, detecteert het systeem dit automatisch, extraheert het de audiotrack en leidt het door dezelfde transcriptiepijplijn.
Doel: Bouw een mediapijplijn die in staat is miljoenen minuten content te verwerken en publicatieklare tekst, ondertitels en HLS-streams te leveren — met zo min mogelijk handmatig werk. Verwerk zowel audio als video via een enkele pijplijn, transcribeer meertalige content met hoge nauwkeurigheid, en schaal dynamisch op Kubernetes om batches van 300+ gelijktijdige opnames aan te kunnen.
Belangrijke projectinformatie
Sectoren
Educatieve Contentplatforms, Religieuze Instellingen, Mediapublicaties, E-Learning Bedrijven, College Archieven, Academische Contentbibliotheken.
Diensten
AI Transcriptie, Videobewerking, Audio Extractie, HLS Multi-Bitrate Encoding, Ondertitelingsgeneratie, Batch Orkestratie, Verificatie van Bronverwijzingen, Cloudopslag Levering, Miniatuur- & Voorbeeldgeneratie.
Oplossingen
Geünificeerde Audio/Video Pijplijn, Automatische Formaatdetectie, Meertalige Transcriptie, Scriptconversie met Diakritische Tekens, Stilte-gebaseerde Segmentatie, Tijdstempels Samenvoegen, Verificatie van Religieuze Verwijzingen, Dynamische AI Modelselectie.
Technologieën
Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM Instances, HLS (m3u8), Async Python, Connection Pooling, CI/CD Pipeline.
De uitdagingen
Het proces
Elk bestand — of het nu een ruwe audiolezing of een volledige video-opname is — gaat door een enkele geautomatiseerde pijplijn. Acht opeenvolgende fasen brengen het van ruwe input naar publicatieklare output, waarbij videobewerking parallel draait zodat niets op iets anders hoeft te wachten.
Media detectie & voorbereiding
FFprobe identificeert of het bestand audio of video is. Voor video wordt automatisch de audiotrack geëxtraheerd. Duur- en formataanalyse bepalen vervolgens de verwerkingsstrategie.
Audio splitsing op basis van stilte
Bestanden langer dan 20 minuten worden opgedeeld in stukken op natuurlijke stiltepunten, zodat geen zin halverwege wordt doorgesneden, wat parallelle transcriptie van alle stukken tegelijk mogelijk maakt.
AI transcriptie
Elk stuk wordt verzonden naar Gemini Pro of Flash — geselecteerd op basis van de inhoudslengte — met een gestructureerd schema dat het model dwingt getimede tekst met sprekerlabels terug te geven.
Tijdlijn samenvoegen
Alle getranscribeerde stukken worden terug aan elkaar geplakt met correcte tijdsverschuivingen in één naadloos document, met 99% nauwkeurige tijdstempelaanpassing gedurende de hele opname.
Tekst naverwerking
Ruwe transcriptie wordt omgezet via scriptconversie, toepassen van diakritische tekens, opruimen van opmaak en verificatie van religieuze bronverwijzingen tegen een externe database.
Videobewerking (parallel)
Terwijl de transcriptie loopt, verzorgt de videomodule HLS multi-bitrate encoding, het genereren van miniaturen, het maken van voorbeeldclips en het afhandelen van meerdere audiostreams via FFmpeg.
Ondertitels & samenvatting generatie
Vanuit de definitieve geverifieerde tekst worden getimede ondertitelbestanden (.vtt / .srt) gegenereerd naast een automatische metadata-samenvatting voor de inhoudsbibliotheek.
Cloudlevering
Alles — transcriptie, ondertitels, samenvatting, HLS-streams — wordt geüpload naar AWS S3 met links die aan het contentteam worden geleverd. 100% databehoud, zelfs bij verbindingsonderbrekingen.
Oplossingen
De belangrijkste kenmerken van de oplossing
Geünificeerde Audio- & Video Pijplijn — FFprobe detecteert automatisch formaten. Eén enkel toegangspunt verwerkt MP4, MKV, WebM, MOV en audio zonder handmatige conversie.
Meertalige AI-transcriptie — Verwerkt opnames in het Engels, Aramees en gemengde talen met prompten die taalgroepen bewaren en de juiste schrijftaalconventies toepassen.
Dynamische AI-modelselectie — Pro, Flash en Flash-Lite niveaus worden automatisch gekozen op basis van bestandsduur en inhoudstype — wat de nauwkeurigheid maximaliseert en de API-kosten minimaliseert.
HLS multi-bitrate streaming — Parallel videobewerking produceert adaptieve bitrates, miniaturen en previewclips die klaar zijn voor elke moderne videospeler.
300+ gelijktijdige batchtaken — Kubernetes-native asynchrone architectuur verwerkt grote batches zonder blokkering. Helm-diagrammen beheren implementatie en schaalvergroting op ARM-instanties.
Resultaten in cijfers
99%
Precisie voor Engelse en Aramese audio-inhoud met automatisch toegepaste juiste schrift- en diakritische tekens.
300+
Transcriptietaken die gelijktijdig worden verwerkt met slimme wachtrijbeheer en adaptieve uitstel.
60%
Besparingen door dynamische modelselectie — lichtere modellen verwerken automatisch kortere inhoud.
100%
Geen gegevensverlies zelfs tijdens verbindingsonderbrekingen, met automatische synchronisatie zodra de verbinding is hersteld.