Servizio di Trascrizione Vertex
Panoramica del caso
Una piattaforma di elaborazione media basata su intelligenza artificiale progettata per gestire milioni di minuti di contenuti audio e video. Prende le registrazioni di lezioni educative — in aramaico e inglese — e le trasforma in testo pulito e formattato con scrittura corretta, diacritici, riferimenti verificati e sottotitoli temporizzati. Quando arriva un file video, il sistema lo rileva automaticamente, estrae la traccia audio e la instrada attraverso la stessa pipeline di trascrizione.
Obiettivo: Costruire una pipeline multimediale in grado di elaborare milioni di minuti di contenuti e fornire testo pronto per la pubblicazione, sottotitoli e flussi HLS - con il minimo lavoro manuale possibile. elaborare sia audio che video tramite un’unica pipeline, trascrivere contenuti multilingue con alta precisione e scalare dinamicamente su Kubernetes per gestire batch di oltre 300 registrazioni simultanee.
Informazioni chiave sul progetto
Settori
Piattaforme di contenuti educativi, istituzioni religiose, editoria mediatica, aziende di e-learning, archivi di lezioni, biblioteche di contenuti accademici.
Servizi
Trascrizione AI, elaborazione video, estrazione audio, codifica multi-bit rate HLS, generazione di sottotitoli, orchestrazione batch, verifica delle fonti, consegna su storage cloud, generazione di miniature e anteprime.
Soluzioni
Pipeline audio/video unificata, rilevamento automatico del formato, trascrizione multilingue, conversione della scrittura con diacritici, segmentazione basata sul silenzio, cucitura dei timestamp, verifica delle fonti religiose, selezione dinamica del modello AI.
Tecnologie
Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, istanze ARM, HLS (m3u8), Python asincrono, connection pooling, pipeline CI/CD.
Le sfide
Il processo
Ogni file — che sia una lezione audio grezza o una registrazione video completa — passa attraverso un’unica pipeline automatizzata. Otto fasi sequenziali lo portano dall’input grezzo all’output pronto per la pubblicazione, con l’elaborazione video che corre in parallelo così nulla aspetta altro.
Rilevamento e preparazione media
FFprobe identifica se il file è audio o video. Per i video, la traccia audio viene estratta automaticamente. L’analisi della durata e del formato determina quindi la strategia di elaborazione.
Divisione audio basata sul silenzio
I file più lunghi di 20 minuti sono divisi in segmenti nei punti di silenzio naturale così nessuna frase è tagliata a metà, permettendo la trascrizione parallela di tutti i pezzi simultaneamente.
Trascrizione AI
Ogni segmento viene inviato a Gemini Pro o Flash — selezionato in base alla lunghezza del contenuto — con uno schema strutturato che obbliga il modello a restituire testo con timestamp e etichette parlante.
Unione della timeline
Tutti i pezzi trascritti sono cuciti insieme con offset temporali corretti in un unico documento senza interruzioni, con un allineamento temporale preciso al 99% su tutta la registrazione.
Post-elaborazione del testo
La trascrizione grezza viene sottoposta a conversione della scrittura, applicazione dei diacritici, pulizia della formattazione e verifica della citazione delle fonti religiose contro un database esterno.
Elaborazione video (parallela)
Mentre la trascrizione procede, il modulo video gestisce la codifica multi-bit rate HLS, la generazione di miniature, la creazione di clip di anteprima e la gestione di flussi audio multipli tramite FFmpeg.
Generazione di sottotitoli e riepiloghi
Dal testo finale verificato, vengono generati file di sottotitoli temporizzati (.vtt / .srt) insieme a un riepilogo automatico dei metadati per la libreria dei contenuti.
Consegna cloud
Tutto — trascrizione, sottotitoli, riepilogo, flussi HLS — viene caricato su AWS S3 con link consegnati al team di contenuto. Conservazione dati al 100% anche in caso di interruzioni di connessione.
Soluzioni
Le caratteristiche principali della soluzione
Pipeline unificata audio e video — FFprobe rileva automaticamente i formati. Un unico punto d'ingresso gestisce MP4, MKV, WebM, MOV e audio senza conversione manuale.
Trascrizione AI Multilingue — Gestisce registrazioni in inglese, aramaico e lingue miste con prompt che preservano i confini linguistici e applicano le corrette convenzioni della scrittura.
Selezione Dinamica del Modello AI — I livelli Pro, Flash e Flash-Lite sono scelti automaticamente in base alla lunghezza del file e al tipo di contenuto — massimizzando l'accuratezza e minimizzando la spesa API.
Streaming HLS Multi-Bitrate — L'elaborazione video parallela produce flussi a bitrate adattivo, miniature e clip di anteprima pronte per qualsiasi lettore video moderno.
300+ Lavori Batch Concorrenti — L'architettura asincrona nativa Kubernetes gestisce grandi batch senza blocchi. I grafici Helm gestiscono il deployment e la scalabilità su istanze ARM.
Risultati in numeri
99%
Precisione per contenuti audio in inglese e aramaico con corretta scrittura e diacritici applicati automaticamente.
300+
Lavori di trascrizione elaborati simultaneamente con gestione intelligente della coda e adattamento progressivo.
60%
Risparmi tramite selezione dinamica del modello — i modelli più leggeri gestiscono automaticamente contenuti più brevi.
100%
Nessuna perdita di dati anche durante interruzioni di connessione, con sincronizzazione automatica al ripristino della connessione.