Servizio di Trascrizione Vertex

Panoramica del caso

Una piattaforma di elaborazione media basata su intelligenza artificiale progettata per gestire milioni di minuti di contenuti audio e video. Prende le registrazioni di lezioni educative — in aramaico e inglese — e le trasforma in testo pulito e formattato con scrittura corretta, diacritici, riferimenti verificati e sottotitoli temporizzati. Quando arriva un file video, il sistema lo rileva automaticamente, estrae la traccia audio e la instrada attraverso la stessa pipeline di trascrizione.

Obiettivo: Costruire una pipeline multimediale in grado di elaborare milioni di minuti di contenuti e fornire testo pronto per la pubblicazione, sottotitoli e flussi HLS - con il minimo lavoro manuale possibile. elaborare sia audio che video tramite un’unica pipeline, trascrivere contenuti multilingue con alta precisione e scalare dinamicamente su Kubernetes per gestire batch di oltre 300 registrazioni simultanee.

Informazioni chiave sul progetto

Settori

Piattaforme di contenuti educativi, istituzioni religiose, editoria mediatica, aziende di e-learning, archivi di lezioni, biblioteche di contenuti accademici.

Servizi

Trascrizione AI, elaborazione video, estrazione audio, codifica multi-bit rate HLS, generazione di sottotitoli, orchestrazione batch, verifica delle fonti, consegna su storage cloud, generazione di miniature e anteprime.

Soluzioni

Pipeline audio/video unificata, rilevamento automatico del formato, trascrizione multilingue, conversione della scrittura con diacritici, segmentazione basata sul silenzio, cucitura dei timestamp, verifica delle fonti religiose, selezione dinamica del modello AI.

Tecnologie

Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, istanze ARM, HLS (m3u8), Python asincrono, connection pooling, pipeline CI/CD.

Le sfide

Complessità linguistica mista

L’audio passa tra aramaico, inglese e altre lingue durante la registrazione. È stato necessario un prompting AI speciale e un’elaborazione del testo in più fasi per applicare correttamente diacritici e formattazione.

Video e audio in un’unica pipeline

Il sistema doveva gestire sia audio puro che contenitori video. Il rilevamento automatico basato su FFprobe estrae il flusso audio da qualsiasi formato video prima dell’elaborazione — nessuna intervento utente richiesto.

Scalare per milioni di minuti

Progettato da zero per volumi massicci: completamente asincrono, parallelizzato e nativo Kubernetes con una gestione delle risorse adeguata per assorbire picchi di carico batch.

Segmentazione intelligente per audio di lezioni lunghe

Le lezioni spesso superano un’ora. La segmentazione tramite rilevamento del silenzio divide i file naturalmente, mentre la cucitura dei timestamp ricostruisce una timeline continua senza interruzioni o sovrapposizioni.

Sistema smart di retry per carichi AI

Centinaia di lavori AI concorrenti spingono al limite i provider. La logica smart di retry, il backoff esponenziale adattivo e la gestione della coda mantengono la pipeline senza job persi.

Selezione modello AI per efficienza dei costi

Tre livelli di modelli AI — potente, veloce e leggero — sono selezionati dinamicamente in base alla lunghezza e complessità del contenuto, offrendo fino al 60% di riduzione dei costi API sui contenuti più brevi.

Il processo

Ogni file — che sia una lezione audio grezza o una registrazione video completa — passa attraverso un’unica pipeline automatizzata. Otto fasi sequenziali lo portano dall’input grezzo all’output pronto per la pubblicazione, con l’elaborazione video che corre in parallelo così nulla aspetta altro.

Rilevamento e preparazione media

FFprobe identifica se il file è audio o video. Per i video, la traccia audio viene estratta automaticamente. L’analisi della durata e del formato determina quindi la strategia di elaborazione.

Divisione audio basata sul silenzio

I file più lunghi di 20 minuti sono divisi in segmenti nei punti di silenzio naturale così nessuna frase è tagliata a metà, permettendo la trascrizione parallela di tutti i pezzi simultaneamente.

Trascrizione AI

Ogni segmento viene inviato a Gemini Pro o Flash — selezionato in base alla lunghezza del contenuto — con uno schema strutturato che obbliga il modello a restituire testo con timestamp e etichette parlante.

Unione della timeline

Tutti i pezzi trascritti sono cuciti insieme con offset temporali corretti in un unico documento senza interruzioni, con un allineamento temporale preciso al 99% su tutta la registrazione.

Post-elaborazione del testo

La trascrizione grezza viene sottoposta a conversione della scrittura, applicazione dei diacritici, pulizia della formattazione e verifica della citazione delle fonti religiose contro un database esterno.

Elaborazione video (parallela)

Mentre la trascrizione procede, il modulo video gestisce la codifica multi-bit rate HLS, la generazione di miniature, la creazione di clip di anteprima e la gestione di flussi audio multipli tramite FFmpeg.

Generazione di sottotitoli e riepiloghi

Dal testo finale verificato, vengono generati file di sottotitoli temporizzati (.vtt / .srt) insieme a un riepilogo automatico dei metadati per la libreria dei contenuti.

Consegna cloud

Tutto — trascrizione, sottotitoli, riepilogo, flussi HLS — viene caricato su AWS S3 con link consegnati al team di contenuto. Conservazione dati al 100% anche in caso di interruzioni di connessione.

Soluzioni

Le caratteristiche principali della soluzione

Pipeline unificata audio e video — FFprobe rileva automaticamente i formati. Un unico punto d'ingresso gestisce MP4, MKV, WebM, MOV e audio senza conversione manuale. 
Trascrizione AI Multilingue — Gestisce registrazioni in inglese, aramaico e lingue miste con prompt che preservano i confini linguistici e applicano le corrette convenzioni della scrittura.
Selezione Dinamica del Modello AI — I livelli Pro, Flash e Flash-Lite sono scelti automaticamente in base alla lunghezza del file e al tipo di contenuto — massimizzando l'accuratezza e minimizzando la spesa API.
Streaming HLS Multi-Bitrate — L'elaborazione video parallela produce flussi a bitrate adattivo, miniature e clip di anteprima pronte per qualsiasi lettore video moderno.
300+ Lavori Batch Concorrenti— L'architettura asincrona nativa Kubernetes gestisce grandi batch senza blocchi. I grafici Helm gestiscono il deployment e la scalabilità su istanze ARM.

Risultati in numeri

Precisione della Trascrizione

99%

Precisione per contenuti audio in inglese e aramaico con corretta scrittura e diacritici applicati automaticamente.

Lavori Concorrenti

300+

Lavori di trascrizione elaborati simultaneamente con gestione intelligente della coda e adattamento progressivo.

Costi API Inferiori

60%

Risparmi tramite selezione dinamica del modello — i modelli più leggeri gestiscono automaticamente contenuti più brevi.

Conservazione dei Dati

100%

Nessuna perdita di dati anche durante interruzioni di connessione, con sincronizzazione automatica al ripristino della connessione.

Hai milioni di minuti da elaborare? Costruiamo la pipeline!

Raccontaci la tua sfida sui contenuti o prenota una consulenza gratuita - ti illustreremo una soluzione su misura per la tua scala, lingue e requisiti di consegna.