Сервіс транскрипції Vertex
Огляд справи
Платформа обробки медіа на основі штучного інтелекту, розроблена для обробки мільйонів хвилин аудіо- та відеоконтенту. Вона приймає записи освітніх лекцій — арамейською та англійською мовами — і перетворює їх у чистий, відформатований текст із правильним сценарієм, діакритиками, перевіреними посиланнями та синхронізованими субтитрами. Коли надходить відеофайл, система автоматично його виявляє, витягує аудіодоріжку та пропускає через ту саму транскрипційну лінію.
Мета: Побудувати медійну лінію обробки, здатну опрацьовувати мільйони хвилин контенту та доставляти текст, субтитри та HLS-потоки, готові до публікації - з мінімумом ручної роботи. Обробляти як аудіо, так і відео через єдину лінію, транскрибувати багатомовний контент із високою точністю та динамічно масштабуватись у Kubernetes для обробки пакетів із 300+ одночасних записів.
Ключова інформація про проект
Індустрії
Платформи освітнього контенту, релігійні установи, медіа-видавництва, компанії з електронного навчання, архіви лекцій, академічні бібліотеки контенту.
Послуги
Транскрипція за допомогою ШІ, обробка відео, витяг аудіо, багатобітрейтне кодування HLS, створення субтитрів, організація пакетної обробки, перевірка джерел, доставка з хмарного сховища, генерація мініатюр та попереднього перегляду.
Рішення
Уніфікована аудіо/відео лінія обробки, автоматичне визначення формату, багатомовна транскрипція, конвертація тексту з діакритиками, поділ за паузами, зшивання часових позначок, перевірка релігійних посилань, динамічний вибір моделей ШІ.
Технології
Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM Instances, HLS (m3u8), Async Python, Connection Pooling, CI/CD Pipeline.
Виклики
Процес
Кожен файл — чи то сире аудіо лекції, чи повноцінний відеозапис — проходить через одну автоматизовану лінію обробки. Вісім послідовних етапів перетворюють його з вихідних даних у готовий до публікації результат, при цьому відео обробляється паралельно, щоб нічого не чекало на інші процеси.
Виявлення та підготовка медіа
FFprobe визначає, чи файл є аудіо чи відео. Для відео аудіодоріжка витягується автоматично. Потім аналіз тривалості та формату визначає стратегію обробки.
Поділ аудіо за тишею
Файли довжиною понад 20 хвилин розбиваються на частини в природних точках тиші, щоб жодна фраза не була порізана посеред речення, що дозволяє одночасно паралельно транскрибувати всі частини.
Транскрипція за допомогою ШІ
Кожна частина надсилається до Gemini Pro або Flash — вибрано залежно від довжини контенту — зі структурованою схемою, яка змушує модель повертати текст з часовими позначками та мітками спікерів.
Об’єднання хронології
Усі транскрибовані частини зшиваються назад із коректними часовими зсувами в один безперервний документ із точністю вирівнювання часових позначок 99% по всьому запису.
Постобробка тексту
Сирий транскрипт проходить конвертацію сценарію, застосування діакритик, очищення форматування та перевірку посилань на релігійні джерела згідно з зовнішньою базою даних.
Обробка відео (паралельно)
Поки виконується транскрипція, відеомодуль займається багатобітрейтним кодуванням HLS, генерацією мініатюр, створенням кліпів для попереднього перегляду та обробкою багатодоріжкового аудіо через FFmpeg.
Генерація субтитрів та зведення
З кінцевого перевіреного тексту генеруються синхронізовані субтитри (.vtt / .srt) разом із автоматичним метаданим резюме для бібліотеки контенту.
Хмарна доставка
Усе — транскрипція, субтитри, резюме, потоки HLS — завантажується у AWS S3 з посиланнями, що надаються команді контенту. 100% збереження даних навіть при обривах з’єднання.
Рішення
Ключові особливості рішення
Уніфікована аудіо- та відеолінія обробки — FFprobe автоматично визначає формати. Один вхідний пункт обробляє MP4, MKV, WebM, MOV та аудіо без ручного конвертування.
Багатомовна AI транскрипція — Обробляє англійські, арамейські та змішані мовні записи з підказками, що зберігають межі мов і застосовують правильні правила письма.
Динамічний вибір AI-моделі — Рівні Pro, Flash і Flash-Lite вибираються автоматично залежно від довжини файлу та типу контенту — максимально підвищуючи точність і мінімізуючи витрати API.
HLS потокове передавання з мультибітрейтом — Паралельна обробка відео створює адаптивні потоки з різними бітрейтами, мініатюри та попередні кліпи, готові для будь-якого сучасного відеопрогравача.
300+ одночасних пакетних завдань — Нативна асинхронна архітектура Kubernetes обробляє великі пакети без блокувань. Helm charts управляють розгортанням і масштабуванням на ARM-інстансах.
Результати у цифрах
99%
Точність для англійського та арамейського аудіо із автоматичним застосуванням правильного письма та діакритичних знаків.
300+
Завдання транскрипції обробляються одночасно з розумним управлінням чергою та адаптивним відступом.
60%
Заощадження завдяки динамічному вибору моделі — легші моделі автоматично обробляють коротший контент.
100%
Нульова втрата даних навіть під час перебоїв з’єднання з автоматичною синхронізацією після відновлення.