В интернете огромное количество гайдов на тему транскрибации аудио и анализа совещаний через ИИ. Но все они описывают разрозненные решения: отдельно транскрибируй аудио, затем отправь в ChatGPT, и так далее.
Я решил комплексно подойти к этому вопросу и навайбкодить веб-приложение, где все задачи решаются в одном окне, а именно:
Хранение транскрипций
Чат с ИИ по содержимому встречи
Структурированные протоколы (задачи, решения, события)
Рекомендации ИИ на базе текущей и предыдущих встреч
Интеграция с CRM в один клик (beta)
Моя цель — скомбинировать транскрипцию и ИИ-анализ на одном сервере среднего уровня, на одной GPU. Загрузил аудиофайл и ответил на все вопросы: транскрипция, протокол, задачи и тд. Без ручных запросов к ИИ. А если хочется что-то уточнить — чат тут же, с сохранением истории.
Готовый проект: github.com/Chashchin-Dmitry/meeting-llm
|
Компонент |
Минимум |
Рекомендуется |
|---|---|---|
|
GPU (для LLM) |
16GB VRAM |
24GB VRAM (RTX 3090/4090) |
|
CPU (для STT) |
4 ядра |
8+ ядер |
|
RAM |
8GB |
16GB+ |
|
Диск |
50GB |
100GB+ (модели весят много) |
Транскрипция — T-One (T-Tech):
Все гайды про транскрипцию используют измученную модель Whisper-large-v3, но я бы хотел обратить внимание на STT от T-Банка, которая показывает достойнейшее качество. Единственный момент, что не выдается пунктуация, но ее можно докрутить мелкой ИИ моделью по типу sbert_punc_case_ru. Вот мои плюсы по модели:
Отлично работает на CPU (GPU не требуется!)
Оптимизирована для русского языка и телефонии
Отличный баланс скорость/качество
Подробнее о том, какие модели можно выбрать в качестве STT: alphacephei.com/nsh/2025/04/18/russian-models.html
ИИ-анализ — GPT-OSS-20B (OpenAI):
Мне нравится эта модель тем, что это идеальный баланс, между размером и качеством. Я активно ее использую для всех своих проектов, ведь она покрывает 90% требований по проектам. Также пробижимся по плюсам:
20 миллиардов параметров — не так много для современных стандартов
Высокая скорость генерации (tokens/sec)
Встроенные режимы рассуждения
Отличные аналитические способности
Ubuntu / Debian
Windows (через WSL или Docker Desktop)
macOS (на M1/M2/M3 — с ограничениями)
Скачайте Docker для вашей ОС:
Windows/Mac: https://www.docker.com/products/docker-desktop
Ubuntu: sudo apt install docker.io docker-compose
Общий пайплайн обработки совещания:
# Первый запуск (скачивание и создание контейнера) docker run -d --name t-one-stt -p 8080:8080 tinkoffcreditsystems/t-one:0.1.0 # Проверить что запустился docker ps | grep t-one # Последующие запуски docker start t-one-stt
После запуска откройте http://localhost:8080 — там веб-интерфейс для тестирования (можно закинуть аудио или говорить в микрофон).
Важно: Версия vLLM зависит от вашей видеокарты!
# Первый запуск (скачивание модели ~40GB, займёт время) docker run -d --gpus all --name vllm-server -p 8000:8000 --ipc=host \ -v ~/.cache/huggingface:/root/.cache/huggingface \ vllm/vllm-openai:v0.10.2 \ --model openai/gpt-oss-20b # Проверить что запустился (модель грузится ~5-10 мин) docker logs -f vllm-server # Последующие запуски docker start vllm-server
Совместимость vLLM и CUDA:
|
Версия |
Примечание |
|---|---|
|
v0.10.2 |
минимальная для GPT-OSS-20B |
|
v0.11.2 |
стабильная, работает с CUDA 12.8 |
|
v0.12.0 |
требует CUDA 12.9+ |
# Клонируем репозиторий git clone https://github.com/Chashchin-Dmitry/meeting-llm.git cd meeting-llm
cp .env.example .env
# База данных (MySQL) DATABASE_URL=mysql+pymysql://root:ваш_пароль@localhost:3306/meeting_llm # Сервисы STT_URL=http://localhost:8080 LLM_URL=http://localhost:8000/v1/chat/completions LLM_MODEL=openai/gpt-oss-20b # Логирование LOG_LEVEL=INFO
mysql -u root -p -e "CREATE DATABASE meeting_llm;"
# Если контейнеры уже созданы (см. пункт 2) docker start t-one-stt vllm-server # Проверить статус docker ps
# Создать виртуальное окружение python -m venv venv # Активировать (Linux/Mac) source venv/bin/activate # Активировать (Windows) venv\Scripts\activate # Установить зависимости pip install -r requirements.txt
python -m uvicorn backend.main:app --host 0.0.0.0 --port 8001
http://localhost:8001
Backend сам отдаёт frontend — отдельный веб-сервер не нужен.
Вот так нас встречает приложение:
Давайте загрузим файл нашего Zoom совещания:
Слева нажимаем на наше совещание и посмотрим прогресс. Результат транскрипции мы видим в режиме реального времени.
Давайте же посмотрим, что выдаст наше вайб-приложение в анализе с ИИ.
Как мы видим, ИИ сам сгенерировал резюме, задачи и ключевые моменты встречи прямо с тайм-кодами. События, правда, пустые, потому что о них речи действительно не шло.
Давайте же помучаем ручными запросами ИИ на тему нашего совещания.
Если мы нажмем на "Спросить у ИИ" случайный элемент внутри совещания, то наш бекенд автоматически пошлет запрос в ИИ. Например, тут я нажимаю на "Ключевые моменты", чтобы он мне их разжевал.
Загрузка аудио/видео — drag & drop, поддержка WAV, MP3, M4A, MP4
Автоматическая транскрипция — с таймкодами
ИИ-анализ — резюме, задачи, решения, события, вопросы
Чат с ИИ — задавайте вопросы по совещанию
Готовые промпты — частые вопросы одним кликом
История — все встречи и чаты сохраняются
Интеграция CRM — (в разработке)
Получился достойный подарок вам на будущий год! Копируйте, пользуйтесь, и держите ваши данные в безопасности, развернув это веб-приложение на своем железе!
Проект: github.com/Chashchin-Dmitry/meeting-llm
T-One STT: github.com/voicekit-team/T-one
GPT-OSS-20B: huggingface.co/openai/gpt-oss-20b
vLLM Docs: docs.vllm.ai
Буду рад за лайк и подписку на канал :) https://t.me/notes_from_cto
Источник
![[Перевод] GPT-5.2 набирает обороты, а Google отменяет бесплатный доступ к Gemini: как заканчивается эпоха бесплатного ИИ](https://mexc-rainbown-activityimages.s3.ap-northeast-1.amazonaws.com/banner/F20250611171322179ZvSQ9JOYMLWD78.png)

Рынки
Поделиться
Поделиться этой статьей
Копировать ссылкуX (Twitter)LinkedInFacebookEmail
Объемы токенизированного серебра взрывообразно растут по мере того, как цена металла
