Realtime Speech-to-Text API: Xu hướng, Benchmark và Lựa chọn tối ưu (2026)

Trong những năm gần đây, công nghệ Speech-to-Text (STT) đã phát triển mạnh mẽ, đặc biệt là trong các hệ thống realtime. Bài viết này tổng hợp các kiến thức quan trọng về Realtime STT, bao gồm benchmark, kiến trúc hệ thống, so sánh API và các vấn đề kỹ thuật khi triển khai thực tế.


1. Realtime Speech-to-Text là gì?

Realtime Speech-to-Text là công nghệ chuyển đổi giọng nói thành văn bản ngay trong lúc người dùng đang nói, thay vì xử lý sau khi audio kết thúc.

Đặc điểm

  • Kết quả trả về theo dạng streaming (partial / delta)
  • Độ trễ thấp (< 300ms)
  • Có thể cập nhật transcript liên tục

Hai hướng tiếp cận chính

Native Streaming

  • Thiết kế dành riêng cho realtime
  • Sử dụng WebSocket hoặc gRPC
  • Trả về incremental tokens

Chunk-based (Batch Wrapper)

  • Chia audio thành các chunk nhỏ (100–500ms)
  • Gửi tuần tự tới model batch (ví dụ Whisper)
  • Không thực sự realtime (độ trễ cao hơn)

2. Benchmark độ chính xác (WER)

WER (Word Error Rate) là chỉ số đo lường độ sai lệch giữa transcript và ground truth.

ModelWER
Voxtral Small (fine-tuned)2.4%
Gemini (Google)4.8%
Voxtral Small5.9%
OpenAI gpt-4o-transcribe6.8%
Voxtral Mini7.7%
Soniox v38.7%
NVIDIA Parakeet v29.6%
Deepgram Nova-311.0%
Microsoft phi-414.6%
Whisper18.2%

Nhận xét

  • Các model mới (Voxtral, Gemini) vượt trội so với Whisper
  • Trade-off giữa cost và accuracy vẫn tồn tại

3. Kiến trúc hệ thống Realtime STT

Microphone / System Audio
        ↓
Audio Capture Layer (PCM stream)
        ↓
Preprocessing (VAD, noise reduction)
        ↓
Streaming Client (WebSocket / gRPC)
        ↓
STT Engine (cloud / self-host)
        ↓
Post-processing (punctuation, formatting)
        ↓
UI / downstream system

Audio format tiêu chuẩn

  • PCM 16-bit
  • Mono
  • Sample rate: 16kHz hoặc 24kHz

4. Giao thức streaming

WebSocket (phổ biến nhất)

  • Bidirectional streaming
  • Dễ dùng trong web/browser
wss://api.openai.com/v1/realtime?intent=transcription

gRPC Streaming

  • Hiệu năng cao hơn
  • Phù hợp backend / microservices
grpc.nvcf.nvidia.com:443

5. Deep Dive các nền tảng

Mistral – Voxtral Mini Realtime

  • Native streaming model (không chunking)
  • Latency < 200ms
  • Hỗ trợ self-host qua vLLM
  • Protocol: WebSocket

Google – Gemini Live API

  • Streaming 2 chiều (audio + text)
  • Hỗ trợ multimodal (audio/video)
  • Multilingual mạnh

Soniox

  • Token-level streaming (subword)
  • Session dài (lên tới 5 giờ)
  • Có speaker diarization và translation

Deepgram – Nova-3

  • Chunk size: 100–200ms
  • Có VAD built-in
  • Hỗ trợ keyterm prompting

OpenAI Realtime API

  • True delta streaming
  • Hỗ trợ WebRTC (trình duyệt)
  • Có Voice Activity Detection (VAD)

NVIDIA Parakeet

  • FastConformer + TDT decoder
  • gRPC streaming
  • Có thể deploy on-prem qua NIM

6. Xử lý streaming transcript

Realtime STT thường trả về 2 loại kết quả:

Partial (intermediate)

hello worl

Final

hello world

Cách xử lý

  • Overwrite partial text
  • Chỉ commit khi nhận final
if event.type == "partial":
    display(temp_text)

if event.type == "final":
    commit(final_text)

7. Voice Activity Detection (VAD)

VAD quyết định khi nào bắt đầu/kết thúc một đoạn speech.

Tham số quan trọng

  • threshold (energy level)
  • silence_duration (ms)

Vấn đề thực tế

  • Noise nền giữ VAD luôn mở
  • Gây delay transcript 5–15s
  • Khác nhau giữa mic / system audio / meeting audio

8. Multi-language handling

Các hệ thống hiện đại hỗ trợ:

  • Auto language detection
  • Code-switching (nhiều ngôn ngữ trong cùng câu)

Lưu ý

  • Accuracy giảm khi mixed language
  • Nên hint language nếu có thể

9. So sánh chi phí

ProviderGiá
Soniox~$0.12/hour
OpenAI~$0.18/hour
Mistral~$0.36/hour
Deepgram~$0.46/hour

10. Kết luận

Lựa chọn theo use case

  • Cost thấp + realtime tốt
    → Soniox
  • Cân bằng + self-host
    → Mistral Voxtral
  • Accuracy cao
    → Google Gemini, OpenAI gpt-4o-transcribe

11. Xu hướng tương lai

  • Latency giảm xuống gần 0
  • Multilingual trở thành mặc định
  • Tăng khả năng self-host (on-device, edge)

Realtime STT sẽ là thành phần cốt lõi trong các hệ thống AI hội thoại và voice interface.


Reference

Open ASR Leaderboard - a Hugging Face Space by hf-audio
View sortable tables of speech‑recognition models showing their word error rates, real‑time factor, and multilingual performance. Filter out proprietary models, expand language details, and submit ...
What's the best AST/STT model? I've tested many (OS + Paid)
by u/z_3454_pfk in LocalLLaMA