Realtime Speech-to-Text API: Xu hướng, Benchmark và Lựa chọn tối ưu (2026)

Trong những năm gần đây, công nghệ Speech-to-Text (STT) đã phát triển mạnh mẽ, đặc biệt là trong các hệ thống realtime. Bài viết này tổng hợp các kiến thức quan trọng về Realtime STT, bao gồm benchmark, kiến trúc hệ thống, so sánh API và các vấn đề kỹ thuật khi triển khai thực tế.

1. Realtime Speech-to-Text là gì?

Realtime Speech-to-Text là công nghệ chuyển đổi giọng nói thành văn bản ngay trong lúc người dùng đang nói, thay vì xử lý sau khi audio kết thúc.

Đặc điểm

Kết quả trả về theo dạng streaming (partial / delta)
Độ trễ thấp (< 300ms)
Có thể cập nhật transcript liên tục

Hai hướng tiếp cận chính

Native Streaming

Thiết kế dành riêng cho realtime
Sử dụng WebSocket hoặc gRPC
Trả về incremental tokens

Chunk-based (Batch Wrapper)

Chia audio thành các chunk nhỏ (100–500ms)
Gửi tuần tự tới model batch (ví dụ Whisper)
Không thực sự realtime (độ trễ cao hơn)

2. Benchmark độ chính xác (WER)

WER (Word Error Rate) là chỉ số đo lường độ sai lệch giữa transcript và ground truth.

Model	WER
Voxtral Small (fine-tuned)	2.4%
Gemini (Google)	4.8%
Voxtral Small	5.9%
OpenAI gpt-4o-transcribe	6.8%
Voxtral Mini	7.7%
Soniox v3	8.7%
NVIDIA Parakeet v2	9.6%
Deepgram Nova-3	11.0%
Microsoft phi-4	14.6%
Whisper	18.2%

Nhận xét

Các model mới (Voxtral, Gemini) vượt trội so với Whisper
Trade-off giữa cost và accuracy vẫn tồn tại

3. Kiến trúc hệ thống Realtime STT

Microphone / System Audio
        ↓
Audio Capture Layer (PCM stream)
        ↓
Preprocessing (VAD, noise reduction)
        ↓
Streaming Client (WebSocket / gRPC)
        ↓
STT Engine (cloud / self-host)
        ↓
Post-processing (punctuation, formatting)
        ↓
UI / downstream system

Audio format tiêu chuẩn

PCM 16-bit
Mono
Sample rate: 16kHz hoặc 24kHz

4. Giao thức streaming

WebSocket (phổ biến nhất)

Bidirectional streaming
Dễ dùng trong web/browser

wss://api.openai.com/v1/realtime?intent=transcription

gRPC Streaming

Hiệu năng cao hơn
Phù hợp backend / microservices

grpc.nvcf.nvidia.com:443

5. Deep Dive các nền tảng

Mistral – Voxtral Mini Realtime

Native streaming model (không chunking)
Latency < 200ms
Hỗ trợ self-host qua vLLM
Protocol: WebSocket

Google – Gemini Live API

Streaming 2 chiều (audio + text)
Hỗ trợ multimodal (audio/video)
Multilingual mạnh

Soniox

Token-level streaming (subword)
Session dài (lên tới 5 giờ)
Có speaker diarization và translation

Deepgram – Nova-3

Chunk size: 100–200ms
Có VAD built-in
Hỗ trợ keyterm prompting

OpenAI Realtime API

True delta streaming
Hỗ trợ WebRTC (trình duyệt)
Có Voice Activity Detection (VAD)

NVIDIA Parakeet

FastConformer + TDT decoder
gRPC streaming
Có thể deploy on-prem qua NIM

6. Xử lý streaming transcript

Realtime STT thường trả về 2 loại kết quả:

Partial (intermediate)

hello worl

Final

hello world

Cách xử lý

Overwrite partial text
Chỉ commit khi nhận final

if event.type == "partial":
    display(temp_text)

if event.type == "final":
    commit(final_text)

7. Voice Activity Detection (VAD)

VAD quyết định khi nào bắt đầu/kết thúc một đoạn speech.

Tham số quan trọng

threshold (energy level)
silence_duration (ms)

Vấn đề thực tế

Noise nền giữ VAD luôn mở
Gây delay transcript 5–15s
Khác nhau giữa mic / system audio / meeting audio

8. Multi-language handling

Các hệ thống hiện đại hỗ trợ:

Auto language detection
Code-switching (nhiều ngôn ngữ trong cùng câu)

Lưu ý

Accuracy giảm khi mixed language
Nên hint language nếu có thể

9. So sánh chi phí

Provider	Giá
Soniox	~$0.12/hour
OpenAI	~$0.18/hour
Mistral	~$0.36/hour
Deepgram	~$0.46/hour

10. Kết luận

Lựa chọn theo use case

Cost thấp + realtime tốt
→ Soniox
Cân bằng + self-host
→ Mistral Voxtral
Accuracy cao
→ Google Gemini, OpenAI gpt-4o-transcribe

11. Xu hướng tương lai

Latency giảm xuống gần 0
Multilingual trở thành mặc định
Tăng khả năng self-host (on-device, edge)

Realtime STT sẽ là thành phần cốt lõi trong các hệ thống AI hội thoại và voice interface.

Reference

Open ASR Leaderboard - a Hugging Face Space by hf-audio

View sortable tables of speech‑recognition models showing their word error rates, real‑time factor, and multilingual performance. Filter out proprietary models, expand language details, and submit ...

a Hugging Face Space by hf-audio

What's the best AST/STT model? I've tested many (OS + Paid)
by u/z_3454_pfk in LocalLLaMA