Realtime Speech-to-Text API: Xu hướng, Benchmark và Lựa chọn tối ưu (2026)
Trong những năm gần đây, công nghệ Speech-to-Text (STT) đã phát triển mạnh mẽ, đặc biệt là trong các hệ thống realtime. Bài viết này tổng hợp các kiến thức quan trọng về Realtime STT, bao gồm benchmark, kiến trúc hệ thống, so sánh API và các vấn đề kỹ thuật khi triển khai thực tế.
1. Realtime Speech-to-Text là gì?
Realtime Speech-to-Text là công nghệ chuyển đổi giọng nói thành văn bản ngay trong lúc người dùng đang nói, thay vì xử lý sau khi audio kết thúc.
Đặc điểm
- Kết quả trả về theo dạng streaming (partial / delta)
- Độ trễ thấp (< 300ms)
- Có thể cập nhật transcript liên tục
Hai hướng tiếp cận chính
Native Streaming
- Thiết kế dành riêng cho realtime
- Sử dụng WebSocket hoặc gRPC
- Trả về incremental tokens
Chunk-based (Batch Wrapper)
- Chia audio thành các chunk nhỏ (100–500ms)
- Gửi tuần tự tới model batch (ví dụ Whisper)
- Không thực sự realtime (độ trễ cao hơn)
2. Benchmark độ chính xác (WER)
WER (Word Error Rate) là chỉ số đo lường độ sai lệch giữa transcript và ground truth.
| Model | WER |
|---|---|
| Voxtral Small (fine-tuned) | 2.4% |
| Gemini (Google) | 4.8% |
| Voxtral Small | 5.9% |
| OpenAI gpt-4o-transcribe | 6.8% |
| Voxtral Mini | 7.7% |
| Soniox v3 | 8.7% |
| NVIDIA Parakeet v2 | 9.6% |
| Deepgram Nova-3 | 11.0% |
| Microsoft phi-4 | 14.6% |
| Whisper | 18.2% |
Nhận xét
- Các model mới (Voxtral, Gemini) vượt trội so với Whisper
- Trade-off giữa cost và accuracy vẫn tồn tại
3. Kiến trúc hệ thống Realtime STT
Microphone / System Audio
↓
Audio Capture Layer (PCM stream)
↓
Preprocessing (VAD, noise reduction)
↓
Streaming Client (WebSocket / gRPC)
↓
STT Engine (cloud / self-host)
↓
Post-processing (punctuation, formatting)
↓
UI / downstream system
Audio format tiêu chuẩn
- PCM 16-bit
- Mono
- Sample rate: 16kHz hoặc 24kHz
4. Giao thức streaming
WebSocket (phổ biến nhất)
- Bidirectional streaming
- Dễ dùng trong web/browser
wss://api.openai.com/v1/realtime?intent=transcription
gRPC Streaming
- Hiệu năng cao hơn
- Phù hợp backend / microservices
grpc.nvcf.nvidia.com:443
5. Deep Dive các nền tảng
Mistral – Voxtral Mini Realtime
- Native streaming model (không chunking)
- Latency < 200ms
- Hỗ trợ self-host qua vLLM
- Protocol: WebSocket
Google – Gemini Live API
- Streaming 2 chiều (audio + text)
- Hỗ trợ multimodal (audio/video)
- Multilingual mạnh
Soniox
- Token-level streaming (subword)
- Session dài (lên tới 5 giờ)
- Có speaker diarization và translation
Deepgram – Nova-3
- Chunk size: 100–200ms
- Có VAD built-in
- Hỗ trợ keyterm prompting
OpenAI Realtime API
- True delta streaming
- Hỗ trợ WebRTC (trình duyệt)
- Có Voice Activity Detection (VAD)
NVIDIA Parakeet
- FastConformer + TDT decoder
- gRPC streaming
- Có thể deploy on-prem qua NIM
6. Xử lý streaming transcript
Realtime STT thường trả về 2 loại kết quả:
Partial (intermediate)
hello worl
Final
hello world
Cách xử lý
- Overwrite partial text
- Chỉ commit khi nhận final
if event.type == "partial":
display(temp_text)
if event.type == "final":
commit(final_text)
7. Voice Activity Detection (VAD)
VAD quyết định khi nào bắt đầu/kết thúc một đoạn speech.
Tham số quan trọng
- threshold (energy level)
- silence_duration (ms)
Vấn đề thực tế
- Noise nền giữ VAD luôn mở
- Gây delay transcript 5–15s
- Khác nhau giữa mic / system audio / meeting audio
8. Multi-language handling
Các hệ thống hiện đại hỗ trợ:
- Auto language detection
- Code-switching (nhiều ngôn ngữ trong cùng câu)
Lưu ý
- Accuracy giảm khi mixed language
- Nên hint language nếu có thể
9. So sánh chi phí
| Provider | Giá |
|---|---|
| Soniox | ~$0.12/hour |
| OpenAI | ~$0.18/hour |
| Mistral | ~$0.36/hour |
| Deepgram | ~$0.46/hour |
10. Kết luận
Lựa chọn theo use case
- Cost thấp + realtime tốt
→ Soniox - Cân bằng + self-host
→ Mistral Voxtral - Accuracy cao
→ Google Gemini, OpenAI gpt-4o-transcribe
11. Xu hướng tương lai
- Latency giảm xuống gần 0
- Multilingual trở thành mặc định
- Tăng khả năng self-host (on-device, edge)
Realtime STT sẽ là thành phần cốt lõi trong các hệ thống AI hội thoại và voice interface.
Reference
Open ASR Leaderboard - a Hugging Face Space by hf-audio
View sortable tables of speech‑recognition models showing their word error rates, real‑time factor, and multilingual performance. Filter out proprietary models, expand language details, and submit ...
What's the best AST/STT model? I've tested many (OS + Paid)
by u/z_3454_pfk in LocalLLaMA