Multimodal AI – Khi AI không chỉ “đọc chữ” mà còn hiểu cả thế giới

Trong vài năm gần đây, AI đã phát triển vượt bậc, từ việc chỉ xử lý văn bản sang khả năng hiểu hình ảnh, âm thanh và video. Công nghệ này được gọi là Multimodal AI – một bước tiến quan trọng giúp AI tương tác với con người tự nhiên hơn.

1. Multimodal AI là gì?

Multimodal AI là loại AI có thể xử lý nhiều loại dữ liệu khác nhau cùng lúc, ví dụ:

Văn bản (text)
Hình ảnh (image)
Âm thanh (audio)
Video

Trong khi AI truyền thống chỉ xử lý một loại dữ liệu (ví dụ chỉ text), Multimodal AI có thể kết hợp nhiều nguồn thông tin để hiểu ngữ cảnh tốt hơn.

Bằng cách kết hợp các loại dữ liệu khác nhau, Multimodal AI có thể thực hiện các tác vụ mà trí tuệ nhân tạo đơn phương thức không thể làm được. Ví dụ, nó có thể phân tích một bức ảnh, hiểu các hướng dẫn bằng giọng nói về bức ảnh đó và tạo ra phản hồi bằng văn bản mô tả. Điều này làm cho nó rất hữu ích trong nhiều ứng dụng khác nhau.

Có thể hiểu đơn giản: Multimodal AI = LLM + Vision + Audio

Khởi đầu với mô hình GPT-4 được phát hành vào năm 2023, lần đầu tiên kết hợp xử lý cả văn bản và hình ảnh, AI đa phương thức (multimodal AI) đã trở thành một xu hướng nổi bật. Cho đến nay, các tập đoàn công nghệ lớn đang khai thác và thúc đẩy mạnh mẽ sự phát triển của lĩnh vực này.

2. Multimodal AI hoạt động như thế nào?

Thông thường, một hệ thống Multimodal AI sẽ bao gồm 3 thành phần chính:

2.1. Encode dữ liệu

Module đầu vào bao gồm nhiều mạng neural đơn phương thức (unimodal neural networks).
Mỗi mạng sẽ xử lý một loại dữ liệu khác nhau, và tất cả các mạng này cùng tạo thành module đầu vào. Mỗi loại dữ liệu được chuyển thành dạng số (vector embedding) để mô hình có thể xử lý.

Ví dụ:

Text → embedding

Image → embedding

Audio → embedding

Tức là mọi loại dữ liệu đều được biểu diễn trong cùng một không gian vector.

2.2 Module kết hợp

Sau khi module đầu vào thu thập dữ liệu, module kết hợp (fusion module) sẽ tiếp nhận. Mô hình sẽ kết hợp hoặc liên kết các vector lại để hiểu ngữ cảnh chung.

Module này có nhiệm vụ:

Xử lý thông tin từ các loại dữ liệu khác nhau
Kết hợp chúng lại với nhau
Tạo ra một biểu diễn thống nhất để AI có thể hiểu được ngữ cảnh chung

Ví dụ:

Text: "Con mèo"
Image: ảnh con mèo

Mô hình học được rằng:
→ Văn bản và hình ảnh đang nói về cùng một đối tượng.

2.3 Sinh kết quả

Đây là thành phần cuối cùng của hệ thống, có nhiệm vụ:

Tạo ra kết quả
Trả về cho người dùng dưới dạng:
- Văn bản
- Hình ảnh
- Âm thanh
- Hoặc kết hợp nhiều dạng

Về bản chất, một hệ thống Multimodal AI hoạt động bằng cách:

Sử dụng nhiều mạng neural đơn phương thức để xử lý các loại dữ liệu khác nhau
Kết hợp các dữ liệu này lại với nhau
Tạo ra kết quả dựa trên nội dung và ngữ cảnh của dữ liệu đầu vào

3. Multimodal AI thực sự hoạt động như thế nào?

Để hiểu rõ hơn về cách Multimodal AI hoạt động, chúng ta hãy cùng xem qua ví dụ Text-to-Image.

3.1 Text-to-image

Các mô hình Text-to-Image thường bắt đầu với một quá trình gọi là diffusion (khuếch tán).
Trong quá trình này, mô hình sẽ tạo ra hình ảnh từ những mẫu ngẫu nhiên ban đầu, hay còn gọi là nhiễu Gaussian (gaussian noise).

Ban đầu, hình ảnh chỉ là những điểm nhiễu hoàn toàn ngẫu nhiên. Sau đó, mô hình sẽ dần dần loại bỏ nhiễu để tạo thành một hình ảnh rõ ràng hơn.

Một vấn đề phổ biến của các mô hình diffusion thời kỳ đầu là thiếu định hướng.
Chúng có thể tạo ra bất kỳ hình ảnh nào, nhưng thường không có chủ đề hay nội dung cụ thể.

Vai trò của văn bản trong Text-to-Image

Để làm cho các mô hình này trở nên hữu ích hơn, công nghệ Text-to-Image sử dụng các mô tả bằng văn bản để định hướng quá trình tạo ảnh.

Điều này có nghĩa là nếu bạn đưa vào từ:

"dog"

thì mô hình sẽ sử dụng thông tin từ văn bản đó để dần dần biến phần nhiễu ban đầu thành một hình ảnh có thể nhận ra được là một con chó.

Text-to-Image chuyển đổi cả văn bản và hình ảnh thành các vector toán học đại diện cho ý nghĩa bên trong của chúng.

Text-to-Image được huấn luyện như thế nào?

Tiếp tục với ví dụ trước, các mô hình tạo sinh hiện đại không chỉ được huấn luyện trong một bước duy nhất, mà thường trải qua nhiều giai đoạn khác nhau.

Ở giai đoạn đầu tiên, mô hình được huấn luyện trên quy mô lớn (large-scale pretraining) để học cách biểu diễn dữ liệu. Một trong những kỹ thuật phổ biến trong giai đoạn này là contrastive learning, đặc biệt khi làm việc với cả hình ảnh và văn bản.

Hãy tưởng tượng chúng ta có một tập dữ liệu gồm nhiều cặp hình ảnh và mô tả:

Ví dụ:

Một bức ảnh con chó kèm mô tả "a dog"
Một bức ảnh con mèo kèm mô tả "a cat"
Một bức ảnh con hươu cao cổ kèm mô tả "a giraffe"

Cặp dữ liệu Text - Image

Với mỗi cặp dữ liệu, mô hình sẽ xử lý như sau:

Văn bản được đưa qua text encoder và chuyển thành một vector
Hình ảnh được đưa qua image encoder và cũng chuyển thành một vector

Encoder Text-Image

Embedding model

Mục tiêu của mô hình lúc này là học cách liên kết hai loại dữ liệu này lại với nhau. Để làm được điều đó, trong quá trình huấn luyện:

Các cặp đúng (ví dụ: ảnh con chó và “a dog”) sẽ được kéo lại gần nhau trong không gian vector
Các cặp sai (ví dụ: ảnh con chó và “a giraffe”) sẽ bị đẩy ra xa nhau

Độ gần xa này thường được đo bằng cosine similarity – một thước đo giúp xác định các vector gần hay xa nhau trong không gian vector..

Qua nhiều lần lặp, mô hình dần học được một không gian biểu diễn chung (shared embedding space), nơi mà các khái niệm có liên quan sẽ nằm gần nhau. Ví dụ, các vector liên quan đến “dog” sẽ có xu hướng tụ lại thành một cụm, tách biệt với “cat” hay “giraffe”.

Quá trình này được lặp lại với mọi tổ hợp trong tập dữ liệu, giúp mô hình học cách ánh xạ văn bản và hình ảnh vào cùng một không gian ý nghĩa (conceptual space) một cách hiệu quả.

Quá trình huấn luyện này là nền tảng cho cách hoạt động của các mô hình diffusion model. Khi đến bước tạo ảnh, mô hình sẽ:

Chuyển văn bản đầu vào thành một vector trong không gian ý nghĩa
Biến vector văn bản này thành một vector mang thông tin hình ảnh
Giải mã (decode) vector hình ảnh đó để tạo ra bức ảnh cuối cùng

Giai đoạn này giúp mô hình hiểu dữ liệu — tức là học được mối quan hệ giữa hình ảnh và ngôn ngữ.

Tuy nhiên, chỉ dừng lại ở việc “hiểu” là chưa đủ.

Một mô hình có thể hiểu rất tốt, nhưng vẫn có thể tạo ra những câu trả lời không phù hợp, thiếu tự nhiên hoặc không đúng kỳ vọng của người dùng. Đây chính là lý do mà các mô hình hiện đại tiếp tục được tinh chỉnh bằng một kỹ thuật gọi là RLHF (Reinforcement Learning from Human Feedback).

Khác với giai đoạn trước, RLHF không tập trung vào việc học biểu diễn dữ liệu, mà tập trung vào việc điều chỉnh hành vi của mô hình theo đánh giá của con người.

Quy trình này thường diễn ra qua ba bước:

Thu thập phản hồi từ con người
Mô hình sẽ tạo ra nhiều câu trả lời cho cùng một câu hỏi. Sau đó, con người sẽ đánh giá và chọn ra câu trả lời tốt hơn.
Huấn luyện reward model
Từ dữ liệu đánh giá này, một mô hình khác (gọi là reward model) được huấn luyện để dự đoán chất lượng của câu trả lời.
Tối ưu lại mô hình ban đầu
Cuối cùng, mô hình chính sẽ được tối ưu (thường bằng các thuật toán reinforcement learning như PPO) để tạo ra các câu trả lời có điểm cao hơn theo reward model.

Mô hình kỹ thuật xử lý RLHF

Kết quả là mỗi cặp (hình ảnh – văn bản) sẽ được biểu diễn dưới dạng hai vector trong cùng một không gian.

Giai đoạn embedding/contrastive learning → giúp mô hình hiểu thế giới
Giai đoạn RLHF → giúp mô hình hành xử theo cách con người mong muốn

Nhờ sự kết hợp của hai giai đoạn này, các mô hình hiện đại không chỉ có khả năng liên kết giữa hình ảnh và ngôn ngữ, mà còn có thể tạo ra những kết quả phù hợp, tự nhiên và hữu ích hơn trong thực tế.

3.2 Audio-to-image models

Cách thực hiện tương tự như Text to Image, tuy nhiên vì là audio nên cần thực hiện 2 bước đầu Speech to Text và Text to Text để data input vào Text to Image được chuẩn hóa

Mô hình thực hiện theo các bước:

Speech to Text
Text to Text (chuẩn hóa mô tả text)
Text to Image

Audio to image model

Các ứng dụng AI trong đời sống hàng ngày

4. Multimodal AI mang lại nhiều lợi ích, nhưng cũng đi kèm với những rủi ro

Các rủi ro AI thường gặp

Vấn đề quyền riêng tư và dữ liệu cá nhân: Multimodal AI xử lý nhiều dữ liệu cá nhân như giọng nói, hình ảnh và văn bản. Nếu không có biện pháp bảo mật tốt, thông tin cá nhân có thể bị lộ hoặc sử dụng sai mục đích. Multimodal AI xử lý đồng thời nhiều loại dữ liệu nhạy cảm như:

Hình ảnh (khuôn mặt, không gian sống), giọng nói (định danh cá nhân), văn bản (email, tin nhắn, tài liệu riêng tư). Điều này làm tăng đáng kể nguy cơ rò rỉ hoặc bị khai thác sai mục đích.
Các hệ thống nhận diện khuôn mặt nếu bị lạm dụng có thể dẫn đến việc theo dõi người dùng mà không có sự đồng ý.
Dữ liệu hội thoại với AI (chat logs) có thể bị lưu trữ và sử dụng để huấn luyện lại mô hình nếu không có chính sách rõ ràng.
Nguy cơ bị lạm dụng và tạo nội dung giả (deepfake). Khi dữ liệu càng đa dạng (multi-modal), rủi ro càng khó kiểm soát hơn.

Khi con người quá phụ thuộc vào công nghệ: Con người thường có xu hướng:

Ít tự tìm hiểu thông tin
Ít suy nghĩ phản biện, giảm khả năng tự suy nghĩ và ra quyết định
Dựa hoàn toàn vào câu trả lời từ AI

Kết luận

AI đang định nghĩa lại cuộc chơi cho toàn lĩnh vực, nên thay vì cạnh tranh với AI, tốt hơn là hợp tác với nó. Thay vì xem AI là đối thủ, cách tiếp cận hợp lý hơn là:

Để AI xử lý những việc lặp lại, quy mô lớn
Con người tập trung vào tư duy, sáng tạo và ra quyết định

AI không thay thế con người — nhưng những người biết sử dụng AI sẽ thay thế những người không biết.

Tài liệu tham khảo:
https://www.superannotate.com/blog/multimodal-ai
https://www.superannotate.com/blog/embeddings-in-ml
https://www.superannotate.com/blog/rlhf-for-llm
https://www.superannotate.com/blog/diffusion-models