Khoa học & Công nghệ

Google tung ra Gemini 3.5 Live Translate, hỗ trợ phiên dịch đàm thoại trực tiếp hơn 70 ngôn ngữ

Google vừa chính thức công bố Gemini 3.5 Live Translate - mô hình trí tuệ nhân tạo mới nhất của hãng dành cho dịch giọng nói theo thời gian thực. Công nghệ này hứa hẹn mang đến trải nghiệm giao tiếp không cần biết ngoại ngữ tự nhiên hơn nhờ khả năng dịch trực tiếp khi người dùng đang nói chuyện, thay vì phải chờ câu nói kết thúc như các hệ thống phiên dịch trước đây.

Ảnh: 9to5google

Theo Google, Gemini 3.5 Live Translate có thể nhận diện hơn 70 ngôn ngữ và tạo ra phần lời dịch với âm thanh mượt mà, tự nhiên, đồng thời giữ được ngữ điệu, nhịp điệu và cao độ giọng nói của người nói.

Khác với các giải pháp dịch theo lượt vốn phải đợi người dùng nói xong mới bắt đầu dịch, Gemini 3.5 Live Translate hoạt động liên tục trong suốt cuộc trò chuyện. Công nghệ này có thể cân bằng giữa việc chờ thêm ngữ cảnh để nâng cao độ chính xác và việc dịch ngay lập tức nhằm duy trì tính đồng bộ với người nói. Nhờ đó, phần âm thanh dịch chỉ chậm hơn vài giây so với lời nói gốc, hạn chế tối đa các khoảng ngắt quãng khó chịu.

Có mặt trên Google Translate và Google Meet

Google cho biết Gemini 3.5 Live Translate bắt đầu được tung ra trên ứng dụng Google Translate dành cho thiết bị Android và điện thoại iPhone. Người dùng chỉ cần nhấn vào tùy chọn “Live translate” ở góc dưới bên trái màn hình khi sử dụng tai nghe để bắt đầu sử dụng tính năng dịch trực tiếp.

Đáng chú ý, phiên bản Android còn được bổ sung chế độ mới mang tên “Listening Mode” (chế độ nghe). Tính năng này cho phép người dùng nghe bản dịch thông qua loa thoại của điện thoại trong trường hợp không có tai nghe bên cạnh. Người dùng chỉ cần đưa điện thoại lên lỗ tai giống như khi thực hiện một cuộc gọi thông thường để nghe nội dung được dịch.

Bên cạnh Google Translate, Gemini 3.5 Live Translate cũng sẽ xuất hiện trên nền tảng họp trực tuyến Google Meet. Trước đây, tính năng dịch giọng nói trên Google Meet chỉ hỗ trợ 5 ngôn ngữ. Với khả năng hỗ trợ hơn 70 ngôn ngữ, mô hình mới mở rộng lên hơn 2.000 tổ hợp ngôn ngữ khác nhau trong cùng một cuộc họp, thay vì chủ yếu dịch qua lại với tiếng Anh như trước đây.

Trên phiên bản web của Google Meet, Google cũng bổ sung một nút điều khiển mới, cho phép người dùng kích hoạt tính năng dịch giọng nói ngay trong cuộc họp chỉ bằng một cú nhấp chuột.

Gemini 3.5 Live Translate trên Google Meet bắt đầu được tung ra dưới dạng bản xem trước riêng tư (private preview) cho một số khách hàng doanh nghiệp đang sử dụng Google Workspace. Google dự kiến sẽ mở rộng phạm vi triển khai trong thời gian tới.

Về mặt an toàn, Google cho biết toàn bộ âm thanh do AI tạo ra đều được đóng dấu nhận diện SynthID. Đây là dạng đóng dấu kỹ thuật số không thể nhận biết bằng tai người nhưng được nhúng trực tiếp vào âm thanh, giúp các hệ thống có thể phát hiện nội dung do AI tạo ra, góp phần hạn chế nguy cơ lan truyền thông tin sai lệch và tăng tính minh bạch trong môi trường số.

LÊ PHI (Theo 9to5google)

Chia sẻ bài viết

Từ khóa

Google Gemini 3.5 Live Translate phiên dịch đàm thoại trực tiếp mô hình trí tuệ nhân tạo Google Translate Google Meet

BÌNH LUẬN