OpenAI vừa công bố loạt tính năng trí tuệ giọng nói mới dành cho API (giao diện lập trình ứng dụng) của hãng, mở ra khả năng xây dựng các ứng dụng có thể trò chuyện, phiên âm và dịch hội thoại theo thời gian thực. Các công cụ mới được kỳ vọng sẽ thúc đẩy mạnh mẽ việc phát triển các trợ lý AI giọng nói cho doanh nghiệp, giáo dục, truyền thông và nhiều lĩnh vực khác.

GPT-Realtime-Translate dịch trò chuyện theo thời gian thực.
Nổi bật trong đợt cập nhật lần này là mô hình giọng nói GPT-Realtime-2, phiên bản kế nhiệm của GPT-Realtime-1.5. Theo OpenAI, mô hình mới được xây dựng trên nền tảng suy luận cấp độ GPT-5, cho phép xử lý các yêu cầu phức tạp hơn và tạo ra trải nghiệm hội thoại tự nhiên, chân thực hơn với người dùng.
Không chỉ dừng lại ở khả năng phản hồi bằng giọng nói, GPT-Realtime-2 còn hỗ trợ suy luận nâng cao trong quá trình trò chuyện. OpenAI cho biết mô hình này đạt điểm số cao hơn 15,2% trên bài kiểm tra Big Bench Audio và cao hơn 13,8% trên chuẩn đánh giá Audio MultiChallenge so với các phiên bản trước.
Mô hình này hỗ trợ cửa sổ ngữ cảnh lên tới 128.000 token, giúp duy trì các cuộc hội thoại dài mà vẫn đảm bảo tính liền mạch và nhất quán. Các nhà phát triển cũng có thể điều chỉnh mức độ suy luận để cân bằng giữa độ trễ và độ phức tạp của phản hồi, đồng thời tùy biến sắc thái giọng nói như đồng cảm, bình tĩnh hoặc sôi động tùy theo ngữ cảnh sử dụng.
OpenAI cũng tung ra GPT-Realtime-Translate - công cụ dịch hội thoại theo thời gian thực. Tính năng này có khả năng “bắt kịp” nhịp trò chuyện của người dùng, hỗ trợ hơn 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra.
Một mô hình khác đáng chú ý là GPT-Realtime-Whisper, cho phép chuyển đổi giọng nói thành văn bản trực tiếp trong lúc cuộc trò chuyện diễn ra. Điều này giúp các ứng dụng có thể ghi nhận nội dung trao đổi ngay tức thì, phục vụ các nhu cầu như hỗ trợ khách hàng, ghi chú cuộc họp hoặc tạo phụ đề trực tiếp.
OpenAI nhận định rằng các mô hình mới đang đưa công nghệ âm thanh thời gian thực vượt xa hình thức “hỏi - đáp” đơn giản để trở thành những giao diện giọng nói thực sự có khả năng làm việc: lắng nghe, suy luận, dịch thuật, phiên âm và thực hiện hành động trong suốt cuộc trò chuyện.
Theo hãng, các doanh nghiệp muốn mở rộng dịch vụ chăm sóc khách hàng sẽ là nhóm hưởng lợi lớn từ những công nghệ này. Ngoài ra, OpenAI cho biết các tính năng mới còn phù hợp với nhiều lĩnh vực khác như giáo dục, truyền thông, tổ chức sự kiện và nền tảng sáng tạo nội dung.
Tuy nhiên, OpenAI cũng thừa nhận công nghệ giọng nói thời gian thực có nguy cơ bị lạm dụng cho các hoạt động spam, lừa đảo hoặc các hình thức tấn công trực tuyến khác. Để giảm thiểu rủi ro, công ty đã tích hợp các bộ phân loại nội dung nhằm phát hiện hành vi nguy hại và có thể tự động dừng cuộc hội thoại nếu phát hiện vi phạm chính sách an toàn.
Các nhà phát triển cũng có thể bổ sung các lớp bảo vệ tùy chỉnh thông qua Agents SDK (Bộ phát triển phần mềm). Ngoài ra, API mới hỗ trợ lưu trữ dữ liệu tại Liên minh châu Âu (EU) và cam kết quyền riêng tư ở cấp doanh nghiệp, phù hợp với những lĩnh vực có yêu cầu nghiêm ngặt như tài chính và y tế.
Toàn bộ các mô hình giọng nói mới hiện đã được tích hợp vào Realtime API của OpenAI.
Về giá dịch vụ, GPT-Realtime-2 có giá 32 USD cho mỗi 1 triệu token âm thanh đầu vào và 64 USD cho mỗi 1 triệu token âm thanh đầu ra. Trong khi đó, GPT-Realtime-Translate có giá 0,034 USD/phút và GPT-Realtime-Whisper là 0,017 USD/phút.
LÊ PHI (Theo Techcrunch, Timesofindia)