Sự phát triển không ngừng và tiềm năng ứng dụng rộng rãi của giọng máy đã thúc đẩy các công ty công nghệ hàng đầu đẩy mạnh nghiên cứu, nhằm tạo ra những giọng máy tiếng Việt chất lượng cao. FPT.AI đã trình làng công nghệ giọng máy AceSound, đánh dấu một bước đột phá trong lĩnh vực tổng hợp giọng nói tự nhiên từ ngôn ngữ con người.
FPT.AI tạo ra bước ngoặt ấn tượng của giọng máy tiếng Việt
Công nghệ tổng hợp giọng nói là quá trình tạo ra giọng máy từ dữ liệu đầu vào là văn bản hoặc các mã hóa phát âm. Hệ thống này còn được biết đến với tên gọi chuyển văn bản thành giọng nói (Text to Speech). Trong vòng 10 năm qua, công nghệ giọng nói đã có những bước tiến đáng kể trên toàn cầu. Các tập đoàn công nghệ hàng đầu thế giới đều phát triển giọng máy riêng, với chất lượng giọng nói tự nhiên không khác biệt nhiều so với giọng nói con người. Một số giọng máy phổ biến và quen thuộc nhất có thể kể đến như Google Assistant, Amazon Alexa, trợ lý Siri của Apple, hay Bixby của Samsung.
Nhằm tiếp cận thị trường Việt Nam, nhiều công ty công nghệ quốc tế như Google và Nuance đã phát triển giọng máy tiếng Việt. Tuy nhiên, các sản phẩm này thường gặp phải hạn chế về sự tự nhiên của giọng nói cũng như khả năng đáp ứng các yếu tố vùng miền. Trong khi đó, giọng máy tiếng Việt “Made in Vietnam” thường có ngữ điệu gần gũi hơn với người bản địa nhưng lại chưa đáp ứng tốt về hiệu suất và tích hợp với các hệ thống phức tạp.
FPT.AI đã ra mắt một loạt giọng máy tiếng Việt mới được ứng dụng công nghệ AceSound tiên tiến. AceSound tận dụng triệt để công nghệ học sâu (deep learning) để tổng hợp giọng nói, giúp hệ thống có thể học hàng nghìn đặc điểm ngữ điệu và biểu cảm từ giọng nói tự nhiên. Các mô hình học sâu này được tinh chỉnh kỹ lưỡng để tối ưu hóa cho từng giọng nói dựa trên yếu tố giới tính và vùng miền.
Để tạo ra giọng máy có chất lượng tự nhiên như người thật, đội ngũ kỹ sư và nhà khoa học của FPT.AI đã thực hiện hàng nghìn thử nghiệm phân tích mẫu giọng nói, liên tục cải tiến chất lượng âm học. Những nỗ lực này đã đưa giọng máy tiếng Việt lên một tầm cao mới, đáp ứng tốt hơn các yêu cầu khắt khe của thị trường và người dùng.
Phiên bản mới của giọng máy AceSound được cải tiến đáng kể với các điều chỉnh về cao độ, tốc độ, cách phát âm và khả năng ngắt nghỉ, giúp giọng nói trở nên mượt mà và tự nhiên hơn. Những giọng mới như Ban Mai AceSound, Minh Quang AceSound, và Thu Minh AceSound sở hữu ngữ điệu và biểu cảm gần như không khác biệt với giọng người thật, thậm chí còn vượt trội hơn ở nhiều khía cạnh, đạt chất lượng tương đương với các MC chuyên nghiệp.
Thử nghiệm thực tế cho thấy, phần lớn người nghe không thể phân biệt được giọng máy AceSound với giọng nói thật trong 10 giây đầu tiên. Đặc biệt, giọng máy AceSound không chỉ đạt chuẩn về chất lượng mà còn có hiệu năng vượt trội, cho phép tích hợp nhanh chóng với các hệ thống lớn và đáp ứng tốt nhu cầu triển khai trong thời gian ngắn.
Khám phá cách hoạt động, lợi ích và ứng dụng Generative AI là gì? Làm sao để doanh nghiệp tiếp cận và ứng dụng AI tạo sinh hiệu quả?
Tiềm năng ứng dụng rộng rãi của các giọng máy của FPT.AI
Giọng máy FPT.AI đã nhanh chóng được tích hợp vào các hệ thống Trợ lý ảo tại nhiều trung tâm tổng đài chăm sóc khách hàng (CSKH) của các doanh nghiệp lớn như Home Credit, ngân hàng VIB, và Boston Pharma. Với khả năng triển khai nhanh chóng và hiệu suất cao, giọng máy này đang phục vụ hàng triệu khách hàng mỗi tháng, đạt mức hài lòng trung bình 4,5/5 điểm.
Giọng nói của Trợ lý ảo được tùy chỉnh để phù hợp với từng thương hiệu, ngành nghề, tạo dấu ấn riêng biệt. Nhờ công nghệ AI, voicebot không chỉ giao tiếp hai chiều với con người mà còn phản hồi bằng giọng nói biểu cảm, ngữ điệu tự nhiên. Công nghệ AceSound còn giúp giọng máy trở thành "người phát ngôn" của doanh nghiệp, mang lại một trải nghiệm độc đáo, đồng thời giúp thương hiệu dễ dàng ghi dấu ấn trong thời đại 4.0.
Trong bối cảnh đại dịch COVID-19, Trợ lý ảo AI đã đóng góp tích cực vào công tác phòng chống dịch, như tiếp nhận cuộc gọi hỗ trợ từ người dân, thực hiện các cuộc gọi sàng lọc, thông báo lịch tiêm vaccine, và theo dõi sức khỏe sau tiêm. Ngoài ra, giọng máy FPT.AI còn được ứng dụng trong nhiều lĩnh vực khác như hỗ trợ người khuyết tật, người khiếm thị, và các ứng dụng giáo dục như sách nói hay bài giảng điện tử.
Với mục tiêu đưa giọng máy tiếng Việt ra thị trường quốc tế, FPT.AI không ngừng cải tiến và ứng dụng những công nghệ mới nhất, nhằm tạo ra những giọng máy với chất lượng ngang tầm thế giới. Điều này không chỉ thể hiện tham vọng của đội ngũ chuyên gia trí tuệ nhân tạo tại FPT.AI, mà còn là một thử thách để khẳng định vị trí của mình trên thị trường công nghệ toàn cầu.
Thông tin liên hệ:
- Hà Nội : Số 10 Phạm Văn Bạch, Phường Dịch Vọng, Quận Cầu Giấy
- TP. Hồ Chí Minh: tòa nhà PJICO, 186 Điện Biên Phủ, Phường Võ Thị Sáu, Quận 3
- Email: support@fpt.ai
- Hotline: 1900 638 399
- Website: https://fpt.ai/vi/