Đây là Chương trình "Trí tuệ nhân tạo" - Mới được trình làng vào ngày 27 tháng 2 năm 2025 - Rất phù hợp cho các bạn cho nhu cầu luyện NGHE - NÓI tiếng Anh (có CÁC HÌNH ẢNH HƯỚNG DẪN ở bên dưới)
Brendan Iribe, Ankit Kumar và nhóm Sesame
Làm sao chúng ta biết được khi nào ai đó thực sự hiểu mình? Hiếm khi chỉ là lời nói của chúng ta—mà là ở sự tinh tế của giọng nói: sự phấn khích dâng trào, sự tạm dừng đầy suy tư, sự trấn an ấm áp.
Giọng nói là phương tiện thân mật nhất của chúng ta với tư cách là con người, mang nhiều lớp ý nghĩa thông qua vô số biến thể về tông giọng, cao độ, nhịp điệu và cảm xúc.
Trợ lý giọng nói kỹ thuật số ngày nay thiếu những phẩm chất thiết yếu để thực sự hữu ích. Nếu không khai thác hết sức mạnh của giọng nói, chúng không thể hy vọng hợp tác hiệu quả với chúng ta. Một trợ lý cá nhân chỉ nói bằng tông giọng trung tính sẽ khó có thể tìm được vị trí cố định trong cuộc sống hàng ngày của chúng ta sau khi sự mới lạ ban đầu qua đi.
Theo thời gian, sự tẻ nhạt về mặt cảm xúc này không chỉ gây thất vọng—mà còn trở nên mệt mỏi.
Đạt được sự hiện diện của giọng nói
Tại Sesame, mục tiêu của chúng tôi là đạt được "sự hiện diện của giọng nói"—phẩm chất kỳ diệu khiến các tương tác bằng lời nói trở nên chân thực, được hiểu và được trân trọng. Chúng tôi đang tạo ra những đối tác đàm thoại không chỉ xử lý các yêu cầu; họ tham gia vào cuộc đối thoại thực sự giúp xây dựng sự tự tin và tin tưởng theo thời gian. Khi làm như vậy, chúng tôi hy vọng sẽ nhận ra tiềm năng chưa được khai thác của giọng nói như giao diện cuối cùng cho hướng dẫn và hiểu biết.
Các thành phần chính
Trí tuệ cảm xúc: đọc và phản hồi các bối cảnh cảm xúc.
Động lực đàm thoại: thời gian tự nhiên, tạm dừng, ngắt quãng và nhấn mạnh.
Nhận thức theo ngữ cảnh: điều chỉnh giọng điệu và phong cách để phù hợp với tình huống.
Tính cách nhất quán: duy trì sự hiện diện mạch lạc, đáng tin cậy và phù hợp.
Chúng tôi vẫn chưa đạt được điều đó
Việc xây dựng một người bạn đồng hành kỹ thuật số có sự hiện diện của giọng nói không hề dễ dàng, nhưng chúng tôi đang đạt được tiến bộ vững chắc trên nhiều mặt, bao gồm tính cách, trí nhớ, khả năng biểu đạt và tính phù hợp. Bản demo này là một bản trình bày về một số công việc của chúng tôi trong việc tạo ra lời nói đàm thoại. Các người bạn đồng hành được hiển thị ở đây đã được tối ưu hóa để thân thiện và biểu đạt nhằm minh họa cho tiềm năng của phương pháp tiếp cận của chúng tôi.
Hãy thử giọng nói đàm thoại trong bản xem trước của chúng tôi
Giao diện ứng dụng web Sesame
Bài đăng kỹ thuật
Tạo giọng nói đàm thoại
Tác giả
Johan Schalkwyk, Ankit Kumar, Dan Lyth, Sefik Emre Eskimez, Zack Hodari, Cinjon Resnick, Ramon Sanabria, Raven Jiang
Để tạo ra những người bạn đồng hành AI có cảm giác tương tác thực sự, việc tạo giọng nói phải vượt ra ngoài việc tạo ra âm thanh chất lượng cao—nó phải hiểu và thích ứng với ngữ cảnh theo thời gian thực. Các mô hình chuyển văn bản thành giọng nói (TTS) truyền thống tạo ra đầu ra giọng nói trực tiếp từ văn bản nhưng thiếu nhận thức ngữ cảnh cần thiết cho các cuộc trò chuyện tự nhiên. Mặc dù các mô hình gần đây tạo ra giọng nói giống con người, nhưng chúng lại gặp khó khăn với vấn đề một-nhiều: có vô số cách hợp lệ để nói một câu, nhưng chỉ một số phù hợp với một bối cảnh nhất định. Nếu không có ngữ cảnh bổ sung—bao gồm giọng điệu, nhịp điệu và lịch sử của cuộc trò chuyện—các mô hình sẽ thiếu thông tin để chọn tùy chọn tốt nhất. Việc nắm bắt những sắc thái này đòi hỏi phải lý luận trên nhiều khía cạnh của ngôn ngữ và ngữ điệu.
Để giải quyết vấn đề này, chúng tôi giới thiệu Mô hình lời nói đàm thoại (CSM), mô hình này đóng khung vấn đề như một nhiệm vụ học tập đa phương thức đầu cuối bằng cách sử dụng bộ chuyển đổi. Nó tận dụng lịch sử của cuộc trò chuyện để tạo ra lời nói tự nhiên và mạch lạc hơn. Có hai điểm chính rút ra từ công trình của chúng tôi. Điểm đầu tiên là CSM hoạt động như một mô hình một giai đoạn, do đó cải thiện hiệu quả và khả năng biểu đạt. Điểm thứ hai là bộ đánh giá của chúng tôi, cần thiết để đánh giá tiến độ về khả năng theo ngữ cảnh và giải quyết thực tế là các đánh giá công khai phổ biến đã bão hòa.
Bối cảnh
Một cách tiếp cận để mô hình hóa âm thanh bằng bộ chuyển đổi là chuyển đổi dạng sóng liên tục thành chuỗi mã thông báo âm thanh rời rạc bằng cách sử dụng bộ mã thông báo. Hầu hết các cách tiếp cận hiện đại ([1], [2]) đều dựa trên hai loại mã thông báo âm thanh:
Mã thông báo ngữ nghĩa: Biểu diễn các đặc điểm ngữ nghĩa và ngữ âm nhỏ gọn không thay đổi theo người nói. Bản chất nén của chúng cho phép chúng nắm bắt các đặc điểm chính của lời nói với cái giá phải trả là biểu diễn độ trung thực cao.
Mã thông báo âm thanh: Mã hóa các chi tiết âm thanh có độ chi tiết cao cho phép tái tạo âm thanh độ trung thực cao. Các mã thông báo này thường được tạo ra bằng cách sử dụng Lượng tử hóa vectơ dư (RVQ) [2]. Ngược lại với các mã thông báo ngữ nghĩa, các mã thông báo âm thanh giữ lại các đặc điểm giọng nói tự nhiên như bản sắc và âm sắc riêng của người nói.
Một chiến lược phổ biến đầu tiên là mô hình hóa các mã thông báo ngữ nghĩa và sau đó tạo âm thanh bằng các phương pháp dựa trên RVQ hoặc khuếch tán. Việc tách các bước này cho phép có một cách tiếp cận có cấu trúc hơn đối với tổng hợp giọng nói—các mã thông báo ngữ nghĩa cung cấp một biểu diễn nhỏ gọn, bất biến với người nói, nắm bắt thông tin ngôn ngữ và ngữ điệu cấp cao, trong khi giai đoạn thứ hai tái tạo các chi tiết âm thanh chi tiết cần thiết cho giọng nói có độ trung thực cao. Tuy nhiên, cách tiếp cận này có một hạn chế quan trọng; các mã thông báo ngữ nghĩa là một nút thắt cổ chai phải nắm bắt hoàn toàn ngữ điệu, nhưng việc đảm bảo điều này trong quá trình đào tạo là một thách thức.
Thạc sĩ - Luật sư PHAN VĨNH (Tổng hợp & Giới thiệu)