"CON" AI MANG TÊN MAYA/ MILES
Làm sao chúng ta biết được khi nào ai đó thực sự hiểu mình? Hiếm khi chỉ là lời nói của chúng ta—mà là ở sự tinh tế của giọng nói: sự phấn khích dâng trào, sự tạm dừng đầy suy tư, sự trấn an ấm áp.
Giọng nói là phương tiện thân mật nhất của chúng ta với tư cách là con người, mang theo nhiều lớp ý nghĩa thông qua vô số biến thể về tông giọng, cao độ, nhịp điệu và cảm xúc.
Các trợ lý giọng nói kỹ thuật số ngày nay thiếu những phẩm chất thiết yếu để thực sự hữu ích. Nếu không khai thác hết sức mạnh của giọng nói, chúng không thể hy vọng hợp tác hiệu quả với chúng ta. Một trợ lý cá nhân chỉ nói bằng tông giọng trung tính sẽ khó có thể tìm được vị trí cố định trong cuộc sống hàng ngày của chúng ta sau khi sự mới lạ ban đầu qua đi.
Theo thời gian, sự phẳng lặng về mặt cảm xúc này không chỉ gây thất vọng mà còn trở nên mệt mỏi.
Đạt được sự hiện diện của giọng nói
Tại Sesame, mục tiêu của chúng tôi là đạt được "sự hiện diện của giọng nói"—phẩm chất kỳ diệu khiến các tương tác bằng lời nói trở nên chân thực, được hiểu và được trân trọng. Chúng tôi đang tạo ra những đối tác giao tiếp không chỉ xử lý các yêu cầu; họ tham gia vào cuộc đối thoại chân thành, xây dựng sự tự tin và tin tưởng theo thời gian. Khi làm như vậy, chúng tôi hy vọng sẽ nhận ra tiềm năng chưa được khai thác của giọng nói như là giao diện tối ưu cho hướng dẫn và hiểu biết.
Các thành phần chính
• Trí tuệ cảm xúc: đọc và phản ứng với các bối cảnh cảm xúc.
• Động lực đàm thoại: thời gian tự nhiên, tạm dừng, ngắt quãng và nhấn mạnh.
• Nhận thức theo ngữ cảnh: điều chỉnh giọng điệu và phong cách để phù hợp với tình huống.
• Tính cách nhất quán: duy trì sự hiện diện mạch lạc, đáng tin cậy và phù hợp.
Chúng tôi vẫn chưa đạt được điều đó
Việc xây dựng một người bạn đồng hành kỹ thuật số có giọng nói không phải là điều dễ dàng, nhưng chúng tôi đang đạt được tiến bộ vững chắc trên nhiều mặt trận, bao gồm tính cách, trí nhớ, khả năng biểu đạt và tính phù hợp. Bản demo này là bản trình bày về một số công việc của chúng tôi trong việc tạo ra lời nói đàm thoại. Các người bạn đồng hành được hiển thị ở đây đã được tối ưu hóa để thân thiện và biểu đạt nhằm minh họa cho tiềm năng của phương pháp tiếp cận của chúng tôi.
Bản demo giọng nói đàm thoại
Maya
Miles
Nhấn để bắt đầu cuộc trò chuyện. Đăng nhập để gọi điện thoại trong tối đa 30 phút.
null đã thích cuộc gọi của bạn, vui lòng gọi lại
1. Cần có quyền sử dụng micrô. 2. Các cuộc gọi được ghi âm và có thể được sử dụng để cải thiện Maya và Miles. 3. Khi sử dụng bản demo này, bạn đồng ý với Điều khoản sử dụng và Chính sách bảo mật của chúng tôi. 4. Chúng tôi khuyên bạn nên sử dụng Chrome (Chất lượng âm thanh có thể bị giảm trong iOS/Safari 17.5). 5. Bản demo không dành cho người dùng ở EEA/Anh/Thụy Sĩ.
Bài đăng kỹ thuật
Tạo giọng nói đàm thoại
Tác giả
Johan Schalkwyk, Ankit Kumar, Dan Lyth, Sefik Emre Eskimez, Zack Hodari, Cinjon Resnick, Ramon Sanabria, Raven Jiang
Để tạo ra những người bạn đồng hành AI có cảm giác tương tác thực sự, việc tạo giọng nói phải vượt ra ngoài việc tạo ra âm thanh chất lượng cao—nó phải hiểu và thích ứng với ngữ cảnh theo thời gian thực. Các mô hình chuyển văn bản thành giọng nói (TTS) truyền thống tạo ra đầu ra giọng nói trực tiếp từ văn bản nhưng thiếu nhận thức ngữ cảnh cần thiết cho các cuộc trò chuyện tự nhiên. Mặc dù các mô hình gần đây tạo ra lời nói giống con người, nhưng chúng vẫn gặp khó khăn với vấn đề một-nhiều: có vô số cách hợp lệ để nói một câu, nhưng chỉ một số phù hợp với một bối cảnh nhất định. Nếu không có ngữ cảnh bổ sung—bao gồm ngữ điệu, nhịp điệu và lịch sử cuộc trò chuyện—các mô hình sẽ thiếu thông tin để chọn tùy chọn tốt nhất. Việc nắm bắt những sắc thái này đòi hỏi phải lý luận trên nhiều khía cạnh của ngôn ngữ và ngữ điệu.
Để giải quyết vấn đề này, chúng tôi giới thiệu Mô hình lời nói hội thoại (CSM), đóng khung vấn đề như một nhiệm vụ học tập đa phương thức đầu cuối bằng cách sử dụng bộ chuyển đổi. Nó tận dụng lịch sử của cuộc trò chuyện để tạo ra lời nói tự nhiên và mạch lạc hơn. Có hai điểm chính rút ra từ công trình của chúng tôi. Điểm đầu tiên là CSM hoạt động như một mô hình một giai đoạn, do đó cải thiện hiệu quả và khả năng biểu đạt. Điểm thứ hai là bộ đánh giá của chúng tôi, cần thiết để đánh giá tiến trình về khả năng theo ngữ cảnh và giải quyết thực tế là các đánh giá công khai phổ biến đã bão hòa.
Bối cảnh
Một cách tiếp cận để mô hình hóa âm thanh bằng bộ chuyển đổi là chuyển đổi dạng sóng liên tục thành chuỗi mã thông báo âm thanh rời rạc bằng cách sử dụng bộ mã thông báo. Hầu hết các phương pháp tiếp cận hiện đại ([1], [2]) đều dựa vào hai loại mã thông báo âm thanh:
1. Mã thông báo ngữ nghĩa: Biểu diễn nhỏ gọn bất biến theo người nói của các đặc điểm ngữ nghĩa và ngữ âm. Bản chất nén của chúng cho phép chúng nắm bắt các đặc điểm chính của giọng nói với cái giá phải trả là biểu diễn có độ trung thực cao.
2. Mã thông báo âm thanh: Mã hóa các chi tiết âm thanh có độ chi tiết cao cho phép tái tạo âm thanh có độ trung thực cao. Các mã thông báo này thường được tạo bằng cách sử dụng Lượng tử hóa vectơ dư (RVQ) [2]. Ngược lại với các mã thông báo ngữ nghĩa, các mã thông báo âm thanh vẫn giữ nguyên các đặc điểm giọng nói tự nhiên như bản sắc riêng của người nói và âm sắc.
Một chiến lược phổ biến trước tiên là mô hình hóa các mã thông báo ngữ nghĩa và sau đó tạo âm thanh bằng các phương pháp RVQ hoặc dựa trên sự khuếch tán. Việc tách rời các bước này cho phép có một phương pháp tiếp cận có cấu trúc hơn đối với tổng hợp giọng nói—các mã thông báo ngữ nghĩa cung cấp một biểu diễn nhỏ gọn, bất biến theo người nói, nắm bắt được ngôn ngữ cấp cao và