Trò chuyện với ChatGPT: Chế độ giọng nói của GPT-5 nghe giống con người hơn bao giờ hết

Tin tức AI - 27/08/2025 23:03:02

Tôi đã thử nghiệm chế độ giọng nói nâng cao của GPT-5 để xem liệu nói chuyện có tốt hơn gõ phím hay không.

Đã 8 giờ sáng và tôi đang ngồi ở sảnh chờ của tiệm sửa xe khi tôi nhận ra mình đã quên tai nghe. Bình thường, đó không phải là vấn đề lớn, nhưng tôi đang nói chuyện với điện thoại của mình. Và tôi không nói chuyện với người khác. Tôi đang nói chuyện với ChatGPT. Cảm giác thật xấu hổ như khi hỏi Siri một câu hỏi từ phía bên kia căn phòng hoặc tham gia cuộc họp Zoom mà không có tai nghe trong một văn phòng mở.

Tôi đang thử nghiệm chế độ giọng nói nâng cao đi kèm với GPT-5, phiên bản mới nhất của mô hình AI tạo sinh từ OpenAI đứng sau ChatGPT. GPT-5 đã ra mắt vào mùa hè này sau nhiều tháng suy đoán và trì hoãn, hứa hẹn mang đến cho người dùng AI trải nghiệm chatbot nhanh hơn và thông minh hơn. Vẫn còn phải xem liệu OpenAI có thực hiện được lời hứa của mình hay không. (Tiết lộ: Ziff Davis, công ty mẹ của CNET, vào tháng 4 đã đệ đơn kiện OpenAI, cáo buộc công ty này vi phạm bản quyền của Ziff Davis trong việc đào tạo và vận hành các hệ thống AI của mình.)

GPT-5 bao gồm các cải tiến cho chế độ giọng nói nâng cao, về cơ bản là cách để bạn trò chuyện trực tiếp với ChatGPT và để nó phản hồi bằng giọng nói bạn chọn. Người dùng miễn phí như tôi giờ đây có quyền truy cập vào phiên bản nâng cao (người dùng miễn phí trước đây chỉ có quyền truy cập vào chế độ giọng nói cơ bản), và những người đăng ký trả phí sẽ nhận được giới hạn sử dụng cao hơn. Một tính năng mới khác của GPT-5 cho phép bạn chọn loại tính cách mà bạn muốn AI của mình mô phỏng, bao gồm các avatar ngổ ngáo, mọt sách và rô bốt.

Để sử dụng chế độ giọng nói, hãy mở ChatGPT, nhấn vào nút âm thanh bên cạnh cửa sổ nhắc lệnh nơi bạn nhập hướng dẫn và bắt đầu trò chuyện. Bạn có thể thay đổi giọng nói mà ChatGPT sử dụng bằng cách nhấn vào biểu tượng cài đặt ở góc trên bên phải trên ứng dụng di động (hai thanh xếp chồng lên nhau với các vòng tròn trên đó).

Giọng AI giống con người hơn? Trải nghiệm của tôi

Tôi quyết định thử nói chuyện với ChatGPT như với một người bạn, giống như một phiên bản nhiệt tình hơn của chính tôi. AI đã cười khi tôi bắt đầu cuộc gọi bằng câu nói đầy nhiệt huyết "Heyyyy girlfriend!" điều này vừa buồn cười vừa có vẻ bề trên.

Giọng của ChatGPT trôi chảy rất tự nhiên với ngữ điệu quen thuộc, tương tự như cách tôi nói chuyện với một nhân viên dịch vụ khách hàng đặc biệt thân thiện. Điều đó hợp lý vì chính chatbot đã nói với tôi rằng chế độ giọng nói nâng cao được nâng cấp đã giúp nó nghe giống con người hơn.

Giọng nói tôi đã dùng, ember, thường xuyên tạm dừng để lấy hơi, giống như cách con người làm trong một câu dài. Tôi nghĩ điều đó hơi kỳ lạ, vì trong khi ChatGPT đang cố gắng thể hiện tốt nhất hình ảnh một con người, cả hai chúng tôi đều biết nó không thực sự cần phải ngừng lại để lấy hơi. 

Trong cuộc trò chuyện của tôi với ChatGPT, nó thể hiện sự đồng cảm nhiều hơn tôi mong đợi. Nó hỏi tôi thế nào, và tôi nói không tốt và kể cho nó nghe về tai nạn xe hơi của tôi. Trong cuộc trò chuyện kéo dài năm phút của chúng tôi, nó thường kết thúc nhiều câu trả lời bằng những câu nói đồng cảm, như nói rằng nó rất tiếc vì tôi đã có một tuần tồi tệ và đồng ý rằng việc giải quyết bảo hiểm có thể là một nỗi phiền toái. (Liệu ChatGPT đã bao giờ phải gọi cho một đại lý bảo hiểm hay thậm chí trải qua một cơn đau đầu chưa? Tôi nghĩ là không).

Mặc dù một tai robot biết đồng cảm có vẻ không phải là vấn đề lớn, nhưng nó có thể là dấu hiệu của một vấn đề lớn hơn. AI nịnh bợ (sycophantic AI), thuật ngữ dùng để mô tả khi AI quá tình cảm hoặc cảm xúc, có thể gây khó chịu cho những người dùng chỉ tìm kiếm thông tin. Nó cũng có thể nguy hiểm cho những người sử dụng AI làm trị liệu viên hoặc tư vấn viên sức khỏe tâm thần, điều mà CEO OpenAI Sam Altman đã cảnh báo người dùng ChatGPT không nên làm. Các phiên bản trước của ChatGPT đã bị thu hồi và phát hành lại sau các vấn đề về xu hướng nịnh bợ.

Tôi cũng hỏi ChatGPT những câu hỏi thực tế hơn, như chi phí trung bình của nhân công sửa chữa ô tô ở North Carolina và nơi tôi có thể đến để lấy ước tính sửa chữa thứ hai. Nó phản hồi giống một người bạn hơn là một chatbot, điều này có thể không hữu ích nhất. Ví dụ, khi tôi gõ cùng yêu cầu vào ChatGPT trên máy tính xách tay của mình, nó đã hiển thị một bản đồ với danh sách các cửa hàng, cùng với nhiều thông tin hơn như thông tin giá cả và giờ mở cửa. Nhưng khi tôi trò chuyện với chế độ giọng nói của ChatGPT, nó đưa ra ít tùy chọn hơn và mô tả chúng dựa trên những gì tôi cho là ngôn ngữ tiếp thị và đánh giá của khách hàng của cửa hàng, sử dụng các cụm từ như "Họ đã hoạt động được khá lâu rồi" và nói rằng một cửa hàng "nổi tiếng về dịch vụ chất lượng". Bạn cũng không nhận được bất kỳ liên kết hay nguồn nào với chế độ giọng nói, điều mà tôi không thích.

 

 

ChatGPT tự động chuyển đổi giọng nói thành văn bản trong các cuộc trò chuyện, để bạn có thể thấy sự khác biệt về mức độ chi tiết được cung cấp trong các lời nhắc văn bản thông thường (bên trái) và cuộc trò chuyện bằng giọng nói (bên phải). Ảnh chụp màn hình bởi Katelyn Chedraoui/CNET

Sử dụng giọng nói ChatGPT làm nơi thảo luận ý tưởng

Một trong những điều chế độ giọng nói rất phù hợp là trở thành đối tác động não, một bức tường để bạn thoải mái đưa ra ý tưởng. Tôi đã yêu cầu nó giúp tôi lên kế hoạch cho một bữa tiệc sinh nhật chủ đề nhảy dù, và nó đã giúp tôi phát triển những ý tưởng mới cũng như tinh chỉnh những ý tưởng tôi đã có.

Tôi đã ngắt lời ChatGPT vài lần khi nó đang nói, và nó có thể nhanh chóng chuyển hướng. Tôi cũng có xu hướng nói nhanh, và chatbot đã theo kịp mà không bỏ sót bất kỳ suy nghĩ nào của tôi. Tôi để bản thân nói lan man và lái cuộc trò chuyện chệch hướng, và ChatGPT không hề chớp mắt ảo. Quan trọng nhất, khi tôi hỏi nó một câu hỏi về một chủ đề trước đó, nó có thể tiếp tục từ chỗ chúng tôi đã dừng lại. Những cải tiến về bộ nhớ của ChatGPT là nhờ sự cân nhắc quan trọng đó.

Bạn có nên sử dụng chế độ giọng nói của ChatGPT không?

Nhìn chung, tôi nghĩ chế độ giọng nói rất hay như một cách khác để sử dụng ChatGPT, nhưng nó chỉ hữu ích trong một số tình huống. Nếu bạn cần nghiên cứu chuyên sâu và thông tin chi tiết hơn, chế độ giọng nói sẽ không phù hợp với bạn. Nhưng nếu bạn chỉ muốn nói chuyện với ai đó (hoặc đúng hơn là một thứ gì đó) hoặc giải quyết vấn đề bằng cách nói ra thành lời, chế độ giọng nói là một lựa chọn thay thế tốt so với việc phải diễn đạt suy nghĩ và gõ chúng ra.

Tôi vẫn tin rằng chúng ta chưa bình thường hóa việc nói chuyện với AI ở nơi công cộng, đặc biệt là khi không có tai nghe. Nhưng nó có thể là một giải pháp thay thế hữu ích cho những người suy nghĩ tốt hơn khi nói thành tiếng.

Nguồn: Sưu tầm

Tin tức AI

Xem tất cả