Sinh trắc học giọng nói là một công nghệ được dự báo sẽ phát triển rất tiềm năng trong tương lai. Theo báo cáo của Report and Data, thị trường sinh trắc giọng nói sẽ đạt mức 3,91 tỷ USD vào năm 2026, đồng thời tỷ lệ tăng trưởng kép trong mỗi năm là 23.5%. Vậy giải pháp công nghệ này là gì? Có điểm gì mới lạ? Cùng tìm hiểu trong bài viết dưới đây.
Sinh trắc học giọng nói – Voice Biometrics là gì?
Sinh trắc học giọng nói (Voice Biometrics) là một phương thức sinh trắc học, dựa vào việc nhận dạng giọng nói để xác minh danh tính của từng cá nhân. Đây là một công nghệ xác thực nhanh chóng, an toàn và thuận tiện cho người dùng hiện nay, được dự đoán sẽ ngày càng phổ biến cho các ngành công nghệ “tương lai”.

Phương pháp sinh trắc giọng nói đem lại hiệu quả xác thực cao bởi mỗi người sẽ chỉ có một chất giọng (đường âm) duy nhất, đặc trưng, không ai giống ai. Hơn 70 bộ phận của cơ thể góp phần tạo chất giọng, cách nói của một người và mỗi phần cơ thể của mỗi người là khác nhau. Nhờ vào tần số và động lực phát triển của sóng âm được phân tích và thể hiện dưới dạng toán học nên giọng nói là duy nhất và là cơ chế để giúp xác định được người nói. Vì vậy, công nghệ nhận dạng dựa trên giọng nói có mức độ bảo mật cao hơn một số công nghệ dạng khác như mã PIN.
Sinh trắc giọng nói hoạt động như thế nào?
Sinh trắc học giọng nói hoạt động như các hệ thống xác thực sinh trắc khác như sinh trắc vân tay, sinh trắc khuôn mặt. Cụ thể, công nghệ sinh trắc giọng nói hoạt động như sau:
- Tạo mẫu: Hệ thống sẽ tạo một mẫu ban đầu dựa trên mẫu giọng nói của người cần xác thực. Trong bước này, hệ thống có thể thu nhiều mẫu để hợp nhất mẫu và đưa ra kết quả chính xác hơn.
- Biểu diễn mẫu: Sau khi có mẫu, tiến hành phân tích và biểu diễn mẫu dưới dạng toán học cho giọng nói. Mẫu được biểu diễn dưới dạng toán học sẽ có độ bảo mật cao và không thể lý giải hoặc phân tích cũng như đọc mẫu nếu không có thuật toán bí mật và độc quyền của nhà cung cấp.
- Xác thực danh tính: Danh tính của một người được xác thực thông qua việc so sánh mẫu giọng nói của người đó với mẫu ban đầu. Nếu 2 mẫu này có sự tương đồng cao, trùng khớp sẽ cho thấy rằng, đây chính là giọng của người này và xác minh danh tính của họ.

Xem thêm: Sinh trắc học khuôn mặt là gì? TỔNG QUAN về STH khuôn mặt
Các loại sinh trắc học giọng nói phổ biến hiện nay
Hiện nay, sinh trắc học giọng nói được phát triển mạnh mẽ, phương pháp công nghệ này gồm 3 loại chủ yếu:
- Sinh trắc học giọng nói chủ động phụ thuộc vào văn bản: Phương pháp này yêu cầu xác thực dựa trên một cụm từ ngắn, cụ thể để xác thực người nói. Trong quá trình xác thực, người nói phải phát âm rõ ràng, đúng với cụm từ “mẫu” để hệ thống có thể xác minh và nhận ra người nói. Phương pháp này thường được sử dụng trong những trường hợp cần bảo mật cao. Ví dụ hệ thống HSBC thu thập mẫu giọng nói của bạn là “My voice is my password”, HSBC sẽ yêu cầu bạn nói rõ ràng cụm từ đó để tiến hành nhận dạng và đăng nhập vào đường dây hỗ trợ gọi của HSBC.
- Sinh trắc học giọng nói chủ động không phụ thuộc vào văn bản: Phương pháp này không yêu cầu người dùng nói theo một văn bản nhất định mà nó xác thực khi người dùng nói bất kỳ nội dung nào. Thay vào đó, hệ thống sẽ tập trung vào xác thực giọng nói của người dùng. Phương pháp này thường được sử dụng trong việc điều khiển thiết bị giọng nói của người dùng và không phụ thuộc vào nội dung nói.
- Sinh trắc giọng nói thụ động độc lập với văn bản: Đây là phương pháp không yêu cầu người dùng làm gì, hệ thống sẽ tự giám sát các đặc điểm giọng nói của người dùng trong khi nói để xác thực. Hệ thống này thường được sử dụng trong các bản ghi âm hoặc các cuộc điện thoại để phân tích các đặc điểm giọng nói của người dùng. Ví dụ để điều tra tội phạm thông qua đoạn ghi âm,…
Ưu điểm của hệ thống sinh trắc học giọng nói
Sinh trắc học giọng nói là một phương pháp được áp dụng cho nhiều ứng dụng tiên tiến hiện nay. Phương pháp này cũng đang dần thay thế mã PIN, mật khẩu,… Vậy sinh trắc giọng nói có những ưu điểm nào?
Một số ưu điểm của hệ thống sinh trắc học giọng nói:
- Dễ sử dụng: Người dùng có thể dễ dàng sử dụng trên nhiều thiết bị và nền tảng khác nhau như điện thoại di động, máy tính, thiết bị Internet of Things (IoT), app, web,…
- Tiết kiệm thời gian: Công nghệ sinh trắc học giọng nói có thể dễ dàng thực hiện nhanh chóng mà không phải qua nhiều bước như đọc mã PIN, câu hỏi xác thực,…
- An toàn: Vì giọng nói của mỗi người là duy nhất nên việc sao chép giọng nói rất bất khả thi nên sẽ đem lại hiệu quả và an toàn cao cho người dùng.
- Tự động hóa xác minh thông tin: Có thể tích hợp với nhiều ứng dụng và dễ dàng sử dụng xác minh danh tính cho các tài khoản cá nhân, kiểm soát truy cập dữ liệu, sử dụng tài chính, chăm sóc sức khỏe, vận tải, dịch vụ công cộng,…
- Tích hợp dễ dàng: Hệ thống dễ dàng tích hợp với các kênh, công cụ trả lời tự động như trợ lý ảo, callbot,…
- Tối ưu chi phí: Sinh trắc học giọng nói giúp dễ dàng xác minh người dùng một cách tự động, giảm thời gian xác minh và các chi phí cho agent (hệ thống tự động).
- Khả năng bảo mật được nâng cao: Giải pháp sinh trắc học giọng nói cho phép người dùng sử dụng dữ liệu bảo mật hơn, giảm thiểu tình trạng giả mạo dựa trên thông tin của người dùng đã cung cấp. Giải pháp này tối ưu, tốt hơn so với các giải pháp mã PIN, chữ ký kỹ thuật số, mật khẩu,…
- Nâng cao trải nghiệm người dùng: Thông qua việc xác minh bằng giọng nói, người dùng có thể cắt bớt các bước, quy trình thủ công.

Cũng có những nhược điểm không thể không nhắc đến
Song song với những ưu điểm kể trên, công nghệ sinh trắc học giọng nói vẫn còn tồn tại một số ít nhược điểm được nhắc đến như:
- Thay đổi giọng nói: Vì nhiều lý do, giọng nói của một người có thể thay đổi theo thời gian như bệnh cảm, đau họng, ho dẫn đến khàn giọng, mất giọng,…
- Khó xác thực khi ồn: Hệ thống có thể gặp một số trục trặc xác thực nếu trong một môi trường quá ồn, nhiều tạp âm xung quanh.
- Độ chính xác không cao: Sinh trắc giọng nói có thể đem lại độ chính xác không cao như các công nghệ sinh trắc khuôn mặt, vân tay.
- Chưa phân biệt được người nói hay bản ghi âm: Công nghệ sinh trắc giọng nói vẫn chưa thể phát hiện được sự sống để đảm bảo người nói là thật thay vì một đoạn ghi âm.

Xem thêm: Sinh trắc vân tay là gì? Đây là tất cả những gì bạn nên biết
Một số ứng dụng nổi bật của sinh trắc giọng nói trong đời sống
Sinh trắc học giọng nói là một công nghệ dựa trên giọng nói riêng biệt của mỗi người và đang được phát triển, ứng dụng nhiều trong các lĩnh vực khác nhau. Một số ứng dụng nổi bật của công nghệ này được kể đến như sau.
Ứng dụng Xác thực giọng nói
Xác thực giọng nói là một ứng dụng tiêu biểu của công nghệ sinh trắc học giọng nói. Phương pháp này giúp người dùng bỏ qua các quy trình xác thực rườm rà như nhập mật khẩu, mã PIN, xác minh bằng SMS, chữ ký điện tử,…. đôi khi người dùng còn gặp một số sự cố về việc quên mật khẩu, mã PIN,… Thay vào đó, người dùng có thể sử dụng dễ dàng và nhanh chóng hơn. Đây là công nghệ rất lý tưởng cho những khách hàng mua sắm trực tuyến.

Một số ứng dụng xác thực giọng nói có thể kể đến như:
- Xác thực, bảo mật truy cập và đăng nhập của người dung trên các trang web, hệ thống và ứng dụng trực tuyến: Việc các thông tin bảo mật của người dùng đang được chia sẻ nhiều trên các công cụ, nên tàng trực tiếp. Vì vậy việc xác thực, đăng nhập tài khoản bằng mã PIN, mật khẩu rất dễ bị tấn công. Do đó, việc xác minh bằng giọng nói đang là giải pháp phù hợp để nâng cao hàng rào bảo vệ tài khoản của người dùng.
- Xác thực OTP lớp thứ 2 cho các giao dịch ngân hàng: Sinh trắc học giọng nói là công nghệ xác thực có tính chính xác cao. Vì vậy nó thường được ứng dụng xác thực OTP lớp thứ 2 cho các giao dịch ngân hàng.
- Chữ ký âm thanh kỹ thuật số: Thời đại công nghệ thông tin phát triển dẫn đến việc lừa đảo càng ngày càng tinh vi hơn. Vì vậy việc bảo mật các thông tin cá nhân là rất cần thiết. Đây cũng là lý do mà nhiều người đã và đang sử dụng chữ ký bằng giọng nói để tăng tính bảo mật thông tin. Ứng dụng nào giúp người nói nâng cao việc xác minh tài khoản, rút gọn các bước xác thực.
Ứng dụng điều tra tội phạm
Sinh trắc học giọng nói được ứng dụng rộng rãi trong việc điều tra tội phạm. Khi cảnh sát đã có đoạn ghi âm, video có âm thanh của tội phạm được trích xuất họ sẽ tiến hành xác minh giọng nói của những người bị tình nghi và điều tra ra danh tính của tội phạm. Nếu những trong những người tình nghi không phù hợp với giọng nói đã trích xuất được, thông qua sinh trắc học giọng nói, cảnh sát có thể xác minh được nhân khẩu học của tội phạm như tuổi tác, giới tính, quê quán,…để phục vụ cho việc điều tra.

Một ví dụ điển hình về việc sử dụng sinh trắc học giọng nói để điều tra giới tính là vụ việc Rebecca Zahau bị sát hại. Rebecca Zahau được cho là tự sát vào năm 2011, nhưng sau đó 5 năm, vào năm 2016, khi sinh trắc học giọng nói được ứng dụng trong việc điều tra tội phạm đã chứng minh rằng thời điểm cô ấy gọi cảnh sát không phải là do chính cô ấy thực hiện. Cùng các chứng cứ liên quan khác, điều này đã cho thấy rằng Rebecca Zahau không phải tự sát mà bị sát hại.
Ứng dụng động vật học
Sinh trắc học giọng nói là một phát minh, là ứng dụng tuyệt vời trong ngành động vật học. Phương pháp đã có thể giúp con người theo dõi động vật dựa trên những âm thanh đặc trưng do động vật tạo ra để cứu những loại động vật này khỏi nạn tuyệt chủng, khỏi những người săn bắt trái phép,…

Người ta đã chỉ ra rằng sinh trắc giọng nói hoàn toàn có thể ứng dụng cho các loại động vật bằng cách thử nghiệm sinh trắc giọng nói cho một đàn sói ở công viên quốc gia Yellowstone. Dựa vào tiếng hú của các con sói khác nhau, người ta đã phân biệt được tiếng hú đó là của con sói nào. Phương pháp đã xác định những loài vật dựa trên âm thanh chúng tạo ra. Chính vì vậy, đây là một luận chứng quan trọng cho việc nghiên cứu ngôn ngữ của động vật, các con vật đều có một tiếng nói riêng (ngôn ngữ riêng).
Chẩn đoán và chăm sóc sức khỏe
Với công nghệ sinh trắc học giọng nói ngày càng được phát triển, nhiều nhà nghiên cứu đã không ngừng cải tiến phần mềm này và ứng dụng vào đời sống hằng ngày. Một trong những ứng dụng nổi bật nhất được kể đến là chẩn đoán và chăm sóc sức khỏe. Các bác sĩ có thể phỏng đoán và trích những dấu hiệu bệnh của bệnh nhân dựa trên giọng nói của bệnh nhân thông qua AI.
Bác sĩ sẽ dựa vào bản ghi âm giọng nói của bệnh nhân để đưa ra các xác suất mắc bệnh của bệnh nhân. Ví dụ, bệnh nhân có nguy cơ mắc bệnh lý A như thế nào? Bệnh nhân phục hồi như thế nào?,…
Gần đây, một mô hình phát hiện những trường hợp nhiễm Covid 19 không có triệu chứng thông qua việc ghi lại những lần ho trên điện thoại. Hệ thống này đã hứa hẹn đem lại kết quả tốt cho việc kiểm soát bệnh Covid 19 trong lần bùng nổ đại dịch nếu được thông qua.

Quản lý lao động (chấm công)
Cũng giống như phần mềm sinh trắc vân tay được dùng để chấm công tại các công ty, nhà máy, sinh trắc học giọng nói cũng đang được nhiều công ty ứng dụng để đo lường thời gian làm việc của nhân viên. Đây là một phương pháp hiệu quả cho việc quản lý nhân viên, giám sát hoạt động cũng như nghỉ phép hoặc không của nhân viên. Dựa vào phần mềm này, công ty có thể đánh giá công việc của một nhân viên một cách dễ dàng hơn.

Dự báo xu hướng sử dụng sinh trắc học giọng nói trong tương lai
Sinh trắc giọng nói là một công nghệ được dự báo sẽ phát triển rất tiềm năng trong tương lai. Theo báo cáo của Report and Data, thị trường sinh trắc giọng nói sẽ đạt mức 3,91 tỷ USD vào năm 2026, đồng thời tỷ lệ tăng trưởng kép trong mỗi năm là 23.5%. Song song đó, thị trường sinh trắc học giọng nói đã dự báo tốc độ CAGR (Tỷ lệ tăng trưởng kép hằng năm) trong giai đoạn 2022 – 2027. Các báo cáo đều cho thấy rằng, sinh trắc học giọng nói dự kiến sẽ là công nghệ phát triển mạnh mẽ để xác minh người dùng.

Quy mô dữ liệu, thông tin ngày càng lớn, đây là vấn đề của nhiều nguy cơ thông tin bị đánh cắp. Các công nghệ xác thực thông thường hiện nay như mã PIN, mật khẩu,… không đủ mạnh mẽ để phân biệt người dùng và những xâm nhập bất hợp pháp. Vì vậy việc áp dụng sinh trắc học đang được cân nhắc và phổ biến rộng rãi hơn.
Một số dự báo tăng trưởng công nghệ sinh trắc học giọng nói trong các lĩnh vực được tổng hợp như sau:
- Lĩnh vực ngân hàng: Các ngân hàng đang cố gắng cạnh tranh thông qua việc cung cấp những giải pháp tiên tiến, an toàn hơn cho người dùng. Chính vì vậy, việc ứng dụng sinh trắc học giọng nói được dự đoán sẽ gia tăng trong vài năm tới. Theo Intelligent Software Engineering, nhiều ngân hàng ở Hoa Kỳ đã ứng dụng công nghệ sinh trắc học giọng nói để thanh toán và có đến 18 triệu người dùng ở Hoa Kỳ đã thử ứng dụng thanh toán bằng giọng nói.
- Nền tảng kỹ thuật số: Thị trường hiện nay đang dần chuyển từ quy trình xác thực bằng mật khẩu sang các kỹ thuật xác thực không cần mật khẩu. Hơn nữa, các nền tầng kỹ thuật số đang không ngừng triển khai các dịch vụ tài chính tinh gọn hơn, dễ dàng đơn giản và hiệu quả cao, khả năng xác thực và bảo mật gần như tuyệt đối. Vì vậy việc xác thực bằng sinh trắc học giọng nói đã thu hút rất nhiều sự quan tâm của những công nghệ mới.
- Chăm sóc sức khỏe: Các công ty chăm sóc sức khỏe đang triển khai việc nhận dạng giọng nói của người bệnh để tạo hồ sơ y tế điện tử.
- Nhu cầu sau đại dịch Covid 19: Đại dịch Covid 19 vừa qua đã làm cho nhiều người có xu hướng chuyển sang làm việc từ xa. Trong đó có việc xác thực dữ liệu mà không cần phải tiếp xúc trực tiếp. Theo The Biometric Survey 2021, khảo sát mức độ ưu tiên cho các công nghệ tích hợp từ xa và sử dụng những ứng dụng dành cho thiết bị di động đã chỉ ra rằng 64% người dùng đã bình chọn cho khảo sát này. Chứng tỏ rằng, nhu cầu sinh trắc giọng nói sẽ có cơ hội phát triển mạnh mẻ trong tương lai.
Hiện nay, những công ty lớn đã và đang áp dụng sinh trắc học vào sản phẩm, dịch vụ của mình như: Facebook, Google, Amazon, NICE, Apple, AimBrain, Verint, Phonexia, OneVault, Nuance Communication, Auraya, LumenVox, Uniphore, Voice Biometrics Group,…
Một số câu hỏi thường gặp
Sinh trắc học giọng nói là công nghệ vẫn còn khá mới, nhiều người vẫn còn bị nhầm lẫn giữa một số khái niệm cũng như thắc mắc về công nghệ này. Dưới đây một số giải đáp về những câu hỏi thường gặp.
Sinh trắc học giọng nói và nhận dạng giọng nói có giống nhau không?
Sinh trắc học giọng nói và nhận dạng giọng nói là 2 công nghệ khác nhau. Sở dĩ người ta thường cho rằng 2 công nghệ này giống nhau là do chúng đều ứng dụng giọng nói của người dùng để thực hiện, tiến hành các bước tiếp theo.
Tuy nhiên nhận dạng giọng nói (ASR) là công nghệ phản hồi bằng giọng nói tương tác khi được tiếp nhận giọng nói. Và giọng nói này không bắt buộc phải từ một người nào cụ thể, nó sẽ dựa trên những thông tin được tiếp nhận và cho ra một kết quả nào đó. Ví dụ, có thể yêu cầu trợ lý ảo Siri để gọi điện cho một người nào đó trong danh bạ điện thoại, điều chỉnh ánh sáng điện thoại, mở một ứng dụng,… Khi đó ASR sẽ tiếp thu những thông tin và đưa lệnh về máy để thực hiện. Một số ứng dụng nổi bật sử dụng công nghệ nhận dạng giọng nói như điện thoại thông minh, máy tính, tivi,…

Ngược lại, sinh trắc giọng nói là công nghệ xác định một giọng nói cụ thể, xác định đặc điểm và phân tích giọng nói của người dùng thay vì “nhận lệnh” và thực hiện theo thông tin của người nói. Sinh trắc học giọng nói ứng dụng những sự khác nhau, đặc trưng riêng biệt của giọng nói mỗi người để xác định được người dùng. Hệ thống sẽ tiến hành thu thập và ghi nhớ giọng nói của người dùng để nhận dạng người dùng một cách chính xác.
Sinh trắc học giọng nói có an toàn không?
Sinh trắc học giọng nói là phương pháp, công nghệ đem lại hiệu quả và an toàn cao. Bởi vì mỗi người chỉ có một hình thái giọng nói đặc trưng và riêng biệt, không ai giống ai và đặc biệt không thể bị đánh cắp như mã PIN, mật khẩu,…. Vì vậy, hệ thống sinh trắc học giọng nói đã ứng dụng lợi thế này để phân tích mỗi giọng nói và cho ra kết quả chính xác, riêng biệt về giọng nói đó. Từ đó tạo ra sự bảo mật và riêng tư tối đa cho người dùng.
Chính vì vậy, phương pháp này rất an toàn cho người dùng và có thể là một trong những công nghệ an toàn nhất cho đến nay.
Mức độ chính xác của hệ thống sinh trắc giọng nói như thế nào?
Sinh trắc học giọng nói đang ngày càng được cải tiến và đem lại độ chính xác cao. Vào tháng 3 năm 2021, báo cáo của ID R&D chỉ ra các nhà cung cấp nhận dạng giọng nói hàng đầu đã thông báo mức độ chính xác của sinh trắc học giọng nói của họ đã tăng lên với FAR (tỷ lệ chấp nhận sai) là 0.01% và FRR (tỷ lệ từ chối sai) là 5% đối với ứng dụng mở khóa thiết bị thông qua sinh trắc học.
Theo báo cáo, “Công ty nói rằng cho đến nay, phương thức giọng nói không thể đáp ứng tiêu chuẩn bảo mật để mở khóa thiết bị di động hoặc máy tính xách tay, khiến giọng nói trở thành tiện ích hữu ích cho một số ứng dụng còn hạn chế. Tuy nhiên, theo ID R&D, mức độ chính xác tăng lên giờ đây sánh ngang với mã PIN, mở ra các ứng dụng thực tế mới cho giọng nói.”
Konstantin Simonchik – Giám đốc Khoa học của ID R&D cho biết: “Khi giọng nói trở thành tiêu chuẩn trên thực tế để tương tác với mọi thứ từ tivi đến ô tô của chúng ta, sinh trắc học nổi lên như một cách thuận tiện nhất để nhanh chóng xác định người dùng nhằm bảo mật và cá nhân hóa.”
Sinh trắc học giọng nói là một công nghệ được dự đoán sẽ phát triển không ngừng trong tương lai bởi những ưu điểm, vai trò vượt trội của công nghệ này mang lại. Thông qua những cải tiến về bảo mật, độ chính xác cao hơn so với các công nghệ hiện tại, xác thực bằng giọng sẽ được phát triển và ứng dụng nhiều hơn trong các ngành công nghiệp. Hy vọng bài viết đã giải đáp cũng như đem lại những thông tin bổ ích cho bạn đọc.

Tác giả/Tham vấn: LÊ ĐẶNG MINH NHẬT
Founder - CEO Công Ty CP Tiềm Năng Vô Hạn UPO
Thầy Lê Đặng Minh Nhật là nhà đào tạo, nhà nghiên cứu tâm lý giáo dục vời hơn 10 năm giảng dạy và đào tạo hơn 30.000 học viên toàn quốc. Thầy cũng là nhà huấn luyện và tư vấn cho đội ngũ nhân sự và khách hàng của các tập đoàn và doanh nghiệp: FPT, PQC hospitality, J&T express, Amyra, ILA, RMIT, AIA EXCHANGE, Chubb Life, Global Media…
"Giáo dục nào đâu phải là quần áo để khoác lên cho đẹp, bởi giáo dục vốn dĩ là khơi dậy cái đẹp từ bên trong mỗi đứa trẻ" chính là châm ngôn của thầy trong giáo dục con trẻ.
- Kiên trì và cố chấp – Sự khác biệt mong manh tới thành công
- 100 câu nói hay về sự kiên trì – dành cho ai đang gục ngã
- Làm sinh trắc vân tay bao nhiêu tiền? – Bảng giá tham khảo
- [BẬT MÍ] 10+ kinh nghiệm rèn luyện tính kiên trì cho trẻ
- 20+ tấm gương về lòng kiên trì – khơi nguồn động lực bất tận
- 80 câu ca dao tục ngữ về siêng năng kiên trì đầy sâu sắc!
- Làm sinh trắc vân tay cho bé là gì? Có an toàn hay không?
- 20 trò chơi rèn tính kiên trì cho trẻ – Dạy con thông minh
- Dạy con kiếm tiền với 7 hoạt động cực ĐƠN GIẢN và NĂNG ĐỘNG
- Dạy con cách tiêu tiền thông minh – Cẩm nang cho bố mẹ!