Chuyển đến nội dung chính

AI của ElevenLabs và một tương lai tiềm tàng của audiobook

Bữa nay mình vừa mới mò ra được một cái clip vừa thú vị, vừa lạnh gáy, ấy là bản demo cho một cuốn audiobook do AI đọc hoàn toàn.

Bản demo đấy đến từ ElevenLabs, một bên chuyên cung cấp dịch vụ chuyển đổi văn bản thành giọng nói thông qua công nghệ máy học. Nói theo một kiểu dân dã hơn, ElevenLabs là một dịch vụ cho AI đọc văn bản tự động. Người sử dụng dịch vụ của họ sẽ có thể tống văn bản lên trang web ElevenLabs, chọn một mẫu giọng đọc nhất định, và sau đó con AI của ElevenLabs sẽ đọc lại toàn bộ văn bản đã tải lên bằng cái giọng đã chọn. 

Bản thân cái công nghệ đọc văn bản bằng máy thì chẳng có gì đáng chú ý lắm, vì trò này đã được cả trăm công ty làm từ rất lâu rồi. Anh em chẳng cần làm gì cao siêu, chỉ cần lên lượn Youtube một vòng là sẽ thấy nhan nhản những cái clip với giọng đọc như rôbốt, được khởi tạo từ tít những năm 2010 cho đến nay. Tuy nhiên, điều khác biệt ở ElevenLabs là nó có chất lượng đọc chân thật gấp bội các đơn vị khác. Và để chứng minh sự ưu việt của mình, cách đây tầm một tuần gì đấy, ElevenLabs đã tung ra một clip demo trên Youtube, để cho con AI đọc trọn vẹn một chương của The Great Gatsby, cuốn tiểu thuyết kinh điển của F. Scott Fitzgerald. Anh em có thể nghe ở dưới.


Như mọi người hẳn có thể thấy, mặc dù con AI của ElevenLabs chỉ đọc theo đúng nghĩa đen, tức là chỉ truyền đạt lại nội dung của chương truyện, chứ không thay đổi cảm xúc hay nhịp đọc tùy theo diễn tiến và bối cảnh của câu chuyện (hay nói nôm na thì con này chỉ biết “đọc” chứ không biết “diễn”), nghe nó vẫn chân thực đến phi thường. Nếu không phải vì tự thân con AI đã khai rằng nó là AI, mình có khi sẽ nghĩ đây là giọng người thật, hay thậm chí còn là một ông diễn viên lồng tiếng bán chuyên hoặc chỉ mới bước vào nghề sao đó, với sự đều đều của nó đến từ việc ông này đơn thuần chưa có nhiều kinh nghiệm trong ngành.

Và đấy chưa phải là điều đáng nể nhất ở con AI này. Như đã nói ở trên đấy, bên ElevenLabs sử dụng công nghệ máy học. Điều này đồng nghĩa với việc họ không cần phải thuê hẳn người đến cung cấp mẫu giọng theo chỉ dẫn mỗi khi cần giọng mới, mà chỉ cần mớm cho con AI một tập dữ liệu tự nhiên là nó tự khắc sẽ có thể chọn lọc và học theo giọng đấy. Điều này cho phép nó nhái giọng của bất kỳ ai, kể cả người nổi tiếng. Và ElevenLabs đã chứng minh khả năng này bằng một clip cách đây tầm nửa năm, khi nó để con AI nhái giọng Bill Gates, Steve Jobs, Robert Downey Jr., và Kim Kardashian để đọc lại một bài phát biểu về biến đổi khí hậu mà Leonardo DiCaprio thực hiện tại Hội nghị thượng đỉnh về khí hậu của Liên hợp quốc hồi năm 2014. Anh em có thể tham khảo bài diễn văn của Leo sau khi đã được con AI ghép giọng đọc ở đây:


Nhìn vào đây, ta có thể thấy công cụ này có tiềm năng tạo ra cả một cuộc cách mạng trong làng audiobook. Tỉ dụ, anh em thử nhìn vào những series truyện như A Song of Ice and Fire hoặc Wheel of Time, nơi nhân vật còn nhiều hơn lợn con ngoài đồng, với đủ thứ chất giọng khác nhau vì họ đến từ những vùng miền khác nhau xem. Vì thuê nhiều người khác nhau để lồng tiếng cho mỗi giọng thì tốn chi phí quá, thế nên thường ta sẽ có đúng một ông diễn viên duy nhất tự đảo giọng khi đến chỗ cần đảo. Điều này dẫn đến việc lắm người toàn phải để giọng trầm bổng hoặc nghèn nghẹt theo những kiểu rất lố bịch, bởi vì khả năng biến giọng của họ có hạn, trong khi họ lại phải thể hiện cả chục nhân vật khác nhau, với những kiểu lơ lớ tiếng khác nhau. Với một con AI có thể nhái tiếng/đổi giọng xoành xoạch, đây sẽ không còn là vấn đề nữa. Nó sẽ có thể lột xác thành những con người biệt lập hoàn toàn, không cần chỉnh giọng quá lố để thể hiện những nhân vật khác nhau làm gì cả, và ta sẽ có một cuốn audiobook với giá phải chăng mà nghe vẫn đa dạng.

Một ứng dụng thú vị khác của cái công nghệ này là nó có thể trực tiếp để tác giả tham gia đọc truyện cho người thưởng thức nghe. Như anh em biết đấy, một cuốn sách sẽ hay có những phần do tác giả viết, bao gồm lời đề tặng, giới thiệu ban đầu, lời cảm ơn cuối sách, chú thích này nọ,… Thường các diễn viên lồng tiếng sẽ cân luôn khoản này, vì các tác giả hoặc không có thời gian, hoặc không có khả năng diễn đọc mấy chỗ đó. Nhưng với con AI kia thì chỉ cho nó nghe những đoạn trò chuyện của tác giả ở các hội nghị hay buổi phỏng vấn là nó sẽ nhái lại được giọng ngay, và đọc những phần này, hay thậm chí đọc cả những lời dẫn trong truyện, bằng giọng của chính tác giả.

Thú vị hơn sẽ là cái tiềm năng của nó đối với những cuốn sách ăn theo franchise. Chẳng hạn, anh em cứ nhìn mấy cuốn truyện trong vũ trụ mở rộng của Star Wars với Star Trek xem. Mấy cuốn trong các franchise này rất hay cho các nhân vật trong phim xuất hiện, hoặc dưới dạng cameo hoặc đóng vai nhân vật chính hẳn luôn. Thuê những người như Mark Hamill hay Patrick Stewart về thì quá đắt đỏ, chưa kể giọng bọn họ có khi sẽ không thực sự khớp với tác phẩm (có thể vì truyện lấy bối cảnh lúc nhân vật của họ còn trẻ, hoặc khi nhân vật của họ đã già). Với con AI kia, ta sẽ có thể cho nó xem lại phim gốc, sau đấy tự nhái giọng họ, và lồng vào trong truyện đảm bảo cho ta được nghe chính mồm Luke Skywalker với Jean-Luc Picard đọc thoại. Chiêu này cũng có thể được áp dụng cho những tác phẩm về sau có bản chuyển thể quá nổi, chẳng hạn Jurassic Park với Lord of the Rings. Anh em cứ tưởng tượng được nghe Ian Malcolm ăn nói với cái kiểu ậm ừ chuẩn giọng Jeff Goldblum, hoặc nghe Frodo với chất giọng không lệch đi đâu được của Elijah Wood ngồi đàm đạo với Tom Bombadil mà xem.

Tất nhiên, để thực sự làm nên một cuốn audiobook hay thì ngoài nhái giọng chuẩn ra, ta còn cần phải thấy các cung bậc cảm xúc được thể hiện một cách phù hợp nữa. Và như anh em có thể nghe thấy trong clip đấy, riêng trong khoản này thì con AI của ElevenLabs vẫn còn cả một chặng đường dài trước mắt. Nhưng với cái sức tiến của công nghệ, có khi chỉ trong 5-10 năm nữa thôi, ta ít nhất cũng sẽ có thể lệnh cho con AI thay đổi cảm xúc và tốc độ giọng dựa trên các mốc dấu đặc biệt, chẳng hạn bôi màu chữ hay gắn thẻ cho câu. Thêm mấy năm nữa kể từ đó, có khi nó còn tự nhận biết được chỗ nào cần biểu đạt ra sao dựa trên dấu câu và văn cảnh hiện thời chứ chẳng đùa.

Tương lai đến vũ bão vl.

***


Bài gốc được đăng trong group Hội thích truyện Sci Fi trên Facebook. Cùng ghé chơi group để thảo luận về bài viết hoặc đọc thêm các bài tương tự, bạn nhé.