Chuyển đến nội dung chính

Về những cách dạy AI học và tiểu thuyết The Two Faces of Tomorrow

 Hôm nay mình mới bắt được một cái clip khá hay, xoay quanh cách con người dạy khôn cho một thuật toán AI.


Như trong clip có nói, thường thì có 3 phương thức dạy dỗ chính có thể đem ra áp dụng cho bọn AI, ấy là Unsupervised Learning (Học hỏi Không Giám sát), Supervised Learning (Học hỏi Có Giám sát), và Reinforment Learning (Học hỏi Củng cố).

Cái cách đầu tiên, Unsupervised Learning, về cơ bản có thể được tóm gọn trong 3 chữ: kemeno. Nói cách khác, người ta sẽ cho con AI học bằng cách cung cấp cho nó một núi dữ liệu đầu vào, xong mặc cho nó tự loay hoay, không can thiệp gì cả. Con AI sẽ phân tích núi dữ liệu đấy để tìm những kiểu mẫu mô hình tiềm tàng hoặc những điểm tương đồng giữa các dữ liệu riêng lẻ, từ đấy tự rút ra kết luận hoặc khái quái hóa quy luật.

Như clip có ví dụ, nếu cung cấp cho một con AI học tập theo kiểu Unsupervised Learning một chồng hồ sơ bệnh án, nó sẽ phân tích và rút ra điểm tương đồng giữa các bệnh nhân, từ đấy đoán được nguyên nhân gây một căn bệnh nào đó là gì. Chẳng hạn, nếu nó thấy dữ liệu tất cả các bệnh nhân Cô Vy đều bao gồm tiêu thụ ôxi, nó có thể rút ra kết luận rằng ôxi là nguyên nhân gây Cô Vy, và từ đấy lệnh cho máy tính liệt hết những người từng hít ôxi vào mục mắc bệnh hết để bế đi cách ly.

Có ai bảo nó phải đưa ra kết luận khôn đâu, chỉ cần kết luận lôgic thôi mà 🐧.

Cách thứ hai, Supervised Learning, sẽ chơi kiểu cầm tay chỉ việc hơn. Con AI cũng vẫn được cấp cho một núi dữ liệu, nhưng cái mớ đấy lần này đã trải qua một lần xào nấu của con người rồi. Khi nhìn vào cái núi ấy, con AI có thể sẽ thấy nó là tập hợp của vài quả đồi mini, và nó hiểu là đồi 1 là một nhóm có chung sẵn đặc điểm A, đồi 2 thì có B,… và từ đấy sẽ biết cách phân tích hợp lý hơn. Thêm vào đó, bản thân con người cũng biết sẵn kết luận cần phải rút ra là gì rồi (hoặc ít nhất là kết luận nào không nên rút ra). Họ sẽ nhìn vào những kể quả con AI đưa ra, xem nó sai chỗ nào thì bảo lại nó, đại khái là “dìu” con AI kia đi sao cho đến đúng cái đích mình đã biết sẵn để về sau nó tự mình luận ra được cái đích đó.

Về lại với ví dụ ban nãy, nếu vẫn cung cấp cho con AI học kiểu Supervised Learning mớ hồ sơ bệnh án cũ,nhưng lần này phân ra rất rõ đâu là hồ sơ người mắc Cô Vy, đâu là người không mắc, và bảo nó đối chiếu đôi bên. Con AI từ đấy sẽ biết lọc ra là người khỏe cũng như người bệnh đều hít ôxi, thế nên không phải ôxi là nguồn cơn. Nhưng cũng có thể nó sẽ thấy tất cả những người mắc Cô Vy đều mang quốc tịch nước ngoài, còn người khỏe không ai ngoại quốc cả (do dữ liệu đầu vào thiếu sót), và nó sẽ nghĩ hộ chiếu là nguyên nhân dẫn đến Cô Vy, và đòi gom sạch Tây Tàu vào trại. Cánh bác sĩ sẽ phải kiểm tra và bảo nó còn phải chú ý thêm đến một số yếu tố khác trong dữ liệu nữa, và bắt nó làm đi làm lại cho đến khi nào đưa ra được chẩn đoán gần giống mình thì thôi.

Thằng cuối cùng, Reinforment Learning, thì có phần tương đồng với hai thằng trên, nhưng vẫn tách biệt hẳn. Dữ liệu đầu vào của nó có thể được thả rông như thằng Unsupervised Learning, hoặc qua xào nấu như Supervised Learning, nhưng còn kết luận của nó thì sẽ được thả lỏng theo kiểu Unsupervised Learning, không bị gò phải nghĩ theo hướng nào hết. Nhưng thay vì chỉ dùng đúng một tập dữ liệu đầu vào duy nhất, nó sẽ liên tục nhận lại các dữ liệu đầu vào đã cập nhật và tự phán đoán xem mình làm thế ngon hay chưa, nếu chưa thì cải thiện tiếp, và cứ thế lặp đi lặp lại.

Về với ví dụ Cô Vy, ta sẽ có một con AI học kiểu Reinforment Learning được giao cho hồ sơ bệnh án cả nước, và bảo làm thế nào dẹp dịch thì làm. Có thể ban đầu nó sẽ thấy cứ ai thở ôxi thì tống luôn vào trại, nhưng về sau khi cập nhật lại dữ liệu thì thấy làm vậy khiến Cô Vy lây lan mạnh hơn, nó sẽ ngừng chẩn đoán Cô Vy theo kiểu đấy. Tiếp theo, nó sẽ thử nhét hết dân ngoại quốc vào trại, và thấy làm thế cũng kiềm được Cô Vy tí chút, nhưng không đáng kể. Đến đây, nó sẽ tự rút ra kết luận là quốc tịch có phần nào đó liên quan, nhưng cần thêm gì đó khác nữa, và cứ thế thử tiếp và cập nhật liên tục, cho đến khi Cô Vy ngừng lây (hoặc mức lây lan xuống đến ngưỡng chấp nhận được) thì thôi.

Ừ thì làm vậy có thể sẽ khiến 99,99% dân số dính Cô Vy, nhưng nếu từ đấy mà nó đảm bảo Cô Vy không lây lan được trong 0,01% còn lại, và áp dụng ra cho những trường hợp khác thì vẫn ok.

Clip về AI này lại làm mình nhớ đến cái cuốn The Two Faces of Tomorrow có review hồi trước, trong đấy có mấy con AI cũng hoạt động dựa trên nguyên tắc na ná thế này.

Đầu tiên ta có một con AI ở phần mở, học tập theo cách gần như là Unsupervised Learning. Nó nhận được dữ liệu đầu vào là có một rặng đá trên Mặt Trăng cần san phẳng, và sẵn tiện thì có mấy tảng thiên thạch ngay gần đấy. Thế là ông anh tự rút ra kết luận cứ thảy bố cái tảng thiên thạch xuống bề mặt Mặt Trăng là nhanh nhất, và tí nữa thì khiến đoàn nhà khoa học ở đấy bỏ mạng.

Tiếp theo thì có FISE, con AI “trẻ con” đang được dạy cách khái quát hóa các khái niệm và phát triển một thứ gọi là “common sense” (tức “lẽ thường”). Cách này rất sát với Supervised Learning, với các nhà khoa học cấp cho nó một nhóm dữ liệu đã phân loại cụ thể và tìm cách dìu nó đi đến đúng đích. Ví dụ, thằng này được dạy cách rán trứng, và đầu tiên nó bóp quả trứng một cách cực mạnh, làm trứng nát tung tóe. Sau khi bị bảo làm vỡ trứng như thế là ngu, nó loay hoay nghĩ ra cách cầm nhẹ quả trứng thôi, nhưng rồi nó lại nâng niu để nguyên quả trứng lành vào cái chảo. Sau khi bị các nhà khoa học hỏi nó định ăn quả trứng này kiểu gì, thằng kia lại loay hoay nghĩ ra trò cầm nhẹ quả trứng, và đập nát nó trên chảo để ruột tràn ra. Mỗi tội làm thế thì lại dính cả vỏ, và các nhà khoa học lại phải kiên nhẫn dìu nó đi tiếp.

Cuối cùng, ta có thằng Spartacus, phiên bản người lớn của FISE. Thằng này học tập theo kiểu gần như là Reinforment Learning thuần túy, được cấp cho một cái trạm vũ trụ để điều hành, và bảo muốn làm gì thì làm. Lúc con người cố tình phá thối nó để xem nó sẽ xử lý ra sao, con AI cứ thế loay hoay thử đủ cách, và sau đó xem xét độ hiệu quả của các cách đấy. Những phương án nó đưa ra có độ hiệu quả ngày một cao, đến mức phe con người dần bị nó qua mặt. Không may cho con người là một trong những phương thức đạt hiệu quả cao nhất của nó lại là vô hiệu hóa những con người có mặt trên trạm, thế nên Spartacus cứ tằng tằng thử nghiệm những cách loại bỏ con người hợp lý nhất, dần đẩy đám người trên trạm vào thế phải tiến hành chiến tranh tổng lực chỉ để sinh tồn.

***


Bài gốc được đăng trong group Hội thích truyện Sci Fi trên Facebook. Cùng ghé chơi group để thảo luận về bài viết hoặc đọc thêm các bài tương tự, bạn nhé.