Các tác nhân AI được cho là sẽ là thứ lớn tiếp theo trong AI, nhưng không có định nghĩa chính xác về chúng. Cho đến thời điểm này, mọi người vẫn chưa thể thống nhất về những gì cấu thành nên một tác nhân AI.
Nói một cách đơn giản nhất, một tác nhân AI được mô tả tốt nhất là phần mềm chạy bằng AI thực hiện một loạt công việc cho bạn mà một nhân viên dịch vụ khách hàng, nhân viên HR hoặc nhân viên bộ phận trợ giúp CNTT có thể đã làm trong quá khứ, mặc dù cuối cùng nó có thể liên quan đến bất kỳ nhiệm vụ nào. Bạn yêu cầu nó làm mọi thứ và nó thực hiện chúng cho bạn, đôi khi vượt qua nhiều hệ thống và vượt xa việc chỉ trả lời các câu hỏi.
Có vẻ đơn giản, đúng không? Nhưng nó phức tạp vì thiếu sự rõ ràng. Ngay cả giữa những gã khổng lồ công nghệ, cũng không có sự đồng thuận. Google coi họ là trợ lý dựa trên nhiệm vụ tùy thuộc vào công việc: trợ giúp mã hóa cho các nhà phát triển; giúp các nhà tiếp thị tạo ra một bảng màu; hỗ trợ một chuyên gia CNTT theo dõi sự cố bằng cách truy vấn dữ liệu nhật ký.
Đối với Asana, một tác nhân có thể hoạt động như một nhân viên phụ, đảm nhiệm các nhiệm vụ được giao như bất kỳ đồng nghiệp tốt nào. Sierra, một công ty khởi nghiệp do cựu đồng giám đốc điều hành Salesforce Bret Taylor và cựu nhân viên Google Clay Bavor sáng lập, coi các tác nhân là công cụ trải nghiệm khách hàng, giúp mọi người thực hiện các hành động vượt xa các chatbot của ngày xưa để giúp giải quyết các tập hợp vấn đề phức tạp hơn.
Việc thiếu một định nghĩa thống nhất này sẽ gây ra sự nhầm lẫn về việc chính xác những thứ này sẽ làm gì, nhưng bất kể chúng được định nghĩa như thế nào, các tác nhân đều có chức năng giúp hoàn thành các nhiệm vụ một cách tự động với càng ít tương tác của con người càng tốt.
Rudina Seseri, nhà sáng lập kiêm đối tác quản lý tại Glasswing Ventures, cho biết đây vẫn còn là giai đoạn đầu và điều đó có thể giải thích cho việc thiếu sự đồng thuận. “Không có định nghĩa duy nhất nào về 'tác nhân AI' là gì. Tuy nhiên, quan điểm phổ biến nhất là tác nhân là một hệ thống phần mềm thông minh được thiết kế để nhận thức môi trường của nó, lý luận về nó, đưa ra quyết định và thực hiện hành động để đạt được các mục tiêu cụ thể một cách tự động”, Seseri nói với TechCrunch.
Bà cho biết họ sử dụng một số công nghệ AI để thực hiện điều đó. “Những hệ thống này kết hợp nhiều kỹ thuật AI/ML như xử lý ngôn ngữ tự nhiên, học máy và thị giác máy tính để hoạt động trong các miền động, tự động hoặc cùng với các tác nhân khác và người dùng là con người.”
Aaron Levie, đồng sáng lập kiêm giám đốc điều hành tại Box, cho biết theo thời gian, khi AI trở nên có năng lực hơn, các tác nhân AI sẽ có thể làm được nhiều việc hơn thay cho con người và hiện đã có những động lực thúc đẩy sự tiến hóa đó.
Levie đã viết trên LinkedIn gần đây rằng: “Với các tác nhân AI, có nhiều thành phần tạo nên bánh đà tự gia cố sẽ giúp cải thiện đáng kể những gì các tác nhân AI có thể đạt được trong tương lai gần và dài hạn: giá/hiệu suất GPU, hiệu quả của mô hình, chất lượng và trí thông minh của mô hình, cải tiến về khuôn khổ AI và cơ sở hạ tầng”.
Đó là một quan điểm lạc quan về công nghệ cho rằng sự tăng trưởng sẽ diễn ra ở tất cả các lĩnh vực này, mặc dù điều đó không nhất thiết phải là điều hiển nhiên. Nhà tiên phong về robot của MIT, Rodney Brooks, đã chỉ ra trong một cuộc phỏng vấn gần đây trên TechCrunch rằng AI phải giải quyết những vấn đề khó khăn hơn nhiều so với hầu hết các công nghệ khác và nó sẽ không nhất thiết phát triển theo cùng một tốc độ như chip theo định luật Moore.
“Khi con người nhìn thấy một hệ thống AI thực hiện một nhiệm vụ, họ ngay lập tức khái quát hóa nó thành những thứ tương tự và ước tính năng lực của hệ thống AI; không chỉ hiệu suất của nó, mà còn là năng lực xung quanh nó,” Brooks nói trong cuộc phỏng vấn đó. “Và họ thường rất lạc quan quá mức, và đó là vì họ sử dụng mô hình về hiệu suất của một người trong một nhiệm vụ.”
Vấn đề là việc giao thoa các hệ thống rất khó khăn và điều này trở nên phức tạp hơn do một số hệ thống cũ thiếu quyền truy cập API cơ bản. Mặc dù chúng ta đang thấy những cải tiến ổn định mà Levie đã ám chỉ, nhưng việc đưa phần mềm vào nhiều hệ thống trong khi giải quyết các vấn đề mà nó có thể gặp phải trong quá trình này có thể trở nên khó khăn hơn nhiều người nghĩ.
Nếu đúng như vậy, mọi người có thể đang đánh giá quá cao những gì các tác nhân AI có thể làm được. David Cushman, một nhà nghiên cứu tại HFS Research, nhìn nhận nhóm bot hiện tại giống với Asana hơn: trợ lý giúp con người hoàn thành một số nhiệm vụ nhất định để đạt được một số mục tiêu chiến lược do người dùng xác định. Thách thức là giúp máy xử lý các tình huống bất ngờ theo cách thực sự tự động, và rõ ràng là chúng ta vẫn chưa đạt đến mức đó.
“Tôi nghĩ đó là bước tiếp theo”, ông nói. “Đó là nơi AI hoạt động độc lập và hiệu quả ở quy mô lớn. Vì vậy, đây là nơi con người đặt ra các hướng dẫn, các rào cản và áp dụng nhiều công nghệ để đưa con người ra khỏi vòng lặp — khi mọi thứ đều hướng đến việc giữ con người TRONG vòng lặp với GenAI,” ông nói. Vì vậy, chìa khóa ở đây, ông nói, là để tác nhân AI tiếp quản và áp dụng tự động hóa thực sự.
Jon Turow, đối tác tại Madrona Ventures, cho biết điều này sẽ đòi hỏi phải tạo ra một cơ sở hạ tầng tác nhân AI, một ngăn xếp công nghệ được thiết kế riêng để tạo ra các tác nhân (bất kể bạn định nghĩa chúng như thế nào). Trong một bài đăng trên blog gần đây, Turow đã phác thảo các ví dụ về các tác nhân AI hiện đang hoạt động trong tự nhiên và cách chúng đang được xây dựng ngày nay.
Theo quan điểm của Turow, sự gia tăng nhanh chóng của các tác nhân AI — và ông cũng thừa nhận rằng định nghĩa này vẫn còn hơi khó nắm bắt — đòi hỏi một bộ công nghệ giống như bất kỳ công nghệ nào khác. “Tất cả những điều này có nghĩa là ngành công nghiệp của chúng tôi phải làm việc để xây dựng cơ sở hạ tầng hỗ trợ các tác nhân AI và các ứng dụng dựa vào chúng”, ông viết trong bài viết.
“Theo thời gian, lý luận sẽ dần được cải thiện, các mô hình biên giới sẽ điều khiển nhiều quy trình làm việc hơn và các nhà phát triển sẽ muốn tập trung vào sản phẩm và dữ liệu — những thứ tạo nên sự khác biệt của họ. Họ muốn nền tảng cơ bản 'chỉ hoạt động' với quy mô, hiệu suất và độ tin cậy.”
Một điều khác cần lưu ý ở đây là có lẽ sẽ cần nhiều mô hình, thay vì một LLM duy nhất, để khiến các tác nhân hoạt động, và điều này có ý nghĩa nếu bạn nghĩ về các tác nhân này như một tập hợp các nhiệm vụ khác nhau. “Tôi không nghĩ rằng hiện tại bất kỳ mô hình ngôn ngữ lớn nào, ít nhất là mô hình ngôn ngữ lớn đơn khối có sẵn công khai, có thể xử lý các nhiệm vụ của tác nhân. Tôi không nghĩ rằng chúng có thể thực hiện lý luận nhiều bước thực sự khiến tôi phấn khích về tương lai của tác nhân. Tôi nghĩ rằng chúng ta đang đến gần hơn, nhưng vẫn chưa đạt được điều đó”, Fred Havemeyer, người đứng đầu bộ phận nghiên cứu AI và phần mềm tại Macquarie US Equity Research cho biết.
“Tôi nghĩ rằng các tác nhân hiệu quả nhất có thể sẽ là nhiều bộ sưu tập của nhiều mô hình khác nhau với một lớp định tuyến gửi yêu cầu hoặc lời nhắc đến tác nhân và mô hình hiệu quả nhất. Và tôi nghĩ rằng nó sẽ giống như một [automated] giám sát, vai trò phân công.”
Cuối cùng, đối với Havemeyer, ngành công nghiệp này đang hướng tới mục tiêu này là các tác nhân hoạt động độc lập. “Khi tôi nghĩ về tương lai của các tác nhân, tôi muốn thấy và hy vọng thấy các tác nhân thực sự tự chủ và có thể thực hiện các mục tiêu trừu tượng rồi suy luận ra tất cả các bước riêng lẻ ở giữa một cách hoàn toàn độc lập”, ông nói với TechCrunch.
Nhưng thực tế là chúng ta vẫn đang trong giai đoạn chuyển tiếp liên quan đến các tác nhân này, và chúng ta không biết khi nào chúng ta sẽ đạt đến trạng thái kết thúc mà Havemeyer mô tả. Mặc dù những gì chúng ta đã thấy cho đến nay rõ ràng là một bước tiến đầy hứa hẹn theo đúng hướng, chúng ta vẫn cần một số tiến bộ và đột phá để các tác nhân AI hoạt động như chúng đang được hình dung ngày nay. Và điều quan trọng là phải hiểu rằng chúng ta vẫn chưa đạt đến đó.