Mistral, công ty khởi nghiệp AI của Pháp được Microsoft hỗ trợ và trị giá 6 tỷ USD, đã phát hành mô hình AI thế hệ đầu tiên dành cho mã hóa, được đặt tên là Codestral.
Giống như các mô hình tạo mã khác, Codestral được thiết kế để giúp các nhà phát triển viết và tương tác với mã. Nó được đào tạo trên hơn 80 ngôn ngữ lập trình, bao gồm Python, Java, C++ và JavaScript, Mistral giải thích trong một bài đăng trên blog. Codestral có thể hoàn thành các chức năng mã hóa, viết bài kiểm tra và “điền” một phần mã cũng như trả lời các câu hỏi về cơ sở mã bằng tiếng Anh.
Mistral mô tả mô hình này là “mở”, nhưng điều đó còn phải tranh luận. Giấy phép của công ty khởi nghiệp cấm sử dụng Codestral và các kết quả đầu ra của nó cho bất kì hoạt động thương mại. Có một mục tiêu dành cho “sự phát triển”, nhưng ngay cả điều đó cũng có những cảnh báo: Giấy phép tiếp tục cấm rõ ràng “bất kỳ hoạt động sử dụng nội bộ nào của nhân viên trong bối cảnh hoạt động kinh doanh của công ty”.
Nguyên nhân có thể là Codestral đã được đào tạo một phần về nội dung có bản quyền. Mistral không xác nhận hay phủ nhận điều này trong bài đăng trên blog, nhưng điều đó cũng không có gì đáng ngạc nhiên; có bằng chứng cho thấy tập dữ liệu đào tạo trước đây của công ty khởi nghiệp chứa dữ liệu có bản quyền.
Trong mọi trường hợp, Codestral có thể không đáng để gặp rắc rối. Với 22 tỷ thông số, mô hình này yêu cầu một PC mạnh mẽ để chạy. (Về cơ bản, các tham số xác định kỹ năng của mô hình AI đối với một vấn đề, chẳng hạn như phân tích và tạo văn bản.) Và mặc dù nó đánh bại đối thủ cạnh tranh theo một số điểm chuẩn (như chúng ta biết là không đáng tin cậy), nhưng nó hầu như không thành công.
Mặc dù không thực tế đối với hầu hết các nhà phát triển và tăng dần về mặt cải tiến hiệu suất, Codestral chắc chắn sẽ thúc đẩy cuộc tranh luận về sự khôn ngoan khi dựa vào các mô hình tạo mã làm trợ lý lập trình.
Các nhà phát triển chắc chắn đang sử dụng các công cụ AI tổng quát cho ít nhất một số nhiệm vụ mã hóa. Trong cuộc thăm dò của Stack Overflow từ tháng 6 năm 2023, 44% nhà phát triển cho biết họ hiện đang sử dụng các công cụ AI trong quá trình phát triển của mình trong khi 26% có kế hoạch sớm sử dụng. Tuy nhiên, những công cụ này có những sai sót rõ ràng.
Một phân tích về hơn 150 triệu dòng mã được cam kết cho các kho dự án trong nhiều năm qua của GitClear đã phát hiện ra rằng các công cụ phát triển AI tổng quát đang dẫn đến nhiều mã sai hơn bị đẩy vào cơ sở mã. Ở những nơi khác, các nhà nghiên cứu bảo mật đã cảnh báo rằng những công cụ như vậy có thể khuếch đại các lỗi hiện có và các vấn đề bảo mật trong các dự án phần mềm; Theo một nghiên cứu từ Purdue, hơn một nửa số câu trả lời mà ChatGPT của OpenAI đưa ra cho các câu hỏi lập trình là sai.
Điều đó sẽ không ngăn cản các công ty như Mistral và những công ty khác cố gắng kiếm tiền (và đạt được sự chia sẻ tư duy) với các mô hình của họ. Sáng nay, Mistral đã ra mắt phiên bản Codestral được lưu trữ trên nền tảng AI đàm thoại Le Chat cũng như API trả phí của nó. Mistral cho biết họ cũng đã nỗ lực xây dựng Codestral vào các khung ứng dụng và môi trường phát triển như LlamaIndex, LangChain, Continue.dev và Tabnine.