Chang She, trước đây là Phó Giám đốc kỹ thuật tại Tubi và là cựu chiến binh của Cloudera, có nhiều năm kinh nghiệm xây dựng cơ sở hạ tầng và công cụ dữ liệu. Nhưng khi Cô bắt đầu làm việc trong không gian AI, anh nhanh chóng gặp phải vấn đề với cơ sở hạ tầng dữ liệu truyền thống – những vấn đề khiến anh không thể đưa các mô hình AI vào sản xuất.
Cô nói với TechCrunch trong một cuộc phỏng vấn: “Các kỹ sư máy học và nhà nghiên cứu AI thường gặp khó khăn với trải nghiệm phát triển dưới mức trung bình”. “Các công ty cơ sở hạ tầng dữ liệu không thực sự hiểu vấn đề đối với dữ liệu học máy ở cấp độ cơ bản.”
Vì vậy Chang — một trong những người đồng sáng tạo ra Pandas, thư viện khoa học dữ liệu Python cực kỳ phổ biến — đã hợp tác với kỹ sư phần mềm Lei Xu để đồng khởi chạy LanceDB.
LanceDB đang xây dựng phần mềm cơ sở dữ liệu nguồn mở cùng tên LanceDB, được thiết kế để hỗ trợ các mô hình AI đa phương thức – các mô hình đào tạo và tạo ra hình ảnh, video, v.v. ngoài văn bản. Được hỗ trợ bởi Y Combinator, LanceDB trong tháng này đã huy động được 8 triệu đô la trong vòng tài trợ hạt giống do CRV, Essence VC và Swift Ventures dẫn đầu, nâng tổng số tiền huy động được lên 11 triệu đô la.
Chang nói: “Nếu AI đa phương thức đóng vai trò quan trọng đối với sự thành công trong tương lai của công ty bạn, thì bạn muốn nhóm AI đắt giá của mình tập trung vào mô hình và kết nối AI với giá trị kinh doanh”. “Thật không may, ngày nay, các nhóm AI đang dành phần lớn thời gian để xử lý các chi tiết cơ sở hạ tầng dữ liệu cấp thấp. LanceDB cung cấp nền tảng mà các nhóm AI cần để họ có thể tự do tập trung vào những gì thực sự quan trọng đối với giá trị doanh nghiệp và đưa các sản phẩm AI ra thị trường nhanh hơn nhiều so với khả năng khác.”
LanceDB về cơ bản là một cơ sở dữ liệu vectơ – cơ sở dữ liệu chứa chuỗi số (“vectơ”) mã hóa ý nghĩa của dữ liệu phi cấu trúc (ví dụ: hình ảnh, văn bản, v.v.).
Như đồng nghiệp của tôi, Paul Sawers gần đây đã viết, cơ sở dữ liệu vectơ đang ở thời điểm chu kỳ cường điệu AI đạt đến đỉnh điểm. Đó là bởi vì chúng hữu ích cho mọi loại ứng dụng AI, từ đề xuất nội dung trong nền tảng thương mại điện tử và truyền thông xã hội cho đến giảm ảo giác.
Sự cạnh tranh về cơ sở dữ liệu vectơ rất khốc liệt – hãy xem Qdrant, Vespa, Weaviate, Pinecone và Chroma để kể tên một số nhà cung cấp (không tính các công ty Big Tech đương nhiệm). Vậy điều gì làm cho LanceDB trở nên độc đáo? Theo Chang, tính linh hoạt, hiệu suất và khả năng mở rộng tốt hơn.
Chang cho biết, đầu tiên, LanceDB — được xây dựng dựa trên Apache Arrow — được hỗ trợ bởi định dạng dữ liệu tùy chỉnh, Định dạng Lance, được tối ưu hóa cho việc đào tạo và phân tích AI đa phương thức. Định dạng Lance cho phép LanceDB xử lý tới hàng tỷ vectơ và petabyte văn bản, hình ảnh và video, đồng thời cho phép các kỹ sư quản lý các dạng siêu dữ liệu khác nhau được liên kết với dữ liệu đó.
Chang nói: “Cho đến nay, chưa bao giờ có một hệ thống nào có thể thống nhất đào tạo, khám phá, tìm kiếm và xử lý dữ liệu quy mô lớn”. “Định dạng Lance cho phép các nhà nghiên cứu và kỹ sư AI có được một nguồn thông tin đáng tin cậy duy nhất và đạt được hiệu suất nhanh như chớp trên toàn bộ quy trình AI của họ. Nó không chỉ là việc lưu trữ các vectơ.”
LanceDB kiếm tiền bằng cách bán các phiên bản phần mềm nguồn mở được quản lý hoàn toàn với các tính năng bổ sung như tăng tốc phần cứng và kiểm soát quản trị – và hoạt động kinh doanh dường như đang phát triển mạnh mẽ. Danh sách khách hàng của công ty bao gồm nền tảng chuyển văn bản thành hình ảnh Midjourney, chatbot kỳ lân Character.ai, công ty khởi nghiệp xe tự hành WeRide và Airtable.
Chang nhấn mạnh rằng sự ủng hộ VC gần đây của LanceDB sẽ không chuyển sự chú ý của họ khỏi dự án nguồn mở, tuy nhiên, dự án mà theo ông hiện đang có khoảng 600.000 lượt tải xuống mỗi tháng.
Ông nói: “Chúng tôi muốn tạo ra thứ gì đó giúp các nhóm AI làm việc với dữ liệu đa phương thức quy mô lớn dễ dàng hơn gấp 10 lần”. “LanceDB cung cấp — và sẽ tiếp tục cung cấp — một bộ tích hợp hệ sinh thái rất phong phú để giảm thiểu nỗ lực áp dụng.”
Chúng tôi đang tung ra một bản tin AI! Đăng ký đây để bắt đầu nhận nó trong hộp thư đến của bạn vào ngày 5 tháng 6.