Các cuộc khảo sát đã được sử dụng để hiểu rõ hơn về dân số, sản phẩm và dư luận kể từ thời xa xưa. Và mặc dù các phương pháp luận có thể đã thay đổi qua nhiều thiên niên kỷ, nhưng có một điều vẫn không đổi: Nhu cầu về con người, rất nhiều người.
Nhưng điều gì sẽ xảy ra nếu bạn không thể tìm đủ người để xây dựng một nhóm mẫu đủ lớn nhằm tạo ra kết quả có ý nghĩa? Hoặc, điều gì sẽ xảy ra nếu bạn có thể tìm đủ người nhưng hạn chế về ngân sách sẽ hạn chế số lượng người bạn có thể tìm và phỏng vấn?
Đây là nơi Fairgen muốn giúp đỡ. Công ty khởi nghiệp Israel hôm nay ra mắt một nền tảng sử dụng “AI thống kê” để tạo ra dữ liệu tổng hợp mà họ cho là tốt như dữ liệu thật. Công ty cũng công bố đợt huy động vốn mới trị giá 5,5 triệu USD từ Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia và một số nhà đầu tư thiên thần, nâng tổng số tiền huy động được kể từ khi thành lập lên 8 triệu USD.
'Dữ liệu giả'
Dữ liệu có thể là huyết mạch của AI, nhưng nó cũng là nền tảng của nghiên cứu thị trường từ lâu đời. Vì vậy, khi hai thế giới va chạm, như trong thế giới của Fairgen, nhu cầu về dữ liệu chất lượng sẽ trở nên rõ ràng hơn một chút.
Được thành lập tại Tel Aviv, Israel vào năm 2021, Fairgen trước đây tập trung vào việc giải quyết vấn đề thiên vị trong AI. Nhưng vào cuối năm 2022, công ty đã chuyển hướng sang một sản phẩm mới, Fairboost, hiện đang ở giai đoạn thử nghiệm.
Fairboost hứa hẹn sẽ “tăng cường” một tập dữ liệu nhỏ hơn lên đến ba lần, cho phép hiểu biết chi tiết hơn về các ngóc ngách mà có thể quá khó hoặc quá tốn kém để tiếp cận. Bằng cách sử dụng điều này, các công ty có thể đào tạo mô hình học máy sâu cho từng tập dữ liệu mà họ tải lên nền tảng Fairgen, với các mẫu học tập AI thống kê trên các phân đoạn khảo sát khác nhau.
Khái niệm “dữ liệu tổng hợp” – dữ liệu được tạo ra một cách nhân tạo chứ không phải từ các sự kiện trong thế giới thực – không phải là mới. Nguồn gốc của nó bắt nguồn từ những ngày đầu của máy tính, khi nó được sử dụng để kiểm tra phần mềm và thuật toán cũng như mô phỏng các quy trình. Nhưng dữ liệu tổng hợp, như chúng ta hiểu ngày nay, đã có một đời sống riêng, đặc biệt là với sự ra đời của máy học, nơi nó ngày càng được sử dụng để đào tạo các mô hình. Chúng tôi có thể giải quyết cả vấn đề khan hiếm dữ liệu cũng như các mối lo ngại về quyền riêng tư dữ liệu bằng cách sử dụng dữ liệu được tạo giả tạo không chứa thông tin nhạy cảm.
Fairgen là công ty khởi nghiệp mới nhất đưa dữ liệu tổng hợp vào thử nghiệm và lấy nghiên cứu thị trường làm mục tiêu chính. Điều đáng chú ý là Fairgen không tạo ra dữ liệu từ không khí hoặc ném hàng triệu cuộc khảo sát lịch sử vào nồi nấu chảy do AI cung cấp – các nhà nghiên cứu thị trường cần thực hiện một cuộc khảo sát cho một mẫu nhỏ về thị trường mục tiêu của họ và từ đó, Fairgen thiết lập các mẫu để mở rộng mẫu. Công ty cho biết họ có thể đảm bảo mức tăng ít nhất gấp hai lần so với mẫu ban đầu, nhưng trung bình, nó có thể đạt mức tăng gấp ba lần.
Bằng cách này, Fairgen có thể xác định rằng một người nào đó ở một độ tuổi và/hoặc mức thu nhập cụ thể sẽ có xu hướng trả lời câu hỏi theo một cách nhất định hơn. Hoặc kết hợp số lượng điểm dữ liệu bất kỳ để ngoại suy từ tập dữ liệu gốc. Về cơ bản, đó là việc tạo ra những gì mà người đồng sáng lập và Giám đốc điều hành Fairgen, Samuel Cohen, nói là “các phân đoạn dữ liệu mạnh mẽ hơn, chắc chắn hơn với tỷ lệ sai sót thấp hơn”.
Cohen giải thích với TechCrunch: “Nhận thức chính là mọi người đang ngày càng trở nên đa dạng – các thương hiệu cần phải thích ứng với điều đó và họ cần hiểu rõ phân khúc khách hàng của mình”. “Các phân khúc rất khác nhau – Thế hệ Z suy nghĩ khác với những người lớn tuổi. Và để có thể hiểu được thị trường này ở cấp độ phân khúc thì phải tốn rất nhiều tiền, nhiều thời gian và nguồn lực hoạt động. Và đó là nơi tôi nhận ra điểm đau đớn. Chúng tôi biết rằng dữ liệu tổng hợp có vai trò ở đó.”
Một lời chỉ trích rõ ràng – điều mà công ty thừa nhận mà họ đã phải đối mặt – là tất cả những điều này nghe giống như một lối tắt lớn để phải đi ra hiện trường, phỏng vấn người thật và thu thập ý kiến thực.
Chắc chắn bất kỳ nhóm ít đại diện nào cũng nên lo ngại rằng tiếng nói thật của họ đang bị thay thế bằng tiếng nói giả?
Fernando Zatz, người đứng đầu bộ phận phát triển của Fairgen, nói với TechCrunch: “Mỗi khách hàng mà chúng tôi nói chuyện trong không gian nghiên cứu đều có những điểm mù rất lớn – những đối tượng hoàn toàn khó tiếp cận”. “Họ thực sự không bán dự án vì không có đủ người, đặc biệt là trong một thế giới ngày càng đa dạng, nơi có nhiều phân khúc thị trường. Đôi khi họ không thể đi vào những quốc gia cụ thể; họ không thể đi sâu vào nhân khẩu học cụ thể, vì vậy họ thực sự thua trong các dự án vì không đạt được chỉ tiêu. Họ có số lượng tối thiểu [of respondents]và nếu không đạt được con số đó, họ sẽ không bán được thông tin chi tiết.”
Fairgen không phải là công ty duy nhất áp dụng AI vào lĩnh vực nghiên cứu thị trường. Qualtrics năm ngoái cho biết họ đã đầu tư 500 triệu USD trong 4 năm để đưa AI vào nền tảng của mình, mặc dù tập trung chủ yếu vào nghiên cứu định tính. Tuy nhiên, có thêm bằng chứng cho thấy dữ liệu tổng hợp vẫn ở đây và ở lại đây.
Nhưng việc xác nhận kết quả sẽ đóng vai trò quan trọng trong việc thuyết phục mọi người rằng đây là thỏa thuận thực sự chứ không phải biện pháp cắt giảm chi phí nào đó sẽ tạo ra kết quả dưới mức tối ưu. Fairgen thực hiện điều này bằng cách so sánh mức tăng mẫu “thực” với mức tăng mẫu “tổng hợp” – nó lấy một mẫu nhỏ của tập dữ liệu, ngoại suy nó và đặt nó cạnh nhau với dữ liệu thực.
Cohen nói: “Với mỗi khách hàng mà chúng tôi đăng ký, chúng tôi đều thực hiện cùng một loại thử nghiệm.
Nói theo thống kê
Cohen có bằng Thạc sĩ về khoa học thống kê của Đại học Oxford và bằng Tiến sĩ về học máy tại UCL của London, một phần trong đó bao gồm thời gian làm việc 9 tháng với tư cách là nhà khoa học nghiên cứu tại Meta.
Một trong những người đồng sáng lập của công ty là chủ tịch Benny Schnaider, người trước đây làm việc trong lĩnh vực phần mềm doanh nghiệp, với bốn lần rút lui mang tên mình: Ravello đến Oracle với giá được báo cáo là 500 triệu USD vào năm 2016; chuyển Qumranet sang Red Hat với giá 107 triệu USD vào năm 2008; P-Cube sang Cisco với giá 200 triệu USD năm 2004; và Pentacom cho Cisco với giá 118 USD vào năm 2000.
Và sau đó là Emmanuel Candès, giáo sư thống kê và kỹ thuật điện tại Đại học Stanford, người giữ vai trò cố vấn khoa học chính của Fairgen.
Nền tảng kinh doanh và toán học này là điểm bán hàng chính cho một công ty đang cố gắng thuyết phục thế giới rằng dữ liệu giả có thể tốt như dữ liệu thật, nếu được áp dụng đúng cách. Đây cũng là cách họ có thể giải thích rõ ràng các ngưỡng và giới hạn của công nghệ của mình – các mẫu cần phải lớn đến mức nào để đạt được mức tăng tối ưu.
Theo Cohen, lý tưởng nhất là họ cần ít nhất 300 người trả lời thực sự cho một cuộc khảo sát và từ đó Fairboost có thể tăng quy mô phân khúc chiếm không quá 15% tổng số cuộc khảo sát rộng hơn.
Cohen cho biết: “Dưới 15%, chúng tôi có thể đảm bảo mức tăng trung bình gấp 3 lần sau khi xác thực nó bằng hàng trăm thử nghiệm song song”. “Theo thống kê, mức tăng ít ấn tượng hơn trên 15%. Dữ liệu đã thể hiện mức độ tin cậy tốt và những người trả lời tổng hợp của chúng tôi chỉ có thể phù hợp với chúng hoặc mang lại mức tăng nhẹ. Về mặt kinh doanh, cũng không có điểm yếu nào trên 15% – các thương hiệu đã có thể học hỏi từ những nhóm này; họ chỉ bị mắc kẹt ở cấp độ thích hợp.”
Yếu tố không có LLM
Điều đáng chú ý là Fairgen không sử dụng các mô hình ngôn ngữ lớn (LLM) và nền tảng của nó không tạo ra phản hồi “tiếng Anh đơn giản” như ChatGPT. Lý do cho điều này là LLM sẽ sử dụng thông tin học được từ vô số nguồn dữ liệu khác ngoài các thông số của nghiên cứu, điều này làm tăng cơ hội đưa ra sai lệch không tương thích với nghiên cứu định lượng.
Fairgen tập trung hoàn toàn vào các mô hình thống kê và dữ liệu dạng bảng, đồng thời việc đào tạo của nó chỉ dựa vào dữ liệu có trong tập dữ liệu đã tải lên. Điều đó cho phép các nhà nghiên cứu thị trường tạo ra những người trả lời mới và tổng hợp một cách hiệu quả bằng cách ngoại suy từ các phân khúc liền kề trong cuộc khảo sát.
“Chúng tôi không sử dụng bất kỳ LLM nào vì một lý do rất đơn giản, đó là nếu chúng tôi đào tạo trước rất nhiều [other] khảo sát, nó sẽ chỉ truyền tải thông tin sai lệch”, Cohen nói. “Bởi vì có những trường hợp nó học được điều gì đó trong một cuộc khảo sát khác và chúng tôi không muốn điều đó. Đó là tất cả về độ tin cậy.”
Về mô hình kinh doanh, Fairgen được bán dưới dạng SaaS, trong đó các công ty tải khảo sát của họ ở bất kỳ định dạng có cấu trúc nào (.CSV hoặc .SAV) lên nền tảng dựa trên đám mây của Fairgen. Theo Cohen, phải mất tới 20 phút để đào tạo mô hình dựa trên dữ liệu khảo sát được cung cấp, tùy thuộc vào số lượng câu hỏi. Sau đó, người dùng chọn một “phân khúc” (một tập hợp con những người trả lời có chung một số đặc điểm nhất định) – ví dụ: “Thế hệ Z làm việc trong ngành x” – và sau đó Fairgen cung cấp một tệp mới có cấu trúc giống hệt với tệp đào tạo ban đầu, với nội dung giống hệt câu hỏi, chỉ là hàng mới.
Fairgen đang được sử dụng bởi BVA và công ty nghiên cứu thị trường và thăm dò ý kiến IFOP của Pháp, những công ty đã tích hợp công nghệ của công ty khởi nghiệp vào dịch vụ của họ. IFOP, hơi giống Gallup ở Mỹ, đang sử dụng Fairgen cho mục đích bỏ phiếu trong các cuộc bầu cử ở châu Âu, mặc dù Cohen cho rằng nó cũng có thể được sử dụng cho các cuộc bầu cử ở Mỹ vào cuối năm nay.
Cohen nói: “IFOP về cơ bản là con dấu phê duyệt của chúng tôi, bởi vì chúng đã tồn tại được khoảng 100 năm. “Họ đã xác nhận công nghệ và là đối tác thiết kế ban đầu của chúng tôi. Chúng tôi cũng đang thử nghiệm hoặc đã tích hợp với một số công ty nghiên cứu thị trường lớn nhất trên thế giới, điều mà tôi chưa được phép nói đến.”