Elon Musk este de acord cu alți experți în inteligență artificială, potrivit cărora au mai rămas puține date din lumea reală pe care să fie antrenate modelele de inteligență artificială.
“Acum am epuizat practic suma cumulată a cunoștințelor umane …. în formarea IA”, a declarat Musk în timpul unei conversații transmise live cu președintele Stagwell, Mark Penn, transmisă pe X miercuri târziu. “Asta s-a întâmplat practic anul trecut”.
Musk, care deține compania de inteligență artificială xAI, a reluat temele fostului cercetător șef al OpenAI, Ilya Sutskeveratins pela NeurIPS, conferința de învățare automată, în timpul unui discurs susținut în decembrie. Sutskever, care a declarat că industria inteligenței artificiale a atins ceea ce el a numit “vârful datelor”, a prezis că lipsa datelor de instruire va forța o schimbare a modului în care sunt dezvoltate modelele în prezent.
Într-adevăr, Musk a sugerat că datele sintetice – date generate chiar de modelele AI – reprezintă calea de urmat. “Singura modalitate de a completa [datele din lumea reală] este cu date sintetice, în care AI creează [date de antrenament]”, a spus el. “Cu date sintetice … [AI] se va califica singură și va trece prin acest proces de autoînvățare”.
Alte companii, inclusiv giganți tehnologici precum Microsoft, Meta, OpenAI și Anthropic, utilizează deja date sintetice pentru a antrena modelele principale de inteligență artificială. Gartnerestimări60% din datele utilizate pentru proiectele de inteligență artificială și analiză în 2024 au fost generate sintetic.
Microsoft’sPhi-4, care a fost deschis miercuri dimineață, a fost antrenat pe date sintetice alături de date din lumea reală. La fel au fost și testele GoogleGemmamodele. Anthropic a folosit unele date sintetice pentru a dezvolta unul dintre cele mai performante sisteme ale sale,Claude 3.5 Sonet. Și Meta și-a perfecționat cea mai recentăApelserie de modeleutilizarea datelor generate de AI.
Instruirea pe baza datelor sintetice are și alte avantaje, cum ar fi reducerea costurilor. Startup-ul de inteligență artificială Writer susține că modelul său Palmyra X 004, care a fost dezvoltat folosind aproape în întregime surse sintetice, a costat doar 700 000 de dolari pentru a fi dezvoltat –comparativfață de estimările de 4,6 milioane de dolari pentru un model OpenAI de dimensiuni comparabile.
Dar există și dezavantaje.Unele cercetărisugerează că datele sintetice pot duce la prăbușirea modelului, atunci când un model devine mai puțin “creativ” – și mai părtinitor – în rezultatele sale, compromițând în cele din urmă grav funcționalitatea sa. Deoarece modelele creează date sintetice, dacă datele utilizate pentru formarea acestor modele sunt distorsionate și limitate, rezultatele lor vor fi la fel de afectate.