OpenAI ha enfatizzato le prestazioni di GPT-4 nei test di licenza professionale, ma potrebbe aver testato il modello sui dati di addestramento. Inoltre, i benchmark umani sono inadatti per valutare i bot.
GPT-4 ha ottenuto risultati impressionanti nei test professionali, come il 90° percentile nell’esame da avvocato. Tuttavia, ci sono due problemi principali con questi risultati:
- Contaminazione dei dati di addestramento: GPT-4 potrebbe aver memorizzato le soluzioni dai suoi dati di addestramento. Ad esempio, ha risolto problemi di programmazione pre-2021 ma nessuno dei problemi recenti. OpenAI ha usato un metodo superficiale e inadeguato per rilevare la contaminazione, che potrebbe non individuare problemi del test presenti nel set di addestramento con nomi e numeri modificati.
- Gli esami professionali non sono un modo valido per confrontare le capacità umane con i bot: i risultati dei benchmark non dimostrano che i modelli di linguaggio acquisiscano le competenze di ragionamento approfondito che gli umani applicano nel mondo reale. Inoltre, gli esami professionali enfatizzano la conoscenza della materia piuttosto che le abilità pratiche.
Invece di concentrarsi sui benchmark, dovremmo valutare come i modelli di linguaggio possano aiutare i professionisti nel mondo reale. Studi qualitativi che valutano l’utilizzo di strumenti di intelligenza artificiale da parte dei professionisti sono più utili dei confronti quantitativi tra persone e bot. Allo stesso tempo, è importante concentrarsi sulle applicazioni pratiche di GPT-4 e sulle potenziali sfide che possono emergere.
Lascia un commento