{"id":5,"date":"2023-03-22T00:04:06","date_gmt":"2023-03-21T23:04:06","guid":{"rendered":"https:\/\/inference.it\/?p=5"},"modified":"2023-03-22T00:04:06","modified_gmt":"2023-03-21T23:04:06","slug":"gpt-4-e-valutazioni-professionali-la-risposta-sbagliata-alla-domanda-sbagliata","status":"publish","type":"post","link":"https:\/\/inference.it\/?p=5","title":{"rendered":"GPT-4 e valutazioni professionali: la risposta sbagliata alla domanda sbagliata"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">OpenAI ha enfatizzato le prestazioni di GPT-4 nei test di licenza professionale, ma potrebbe aver testato il modello sui dati di addestramento. Inoltre, i benchmark umani sono inadatti per valutare i bot.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">GPT-4 ha ottenuto risultati impressionanti nei test professionali, come il 90\u00b0 percentile nell&#8217;esame da avvocato. Tuttavia, ci sono due problemi principali con questi risultati:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Contaminazione dei dati di addestramento: GPT-4 potrebbe aver memorizzato le soluzioni dai suoi dati di addestramento. Ad esempio, ha risolto problemi di programmazione pre-2021 ma nessuno dei problemi recenti. OpenAI ha usato un metodo superficiale e inadeguato per rilevare la contaminazione, che potrebbe non individuare problemi del test presenti nel set di addestramento con nomi e numeri modificati.<\/li>\n\n\n\n<li>Gli esami professionali non sono un modo valido per confrontare le capacit\u00e0 umane con i bot: i risultati dei benchmark non dimostrano che i modelli di linguaggio acquisiscano le competenze di ragionamento approfondito che gli umani applicano nel mondo reale. Inoltre, gli esami professionali enfatizzano la conoscenza della materia piuttosto che le abilit\u00e0 pratiche.<\/li>\n<\/ol>\n\n\n\n<p class=\"wp-block-paragraph\">Invece di concentrarsi sui benchmark, dovremmo valutare come i modelli di linguaggio possano aiutare i professionisti nel mondo reale. Studi qualitativi che valutano l&#8217;utilizzo di strumenti di intelligenza artificiale da parte dei professionisti sono pi\u00f9 utili dei confronti quantitativi tra persone e bot. Allo stesso tempo, \u00e8 importante concentrarsi sulle applicazioni pratiche di GPT-4 e sulle potenziali sfide che possono emergere.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>OpenAI ha enfatizzato le prestazioni di GPT-4 nei test di licenza professionale, ma potrebbe aver testato il modello sui dati di addestramento. Inoltre, i benchmark umani sono inadatti per valutare i bot. GPT-4 ha ottenuto risultati impressionanti nei test professionali, come il 90\u00b0 percentile nell&#8217;esame da avvocato. Tuttavia, ci sono due problemi principali con questi [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-5","post","type-post","status-publish","format-standard","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/inference.it\/index.php?rest_route=\/wp\/v2\/posts\/5","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/inference.it\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/inference.it\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/inference.it\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/inference.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=5"}],"version-history":[{"count":1,"href":"https:\/\/inference.it\/index.php?rest_route=\/wp\/v2\/posts\/5\/revisions"}],"predecessor-version":[{"id":7,"href":"https:\/\/inference.it\/index.php?rest_route=\/wp\/v2\/posts\/5\/revisions\/7"}],"wp:attachment":[{"href":"https:\/\/inference.it\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=5"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/inference.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=5"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/inference.it\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=5"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}