È innegabile che l'intelligenza artificiale sia ancora piuttosto inaffidabile, ma si spera che almeno le sue valutazioni siano accurate. La scorsa settimana, tuttavia, Google avrebbe istruito i lavoratori a contratto che hanno valutato Gemini a non saltare le richieste, indipendentemente dalla loro competenza, come riporta TechCrunch, sulla base di linee guida interne di cui ha preso visione. Google ha rilasciato un'anteprima di Gemini 2.0 all'inizio del mese.
Google GlobalLogic, una società di outsourcing i cui appaltatori valutano i risultati generati dall'intelligenza artificiale, avrebbe dato istruzioni ai revisori di non saltare le richieste che esulano dalla loro area di competenza. In precedenza, gli appaltatori potevano saltare qualsiasi richiesta che esulasse dalla loro area di competenza, ad esempio chiedere a un medico informazioni sulle leggi. Le linee guida recitano: "Se non si dispone delle competenze necessarie (ad esempio, programmazione, matematica) per rispondere a questa richiesta, si prega di saltare questo compito".
Ora, secondo quanto riferito, gli appaltatori sono stati istruiti a "non saltare i prompt che richiedono competenze specialistiche" e a "valutare le parti del prompt che si comprendono", con l'avvertenza che non si tratta di un'area in cui si è esperti. Sembra che gli appaltatori possano ora saltare i prompt solo se manca un'ampia porzione di informazioni o se contengono contenuti dannosi che richiedono moduli di consenso specifici per essere valutati.
Un appaltatore ha reagito in modo appropriato alle modifiche dicendo: "Pensavo che lo scopo del salto fosse quello di aumentare l'accuratezza lasciando che qualcuno lo facesse meglio?
Poco dopo la pubblicazione di questo articolo, Google ha dichiarato a Engadget: "I recensori svolgono una serie di compiti su diversi prodotti e piattaforme di Google. Forniscono un feedback prezioso non solo sul contenuto delle risposte, ma anche sullo stile, sul formato e su altri fattori. Le valutazioni che forniscono non influenzano direttamente i nostri algoritmi, ma collettivamente sono un utile punto di dati che possiamo utilizzare per misurare il buon funzionamento dei nostri sistemi".
Un portavoce di Google ha anche sottolineato che il nuovo linguaggio potrebbe non comportare necessariamente un cambiamento nell'accuratezza di Gemini, in quanto ai valutatori verrà chiesto di valutare specificamente le parti dei messaggi che comprendono. Questo potrebbe fornire un feedback su aspetti come i problemi di formattazione, anche se il valutatore non ha competenze specifiche in quell'area. L'azienda ha anche sottolineato che questa settimana è stato rilasciato il FACTS Grounding Benchmark, che può essere utilizzato per verificare le risposte di LLM per garantire che siano "non solo corrette dal punto di vista fattuale in relazione all'input dato, ma anche sufficientemente dettagliate da fornire risposte soddisfacenti alle domande degli utenti".