Google wird vorgeworfen, für die sachliche Überprüfung der KI-Antworten von Gemini Anfänger einzusetzen.

Es ist unbestreitbar, dass KI immer noch ziemlich unzuverlässig ist, aber man sollte hoffen, dass zumindest ihre Bewertungen korrekt sind. Letzte Woche soll Google jedoch Vertragsarbeiter, die Gemini bewerteten, angewiesen haben, keine Eingabeaufforderungen zu überspringen, unabhängig von ihrem Fachwissen, berichtet TechCrunch auf der Grundlage interner Richtlinien, die es eingesehen hat. Google veröffentlichte Anfang des Monats eine Vorschau auf Gemini 2.0.

Berichten zufolge hat Google GlobalLogic, ein Outsourcing-Unternehmen, dessen Auftragnehmer KI-generierte Ergebnisse bewerten, die Prüfer angewiesen, keine Eingabeaufforderungen zu überspringen, die außerhalb ihres Fachgebiets liegen. Zuvor konnten Auftragnehmer alle Eingabeaufforderungen überspringen, die weit außerhalb ihres Fachgebiets lagen – beispielsweise die Frage an einen Arzt nach Gesetzen. In den Richtlinien hieß es: „Wenn Sie nicht über die erforderlichen Fachkenntnisse (z. B. Programmierung, Mathematik) verfügen, um diese Eingabeaufforderung zu bewerten, überspringen Sie diese Aufgabe bitte“.

Nun wurden die Auftragnehmer angeblich angewiesen, „keine Eingabeaufforderungen zu überspringen, die spezielle Fachkenntnisse erfordern“, und „die Teile der Eingabeaufforderung zu bewerten, die Sie verstehen“, mit einer Anmerkung, dass es sich nicht um einen Bereich handelt, in dem sie über Fachkenntnisse verfügen. Es scheint, dass Auftragnehmer nun Eingabeaufforderungen nur dann überspringen können, wenn ein großer Teil der Informationen fehlt oder wenn sie schädliche Inhalte enthalten, für deren Bewertung spezielle Einwilligungserklärungen erforderlich sind.

Ein Auftragnehmer reagierte auf die Änderungen treffend mit den Worten: “Ich dachte, der Sinn des Überspringens sei es, die Genauigkeit zu erhöhen, indem man es jemandem überlässt, der es besser kann?

Kurz nach der ersten Veröffentlichung dieses Artikels erklärte Google gegenüber Engadget: „Bewerter führen eine Vielzahl von Aufgaben in vielen verschiedenen Google-Produkten und -Plattformen aus. Sie geben wertvolles Feedback nicht nur zum Inhalt der Antworten, sondern auch zu Stil, Format und anderen Faktoren. Die von ihnen abgegebenen Bewertungen haben keinen direkten Einfluss auf unsere Algorithmen, aber in ihrer Gesamtheit sind sie ein nützlicher Datenpunkt, an dem wir messen können, wie gut unsere Systeme funktionieren.“

Ein Google-Sprecher wies auch darauf hin, dass die neue Sprache nicht notwendigerweise zu einer Änderung der Genauigkeit von Gemini führen muss, da die Bewerter gebeten werden, speziell die Teile der Eingabeaufforderungen zu bewerten, die sie verstehen. Dies könnte Rückmeldungen zu Dingen wie Formatierungsproblemen geben, auch wenn der Bewerter keine spezifische Expertise in diesem Bereich hat. Das Unternehmen wies auch auf die Veröffentlichung des FACTS Grounding Benchmark in dieser Woche hin, mit dem LLM-Antworten überprüft werden können, um sicherzustellen, dass sie „nicht nur sachlich korrekt in Bezug auf die gegebenen Eingaben sind, sondern auch detailliert genug, um zufriedenstellende Antworten auf Benutzeranfragen zu geben“.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert