Im 21. Jahrhundert gibt es eine neue Art von Goldschürfern. Diese modernen Schatzsucher sind jedoch nicht auf der Jagd nach glänzenden Nuggets, sondern nach wertvollen Datenschätzen in den Tiefen des Internets. Genau diese Strategie scheinen einige der größten Technologieunternehmen der Welt verfolgt zu haben – und zwar in den scheinbar unendlichen Weiten von YouTube. Die digitale Plattform hat sich als reichhaltige Quelle für Daten erwiesen, die von diesen Unternehmen genutzt werden, um ihre Technologien zu verbessern und zu entwickeln. Eine brisante Untersuchung von Proof News hat ans Licht gebracht, was viele befürchtet, aber bisher niemand bewiesen hatte: Die Giganten der Tech-Branche haben sich ungefragt an den Inhalten von YouTube-Creatorinnen bedient, um ihre KI-Modelle zu trainieren.

Die wichtigsten Fakten im Überblick:

  1. Umfang der Datennutzung:
    • Untertitel von 173.536 YouTube-Videos wurden für KI-Training verwendet.
    • Betroffen sind mehr als 48.000 YouTube-Kanäle.
    • Sowohl große Bildungskanäle wie Khan Academy als auch populäre YouTuber*innen wie MrBeast und PewDiePie sind involviert.
  2. Beteiligte Unternehmen:
    • Zu den Nutzer*innen dieser Daten gehören Schwergewichte wie Anthropic, Nvidia, Apple und Salesforce.
    • Die Daten stammen aus einem Datensatz namens "YouTube Subtitles", der Teil einer größeren Sammlung "The Pile" ist.
  3. Mangelnde Transparenz:
    • Die meisten Content-Creator*innen wussten nichts von dieser Nutzung ihrer Inhalte.
    • David Pakman, Host der "The David Pakman Show" mit über 2 Millionen Abonnent*innen, äußerte sich schockiert: "Niemand ist auf mich zugekommen und hat gesagt: 'Wir würden das gerne nutzen'."
  4. Ethische Bedenken:
    • Dave Wiskus, CEO des Streaming-Dienstes Nebula, bezeichnet die Praxis als "Diebstahl" und "respektlos".
    • Es wurden sogar Inhalte von bereits gelöschten Videos und Kanälen für das Training genutzt.
  5. Reaktionen der Unternehmen:
    • Anthropic bestätigte die Nutzung, betonte aber, es handle sich um einen "sehr kleinen Teil" der YouTube-Untertitel.
    • Salesforce verwies darauf, der Datensatz sei "öffentlich verfügbar" gewesen.
  6. Rechtliche Grauzone:
    • YouTubes Nutzungsbedingungen verbieten eigentlich das Abgreifen von Daten durch "automatisierte Mittel".
    • Dennoch haben über 2.000 GitHub-Nutzer*innen den Code zur Extraktion der Untertitel unterstützt.

Diese Enthüllungen werfen ein Schlaglicht auf die oft undurchsichtigen Praktiken im Bereich des KI-Trainings. Sie zeigen, wie der Hunger nach Daten die ethischen Grenzen verschiebt und wie schwierig es für Creator*innen ist, die Kontrolle über ihre Inhalte zu behalten.

Wie können Creator:innen ihre Rechte schützen, wenn ihre Inhalte Teil eines größeren Datenpools werden?

Ein besonders brisanter Aspekt dieses Skandals ist die Tatsache, dass auch Inhalte von gelöschten Videos und sogar ganzen Kanälen in den Datensatz aufgenommen wurden. Über 12.000 Videos, die mittlerweile nicht mehr auf YouTube verfügbar sind, finden sich in der Sammlung wieder. Dies wirft ernsthafte Fragen zum Recht auf Vergessen und zur Kontrolle über die eigenen digitalen Spuren auf.

Die Reaktionen der betroffenen Unternehmen fallen unterschiedlich aus. Während einige wie Anthropic die Nutzung des Datensatzes bestätigen, verweisen andere auf die öffentliche Verfügbarkeit der Daten oder verweigern jegliche Stellungnahme. Diese Haltung stößt bei vielen Creator*innen auf Unverständnis und Empörung.

Ein Beispiel für die Komplexität der Situation ist der Fall des Kanals "Einstein Parrot". Die Betreuerin des sprechenden Papageis, Marcia, reagierte zunächst amüsiert auf die Nachricht, dass die Worte ihres Vogels in KI-Modelle eingeflossen sind. Doch schnell wurde ihr die mögliche Tragweite bewusst: "Wer würde die Stimme eines Papageis nutzen wollen? Aber dann wurde mir klar, dass er sehr gut spricht. Er spricht mit meiner Stimme. Also imitiert er mich, und dann imitiert die KI den Papagei."

Diese Verkettung von Imitation wirft ein Schlaglicht auf die ethischen Grauzonen der KI-Entwicklung. Wo beginnt und endet die Verantwortung für die Nutzung von Daten? Wie können Creator:innen ihre Rechte schützen, wenn ihre Inhalte Teil eines größeren Datenpools werden?

Die Debatte um die Nutzung von YouTube-Untertiteln für KI-Training berührt fundamentale Fragen des digitalen Zeitalters: Wem gehören unsere online geteilten Inhalte? Wie können wir Innovation fördern und gleichzeitig die Rechte von Kreativen schützen? Und welche Rolle spielen die großen Plattformen wie YouTube in diesem Spannungsfeld?

Während die rechtlichen und ethischen Diskussionen weitergehen, bleibt eines klar: Der Hunger der KI nach Daten wird nicht nachlassen. Es liegt an uns allen - Unternehmen, Creator:innen und Nutzer:innen - gemeinsam Wege zu finden, wie wir die Chancen der KI nutzen können, ohne dabei grundlegende Rechte und ethische Prinzipien zu opfern.

Quelle: WIRED


Share this article
The link has been copied!