Der Textgenerator ChatGPT nutzte 300 Mrd. Wörter als „Trainingsdaten“ (für GPT-3.5). Je mehr Daten in künstliche neuronale Netze eingespeist werden, desto leistungsfähiger die darauf beruhende generative KI. Web-Scraping-Technologien extrahieren Daten automatisiert aus Internetquellen und greifen dabei auch auf urheberrechtlich relevante Informationen zu. Bereits das Sammeln und Einspeisen von Trainingsdaten in KI-Systeme sind urheberrechtlich relevante Vorgänge, die es einzuordnen gilt. Das gilt ebenso für die durch generative KI erzeugten Inhalte. Nicht für alle Fragen hält das Urheberrecht - welches auf menschliche Schöpfungen abstellt - eindeutige Antworten bereit.