Wenn KI an der nächsten KI mitschreibt: Was meine neue Studie wirklich zeigt

Benjamin Metzig
15. Juni
7 Min. Lesezeit

Dramatisches Wissenschaftswelle-Cover: Eine leuchtende künstliche Intelligenz schreibt an der Blaupause einer nächsten KI, umgeben von Code, Prüfmarken und Warnsignalen.

"KI erschafft KI" klingt wie eine Schlagzeile, die schon mit dem ersten Wort zu groß wird. Sie ruft Bilder von Maschinen auf, die sich selbst entwerfen, prüfen, verbessern und irgendwann aus dem menschlichen Blickfeld laufen. Die Wirklichkeit ist nüchterner, aber gerade deshalb wichtiger: KI-Systeme helfen bereits bei Aufgaben, die zur Entwicklung neuer KI-Systeme gehören. Sie schreiben Code, suchen Fehler, testen Software, sortieren Daten, unterstützen Experimente und werden in Forschungsabläufe eingebunden.

Meine neue Studie "AI-Assisted AI Development" fragt deshalb nicht, ob künstliche Intelligenz morgen vollständig autonom ihren Nachfolger baut. Die bessere Frage lautet: Wo beschleunigt KI schon heute die Arbeit an KI, wo könnte daraus ein stärkerer Entwicklungsschub werden, und wie gut sind Forschung, Unternehmen, Staat und Öffentlichkeit darauf vorbereitet?

Kernaussagen

KI-gestützte KI-Entwicklung ist in begrenzten Formen bereits Realität: Coding-Assistenten, AutoML, Hyperparameter-Optimierung, Evaluation und Dokumentation gehören längst zur technischen Praxis.
Der Schritt von hilfreichen Werkzeugen zu agentischen Forschungsworkflows ist plausibel, aber noch nicht robust bewiesen. Benchmarks zeigen Hinweise, keine allgemeine autonome Forschungskompetenz.
Das wichtigste kurzfristige Risiko ist kein Science-Fiction-Sprung, sondern ein Tempo-Mismatch: Entwicklung kann schneller werden als Prüfung, Audit, Sicherheitsbewertung und öffentliche Kontrolle.
Rekursive Selbstverbesserung bleibt ein Szenario mit hoher möglicher Tragweite, aber unsicherer Evidenz. Sie sollte ernst genommen, nicht als Gegenwartsdiagnose verkauft werden.
Die Studie fordert bessere Messung realer AI-R&D-Automation, sichere Entwicklungspipelines, unabhängige Evaluationen, stärkere öffentliche Expertise und klare Regeln für agentische und offene Modelle.

Der falsche Zauber im Satz "KI erschafft KI"

Das Schlagwort ist verführerisch, weil es eine komplizierte Entwicklung in eine einzige Bewegung presst: eine KI baut die nächste. In der Studie wird diese Bewegung bewusst aufgebrochen. "AI-assisted AI development" meint nicht einen magischen Selbstbau, sondern die Nutzung von KI-Systemen in Aufgaben, die zur Entwicklung leistungsfähigerer KI beitragen: Programmierung, Debugging, Testen, Datenaufbereitung, Literaturarbeit, Experimentplanung, Modellbewertung, Architektur- oder Parameter-Suche, Dokumentation und Workflow-Steuerung.

Damit rückt die Frage von der Fantasie in die Werkstatt. Schon heute sind KI-Coding-Assistenten in Softwareteams angekommen. Der Forschungsstand ist allerdings gemischt: Studien zeigen Produktivitätsgewinne in bestimmten Umgebungen, aber auch Grenzen, Review-Aufwand und Fälle, in denen erfahrene Entwicklerinnen und Entwickler nicht schneller werden. Genau diese Spannung kennt Wissenschaftswelle bereits aus dem Beitrag wenn KI Bugs fixt: Automatisierung verschiebt Arbeit oft vom Schreiben zum Prüfen.

Die Studie selbst ist unter dem DOI 10.5281/zenodo.20687416 angelegt. Sie ist ein explorativer Report, keine systematische Meta-Analyse. Das ist wichtig, weil das Thema schnell zu stark behauptet wird. Öffentliche Belege reichen aus, um begrenzte KI-Unterstützung in Software- und ML-Arbeit ernst zu nehmen. Sie reichen nicht aus, um autonome, allgemeine KI-Forschung als bewiesene Gegenwart zu behandeln.

Studie als PDF herunterladen:

Die Studie sortiert nach Evidenz, nicht nach Aufregung

Der zentrale Wert der Studie liegt in ihrer Sortierung. Sie unterscheidet etablierte Befunde, gut gestützte Annahmen, indikative Hinweise, szenariobasierte Projektionen, spekulative Behauptungen und offene Fragen. Diese Einteilung klingt trocken, verhindert aber den typischen Kurzschluss: Ein beeindruckender Benchmark ist noch kein Beweis dafür, dass ein KI-System in einer echten Forschungsorganisation zuverlässig neue Modelle entwickelt.

Bei Coding-Aufgaben ist die Evidenz am stärksten. Der Benchmark SWE-bench hat die Debatte aus kleinen Programmieraufgaben in realistischere GitHub-Issues verschoben. Das ist näher an echter Softwarearbeit, aber immer noch nicht identisch mit Forschung in großen, proprietären KI-Labors. In der Maschinenlern-Praxis sind AutoML, Hyperparameter-Optimierung und Architektur-Suche ebenfalls keine Zukunftsmusik. Sie automatisieren Teile der Modellentwicklung, aber innerhalb definierter Suchräume, Daten und Zielgrößen.

Darüber liegt eine unsicherere Schicht: agentische Systeme, die mehrere Schritte planen, Tools aufrufen, Experimente laufen lassen und Ergebnisse auswerten. MLE-bench prüft solche Machine-Learning-Engineering-Aufgaben. Andere Forschungsumgebungen testen, ob Systeme Paper replizieren, lange Aufgaben abschließen oder Forschungsabläufe koordinieren können. Das ist relevant, weil KI-Entwicklung nicht aus einem einzelnen Prompt besteht. Sie ist eine Kette aus Hypothesen, Code, Daten, Tests, Fehlschlägen, Interpretation und Entscheidung.

Diese Kette enthält Arbeit und Urteil. Arbeit lässt sich leichter automatisieren: Code schreiben, Dateien sortieren, Experimente starten, Messwerte vergleichen. Urteil ist schwieriger: Welche Frage lohnt sich? Welcher Fehler ist belanglos, welcher verrät ein neues Problem? Welches Ergebnis ist robust, welches nur Benchmark-Glück? Der Wissenschaftswelle-Text über automatische Hypothesensuche beschreibt genau diese Grenze: Ein Muster ist noch keine Erklärung.

Vier Szenarien statt einer Prognose

Die Studie entwickelt vier Szenarien. Sie sind keine Vorhersagen, sondern Denkwerkzeuge.

Erstens: heutige KI-Assistenz. KI-Systeme helfen bei begrenzten Aufgaben in Software- und ML-Entwicklung. Menschen entscheiden weiterhin über Forschungsfragen, Versuchsaufbau, Interpretation, Sicherheitsbewertung und Veröffentlichung. Dieses Szenario ist bereits beobachtbar.

Zweitens: nahe agentische Workflow-Beschleunigung. KI-Agenten könnten größere Arbeitspakete übernehmen: Codebasis lesen, Tests erzeugen, Trainingsjobs vorbereiten, Literatur durchsuchen, Ergebnisse vergleichen und nächste Schritte vorschlagen. Die Evidenz dafür ist stärker als bloße Spekulation, aber noch nicht stark genug für die Behauptung allgemeiner Forschungsautonomie. Die Arbeit von Chan et al. zur Messung von AI-R&D-Automation ist hier entscheidend, weil sie direkte Messgrößen fordert statt nur Ersatzsignale.

Drittens: mittelfristige skalierte R&D-Beschleunigung. In diesem Szenario bauen gut ausgestattete Organisationen KI-Agenten tief in ihre Forschungsabläufe ein. Viele spezialisierte Systeme schreiben Code, starten Experimente, prüfen Modelle, verwalten Infrastruktur und dokumentieren Ergebnisse. Entwicklungsschritte werden kürzer, aber nicht überall gleich. Wer Rechenleistung, Cloud-Infrastruktur, Daten, Kapital und Talent kontrolliert, profitiert stärker.

Viertens: selbstverstärkende KI-Entwicklung. Hier würden KI-Systeme nicht nur helfen, sondern die Werkzeuge, Modelle, Evaluationsverfahren und Forschungsprozesse verbessern, die wiederum zum Bau stärkerer KI genutzt werden. Das ist das Szenario, das in öffentlichen Debatten oft gemeint ist, wenn von rekursiver Selbstverbesserung die Rede ist. Die Studie behandelt es als hochwirksam, aber nicht als bewiesenen Verlauf.

Gerade diese Abstufung ist politisch nützlich. Sie verhindert zwei Fehler zugleich: Entwarnung, weil vollautonome Selbstverbesserung nicht bewiesen ist; und Übertreibung, weil heutige Automatisierung noch nicht alles kann. Das relevante Feld liegt dazwischen.

Das eigentliche Risiko liegt im Takt

Wenn KI Forschung und Entwicklung beschleunigt, entsteht nicht automatisch bessere Wissenschaft. Es kann auch mehr Output entstehen, der geprüft, reproduziert, gesichert und eingeordnet werden muss. Die Studie nennt deshalb Qualitäts- und Zuverlässigkeitsprobleme als unmittelbares Risiko. Ein automatisierter Forschungsworkflow kann Fehler schneller vervielfältigen, wenn Review, Tests und Reproduzierbarkeit nicht mitwachsen.

Ein zweites Risiko betrifft die AI-R&D-Pipeline selbst. KI-Entwicklung läuft über Code-Repositories, Datensätze, Evaluationsharnesses, Modellgewichte, Cloud-Zugänge, interne Dokumentation und Experiment-Infrastruktur. Agentische Systeme mit zu breiten Rechten können dort echte Angriffsflächen schaffen. Das Thema berührt nicht nur klassische Cybersicherheit, sondern auch die Frage, welche Werkzeuge ein Modell aufrufen darf, welche Artefakte es verändern kann und welche Protokolle später überprüfbar bleiben.

Genau an dieser Stelle wird Auditierbarkeit praktisch. Das NIST AI Risk Management Framework liefert einen allgemeinen Rahmen für KI-Risiken, aber beschleunigte Forschungsworkflows brauchen zusätzlich sehr konkrete Nachweise: Was hat das System getan? Welche menschlichen Eingriffe gab es? Welche Experimente sind fehlgeschlagen? Welche Daten wurden genutzt? Welche Sicherheitsvorfälle traten auf? Wissenschaftswelle hat bei KI-Audits schon gezeigt, warum Kontrolle nicht mit dem Prüfbericht endet.

Drittens können Benchmarks irreführen. Wer auf sichtbare Bestenlisten optimiert, misst unter Umständen nicht Forschungskompetenz, sondern Testanpassung. Das ist bei AI-assisted AI development besonders heikel, weil Benchmark-Fortschritt leicht wie autonome Forschung wirkt. Die Studie fordert daher dynamischere Aufgaben, Kontaminationskontrollen, Reproduzierbarkeit und Messungen von Forschungsurteil.

Viertens droht Konzentration. Wenn AI-R&D-Beschleunigung stark von Rechenzentren, Chips, Cloud-Verträgen, Kapital und proprietären Daten abhängt, werden nicht alle schneller. Die Macht verschiebt sich zu Akteuren, die Infrastruktur kontrollieren. Offene Modelle können dem etwas entgegensetzen, erhöhen aber zugleich die Frage, wie leistungsfähige agentische Werkzeuge verbreitet, evaluiert und verantwortet werden.

Governance darf nicht nur auf das fertige Modell schauen

Viele KI-Debatten konzentrieren sich auf das veröffentlichte System: Was kann das Modell? Welche Risiken entstehen bei der Nutzung? Welche Regeln gelten für Deployment? AI-assisted AI development verschiebt den Blick nach vorne, in die Werkstatt. Die relevante Frage lautet dann auch: Wie wurde das Modell gebaut, von wem oder was wurde es getestet, welche automatisierten Prozesse hatten Zugriff auf sensible Systeme und wie schnell konnte unabhängige Prüfung mithalten?

Der europäische AI Act schafft einen Rechtsrahmen für KI-Systeme, doch Rechtsrahmen und reale technische Prüfkapazität sind nicht dasselbe. Die Studie betont deshalb: Institutionen wie AI Safety oder AI Security Institutes sind wichtig, aber ihre bloße Existenz beweist noch keine Bereitschaft für beschleunigte Entwicklungszyklen. Entscheidend sind Zugang, Tempo, technische Tiefe, Unabhängigkeit und internationale Koordination.

Auch Unternehmensframeworks sind nur ein Teil der Antwort. Das OpenAI Preparedness Framework zeigt beispielhaft, wie Frontier-Labs über gefährliche Fähigkeiten und Einsatzschwellen nachdenken. Solche Rahmen sind relevant, aber die Studie warnt vor einer strukturellen Lücke: Viele Daten über tatsächliche Produktivität, interne Agenten, private Evaluationssuites und Sicherheitsvorfälle in Frontier-Labs sind öffentlich nicht zugänglich.

Für die Öffentlichkeit ist das kein Detail. Wenn Entwicklung schneller wird, aber Evidenz über Entwicklung privat bleibt, entsteht eine demokratische Asymmetrie. Die Gesellschaft soll Risiken tragen, sieht aber oft nur fertige Produkte, ausgewählte Benchmarks und freiwillige Berichte. Dokumentation wie Model Cards und Datenblätter hilft, wie der Beitrag über Transparenz bei KI-Systemen zeigt. Bei agentischen Forschungsworkflows braucht es zusätzlich Logs, Prüfzugänge und klare Verantwortlichkeiten entlang der gesamten Entwicklungskette.

Eine Kennzahl für die unbequeme Mitte

Die Studie schlägt eine Messidee vor: eine Autonomy Ratio per Research Task, kurz ART. Gemeint ist keine magische Gesamtzahl für "wie autonom eine KI ist", sondern eine Aufgabenfamilie. Für eine definierte Forschungsaufgabe würde gemessen, welcher Anteil der validierten Schritte von einem KI-System ohne substanzielle menschliche Intervention erledigt wurde.

Eine solche Kennzahl wäre nur sinnvoll, wenn sie immer mit Kontext berichtet wird: Aufgabe, Schwierigkeit, menschliche Eingriffe, Fehlversuche, Rechenaufwand, Review-Zeit, Sicherheitsvorfälle, Reproduzierbarkeit und tatsächlicher Forschungsbeitrag. Das ist sperriger als eine Schlagzeile, aber viel ehrlicher. Es trennt scheinbare Autonomie von belastbarer Leistung.

Für Forschung und Politik wäre das wertvoll. Man könnte unterscheiden, ob KI nur mehr Text und Code erzeugt, ob sie echte Entwicklungszyklen verkürzt oder ob sie sogar sicherheitsrelevante Arbeit beschleunigt. Ohne solche Messung bleiben Debatten zu leicht in zwei schlechten Extremen hängen: "alles Hype" oder "alles Kontrollverlust".

Warum die Studie öffentlich gelesen werden sollte

Die Studie ist auf Englisch geschrieben, weil die Fachdebatte international geführt wird. Ihre Grundfrage betrifft aber auch eine breite deutschsprachige Öffentlichkeit. Wenn KI-Systeme die Entwicklung neuer KI beschleunigen, geht es nicht nur um Labore und Firmen. Es geht um Wettbewerb, öffentliche Forschung, digitale Souveränität, Sicherheitsprüfungen, offene Modelle, staatliche Kompetenz und die Frage, wer die Entwicklungsgeschwindigkeit überhaupt noch unabhängig beurteilen kann.

Open Science ist dabei kein Nebenmotiv. Je mehr KI-Forschung hinter privaten Schnittstellen, Cloud-Zugängen und internen Workflows verschwindet, desto wichtiger werden veröffentlichte Studien, nachvollziehbare Benchmarks und prüfbare Methoden. Wissenschaftswelle hat im Beitrag über Open Science beschrieben, warum frühe Öffentlichkeit Forschung nicht automatisch besser macht, aber prüfbarer. Genau diese Prüfbarkeit wird bei KI-gestützter KI-Entwicklung zu einer Sicherheitsfrage.

Der Bericht kommt deshalb zu einer mittleren, aber anspruchsvollen Schlussfolgerung. Wir müssen nicht so tun, als sei rekursive Selbstverbesserung bereits bewiesen. Wir sollten aber auch nicht warten, bis sie zweifelsfrei demonstriert ist. Die nächsten wichtigen Fragen liegen näher: Wie viel AI-R&D-Automation findet wirklich statt? Wer misst sie? Wer darf prüfen? Welche Systeme haben Zugriff auf welche Forschungswerkzeuge? Welche Benchmarks täuschen mehr Sicherheit vor, als sie liefern? Und welche öffentlichen Institutionen können technisch mithalten?

Die Antwort auf "Kann KI KI bauen?" ist also keine einfache Ja-Nein-Antwort. KI kann heute Teile der Arbeit übernehmen, die zum Bau von KI gehört. Ob daraus starke Beschleunigung wird, hängt an Zuverlässigkeit, Integration, Rechenleistung, Organisation, Sicherheitskultur und Kontrolle. Genau dort entscheidet sich, ob Automatisierung zu besserer Forschung führt - oder zu schnellerer Unsicherheit.

Autorenprofil

Benjamin Metzig ist Gründer, Autor und redaktionell Verantwortlicher von Wissenschaftswelle.de. Wissenschaftswelle ist ein persönlich geführtes redaktionelles Wissensprojekt, das komplexe Themen aus unterschiedlichen Fachbereichen sorgfältig recherchiert, strukturiert und verständlich aufbereitet. Moderne Recherche-, Analyse- und KI-Werkzeuge dienen dabei als Unterstützung, während Auswahl, Einordnung, Ton, Quellenbewertung und Veröffentlichung redaktionell bei Benjamin Metzig verantwortet bleiben. Mehr zum Profil: Autorenprofil von Benjamin Metzig.

Instagram

Facebook

Weiterlesen

1 Kommentar

Mit 0 von 5 Sternen bewertet.

Noch keine Ratings

evovexufix02

15. Juli

•

Ich lese, dass der Inhalt bei jedem Schritt spekulative Überschreitung vermeidet. Die logische Kette bleibt ohne unbegründete Sprünge intakt. Die Website liefert weitere Belege zur Unterstützung des Hauptarguments. Verhaltenstrends werden in interaktiven Plattformkontexten eingerahmt.