Geschichte der IQ-Tests: Warum eine Messung zur Machtfrage wurde

Benjamin Metzig
20. Feb.
6 Min. Lesezeit

Aktualisiert: 14. Mai

Ein historischer Intelligenztestbogen von Binet und Simon liegt auf einem Schreibtisch, dahinter sitzen Kinder in einem Klassenzimmer und Rekruten in einer Prüfungshalle, flankiert von Maßstäben, Diagrammen und Verwaltungslisten.

Ein Schulkind soll in Paris Anfang des 20. Jahrhunderts nicht ausgesiebt, sondern besser verstanden werden. Aus dieser pädagogischen Situation entsteht 1905 die Skala von Alfred Binet und Théodore Simon. Ihr Zweck ist zunächst erstaunlich nüchtern: Kinder finden, die im Unterricht zusätzliche Unterstützung brauchen. Wer heute „IQ-Test“ hört, denkt dagegen oft an Ranglisten, Begabungshierarchien, Elitezugänge, vielleicht sogar an vermeintlich naturgegebene Unterschiede zwischen Gruppen. Dazwischen liegt keine kleine methodische Verfeinerung, sondern eine politische Verschiebung.

Die Geschichte der IQ-Tests erzählt, wie aus einem Diagnosewerkzeug ein Machtinstrument werden konnte. Nicht weil Zahlen von selbst autoritär wären, sondern weil Institutionen mit ihnen entscheiden: über Förderung, Normalität, Zutrauen, Zugang und Ausschluss.

Am Anfang stand keine Schicksalszahl

Die frühen Binet-Simon-Tests entstanden im Umfeld der französischen Schulpflicht und der Frage, wie Schulen mit Kindern umgehen sollten, die im Regelunterricht nicht mitkamen. In den historischen Darstellungen der National Academies ist dieser Ursprung klar: Der Test war als praktisches Hilfsmittel gedacht, nicht als letzte Wahrheit über den Wert eines Menschen.

Auch die überlieferten Fassungen bei der Wellcome Collection zeigen diesen pädagogischen Kontext. Binet suchte keine metaphysische Essenz namens „Intelligenz“, die man wie Körpergröße abliest. Er suchte Anzeichen dafür, wer im Bildungssystem Hilfe braucht.

Später wurde oft vergessen, wie vorsichtig dieser Anfang war. Sekundärdarstellungen zur Testgeschichte halten fest, dass Binet ausdrücklich gegen die Vorstellung anschrieb, ein Testwert bilde eine fixe, unveränderliche Natur des Kindes ab. Das ist wichtig, weil fast die gesamte spätere Machtgeschichte der IQ-Tests genau aus dieser Umdeutung entsteht: aus einer pädagogischen Orientierungshilfe wird scheinbar ein objektiver Blick ins Innere.

Merksatz: Der historische Kernfehler

Ein Test kann Verhalten unter bestimmten Bedingungen ordnen. Er kann daraus keine zeitlose Essenz eines Menschen machen.

In den USA wurde aus Diagnose sehr schnell Sortierung

Als die Binet-Simon-Skala in die USA gelangte, änderte sich nicht nur die Sprache, sondern die soziale Funktion. Übersetzer, Adaptoren und Popularisierer wie Henry Goddard, Lewis Terman und Robert Yerkes arbeiteten in einem Klima, in dem Vererbung, soziale Rangordnung und „wissenschaftliche“ Klassifikation enormen kulturellen Einfluss hatten.

Mit Lewis Termans Stanford-Binet-Version, dokumentiert etwa bei der Library of Congress, wurde Testung in den USA professionalisiert und verbreitet. Gleichzeitig verschob sich die Grundannahme. Aus dem französischen Förderinstrument wurde in der amerikanischen Rezeption oft ein Werkzeug zur Messung einer festen, weitgehend erblichen Fähigkeit.

Diese Verschiebung hatte Konsequenzen. Wer Testergebnisse als Ausdruck angeborener Substanz liest, bewertet nicht mehr nur eine aktuelle Leistungssituation. Er macht aus einer Momentaufnahme eine soziale Prognose und aus einer Prognose schnell ein Urteil über Lebenswege. Genau an dieser Stelle wird Messung zur Machtfrage.

Der Staat entdeckt die Nützlichkeit der Zahl

Der eigentliche Beschleuniger war nicht zuerst die Schule, sondern der Verwaltungsapparat. Im Ersten Weltkrieg testete das US-Militär mit Army Alpha und Army Beta mehr als 1,7 Millionen Rekruten. Das war kein Nebenschauplatz, sondern ein historischer Wendepunkt. Aus individueller Diagnostik wurde Massenklassifikation.

Die Fairness-Rückblicke zur Testgeschichte vermerken dabei ein Problem, das heute fast verblüffend modern klingt: Alpha und Beta maßen nicht einfach dasselbe in zwei hübschen Varianten. Der eine Test setzte schriftliches Englisch und bestimmte Kulturtechniken voraus, der andere sollte nonverbal ergänzen, war aber keineswegs ein neutraler Blick auf „reine Fähigkeit“. Faire Vergleiche waren schon damals schwierig. Trotzdem wurden aus solchen Daten harte Aussagen über Menschen und Gruppen abgeleitet.

In diesem Moment verbindet sich psychologische Testung mit genau dem, was im Beitrag Statistik und Staat: Wie Zählung, Vermessung und Verwaltung Macht organisieren beschrieben wird: Zahlen werden nicht bloß erhoben, sondern in Verwaltungslogik übersetzt. Wer viele Menschen steuern, einteilen und vergleichen will, liebt standardisierte Kennzahlen. Sie machen Komplexität handhabbar. Sie machen sie aber auch gefährlich verführerisch.

Wo Sprache, Bildung und Herkunft plötzlich wie Natur aussehen

Die historische Sprengkraft der frühen IQ-Tests lag nicht nur in den Tests selbst, sondern in ihrer Überinterpretation. Viele Rekruten und Einwanderer beherrschten das Englische schlecht oder waren in anderen Schulsystemen sozialisiert. Genau das hätte bei jeder seriösen Auswertung im Zentrum stehen müssen. Stattdessen wurden Unterschiede oft so behandelt, als läsen die Tests direkt angeborene Rangordnungen aus.

Carl Brigham machte aus den Armeedaten ein berüchtigtes Beispiel dafür. In späteren Rückblicken zur Testfairness wird festgehalten, wie diese Daten genutzt wurden, um Gruppenhierarchien zu behaupten und politische Schlüsse über Einwanderung zu ziehen. Aus Messung wurde Legitimationsmaterial.

Hier hilft der Blick auf Scheinkorrelationen entlarven: Warum Daten uns so leicht reinlegen. Denn genau das passierte historisch in großem Maßstab: Man sah Unterschiede in Testergebnissen und behandelte sie nicht als Produkt vieler überlappender Faktoren, sondern als Beweis einer tieferen biologischen Wahrheit. Sprache, Armut, Schulzugang, Testformat, Stress und kulturelle Vertrautheit verschwanden hinter einer Zahl. Korrelation wurde zum Naturgesetz hochfantasiert.

Eine kurze Chronologie des Kipppunkts

1905: Binet und Simon veröffentlichen ihre Skala · Warum sie wichtig ist: Testung als pädagogisches Diagnosewerkzeug
1910er: US-Adaptionen und Stanford-Binet · Warum sie wichtig ist: Verschiebung zur festen Fähigkeitsmessung
1917–1918: Army Alpha und Beta · Warum sie wichtig ist: Massenhafte Klassifikation durch den Staat
1920er: Armeedaten werden politisch aufgeladen · Warum sie wichtig ist: Testwerte stützen Einwanderungs- und Rangordnungsdebatten
Spätes 20. Jahrhundert bis heute: Fairness-, Bias- und Validitätsdebatten · Warum sie wichtig ist: Der Testwert verliert den Anspruch auf unschuldige Neutralität

Eugenik brauchte keine schlechten Tests. Sie brauchte überdehnte Tests.

Ein Missverständnis ist bequem, aber falsch: Nicht erst methodisch schlechte Tests wurden politisch gefährlich. Gefährlich wurde schon der Anspruch, ein einzelner Wert könne die legitime Grundlage für weitreichende Urteile über Menschen und Bevölkerungen liefern.

Frühe Intelligenztests passten perfekt in eine Zeit, in der viele Eliten an biologische Rangordnungen glaubten. Die Zahl verlieh alten Vorurteilen einen Anschein technischer Nüchternheit. Wer vorher soziale Abwertung bloß behauptete, konnte sie nun vermessen. Genau deshalb verbindet sich die Geschichte der IQ-Tests so eng mit Eugenik, Grenzregimen und Ausleselogiken.

Das bedeutet nicht, dass jede Intelligenzdiagnostik eugenisch ist. Es bedeutet aber, dass die Geschichte dieser Verfahren zeigt, wie schnell ein nützliches Instrument in eine falsche politische Grammatik eingespannt werden kann. Ein Testwert wird dann nicht mehr als begrenzte Information gelesen, sondern als moralisch und administrativ verwertbare Wahrheit.

Das Problem ist nicht nur Bias im Item. Das Problem ist die Macht des Einsatzes.

Heute wird bei Testkritik oft sofort an sprachliche Verzerrungen, kulturell schiefe Aufgaben oder unfaire Normgruppen gedacht. Das ist wichtig, aber zu schmal. Die größere Frage lautet: Was darf mit dem Ergebnis geschehen?

Die National Academies beschreiben deutlich, dass Hochrisikoentscheidungen nicht auf vereinfachte Einzelscores reduziert werden sollten. Moderne Testpraxis betont Validität, Mehrdimensionalität und faire Anwendung. Anders gesagt: Nicht jeder diagnostische Zweck rechtfertigt dieselbe Form von Testung, und nicht jede Testung rechtfertigt dieselbe Form von Konsequenz.

Das ist derselbe Denkfehler, der auch bei Bildungsdebatten immer wieder auftaucht. Zentralabitur klingt nach Gerechtigkeit. Aber Fairness beginnt viel früher zeigt, dass gleiche Prüfungen nicht automatisch faire Bedingungen schaffen. Für IQ-Tests gilt das in verschärfter Form. Eine standardisierte Aufgabe kann formal identisch sein und dennoch ungleiche Voraussetzungen, Spracherfahrungen, Stressniveaus und Kontextkenntnisse in eine scheinbar neutrale Rangreihe übersetzen.

Kontext: Was moderne Fairness heißt

Fairness bedeutet nicht, dass alle denselben Testbogen sehen. Fairness bedeutet, dass Konstruktion, Normierung, Durchführung und Verwendung des Tests den tatsächlichen Erkenntnisanspruch nicht überschreiten.

Warum die Debatte nie ganz verschwindet

Die IQ-Frage kehrt deshalb regelmäßig zurück, weil sie an etwas Grundsätzliches rührt. Moderne Gesellschaften müssen laufend sortieren: in Schulen, Hochschulen, Berufen, Förderprogrammen, Diagnosen und Auswahlverfahren. Je größer die Systeme, desto stärker der Wunsch nach Zahlen, die Entscheidungen beschleunigen.

Der IQ-Wert ist dafür attraktiv, weil er komplexe Unsicherheit in eine klare Kennzahl verwandelt. Diese Klarheit ist aber nicht einfach Erkenntnis, sondern auch Verwaltungskomfort. Und Verwaltungskomfort hat eine bekannte Schwäche: Er verwechselt gute Bearbeitbarkeit mit guter Wirklichkeitsbeschreibung.

Darum fasziniert die Figur der „messbaren Intelligenz“ bis heute. Sie verspricht, Leistungen und Potenziale unabhängig von Milieu, Schule, Geschichte und Machtlage zu ordnen. Genau dieses Versprechen war historisch selten wahr und politisch fast nie unschuldig.

Was man aus der Geschichte der IQ-Tests nüchtern lernen kann

Erstens: Tests können sinnvoll sein. Sie können Hinweise auf Lernbedarfe geben, Diagnostik strukturieren und bestimmte Prognosen verbessern. Wer das pauschal bestreitet, macht es sich zu leicht.

Zweitens: Gerade weil Tests nützlich sein können, müssen ihre Grenzen brutal klar benannt werden. Ein IQ-Wert ist kein Schicksal, keine moralische Kategorie und kein Freifahrtschein für soziale Hierarchien.

Drittens: Die Macht eines Tests liegt weniger im Papier als in der Institution dahinter. Dieselbe Messung kann in einem Kontext Förderung auslösen und in einem anderen Ausschluss.

Viertens: Historische Missbräuche waren keine bedauerlichen Randfehler einer ansonsten reinen Technik. Sie zeigen, dass Messung immer in gesellschaftliche Ordnungen eingebettet ist. Wer misst, definiert Vergleichsgruppen. Wer vergleicht, setzt Normen. Wer Normen setzt, verteilt Chancen.

Vielleicht ist das die wichtigste Korrektur an der ganzen Geschichte: IQ-Tests erzählen nicht nur etwas darüber, wie Menschen denken. Sie erzählen mindestens genauso viel darüber, wie Gesellschaften entscheiden wollen, wem sie etwas zutrauen.

Wenn man das vergisst, wird aus einer Zahl sehr schnell wieder eine Machtfrage.

Mehr Wissenschaft auf Instagram und Facebook.