Noise
Fügen Sie Ihre Bewertungen hinzu
Besprechung
Julia_kersebaum
Moritz T.
„All these noisy situations are the tip of a large iceberg.“
Nicht das beste Bild. Aber gelungener Auftakt mit den Zielscheiben der verschiedenen Schützen-Teams, um den Unterschied von Noise und Bias zu erklären.
„A study of thousands of juvenile court decisions found that when the local football team loses a game on the weekend, the judges made harsher decisions on the Monday (…)“
@Julia: Empfehlenswert also, diese Saison in Düsseldorf nicht straffällig zu werden 😉
The illusion of agreement
Organisationen tendieren dazu, den eigenen „Lärm“ zu ignorieren, oder dann durch fragwürdige Methoden zu vermeiden. Hübsches Beispiel einer Schule, die Lehrer-Kandidaten erst von einem Experten, dann vom anderen Experten beurteilen lässt. Der zweite Experte sieht die Bewertung des ersten, und lässt sich natürlich davon beeinflussen. Warum keine unabhängige Bewertung durch die beiden Experten? Antwort der Schule: man hatte das früher so gehandhabt, aber es gab so viel Uneinigkeit, dass man das jetzige System eingeführt hat.
Beispiel der Versicherungsfirma, deren Agenten die Versicherungsprämie in analogen Fällen deutlich unterschiedlich einschätzen – Widerlegung der Annahme sowohl der Agenten wie auch der Vorgesetzten, dass die Bewertungsstreuung sehr gering sei, da ja die Kriterien firmenweit dieselben sind.
Wir bewegen uns immer in einem Referenzsystem. Die Illusion dürfte darin bestehen, dass wir mit dem Festlegen einiger weniger Koordinaten meinen, ein unverrückbares Referenzsystem festgezurrt zu haben, und uns gleichzeitig in einen dichten und sich ständig wandelnden Dschungel von Einflussfaktoren bewegen, der für jeden von uns anders aussieht.
„System noise is inconsistency, and inconsistency damages the credibility of the system.“
Eine Firma offeriert dieselbe Leistung zu unterschiedlichen Preisen. Die Justiz ist inkonsistent in ihren Urteilen.
Wo liegt das Problem? Der Kunde oder Straftäter mag eine geringes Mass an Subjektivität seitens des Verkäufers oder Richters tolerieren, wenn es um den Preis oder das Strafmass geht. Aber die Erwartung ist doch, dass die Festlegung einem System und einer Logik folgt, und nicht einer subjektiven Einschätzung.
Warum? Für die gesellschaftliche Interaktion ist Willkür Gift; Fairness, oder mindestens eine Fiktion der Fairness ist essentiell für das Zusammenleben.
Wie das System oder die Logik ausschaut, ist dabei zunächst sekundär. Konsistenz ist entscheidend. Wenn alle Richter in einem System streng urteilen, stärkt dies die Glaubwürdigkeit und erhöht die Akzeptanz eines Urteils, obwohl man vielleicht argumentieren könnte, dass die Strenge unangemessen scheint, wenn man Parameter von ausserhalb anlegt.
„(…) if you can get independent opinions from others, do it – this real wisdom of crowds is highly likely to improve your judgement. If you cannot, make the same judgment yourself a second time to create an ‚inner crowd‘.“
Experimente zeigen, dass es so etwas wie die „Weisheit der Menge“ gibt, wenn es um eine Schätzung oder Beurteilung geht. Interessanterweise zeigen die Experimente auch, dass eine Person näher an einen richtigen Lösungswert kommt, wenn man den Durchschnitt aus zwei Schätzungen nimmt, die ein und dieselbe Person abgegeben hat, als wenn es die Person bei einer Schätzung belässt.
Doch „wisdom of crowds“ scheint nur dann zu funktionieren, wenn die einzelnen Stimmen unabhängig voneinander abgegeben werden. Sobald in der Gruppe selbst eine Meinungsbildung einsetzt (sei das in einer Diskussion, oder weil die einen sehen, wie sich andere entscheiden), ist die Gefahr von „noise“ sehr gross. Offenbar ist es entscheidend, wie sich erste Stimme äussern – massiver Einfluss auf die anderen (p. 99).
„People who are in a good mood are more likely to let their biases affect their thinking.“
Die Autoren diskutieren „Occasion Noise“ – momentane Einflüsse auf unsere Urteile. Eine positive Gemütsverfassung erlaubt es tendenziell einem Geschäftsmann in einer Verhandlung bessere Resultate zu erzielen. Problematisch dagegen: eine Person in guter Stimmung lässt sich eher von Vorurteilen beeinflussen, oder akzeptiert eher „bullshit“-Aussagen. Weniger (selbst)kritisch?
„You may believe that you are subtler, more insightful, and more nuanced than the linear caricature of your thinking. But in fact, you are mostly noisier.“
Ergebnis einer Studie: Vergleich zwischen Teilnehmer A und einer Automaten-Version von Teilnehmer A, die Urteile für weitere Fälle aus früheren Entscheiden von Teilnehmer A ableitet. Die Automaten-Version trifft die besseren Urteile. –
Aber nicht nur das: in einer anderen Studie kamen Wissenschaftler zum Schluss, dass ein beliebiges System, das immer derselben Logik folgt, eine höhere Treffsicherheit aufweist als die Urteile eines Menschen (p. 121/2).
Überschätzen wir den positiven Einfluss von Intuition und subtilen, nicht zwingend rationalen Einsichten?
anchoring effect
Der starting point beeinflusst unser Urteil. Beispiel hier: wieviel sind Sie bereit für diese Flasche Wein zu bezahlen (Sie kennen den Wein nicht)? Startpunkt: die letzten beiden Ziffern Ihrer Sozialversicherungsnummer. Diese im Zusammenhang völlig willkürliche Zahl beeinflusst den Preis, den Sie zu zahlen bereit sind.
Das Essverhalten wird stärker beeinflusst, wenn die Kalorienzahl links vom Teller angegeben wird; dort wird die Information zuerst aufgenommen, und erst dann die Speise begutachtet. Rechts vom Teller wird die Info später verarbeitet, mit weniger Einfluss. Umgekehrt bei hebräisch sprechenden Menschen, die von rechts nach links lesen. (p. 172)
„Dollars and Anchors“
Nicht sehr überraschend, dass in einem Experiment Teilnehmer die Höhe eines Strafgeldes für eine straffällige Firma weniger weit streuen wenn sie von einem Referenzfall ausgehen („anchor“), als wenn sie ohne irgendeinen Anhaltspunkt einen Betrag festlegen müssen. Muss man dafür fünf Seiten aufwenden? Die Autoren scheinen zuweilen etwas gefangen in der Welt ihrer Studien und Experimente, weitschweifige Ausführungen.
Erwähnenswert allerdings die Pointe: das US- Gerichtssystem sieht nicht vor, dass Jurymitglieder sich auf Referenzfälle beziehen dürfen bei der Festlegung eines Strafgeldes. Leicht vorstellbar, wie die Bussen weit variieren.
The components of Noise
Zusammenfassung:
Unterscheidung zwischen Bias und System Noise, System Noise dann runtergebrochen in
- Level Noise = unterschiedliche Grunddispositiondn führen zu unterschiedlichen Resultaten (= Richter im allgemeinen streng oder mild)
- Pattern Noise = Verhalten beeinflusst von bestimmten Mustern (= ein und derselbe Richter milde gegenüber white collar-criminals, streng gegenüber blue collar criminals)
Pattern Noise runtergebrochen in
- Stable Pattern Noise
- Occasion Noise (=Richter beeinflusst durch Schlafmangel, oder dadurch, dass das lokale Fussball-Team gewonnen hat)
Tendenzen:
Noise hat im allgemeinen stärkeren Impact als Bias, Pattern Noise stärkeren Einfluss als Level Noise, Stable Pattern Noise mit mehr Einfluss als Occasion Noise, und als Occasion Noise und Level Noise zusammen.
Leider keine detaillierte Diskussion der diffizilen Abgrenzung von (Stable Pattern) Noise und Bias.
Auch keine Erörterung der Frage, ob sich beispielsweise Stable Pattern Noise (strenge Urteile gegen blue collar criminals) und Occasion Noise (lokales Fussballteam gewinnt, milde gestimmt) gegenseitig neutralisieren können. Insgesamt sehr viel Noise, aber das Urteil liegt dann nahe am Referenzwert.
Part V: Improving Judgements
Wenig überraschende Befunde zu „Noise“ beispielsweise bei Diagnosen in der Psychiatrie, bei Bewertungen der Performance von Angestellten, oder bei der Auswertungen von Vorstellungsgesprächen: Viel Noise. Einige common-sense-Empfehlungen, wie der Noise reduziert werden kann. Annäherung an ein Handbuch für HR-staff…