Überlegungen zu den Zwischenergebnissen der Gesichtserkennungs-Pilotstudie am Südkreuz

Ist das Überwachungssystem am Berliner Bahnhof Südkreuz geeignet, gesuchte Verdächtige im Strom der Passanten zu erkennen? Das testet das Bundesinnenministerium in einer Pilotstudie. Die Zwischenergebnisse stellt das Ministerium als Erfolg dar und verlängert das Projekt. Zumindest die veröffentlichten Zwischenergebnisse liefern dafür keinen überzeugenden Grund. Sie sagen nichts Relevantes über die Qualität des Systems aus.

Innenminister Thomas de Maizière ließ sich bei der Bekanntgabe der Ergebnisse mit der Aussage zitieren: „Bei 70 Prozent und mehr haben wir eine positive Erkennung der gesuchten Testpersonen – das ist ein sehr guter Wert.“ Versucht man, den Inhalt dieses Satzes aus seiner sperrigen Form herauszulösen, dann ist wohl folgendes gemeint: Die gesuchten Testpersonen wurden in 70 Prozent der Fälle vom System erkannt, wenn sie den entsprechenden Bereich des Bahnhofs Südkreuz passiert haben. Man spricht hier von einer Erkennungsrate von 70 Prozent.

Ist das nun wirklich ein sehr guter Wert? Oder ein sehr schlechter Wert?

Weder noch. Der Wert ist für sich genommen weder gut noch schlecht, sondern vollkommen ohne jede Aussagekraft. Er sagt nichts, aber auch gar nichts über die Leistungsfähigkeit des getesteten Systems aus.

Warum? Nehmen wir einmal an, ein dressierter Schimpanse sitzt mit verbundenen Augen und einem normalen Spielwürfel an einem Tischchen im Bahnhof Südkreuz und würfelt für jeden Passanten, der an ihm vorbei möchte. Zeigt der Würfel eine Sechs, darf der Passant unbehelligt seines Weges gehen, andernfalls wird er von bereitstehenden schwer bewaffneten Polizeikräften als potentieller Terrorist verhaftet.

Auf diese Weise gelangen 5/6, also gut 83 Prozent der Passanten in Polizeigewahrsam. Der Clou: Das gilt natürlich auch für alle gesuchten Terroristen, die an dieser Stelle zufällig vorbei wollen. Die holprige Formulierung des Innenministers passt deshalb hier genauso gut:  „Bei 83 Prozent und mehr haben wir eine positive Erkennung der gesuchten Terroristen – das ist ein sehr guter Wert.“

An dieser Stelle könnte den geneigten Leser ein unbestimmtes Gefühl des Unbehagens beschleichen. Wäre es nicht so, dass der Einsatz des Schimpansen mittelfristig zu schüchternen Protesten unter den Berliner Berufspendlern führen könnte? Und das, obwohl seine Erkennungsrate unzweifelhaft beeindruckend ist und er einen deutlichen Beitrag zur Verbesserung der inneren Sicherheit leisten würde?

Dieses Unbehagen ist nicht allein in Fragen der artgerechten Tierhaltung begründet. Vielmehr stört uns an dieser Lösung intuitiv, dass der Schimpanse als Nebenprodukt seiner Fahndungserfolge auch einen hohen Prozentsatz der Passanten zu Unrecht in Polizeigewahrsam schickt. Genau genommen trifft es gut 83 Prozent der unbescholtenen Passanten. Diesen Anteil bezeichnet man als Falsch-Positiv-Rate.

Ist das am Südkreuz getestete System also genauer als ein würfelnder Schimpanse? Dazu müsste man neben der Erkennungsrate auch dessen Falsch-Positiv-Rate kennen. Auf Nachfrage erhalte ich die Angabe „kleiner als ein Prozent“, aber nach einiger Verwirrung stellt sich heraus, dass diese Angabe sich gar nicht auf die Falsch-Positiv-Rate bezieht. Die wahre Falsch-Positiv-Rate kann oder will das Bundesinnenministerium nicht verraten.  Das ist irritierend, weil das Zahlenpaar Erkennungsrate und Falsch-Positiv-Rate in jeder seriösen Studie zur Gesichtserkennung das Maß aller Dinge ist.

Die Angabe „unter 1 Prozent“ bezieht sich statt dessen auf den Anteil der nicht gesuchten Personen unter denjenigen, die vom System als gesuchte Personen identifiziert wurden. Es würde dann also je hundert verhaftete Terroristen maximal ein unbescholtener Bürger im Gewahrsam genommen. Das sieht auf den ersten Blick ganz brauchbar aus. Tatsächlich täuscht diese Angabe jedoch; das Verhältnis wäre in der Praxis weitaus ungünstiger.

Denn tatsächlich hängt dieses Maß entscheidend von der Häufigkeit ab, mit der gesuchte Personen das System passieren – eine Zahl, die für die Südkreuz-Pilotstudie nicht bekannt ist, vermutlich aber weit über der Häufigkeit von Terroristen in der Normalbevölkerung liegt. Um diesen Punkt zu unterstreichen, werde ich nun zeigen, dass unser würfelnder Schimpanse mit verbundenen Augen auch diese zweite Kennzahl erreicht, wenn nur die Bedingungen der Studie geeignet gestaltet werden.

Unter realen Bedingungen, bei denen Terroristen gegenüber der Normalbevölkerung deutlich in der Minderheit sind, wird das nicht funktionieren. Unser Schimpanse schafft das nur dann, wenn die Passanten zu einem weit überwiegenden Teil auf der Fahndungsliste stehen. Wir könnten aber einen Pilottest durchführen und versuchen, die gesuchten Personen möglichst oft an unserem Schimpansen vorbeizulocken. Also etwa so, wie das auch bei der Pilotstudie am Südkreuz gemacht wurde:

Alle anderen Passanten können wir durch Hinweisschilder und Bodenmarkierungen deutlich darauf hinweisen, dass es alternative Wege gibt, die um unseren Schimpansen herumführen. Richtig, etwa so, wie das am Südkreuz aktuell gemacht wird.

Wenn 300 Probanden im Schnitt je 10 mal am Tag an unserem Schimpansen vorbeilaufen, in der Hoffnung, die Apple Watch Series 2 für die fleißigste Mitarbeit zu ergattern, hätte unser würfelnder Schimpanse rund 2500 korrekt positive Treffer pro Tag. Das ergibt sich einfach daraus, dass er bei 3000-maligem Würfeln rund 2500 mal die Zahlen 1 bis 5 würfelt und nur rund 500 mal die Sechs.

Wenn wir im Rahmen unserer Pilotstudie durch geschickte Lenkung der Passanten erreichen, dass am Tag nur 25 unbeteiligte Passanten versehentlich durch den „Erkennungsbereich“ unseres Schimpansen stolpern, kommt er im Durchschnitt auf rund 21 falsch positive Treffer; er würde nämlich im Mittel nur in 4 der 25 Fälle die Sechs würfeln, die in diesem Fall korrekterweise dazu führen würde, dass der Passant nicht als „gesucht“ erkannt wird.

Et voilà, damit ist der Anteil der fälschlicherweise erkannten Personen unter allen erkannten Personen 21 / (21+2500)=0,83%. Zweifellos „unter einem Prozent“.

Fazit:

  • Prozentzahlen können in die Irre führen, wenn man nicht genau versteht, welche Zahlen im Zähler und vor allen Dingen auch im Nenner des Quotienten stehen.
  • Eine einzelne Prozentzahl reicht fast nie aus, um die Qualität eines Klassifikationssystems zu beurteilen.
  • Einzelne Kennzahlen lassen sich bei Klassifikationssystemen durch den Entwickler oder Betreiber des Systems auf Kosten anderer Kennzahlen beeinflussen. Ist beispielsweise eine höhere Erkennungsrate gewünscht, führt das zu einer ungünstigeren Falsch-Positiv-Rate. Die geeignete Parametrierung eines solchen Systems erfordert eine Güterabwägung und kann eine politische Fragestellung sein.
  • Wenn wie hier relevante Zahlen zurückgehalten werden und statt dessen irrelevante Zahlen als Nebelbomben geworfen werden, besteht Anlass, an der tatsächlichen Qualität des getesteten Systems zu zweifeln.

 

Update: Wenige Stunden nach Veröffentlichung dieses Artikels hat das Bundesinnenministerium seine Darstellung erneut korrigiert. Demnach soll es sich bei der Angabe „unter 1 Prozent“ nun doch wieder um die Falsch-Positiv-Rate handeln. Offensichtlich reicht diese Genauigkeit bei weitem nicht für einen praktischen Einsatz. Bei täglich rund 160.000 Passanten am Bahnhof Südkreuz wäre dann mit bis zu 1.600 Fehlalarmen pro Tag zu rechnen.