2.
Generell: Einsatzgebiete von TAR ^
- Bei unternehmensinternen Untersuchungen, bei denen ein bestimmter Sachverhalt / eine bestimmte Verdachtslage aufgeklärt werden soll. Dazu werden die auf der IT-Infrastruktur des Unternehmens gespeicherten Dokumente (im technischen Sinn) durchsucht – E-Mails, Kalendereinträge, Word-Dokumente etc.
- Bei der sogenannten «pre-trial discovery». Damit ist eine vorprozessuale Phase gemeint, welche vor allem im anglo-amerikanischen Zivilprozess verbreitet ist. Im Rahmen der «pre-trial discovery» kann eine Partei von der Gegenpartei die Übermittlung von Dokumenten verlangen, die sich auf einen bestimmten Sachverhaltskomplex beziehen (dies wird auch als «document production» bezeichnet). Die Gegenpartei ist gut beraten, dem Verlangen bestmöglich und umfassend zu entsprechen, da eine Nichtentsprechung, eine Schlechtentsprechung oder das (unbeabsichtigte oder absichtliche) Zurückhalten von Dokumenten gravierende negative Konsequenzen (bis zum Prozessverlust) haben kann.2
3.
Konkret: Das «Set-Up» von Project X ^
Die Menge an Dokumenten war viel zu groß, um dieses Projekt allein mit manueller Durchsuchung und menschlichen «Reviewern»5 abarbeiten zu können.6 Im klassischen Prozess (ohne TAR) wäre naheliegend gewesen, mittels bloßer Stichwortsuche den Suchradius einzuschränken – also die Menge an zu untersuchenden Dokumenten für die menschlichen Reviewer künstlich einzuschränken. Eine reine Stichwortsuche birgt allerdings immer das Problem, dass sich die tatsächlich relevanten Stichworte zumeist erst im Laufe der Untersuchung herauskristallisieren und die Auswahl der Stichworte, mit denen die vermeintlich relevanten Dokumente gefiltert werden sollen, zu Beginn einer Untersuchung nicht treffsicher genug sein kann. Daneben haben Stichwortsuchen auch einen großen Mangel: Mit ihnen können Tippfehler (die in der Praxis doch häufiger als erwartet vorkommen) nicht oder nur mit sehr großem Aufwand abgedeckt werden.
4.
Was ist TAR? Das Finden der Nadel im Heuhaufen ^
Technisch handelt es sich bei TAR-Systemen um «supervised machine learning». Wie jedes «machine learning» System muss dieses zunächst trainiert werden: Der technische Aspekt des Trainings wird in der Praxis zumeist entweder mittels Support Vector Machines oder logistischer Regression realisiert.8 Wie der Begriff «supervised» machine learning nahelegt, erfolgt das Training unter menschlicher Beteiligung. Für die Lernphase bei TAR existieren verschiedene Protokolle:9
- Simple Passive Learning (SPL): Die Dokumente für das Training werden von Menschen ausgewählt; die Maschine lernt alleine an diesen Beispielen und kennzeichnet die zur Verfügung gestellten Dokumente als relevant oder nicht relevant. Diese werden dann von menschlichen Reviewern gegengeprüft. Sind die Resultate nach Ansicht der Reviewer unbefriedigend, werden dem TAR-System weitere Dokumente zum Lernen zur Verfügung gestellt. Erst wenn die Resultate als ausreichend angesehen werden, wird das Training beendet.
- Simple Active Learning (SAL): Auch hier werden die Dokumente für das initiale Training von Menschen ausgewählt. Nach dem ersten Trainingsschritt wählt allerdings das TAR-System aus dem gesamten «search universe» die von Menschen zu gegenprüfenden Dokumente aus – und zwar eine vorher festgelegte Anzahl der nach Ansicht des TAR-Systems relevantesten Dokumente, welche von Menschen auf ihre tatsächliche Relevanz überprüft werden sollen. Hierbei handelt es sich stets um «neue» Dokumente, also solche, die von menschlichen Reviewern bislang noch nicht durchgesehen wurden. Die Ergebnisse dieser Gegenprüfung werden an das TAR-System zurückgegeben und das TAR-System verarbeitet diesen Input für das weitere Training. Das System lernt also aus dem Feedback, welche der für das TAR-System unbekannten Dokumente es richtig und welche falsch klassifiziert hat. Eine derartige Abfolge (Verbesserung des Algorithmus – Versehen der Dokumente mit einem Relevanzwert – Gegenprüfung der nach Ansicht des TAR-Systems relevantesten Dokumente durch menschliche Reviewer) wird als «Iteration» bezeichnet.
- Continous Active Learning (CAL): Nach menschlicher Auswahl initialer relevanter Trainingsdokumente oder Anfertigung eines hypothetischen relevanten Dokuments (sogenanntes «synthetic document») schlägt das TAR-System immer das nächste am wahrscheinlichsten relevante Dokument zur Begutachtung durch einen menschlichen Reviewer vor. Nach unmittelbarem Feedback des menschlichen Reviewers findet ein Update des Trainings statt und das System schlägt unter sofortiger Berücksichtigung des Feedbacks des menschlichen Reviewers zum unmittelbar vorigen Dokument das nächste am wahrscheinlichsten relevante Dokument vor.
5.
Erkenntnis 1: Die Auswahl des Seed Set ist nicht trivial ^
6.
Erkenntnis 2: Gutes Verständnis der Funktionsweise des TAR-Systems aufseiten der trainierenden Juristen und enge Abstimmung mit Data Scientists ist unumgänglich ^
7.
Erkenntnis 3: Die Frage, wann das System «gut genug» ist, ist schwierig zu beantworten ^
Wann ist ein TAR-System «gut genug» und ausreichend trainiert? Einfache Antwort: «Wenn das System relevante Dokumente von nicht-relevanten Dokumenten unterscheiden kann». Doch wie ist das messbar? Bei Einsatz des CAL-Protokolls ist die Stop-Bedingung sehr einfach. Findet das System nur mehr wenige bzw. gar keine tatsächlich relevanten Dokumente mehr, dann kann der Review beendet werden.13 Bei SPL und SAL erfolgt die Evaluierung des Fortschritts des TAR-Systems regelmäßig durch Validierung mittels «Control Set».
Ein Control Set ist eine zufällig aus dem «search universe» entnommene Anzahl an Dokumenten, welche von menschlichen Reviewern durchgesehen und als relevant oder nicht relevant gekennzeichnet werden. Damit das Control Set für die Validierung des Lernfortschritts verwendet werden kann, muss eine ausreichende Anzahl von relevanten Dokumenten darin enthalten sein.14 Das Control Set darf auch nicht mit anderweitig als relevant bekannten Dokumenten «aufgefüllt» werden. Dabei würde eine wichtige Eigenschaft des Control Sets verloren gehen, nämlich eine statische Repräsentanz der Gesamtpopulation zu sein. Da im Control Set bekannt ist, welche Dokumente tatsächlich relevant sind, kann die Güte des Systems daran gemessen werden, wie viele der tatsächlich relevanten Dokumente das trainierte System findet («recall»)15 und wie viele tatsächlich nicht relevante Dokumente vom trainierten System als relevant markiert werden («precision»).16 Eine weitere hier wichtige Kennzahl ist der sogenannte «F1»-Wert, das harmonische Mittel von «recall» und «precision».17
Zusätzlich kann man sich in Fällen, in denen ein Control Set mit ausreichender Anzahl an tatsächlich relevanten Dokumenten nicht zur Verfügung steht, mit weiteren statistischen Messgrößen behelfen. Diese sind allerdings auch nur mit Vorsicht zu genießen und können mangels konkreter Validierungsmethode nicht mehr bieten, als eine bereits vorhandene Vermutung über die Güte des Systems (etwa aus Cross-Validation) zu stärken oder zu schwächen. Als derartige Kennzahlen können hier etwa herangezogen werden:
- Die Anzahl der bisher gefundenen tatsächlich relevanten Dokumente im Vergleich zu einer statistischen Schätzung auf Basis auch eines «schlechten» Control Sets mit wenig relevanten Dokumenten. Diese Schätzung kann allerdings nur innerhalb eines bestimmten Konfidenzintervalls gegeben werden, das immer größer (und somit unbrauchbarer) wird, je weniger tatsächlich relevante Dokumente im Control Set enthalten sind.
- Die Entwicklung von Iteration zu Iteration in einem «cumulative gains» Graphen. Ein derartiger zweidimensionaler Graph zeigt auf der x-Achse den Anteil der gegengeprüften Dokumente und auf der y-Achse den Anteil der tatsächlich relevanten Dokumente. Unter der Annahme, dass alle Dokumente sortiert nach der ihr vom TAR-System gegebenen Relevanz vorliegen und man die Gegenprüfung vom Dokument mit dem höchsten Relevanzwert zum Dokument mit dem niedrigsten Relevanzwert durchgeht, zeigt der Graph, wie viele Dokumente durchgesehen werden müssten, um statistisch gesehen einen bestimmten prozentuellen Anteil an tatsächlich relevanten Dokumenten zu erhalten. Je näher der sich für eine konkrete Iteration zeigende Graph an der linken oberen Ecke liegt, umso besser.
- Die Entwicklung von Iteration zu Iteration in einem «receiver operator characteristic» Graphen (oder «ROC Graph»). Ein derartiger zweidimensionaler Graph zeigt auf der x-Achse die «false positive rate»18 und auf der y-Achse die «true positive rate».19 Der «ROC Graph» zeigt nun das Verhältnis von «false positive rate» und «true positive rate», angenommen, alle Dokumente liegen sortiert nach der ihr vom System gegebenen Relevanz vor und die Gegenprüfung der Dokumente erfolgt beginnend mit dem Dokument mit dem höchsten Relevanzwert bis zum Dokument mit dem niedrigsten Relevanzwert. Die beste Kurve hat typischerweise die größte Fläche unter sich20.Die beste Kurve ist also auch hier die Kurve, die steil nach oben und dann nach rechts geht (also in die linke obere Ecke).
Daneben sind noch viele andere Kennzahlen denkbar, die man aus statistischer Sicht allerdings vermeiden und nicht heranziehen sollte.21
8.
Fazit ^
- 1 Dieser Beitrag gibt ausschließlich die persönliche Meinung des Autors wieder.
- 2 Klausegger/Fritz, U.S. Discovery: The Austrian Perspective, DAJV Newsletter 1/2012, S. 12 (S. 13).
- 3 Und zwar, einen bestimmten Prozentsatz der tatsächlich relevanten Dokumente im festgelegten «search universe» zu finden.
- 4 Der Begriff «Custodian» bezeichnet bei Untersuchungen eine relevante Person, die im Fokus der Untersuchung steht und deren Daten untersucht werden sollen.
- 5 Der Begriff «Reviewer» bezeichnet die Personen, die die Daten im Rahmen einer Untersuchung sichten und bewerten.
- 6 Unter Annahme der durchschnittlichen Review-Kapazität eines menschlichen Reviewers wären mehr als 10'000 Reviewer notwendig gewesen, um den Review innerhalb eines Jahres (!) abgeschlossen zu haben.
- 7 Dies hat sich bei Project X im fortschreitenden Prozessverlauf auch bestätigt.
- 8 Grossman/Cormack, Continuous Active Learning for TAR, Practical Law Journal, April/May 2016, S. 32 (S. 33 f.).
- 9 Dazu etwa Grossman/Cormack, Technology-Assisted Review in Electronic Discovery, 2017, S. 6 f, abrufbar unter https://judicialstudies.duke.edu/wp-content/uploads/2017/07/Panel-1_TECHNOLOGY-ASSISTED-REVIEW-IN-ELECTRONIC-DISCOVERY.pdf (zuletzt abgerufen im Januar 2018); Grossman/Cormack, Continuous Active Learning (Fn. 8), S. 32 (S. 36).
- 10 Im Folgenden wird auf diese Klarstellung – der einfacheren Lesart geschuldet – verzichtet, muss aber, wenn von relevanten Dokumenten gesprochen wird, selbstverständlich immer «mitgelesen» werden.
- 11 Jedenfalls in der Ausprägung SAL oder SPL und überwiegend auch in der Ausprägung CAL, sofern man hier nicht auf ein synthetisches Dokument zurückgreift.
- 12 Etwa die Wendung «Vielen Dank für Ihre Aufmerksamkeit».
- 13 Grossman/Cormack, Continuous Active Learning (Fn. 9), S. 32 (S. 36).
- 14 Grossman/Cormack sprechen etwa von rund 70 Dokumenten, siehe Grossman/Cormack, Continuous Active Learning (Fn. 9), S. 32 (S. 36). Die tatsächlich ausreichende Anzahl ist allerdings vom Projekt und der Ausgestaltung des «search universe» abhängig.
- 15 «Recall» bezeichnet den Anteil der tatsächlich relevanten Dokumente, die vom System auch als relevant gekennzeichnet werden; vgl. dazu Grossman/Cormack, The Grossman-Cormack Glossary of Technology-Assisted Review, Federal Courts Law Review, 2013, S. 1 (S. 27).
- 16 «Precision» bezeichnet den Anteil der vom System als relevant gekennzeichneten Dokumente, die tatsächlich relevant sind; vgl. dazu Grossman/Cormack, The Grossman-Cormack Glossary (Fn. 15), S. 1 (S. 25).
- 17 Vgl. dazu etwa Grossman/Cormack, Technology-Assisted Review (Fn. 11), S. 15 f.
- 18 «False positive rate» bezeichnet den Anteil der Dokumente, die vom System als relevant markiert wurden, aber tatsächlich nicht relevant sind; vgl. dazu Grossman/Cormack, The Grossman-Cormack Glossary (Fn. 15), S. 1 (S. 17).
- 19 «True positive rate» bezeichnet den Anteil der Dokumente, die vom System als relevant markiert wurden und tatsächlich relevant sind; vgl. dazu Grossman/Cormack, The Grossman-Cormack Glossary (Fn. 15), S. 1 (S. 33).
- 20 Deshalb werden «ROC Graphen» auch oft «area under the curve» Graphen bezeichnet.
- 21 Vgl. etwa die Beispiele bei Grossman/Cormack, Continuous Active Learning (Fn. 9), S. 32 (S. 37).