Von Dr. Martin Brake
In meinen Kundengesprächen rund um Bildverarbeitungslösungen kommt immer wieder das Schlagwort „künstliche Intelligenz, kurz „KI/AI“ auf, und dass damit doch mittlerweile so fast alles lösbar sei. Und im letzten Jahr hatte ich das Vergnügen, in einer Ausschreibung einer Bildverarbeitungs-Anwendung einem Konkurrenten zu unterliegen, der zwar über kaum Erfahrung über Bildverarbeitung an sich verfügt, aber als hipper #AI Experte auftritt und seinem Kunden tatsächlich verkauft hat, farbige Bereiche im Bild mit Hilfe „künstlicher Intelligenz“ detektieren zu können. Dem Laien auf dem Gebiet der Bildverarbeitung sei hier erläutert, dass „normale Intelligenz“ im Sinne der Fachkenntnis bezüglich Optik und optischen Filtern, der Kenntnis über verschiedenartige Farbräume in der Bildverarbeitung sowie digitaler Filter vollkommen ausreichen, um die Aufgabe mit zehn Codezeilen zu lösen.
Das Thema der „#KI“ ist spätestens durch #ChatGPT nun auch im medialen Mainstream angelangt. Ob und wie diese Technologie Einfluss auf das Geschäftsleben haben wird, teile ich hier. Müssen Sie als Unternehmer sich dazu Gedanken machen? Ist KI eine Gefahr oder der Heilsbringer für Ihr Unternehmen?
KI – Deep Learning, Machine Learning, was ist das überhaupt? Eine Einordnung und Einschätzung
In meiner Zeit als Entwickler bei Center Communication Systems 2008-2011 hatte ich einmal die Aufgabe, einen Personendetektor mit dem gleichen Verfahren zu entwickeln, mit dem Gesichter erkannt werden. Mein erster Einsatz im Bereich des maschinellen Lernens! Jeder kennt die Anwendung von seinem Smartphone, da werden in Echtzeit die erkannten Gesichter eingerahmt, das Verfahren ist sehr schnell und recht robust.
Ganz kurz und vereinfacht dargestellt basiert das Verfahren aus einem Kaskaden-Satz von „Haar Features“, die mit definierten Trainingsdaten in einem aufwändigen Lernverfahren (und sogenannten Support Vector Machines, vereinfacht gesagt einem neuronalen Netz mit nur zwei Schichten) einmalig ermittelt wurden. Ein klassisches Machine Learning Verfahren. Man übergibt dem Rechner strukturierte Daten zum Training, deren Merkmale der Entwicklermit dem eigenen Verständnis der Materie bewusst ausgewählt hat.
Sowohl die Trainingsdaten als auch das Verfahren zum Trainieren und Validieren kann sich jeder findige Entwickler innerhalb weniger Minuten runterladen, nachvollziehen und anwenden, d.h. wer eine Anwendung zum „Gesichter erkennen“ implementieren muss, kann dieses bewährte Verfahren tatsächlich innerhalb eines Tages umsetzen.
Da sollte es doch ein Leichtes sein, das Verfahren auf Personenerkennung zu trainieren. Dachte ich. Augenscheinlich gab es schnell „gute“ Ergebnisse im Sinne von „es wird viel erkannt“. Aber leider nur dann, wenn man es mit der Validierung nicht so eng sah. Sensitivität, Spezifität und Übertraining sind dann zwangsläufig die Begriffe, mit denen man sich beschäftigen muss, wenn man zu einer Lösung kommen möchte, die in der Praxis auch wirklich funktioniert. Und die Lösung war, dass es mit der stumpfen Verwendung von „selbstlernenden Verfahren“ nicht getan ist! Man kann schlichtweg mit Haar Features keine Personen robust erkennen, auch wenn es mit Gesichtern hervorragend funktioniert. Nicht das automatische Trainingsverfahren an sich, sondern tiefgreifende Kenntnis über die für den Anwendungsfall passenden Kenngrößen sowie beharrliches Ausprobieren führte letztendlich dann zum Erfolg.
Im Laufe meiner Projekte, in denen ich Kunden bei der Entwicklung von Bildverarbeitungsanwendungen unterstütze, stieß ich im Code mehrfach auf zuvor gescheiterte Versuche, mit „trainierbaren Systemen“ die Aufgabe „schnell und angeblich intelligent“ zu lösen. Den Codefragmenten nach scheiterten die Versuche aus exakt dem gleichen Grund, weshalb ich damals zunächst auch scheiterte: Das Vertrauen darin, dass ein als „intelligent“ erscheinendes Verfahren schon irgendwie gute Ergebnisse ausspucken müsse, ohne tiefgreifende Erfahrung über die Möglichkeiten von extrahierbaren Kenngrößen zu besitzen.
Folgende Schlüsse konnte ich ziehen:
- Selbstlernende Verfahren können ein Weg sein, eine technische Fragestellung zu lösen
- Es gibt aber keine Garantie, dass diese Verfahren zu einer brauchbaren Lösung führen
- Es ist so gut wie unmöglich, ohne tiefgreifendes Domänenwissen eine Lösung zu finden
- Gelingt es, ein neuronales Netz richtig zu trainieren, ist man oftmals auch in der Lage, das Problem analytisch zu lösen
- Das Anwenden der selbstlernenden Verfahren verführt zu einem blinden Vertrauen in die Ergebnisse
Kommen wir zum Deep Learning (DL):
Wo liegt der Unterschied des Deep Learning zum Machine Learning?
Technisch gesehen besitzen die künstlichen neuronalen Netze (KNN) bei den DL Verfahren zahlreiche Zwischenschichten zwischen Eingabeschicht und Ausgabeschicht, d.h. sie besitzen dadurch eine umfangreiche innere Struktur.
Der Hauptunterschied zwischen Machine Learning und Deep Learning liegt in der Fähigkeit unstrukturierte Daten zu verarbeiten. Letztendlich versucht man mit guten und vor allen Dingen vielfältigen Trainingsdaten und viel Rechenleistungen dem System Merkmale zu entlocken, anhand derer man eine komplexe Situation modellieren und somit schnell und einfach einsetzen kann. Theoretisch muss der Anwender die Merkmale nicht verstehen, die entscheidenden Merkmale werden vom Verfahren selbst ermittelt.
Die Ergebnisse der DL sind schwer zu interpretieren. Während ich beim Machine Learning bei einer fehlgeschlagenen Validierung immer noch ergründen kann, dass die Ergebnisse nicht plausibel sind und wo die Gründe liegen, ist dies beim DL nur sehr schwer zu erkennen.
In meiner beruflichen Praxis kamen bisher auch DL-Verfahren zum Einsatz und ich halte den Erfolg für… bescheiden. Nachdem wir im Team bei der Detektion und Klassifikation eines Bauteils mit klassischen Verfahren an unsere Grenzen kamen, entschieden wir „Deep Learning“ einzusetzen. Doch trotz intensiver Einarbeitung und dem Einsatz der Software des Platzhirschen auf dem Image Processing DL Softwaremarkt, war die Trefferquote ernüchternd. Damit nicht der Eindruck erweckt wird, wir seien nur zu blöd für die richtige Anwendung der Technik: Wir holten uns professionelle Hilfe des Herstellers, Leute die die Materie studiert haben und jahrelange Erfahrung besitzen. Der sah für unseren Anwendungsfall keinen anderen Weg, als die Eingangsdaten -wie beim niederrangigen Machine Learning- strukturiert aufzubereiten. Fleißige Hilfskräfte schnitten daraufhin händisch tagelang Bildmaterial zurecht. Ganz ehrlich, ich empfand das weder als tiefgründig noch als lehrreich für ein Verfahren, welches sich „Deep Learning“ nennt. Intelligent schon gar nicht. Doch selbst mit dieser Hilfestellung gab es mit DL kein befriedigendes Ergebnis. Letztendlich beschränkte sich der Erfolg des Verfahrens darauf, dass ein kleines Sub-Element des gesamten Bauteils sehr gut identifiziert werden konnte. Den Rest, die eigentliche Klassifikation des Gesamtbauteils, haben wir binnen weniger Tage herkömmlich umgesetzt – mit Analyse der Materie und klassischem Ingenieurverstand.
Was mir klar wurde: Die zuvor beschriebene Gefahr des blinden Vertrauens ohne tatsächliche Erkenntnis verschärft sich beim DL noch einmal deutlich – klar, denn auch der überdurchschnittliche begabte Entwickler versteht ja auch gar nicht mehr, was in Schicht 3 von 10 des neuronalen Netzes passiert.
Nicht dass hier der falsche Eindruck entsteht, ich hielte nichts von selbstlernenden Verfahren:
Doch, bei manchen Problemstellungen kann dies der einzige Weg sein. Und die Ergebnisse sind bei zahlreichen Anwendungen wirklich erstaunlich!
Nur: Der Grund bei erfolgreichem Ergebnis liegt immer in der Intelligenz und dem Domänenwissen der Entwickler.
Wobei wir nun endlich bei dem Begriff der „Intelligenz“ angelangt sind!
Ist KI wirklich intelligent?
2021 kam ich in den Genuss, an einem sehr aufschlussreichen Vortrag „KI braucht menschlichen Verstand“ von Dr. Michael Scholz, dem Leiter des Forschungsteam Business Data Analytics & Optimization der Technischen Hochschule Deggendorf, teilhaben zu können.
Der Titel des Vortrags ist schonmal die wichtigste Aussage, neben zahlreichen hervorragenden Aussagen wie:
- KI braucht menschlichen Verstand, „und zwar die des Softwareentwicklers und des Domäneninhabers“
- Datenanalysen ohne Ziel liefern meist wenig Erkenntnisse
- Ziel, Daten und Methoden müssen zusammenpassen
- Qualität hat ihren Preis
- echte KI wird es, wenn überhaupt, frühestens in 40 Jahren geben Dr. Michael Scholz
Erstaunlich kritische Sicht von einem Vertreter und definitivem Befürworter dieser Technologie, die ich teile, bis auf den letzten Satz: Meiner persönlichen Meinung nach wird es niemals eine Maschine geben, welche einen eigenen Gedanken haben wird oder eine gescheite eigene philosophische Weisheit kreiert.
Seit diesem Jahr nun ist ChatGPT in aller Munde – und die Reaktionen auf diese Technologie decken von „Heilsbringer“, Begeisterung, Gleichgültigkeit bis hin zur Sorge über einen Kontrollverlust, sogar der Angst vor Versklavung der Menschheit alle Facetten ab. Die häufigste emotionale Reaktion ist nach meinem Empfinden aber eine Art Unsicherheit und Hilflosigkeit.
Was ist ChatGPT?
ChatGPT ist ein von #OpenAI entwickelter Chat Roboter, der nach eigenen Aussagen auf „künstlicher Intelligenz“ basierend auf jede Frage eine Antwort parat hat.
Bei genauer Betrachtung jedoch stellt sich heraus, dass diese Intelligenz darin besteht
- die Semantik auch komplexer Fragestellungen zu verstehen
- daraus in einem gigantischen Netz aus Informationen, auch als „Wissen“ bezeichnet, relevante Informationen zusammenzuführen um daraus
- grammatikalisch korrekte Antworten zu generieren
Was passiert jedoch, wenn dieses Wissen nicht vorliegt. Zum Beispiel, weil es niemals publiziert wurde oder schlichtweg noch nicht ergründet wurde?
Hier zwei reale Fälle:
Die Anfrage bei ChatGPT
„Kannst Du mir das Produkt von 2792478 und 4107069 sagen?“
Gibt das Ergebnis (Version 3.5):
„Das Produkt von 2.792.478 und 4.107.069 ist 11.518.659.440.462“
Klingt doch gut. Nur leider um 0,43% daneben, das richtige Ergebnis lautet 11.468.899.826.982.
Hier kommt genau das zusammen, was ich oben schon als Gefahr definiert habe: Wir trauen Ergebnissen ohne zu verstehen, wie sie entstanden sind. Ein Entwickler sollte sich überlegen ob er die Zeit darin investiert die Ursache des Fehlers zu finden oder einfach „herkömmlich“ seinen Verstand einzusetzen, auf die richtige, vertrauenswürdigere Lösung zu kommen.
Sie können selbst entscheiden, ob für Ihren Betrieb o.g. Fall problematisch sein kann oder nicht. Ich gebe mich nicht mit einer Abweichung von 0.43% zufrieden, ganz einfach, weil ich nicht weiß woher diese rührt.
Unwissen
Das Kernproblem an Systemen mit dem Anspruch, immer eine klug klingende Antwort zu generieren ist, dass bei fehlenden Informationen Wissen „interpoliert“ wird.
Das um 0.43% fehlerhafte Ergebnis der o.g. Multiplikation kann je nach Anwendungsfall noch harmlos sein. Eine ChatGPT Anfrage eines amerikanischen Jura-Professors jedoch zeigt, welche ungeahnten Probleme diese Systeme bereiten können. Auf seine Anfrage hin „welche der Professoren seiner Universität bereits in einem Skandal verwickelt waren“ lieferte das System ein Dutzend Ergebnisse mit Quellenangaben, von der die Hälfte schlichtweg erfunden war. Darunter sehr detaillierte Aussagen über einen befreundeten Kollegen, dieser habe auf einer Exkursion eine seiner Studentinnen sexuell belästigt. Niemand weiß, woher ChatGPT diese Information hat – sie waren schlicht und ergreifend aus der Luft gegriffen, künstlich erzeugt worden.
Wissen / Wissenschaft
Aber nicht nur das Unwissen, sondern auch das „Wissen“ bzw. was wir unter Wissenschaft verstehen, birgt eine Gefahr.
Ein weiteres Problem sehe ich in der Definition des Begriffs „Wissen“ und dem Vertrauen in das, was heute als Wissenschaft bezeichnet wird.
Das „Wissen“, auf das sich ChatGPT stützt, ist zuerst einmal eine Ansammlung wissenschaftlicher Untersuchungen. Das Problem jedoch ist, dass diese nicht frei von politischer Einflussnahme und sogar Manipulation sind. Das war immer so, aber hat nach meiner Wahrnehmung ein Ausmaß angenommen, dass man es gar nicht mehr übersehen kann.
Der große Fehler der „Wissenschaft“ ist es m.E., dass Form und Inhalt der Ergebnisse meist schon vorher feststehen müssen. Es gibt eine Erwartung, die man belegen muss. Dies ist mitunter auch ein Grund, weshalb es z.B. in der Physik seit 40 Jahren keinen sonderlichen Fortschritt mehr gibt. Ein sehr eindrucksvoller Vortrag von Frau Dr. Sabine Hossenfelder, hier zu sehen.
Universitäten, die Wiege der Wissenschaften, haben sich in beinahe allen Disziplinen zu Drittmittel-Bordellen entwickelt – der Kunde zahlt und bestimmt, was am Ende rauskommen soll.
Ich erinnere mich an meinen Mathe- und Physiklehrer, der Taschenrechner verfluchte, weil sie vielen Schülern das eigenständige, kritische Denken nahm – er stellte eine Aufgabe und anstatt sie erst einmal zu erfassen, tippten viele wie wild auf den Tasten herum in der Hoffnung auf eine schnelle Lösung. Mittlerweile ist der Taschenrechner ein Witz gegen die digitale (Lern-)Welt, in der sich gerade unsere Schüler befinden. Dass gerade in der Entwicklungsphase des Gehirns- welche erst nach 20 Jahren abgeschlossen ist- durch Medien im Wesentlichen auf Effizienz und das Wiedergeben vorgefertigter, per definitionem richtiger Lösungen getrimmt ist, bringt zwar zum Teil erstaunliche „gewünschte“ Ergebnisse im Sinne von Effizienz hervor, steht in meinen Augen einem großen Verlust an wissenschaftlichem Fortschritt entgegen.
Wenn der ehemalige RKI Chef Wieler sagt, dass gewisse Maßnahmen niemals hinterfragt werden dürfen, und es in der Welt der Wissenschaft keinen Aufschrei gegen diesen offenkundigen Angriff gegen den Grundsatz „Wissenschaft muss immer hinterfragen“ gibt, sehe ich das Stadium der Degenerierung des eigenständigen Denkens schon weit fortgeschritten.
Was sagen andere, kritische Zeitgeister?
Viele Wissenschaftler testen und beurteilen ChatGPT mehr oder weniger kritisch. Nachfolgend einige erwähnenswerte Aussagen.
In dem faszinierend geschriebenen Buch „Predictable Machines“ aus dem Jahre 1948 (!) von Norbert Wiener gibt es die erste Aussage über Machinelles Lernen:
„Maschinen haben einen Moment des Lernens in sich“
Der deutsche Philosoph Matthias Burchardt, Inhaber des schwarzen Gürtels in der Disziplin präziser Formulierung, griff das Thema auf und hat sehr treffend ausgedrückt:
„Dabei ist das reiche Phänomen des Lernens komplett verkürzt übertragen worden, nur ein einzelnes Element ist betont worden. Und in der neuen Lernkultur wird den Schülern beigebracht, wie eine Maschine ihr eigenes Lernen zu modellieren. Wir haben eine Verkümmerung des Lernbegriffs auf die Maschine übertragen und eine Rückübertragung auf den Menschen, der sich plötzlich maschinenähnlich verhalten soll und die ganzen breiten Facetten werden komplett außer Acht gelassen. Das digitale ist eine verkümmerte Repräsentation der Wirklichkeit! So wie die digitale Welt nur eine auf Nutzen reduzierte Repräsentation der Wirklichkeit ist, so ist auch das digitale Lernen ein verkümmertes Abbild der Fähigkeiten, die ein menschliches Gehirn zu bieten hat.“
Dazu passend die Aussage Konrad Zuses, dem Erfinder des Computers:
„Die Gefahr, dass der Computer so wird wie der Mensch, ist nicht so groß wie die Gefahr, dass der Mensch so wird wie der Computer.“
Hinsichtlich der Fragestellung, ob Programmierer in Zukunft durch ChatGPT ersetzt werden können (nachzulesen auf Quora) urteilt Dave Voorhis:
„Es fühlte sich an wie ein schlechtes Abendessen mit einer leicht strengen, humorlosen und wertenden Person, die mich nicht mochte. […] „Sie hat nicht ein einziges Mal etwas produziert, das im Entferntesten verwendbar war, zumindest nicht mit mehr Arbeit, als es selbst von Grund auf neu zu erstellen.“
Schließen möchte ich die Zitate mit der Aussage des Theologen und Philosophen Dr. Johannes Hartl:
„Die einseitige und ausschließliche Verwechslung der Realität mit dem, was sich naturwissenschaftlich beschreiben lässt, ist der größte religiöse Fundamentalismus der Gegenwart.“
Zusammengefasst lässt sich klar sagen: KI hat gar kein Verständnis, sondern simuliert lediglichVerständnis. Eine echte Kreativität ist nicht zu erwarten.
Warum dieses Essay?
Jetzt werden sich einige fragen, warum schreibe ich als Experte der industriellen Bildverarbeitung so kritisch über eine Technologie, wo es doch im Endeffekt um Werbung für sein eigenes Geschäft geht? Warum kritisiere ich „KI“, obwohl dieses zum Teil ja auch durchaus Erfolgehat und meine potenziellen Kunden diese Techniken wollen?
Ganz einfach aus dem Grund, weil bei der Digitalisierung bei Wegfall der sehr vielschichtigen Komponenten der menschlichen Intelligenz Produkte herauskommen, welche den Fähigkeiten ihrer Mitarbeiter und denen Ihrer Kunden bei weitem nicht gerecht werden.
Und sofern Ihre Prozesse noch auch fachlicher Kompetenz basieren und nicht bereits kaputtoptimiert wurden: Lassen Sie diesen Schatz bei der notwendigen Umsetzung der Automatisierung nicht verkümmern!
Ich schließe mit den Tipps, die aber auch als Appell verstanden werden dürfen:
1) Keine KI wird jemals das Spezialwissen, das Ihren Betrieb im Kern ausmacht, erzeugen können. Weil Sie der wahre Kenner Ihres Betriebes sind und niemand mehr Domänenwissen hat, als Sie und ihre Mitarbeiter es haben.
2) Trauen Sie keinen Aussagen, dass KI irgendwie „intelligent“ sei oder durch sie nun technologische Dinge möglich seien, die es nicht eh schon gibt. Die Intelligenz liegt bei den Anwendern und Entwicklern guter Prozesse und Modelle.
3) Behalten Sie den gesunden Menschenverstand bei und nutzen Sie nur das, was Sie auch nachvollziehen, überprüfen und beherrschen können.
Der Autor Dr. Martin Brake ist Gründer und Geschäftsführer von BKE, welche KI Softwarelösungen für Unternehmen anbietet.
Passend zum Thema:
NARRATIVE #155 – „KI – keine Erlösung“ mit Dr. Martin Brake
NARRATIVE #132 – „Elon Musks Irrweg“ mit Dr. Jobst Landgrebe