Entwerfen eines Business-Kurses für verstärktes Lernen
HeimHeim > Blog > Entwerfen eines Business-Kurses für verstärktes Lernen

Entwerfen eines Business-Kurses für verstärktes Lernen

Jun 26, 2023

Führungskräfte, die nach neuen Möglichkeiten suchen, wie künstliche Intelligenz (KI) einen Wettbewerbsvorteil verschaffen kann, finden das America's-Cup-Spiel 2021 aufgrund des bahnbrechenden Einsatzes von Reinforcement Learning durch ein Team möglicherweise ebenso spannend wie wegen seiner radikalen Bootsdesigns und engen Rennen.

Um wettbewerbsfähig zu bleiben, müssen die Segelteams im America's Cup wie alle Unternehmen die Grenzen des Möglichen überschreiten. Sie sind auch mit ähnlichen Einschränkungen konfrontiert, darunter einer steilen Entwicklungskurve und einem kleinen Zeitfenster, was bedeutet, dass Teams nur ein oder zwei große Experimente durchführen können, um ihre Leistung im wichtigsten Wettbewerb des Sports zu verbessern.

Für die Ausgabe 2021 des America's Cup wagte der amtierende Champion Emirates Team New Zealand, dass Reinforcement Learning, eine fortschrittliche KI-Technik, seinen Designprozess optimieren könnte. Die Technik funktionierte und ermöglichte es dem Team, exponentiell mehr Bootsdesigns zu testen und einen Leistungsvorteil zu erzielen, der ihm zu seinem vierten Cup-Sieg verhalf.

Im Gegensatz zu anderen Arten des maschinellen Lernens verwendet Reinforcement Learning Algorithmen (die oft KI-Agenten oder Bots trainieren), die sich normalerweise nicht nur auf historische Datensätze (entweder beschriftet oder unbeschriftet) stützen, um zu lernen, eine Vorhersage zu treffen oder eine Aufgabe auszuführen. Sie lernen, wie Menschen es oft tun, durch Versuch und Irrtum. In den letzten Jahren hat sich die Technologie in einer Weise ausgereift, die sie hoch skalierbar und in der Lage macht, die Entscheidungsfindung in komplexen und dynamischen Umgebungen zu optimieren.

Neben der Beschleunigung und Verbesserung des Designs wird Reinforcement Learning zunehmend in eine Vielzahl komplexer Anwendungen integriert: Produktempfehlungen in Systemen, in denen sich Kundenverhalten und -präferenzen schnell ändern; Zeitreihenvorhersage unter hochdynamischen Bedingungen; Lösung komplexer Logistikprobleme, die Verpackung, Routenplanung und Terminplanung kombinieren; und sogar die Beschleunigung klinischer Studien und die Analyse der Auswirkungen von Wirtschafts- und Gesundheitspolitik auf Verbraucher und Patienten.

Wir haben gesehen, wie schnell sich das technologische Umfeld verändern kann. Erst vor wenigen Jahren hielt eine weitere KI-Technik, Deep Learning, Einzug in die Geschäftswelt. Heute verfügen 30 Prozent der von uns befragten High-Tech- und Telekommunikationsunternehmen und 16 Prozent der Unternehmen in anderen Branchen über integrierte Deep-Learning-Funktionen.

Hier sind einige der am meisten diskutierten Anwendungen der Technik in den letzten Jahren:

Führungskräfte, die heute das Potenzial von Reinforcement Learning verstehen, werden, wie das Emirates Team New Zealand, besser in der Lage sein, in ihrer Branche einen Vorsprung zu erzielen (siehe Seitenleiste „Bemerkenswerte Beispiele für Reinforcement-Learning-Anwendungen“). Das Verständnis der Erfahrung des Teams kann Führungskräften dabei helfen, zu beurteilen, wo und wann sie die Technologie einsetzen sollten, da viele Unternehmen einen ähnlichen Weg einschlagen: Sie implementieren zunächst traditionellere Technologien, um ein Problem zu lösen, und wenden dann Reinforcement Learning an, um eine bisher unerreichbare Leistungsstufe zu erreichen. Daher erzählen wir zunächst von der Reise des Emirates Team New Zealand und bieten anschließend Ideen dafür, wo und wie Unternehmen die Anwendung von Reinforcement Learning in Betracht ziehen sollten.

Die Designer des Emirates Team New Zealand waren keine Neulinge im Umgang mit fortschrittlichen Technologien. Im Jahr 2010 hatte das Team seinen hochmodernen digitalen Simulator gebaut, um Bootskonstruktionen zu testen, ohne sie physisch zu bauen. Dies war ein Schlüssel zum Sieg des Teams beim America's Cup 2017, aber der Simulator hatte Einschränkungen. Für den optimalen Betrieb waren mehrere Segler erforderlich, was angesichts der geplanten Übungen, Reisen und Wettkämpfe der Segler eine erhebliche logistische Herausforderung darstellte. Infolgedessen arbeiteten Designer in der Regel ohne Leistungsdaten des Simulators an neuen Entwürfen und testeten dann ihre besten Ideen stapelweise, wenn sie große Zeitblöcke mit den Seglern herausarbeiten konnten. Darüber hinaus kann die Leistung der Segler zwischen den Tests variieren, wie es bei menschlichen Tests oft der Fall ist, was es für Designer schwierig macht, zu erkennen, ob eine geringfügige Verbesserung der Bootsreaktion auf eine Designänderung oder auf Abweichungen bei menschlichen Tests zurückzuführen ist.

Um so gut wie die besten Segler der Welt zu segeln, musste der KI-Agent lernen, unterschiedliche Manöver unter unterschiedlichen Bedingungen auszuführen, den besten Kurs für eine Vielzahl von Winden und Seegang auszuwählen, 14 verschiedene Bootssteuerungen entsprechend anzupassen und die Ergebnisse zu bewerten seine Entscheidungen und die kontinuierliche Verbesserung von Entscheidungen über lange Zeithorizonte hinweg. Fachexperten und Datenwissenschaftler gaben dem Agenten Beispiele, von denen er lernen konnte, und etablierten Belohnungen für den Agenten, die ihn bei seinen Entscheidungen leiten sollten, einschließlich des Verzichts auf kurzfristige Vorteile zugunsten langfristiger Vorteile. Die Experten mussten auch reale Einschränkungen durchdenken, die Menschen oft als selbstverständlich betrachten. Beispielsweise wusste der Agent zunächst nicht, dass das Boot nur in aufrechter Position fahren konnte; Schon früh versuchte es, eine Lücke im System auszunutzen, indem es kopfüber segelte, etwas, von dem ein Mensch wusste, dass es unmöglich ist.

Das Designteam des Emirates Team New Zealand verglich regelmäßig die Leistung der Agenten im Simulator mit der der Segler. Wenn die Leistung eines Agenten unterdurchschnittlich blieb, passten die Experten das Belohnungssystem an. Um den Trainingsprozess zu beschleunigen, wurde ein Netzwerk aus mehr als 1.000 parallel laufenden KI-Agenten eingesetzt, sodass jeder Agent aus den besten gemeinsamen Erfahrungen lernen konnte. Auf diese Weise erreichten die Agenten schnell ein Maß an Meisterschaft, mit dem sie die Weltmeister-Segler im Simulator übertreffen und mit dem Testen von Designkonzepten für das Team beginnen konnten.

Als sich das Emirates Team New Zealand auf das Spiel 2021 vorbereitete, wussten sie, dass die Designer, wenn sie ein KI-System zum Betrieb des Simulators bekommen könnten, die Möglichkeit hätten, mehr Designideen schneller und konsistenter zu testen, als dies mit dem digitalen Simulator allein möglich wäre. Das Team war sich zu Beginn nicht sicher, ob die Idee realisierbar war, aber als die Diskussionen über die Technologie in Schwung kamen, waren sich die Teammitglieder einig: Der potenzielle Nutzen war transformativ und machte den Versuch lohnenswert. Mithilfe von Reinforcement Learning haben Experten des Emirates Team New Zealand, von McKinsey und QuantumBlack (einem McKinsey-Unternehmen) einem KI-Agenten erfolgreich das Segeln des Bootes im Simulator beigebracht (Einzelheiten dazu finden Sie in der Seitenleiste „Einem KI-Agenten das Segeln beibringen“) ).

Während die Designregeln für den America's Cup die meisten Komponenten des Bootes spezifizieren, lassen sie den Designern genügend Freiheit, um bei einigen Schlüsselelementen wie Tragflügelbooten radikale Entscheidungen zu treffen. Diese flügelähnlichen Strukturen werden am Rumpf befestigt und heben das Boot über das Wasser, sodass das Schiff Geschwindigkeiten von über 50 Knoten (60 Meilen oder 100 Kilometer pro Stunde) erreichen kann. Tragflügelboote können ein wichtiger Faktor im Rennen sein, aber die Rennregeln erlaubten den Teams, insgesamt nur sechs Tragflügelboote in voller Größe zu bauen.

Mithilfe des auf Reinforcement-Learning geschulten Agenten zur Steuerung des Simulators konnten die Designer des Emirates Team New Zealand auf der Suche nach einem Gewinnerentwurf Tausende von Tragflügelboot-Designkonzepten statt nur Hunderten bewerten. Dies verschaffte ihnen wertvolle Erkenntnisse darüber, wie sich ein Boot auf dem Wasser verhalten könnte, bevor ein kostspieliger Bau in Angriff genommen wurde, und konnte so den Konstruktionspreis für zukünftige Rennen drastisch senken. Da die Segelkenntnisse der Agenten des Emirates Team New Zealand im Laufe der Zeit zunahmen, begannen die Segler außerdem, Manöver von den Agenten zu lernen, die sie nicht in Betracht gezogen hatten, und konnten so ihre Leistung für ein bestimmtes Design verbessern.

Der Kern der Herausforderung des Emirates Team New Zealand bestand darin, ein komplexes Geschäftsproblem in einer dynamischen Umgebung zu lösen, in der sich die Variablen auf unvorhersehbare Weise ändern, der ideale Endzustand nur lose definiert ist und das System nur durch Interaktion etwas über seine Umgebung lernen kann damit.

Diese Situation ist vergleichbar mit den Problemen, mit denen Einzelhändler, Hersteller, Versorgungsunternehmen und Unternehmen in vielen anderen Branchen konfrontiert sind. Während beispielsweise Einzelhändler früher vernünftigerweise davon ausgehen konnten, dass vergangenes Verbraucherverhalten Aufschluss über zukünftige Präferenzen geben würde, agieren sie heute in einer Welt, in der sich Kaufmuster und Präferenzen der Verbraucher schnell weiterentwickeln – umso mehr, als die COVID-19-Pandemie das Leben immer wieder neu definiert. Hersteller und Hersteller von Konsumgütern stehen unter dem Druck, dynamische Lieferketten aufzubauen, die kurzfristige klimatische, politische und gesellschaftliche Veränderungen überall auf der Welt berücksichtigen.

Jede dieser Herausforderungen stellt ein komplexes und hochdynamisches Optimierungsproblem dar, das sich mit den richtigen Daten und Feedbackschleifen gut für die Lösung durch Reinforcement Learning eignet.

Der Reiz des Reinforcement Learning bei Problemen mit vielen möglichen Aktionen und Pfaden besteht darin, dass der KI-Agent nicht explizit programmiert werden muss. Da es aus Beispielen lernt und sich durch Versuch und Irrtum selbst beibringt, kann es neuartige und anpassungsfähige Lösungen vorschlagen, oft schneller, als es Menschen könnten.

Ein KI-Agent lernt durch Versuch und Irrtum. Vereinfacht ausgedrückt führt der Agent Aktionen innerhalb einer Umgebung aus und erhält Belohnungen, wenn er die „richtigen“ Aktionen ausführt. Es arbeitet daran, die Abfolge von Aktionen zu finden, die die kumulativen Belohnungen, die es erhält, maximiert. Datenwissenschaftler und Fachexperten definieren die Belohnungsfunktion für den Agenten. Diese Art des Lernens ist nur ein Aspekt des Reinforcement Learning, der es von anderen KI-Techniken unterscheidet (weitere Informationen zu den verschiedenen Arten des maschinellen Lernens finden Sie in Abbildung 1 und „Ein Leitfaden für Führungskräfte zu KI“).

Das Emirates Team New Zealand war beispielsweise in der Lage, mehrere Designs gleichzeitig zu testen (was den Seglern nie möglich war), zehnmal mehr Designs unter mehr Bedingungen als zuvor zu testen und vom KI-Agenten Erkenntnisse über neue Möglichkeiten zu gewinnen, die ihre Segler nutzen konnten Führen Sie diese Bootsdesigns auf dem Wasser aus.

Im Großen und Ganzen sehen wir, dass Reinforcement Learning diesen Wert im gesamten Unternehmen liefert, mit potenziellen Anwendungen in allen Geschäftsbereichen und Branchen (Abbildung 2). Einige der kurzfristigen Anwendungen für Reinforcement Learning lassen sich in drei Kategorien einteilen: Beschleunigung von Design und Produktentwicklung, Optimierung komplexer Abläufe und Steuerung von Kundeninteraktionen.

Reinforcement Learning kann die Entwicklung von Produkten, technischen Systemen, Produktionsanlagen, Ölraffinerien, Telekommunikations- oder Versorgungsnetzen und anderen Kapitalprojekten verbessern. Bergbauunternehmen könnten beispielsweise ein größeres Spektrum an Minendesigns erkunden, als dies mit den anderen heute eingesetzten KI-Techniken möglich wäre, um den Ertrag zu verbessern. Ein Automobilhersteller untersucht bereits, wie durch Reinforcement Learning geschulte Agenten es ihm ermöglichen können, mehr Ideen für regeneratives Bremsen in neuen Elektrofahrzeugen zu testen und so das Design hinsichtlich Lärm, Vibration und Hitze zu optimieren.

Die Fähigkeit des Reinforcement Learning, komplexe Probleme zu lösen, bietet ein hohes Potenzial für die Optimierung komplexer Abläufe. Zunächst sehen wir in diesem Bereich drei Hauptanwendungen des Reinforcement Learning.

Erstens kann Reinforcement Learning Unternehmen dabei helfen, im Verlauf der Ereignisse die richtigen Maßnahmen entlang der Wertschöpfungskette zu ermitteln. Ein Transportunternehmen kann beispielsweise Reiserouten in Echtzeit basierend auf sich ändernden Verkehrs-, Wetter- und Sicherheitsbedingungen optimieren. Ein Lebensmittelhersteller kann den weltweiten Produktvertrieb bei täglich oder sogar stündlich schwankender Nachfrage und Wechselkursen, unterschiedlichen Versandrouten und vielem mehr optimieren.

Es kann Teams auch bei der Verwaltung komplexer Fertigungsprozesse unterstützen. So können Teams beispielsweise die Produktion in Echtzeit überwachen, verschiedene Szenarien simulieren und wichtige Parameter aktualisieren, um die Produktion dynamisch zu steigern. Hersteller, die maschinelles Lernen bereits zur Minimierung von Produktfehlern eingesetzt haben, können nun ihre Erkenntnisse durch verstärkendes Lernen erweitern, um die seltenen verbleibenden Fehler zu verhindern, die zeitweise auftreten und scheinbar keine gemeinsame Grundursache haben.

Schließlich kann Reinforcement Learning autonome Systemsteuerungen unterstützen, indem es beispielsweise die Betriebstemperaturen der Geräte kontinuierlich überwacht und anpasst, um eine optimale Leistung sicherzustellen, oder indem es einen Roboterarm in der Fertigungshalle betreibt.

Bei Integration in Personalisierungs- und Empfehlungssysteme kann Reinforcement Learning Unternehmen dabei helfen, Geschmacksveränderungen in Echtzeit zu verstehen, zu erkennen und darauf zu reagieren, Nachrichten zu personalisieren und Werbeaktionen, Angebote und Empfehlungen täglich anzupassen.

Natürlich ist die Implementierung von Reinforcement Learning eine anspruchsvolle technische Aufgabe. Ein erfolgreiches Reinforcement-Learning-System erfordert heute, vereinfacht gesagt, drei Zutaten:

Vor ein paar Jahren waren die Kosten und die Komplexität des Aufbaus und der Schulung dieser Systeme für alle außer ein paar Technologieführer unerschwinglich. Bedeutende technologische Fortschritte zur Bewältigung dieser Hürden haben jedoch dazu geführt, dass Reinforcement Learning für mehr Unternehmen zugänglicher geworden ist, und die kontinuierliche Weiterentwicklung der erforderlichen Tools macht die Technologie schnell für jedes Unternehmen zugänglich.

Die neuesten Iterationen von Reinforcement-Learning-Algorithmen, wie z. B. Soft Actor-Critic, verbessern die Trainingseffizienz erheblich und senken die Rechenkosten erheblich. Gleichzeitig sind die Rechenkosten selbst erheblich gesunken. Unternehmen können jetzt auf spezialisierte Systeme in der Cloud zugreifen und zahlen nur für das, was sie nutzen. Außerdem ermöglichen neue Tools und Strategien Teams, die von ihnen verwendete Rechenleistung zu verwalten. Beispielsweise ermöglichen die jetzt verfügbaren Ressourcenzuweisungs- und Entwicklungstools Teams, zu jedem Zeitpunkt die kostengünstigste (oder effizienteste) Rechenleistung für einen bestimmten Zweck zu ermitteln.

Die neuesten Iterationen von Reinforcement-Learning-Algorithmen, wie z. B. Soft Actor-Critic, verbessern die Trainingseffizienz erheblich und senken die Rechenkosten erheblich.

Damit die Technologie jedoch breiter eingesetzt werden kann, müssen die Rechenkosten für Reinforcement-Learning-Aufgaben weiter sinken. Wir gehen aus mehreren Gründen davon aus, dass dies in naher Zukunft geschehen wird, unter anderem aufgrund des zunehmenden Wettbewerbs zwischen Cloud-Anbietern.

Cloud-Anbieter haben außerdem ihre Bemühungen verstärkt, vorgefertigte, unternehmenstaugliche Frameworks bereitzustellen, die am Fließband bereitgestellt werden können und die erforderlichen Tools, Protokolle, Anwendungsprogrammierschnittstellen (APIs), Open-Source-Bibliotheken (wie RLlib) usw. umfassen andere Technologien, um einen Teil der manuellen Codierungs- und Integrationsarbeit zu eliminieren. Frameworks können es Teams beispielsweise ermöglichen, Trainingsaufgaben auf Dutzenden von Systemen mit einer einzigen Codezeile auszuführen, anstatt diese Funktion von Grund auf neu programmieren zu müssen. Beim Emirates Team New Zealand stützte sich das Entwicklungsteam nach Möglichkeit auf solche Frameworks und konzentrierte sich dann auf die Mehrwertaufgaben, die noch nicht zur Massenware geworden waren.

Es bleibt noch Arbeit zu erledigen. Es gibt noch kein einheitliches Standard-Framework für die Bereitstellung von Reinforcement-Learning-Lösungen. Wir gehen davon aus, dass so etwas in einigen Jahren von großen Cloud-Anbietern verfügbar sein wird. Zu den laufenden Bemühungen in diesem Bereich gehören Microsofts Project Bonsai, Amazons SageMaker RL und Googles SEED RL.

Dieselben grundlegenden Praktiken sowie organisatorischen und kulturellen Veränderungen, in die Unternehmen bereits für andere KI investieren, gelten auch für Reinforcement Learning. Angesichts der frühen Reife des Reinforcement Learning und seiner einzigartigen Anforderungen und Fähigkeiten sollten Führungskräfte jedoch einige Strategien im Auge behalten.

Beginnen Sie damit, Prozesse zu identifizieren, bei denen Reinforcement Learning das Unternehmen in die Lage versetzen könnte, die Leistung auf irgendeine Weise zu optimieren. Sehen Sie sich hierfür vielleicht Abbildung 2 an, um einige Ideen zu finden. Wählen Sie im Idealfall einen Prozess aus, bei dem bereits eine Art Lernumgebung vorhanden ist, die für die Schulung der KI-Agenten angepasst werden kann.

Unserer Erfahrung nach ist eine der besten Methoden, um herauszufinden, ob ein bestimmter Prozess für Reinforcement Learning bereit ist, die Frage: „Welche geschäftlichen Herausforderungen konnten wir mit herkömmlichen Modellierungsansätzen nicht lösen?“ Suchen Sie nach Bereichen, in denen Teams KI-Projekte mit anderen Methoden durchführen, sie aber nicht in die Produktion bringen konnten, weil die Umgebung zu dynamisch ist und die Modelle inkonsistente Ergebnisse liefern, zu viele Annahmen und Näherungen über die Daten erfordern oder diese nicht verarbeiten können vollen Umfang der Geschäftsanforderungen. Beim Emirates Team New Zealand beispielsweise wurden die Testrunden für neue Bootsdesigns ständig durch die Zeitpläne der Segler unterbrochen, und es war mit hohen Kosten verbunden, die Segler von anderen Aktivitäten abzuhalten.

Das richtige Problem sollte auch eines sein, bei dem es nicht notwendig ist zu wissen, warum das Reinforcement-Learning-System so funktioniert, wie es funktioniert. Angesichts der Komplexität der häufig in ihnen eingebetteten neuronalen Netze sind diese Systeme derzeit nicht oder nur schwer zu erklären. Reinforcement Learning eignet sich daher möglicherweise nicht für Situationen, in denen Regulierungsbehörden oder Betreiber Transparenz erfordern.

Die Beschreibung der Belohnungsfunktion, die es einem KI-Agenten ermöglichen soll, effektiv zu lernen, erfordert ebenso viel Kunst wie Wissenschaft und ist oft der kostspieligste Teil des Entwicklungsprozesses. Fachexperten und Datenwissenschaftler müssen Anreize ständig verfeinern, was allgemein als Belohnungs-Hacking bekannt ist, um herauszufinden, wie Belohnungen richtig kalibriert werden können, damit ein Agent komplexe Entscheidungen optimal treffen kann.

Teams können erste Prinzipien nutzen, um potenzielle Kosten einzudämmen, und Führungskräfte sollten die potenziellen Kostentreiber im Vorfeld verstehen und mit ihren Teams besprechen, um einen reibungsloseren Prozess zu gewährleisten und den Teams die Möglichkeit zu geben, sich auf die bevorstehende Arbeit zu konzentrieren.

Viele fertigungs- und betriebsorientierte Unternehmen nutzen bereits Simulationen oder einen digitalen Zwilling, um die Anlagenleistung und -auslastung zu optimieren. Selbst in diesen Branchen könnten jedoch Upgrades erforderlich sein, um bestärkendes Lernen zu ermöglichen. Viele herkömmliche Simulatoren sind für den Betrieb in kleinem Maßstab vor Ort konzipiert, wobei jeweils nur eine Simulation ausgeführt wird und eine Person eine physische Schnittstelle, beispielsweise einen Joystick, verwendet, um sie zu steuern. Ein solcher Simulator muss auf eine Cloud-Umgebung umgestellt werden, damit er Tausende von Simulationen parallel ausführen kann, und er muss mit einer API aktualisiert werden, die es KI-Agenten ermöglicht, mit ihm zu interagieren.

Unabhängig davon, ob sie digitale Simulatoren bauen oder umbauen, sollten Unternehmen in jedem Fall über ihre bestehenden Anwendungsfälle hinausdenken und Designentscheidungen treffen, die Flexibilität bei der Unterstützung fortgeschrittenerer Anwendungsfälle bieten, die sie möglicherweise noch nicht auf dem Schirm haben. Die Reinforcement-Learning-Technologie entwickelt sich schnell weiter, so dass eine solche Planung Unternehmen in die Lage versetzen wird, neue Reinforcement-Learning-Lösungen schneller bereitzustellen als Unternehmen, die dies nicht tun.

Implementierungen sind am erfolgreichsten, wenn Führungskräfte erkennen, dass der größte Wert darin liegt, die Technologie zur Verbesserung und Erweiterung der menschlichen Leistung einzusetzen, anstatt sie zu ersetzen. Jede KI-Initiative stützt sich auf Domänenexpertise, um KI-Teams dabei zu helfen, den Anwendungsfall richtig zu definieren, zu bestimmen, welche Datenquellen verwendet werden sollen, um sicherzustellen, dass die KI-Vorhersagen und -Empfehlungen sinnvoll sind und erfolgreich in ihre Arbeitsabläufe integriert werden können, und um das Änderungsmanagement zu leiten. Beim Reinforcement Learning müssen Domänenexperten all dies und noch mehr tun, indem sie täglich mit Datenwissenschaftlern zusammenarbeiten, um verschiedene Belohnungen zu entwickeln und zu testen, um eine effektive Belohnungsfunktion aufzubauen, und dann die Leistung des KI-Agenten nach der Bereitstellung überwachen.

Implementierungen sind am erfolgreichsten, wenn Führungskräfte erkennen, dass der größte Wert darin liegt, die Technologie zur Verbesserung und Erweiterung der menschlichen Leistung einzusetzen, anstatt sie zu ersetzen.

Unternehmen sollten auch darüber nachdenken, ob sie einen Menschen benötigen, der sie bei endgültigen Entscheidungen unterstützt. Nachdem die KI-Agenten beim Emirates Team New Zealand die besten Designs aus den Tausenden, die sie getestet hatten, empfohlen hatten, übernahmen die Segler erneut das Steuer des digitalen Simulators, um die besten Tragflügelboote zu testen und die endgültige Auswahl zu priorisieren.

Bei der Entscheidung, wo Reinforcement Learning implementiert werden soll, ist es wichtig, die Bedenken der Mitarbeiter und der Gesellschaft hinsichtlich der Erklärbarkeit und Nutzung autonomer Systeme zu berücksichtigen. Unsere Kollegen haben ausführlich über die unbeabsichtigten Konsequenzen geschrieben, die durch KI entstehen können, wenn Unternehmen die möglichen Risiken nicht vollständig verstehen, und über die Rolle der Führungskraft beim verantwortungsvollen Aufbau von KI-Systemen. Da Reinforcement Learning immer mehr an Bedeutung gewinnt, müssen Führungskräfte ihr Wissen rund um die ethischen Bedenken und gegenseitigen Abhängigkeiten ausbauen und wissen, wie man diese effektiv bewältigt, damit sie ihrem Unternehmen Orientierung geben können, wann es diese neue Technik ausprobieren sollte oder nicht.

Die Technologien, die Reinforcement Learning ermöglichen, schreiten zügig voran: Rechenkosten und Komplexität sinken, da sich die Branche hin zu adaptiveren, selbstlernenden Algorithmen entwickelt und Unternehmen komplexere Systeme als High-Level-Services zur Verfügung stellt. Damit nimmt die Akzeptanz zu, und wir gehen davon aus, dass Reinforcement Learning in einigen Jahren in vielen Branchen, wie etwa der Telekommunikation, der Pharmaindustrie und der fortgeschrittenen Industrie, immer häufiger eingesetzt wird. Innerhalb von fünf Jahren wird es wahrscheinlich in der KI-Toolbox jedes führenden Unternehmens enthalten sein und Unternehmen dabei helfen, innovative Strategien und neuartige Schritte zu entdecken, die mit etablierteren Techniken möglicherweise nicht möglich sind, und die nächste Leistungsstufe zu erreichen, die bisher der menschlichen Reichweite entzogen war.

Jacomo Corbo, mit Sitz in London, ist Partner bei QuantumBlack, einem McKinsey-Unternehmen;Oliver Fleming , mit Sitz in Sydney, ist ein erfahrener Associate Partner bei QuantumBlack; UndNicolas Hohn, mit Sitz in Melbourne, ist Senior-Experte bei QuantumBlack.

Die Autoren danken Zara Davis für ihre Beiträge zu diesem Artikel.

Spielen:Einzelhandel:Sozial gut:Sport:Automobil:Jacomo CorboOliver FlemingNicolas Hohn