Wir wissen, dass die großen sprachlichen Modelle vonkünstliche Intelligenz Sie benötigen große Datenmengen, um die Leistung ihrer Chatbots zu verbessern. Wir wissen auch, dass sie enorme personelle Ressourcen benötigen, um das Lernen durch das sogenannte zu verfeinern Verstärkung lernen. Letzteres passiert tatsächlich mit i Feedback von Menschen die die Antworten zu den verschiedenen Themen auswerten.
Diese beiden Bedingungen sollten Erhöhen Sie die Genauigkeit der Antworten Modelle und reduzieren Fehler und Halluzinationen, die leider immer noch häufig sind. Und mehr Daten bedeuten eine höhere Genauigkeit. Deshalb haben solche Modelle eine angeborene Tendenz zum Gigantismus.
Gigantismus, der ein verlangt enorme Rechenleistung, vorgelagert, in der Lernphase und nachgelagert, um den Millionen von Benutzern zu dienen, die sich an sie wenden, um Antworten zu erhalten. Im März dieses Jahres gab es beispielsweise 200 Millionen aktive Nutzer von ChatGPT. Der Erhalt einer solchen Rechenleistung setzt eine in der Geschichte der Informatik beispiellose Verfügbarkeit von Geräten, Ausrüstung, Software und Energie voraus.
Diese Voraussetzungen führen dazu, dass der Aufbau und die Wartung großer allgemeinsprachlicher Systeme Investitionen erfordert, die sich nur wenige große Unternehmen leisten können. Es wird geschätzt, dass allein im ersten Quartal 2004 i High-Tech-Giganten (Meta, Microsoft, Google und Amazon) ausgegeben haben 32 Milliarden Dollar in technologischen Infrastrukturen zur Unterstützung von KI.
Es gibt daher eine gewaltige Hürde für den Eintritt neuer Akteure in diesen Sektor, der bis 2031 schätzungsweise eine Billion Dollar wert sein wird.
Die Suche nach neuen Modellen
Daher ist es kein Wunder, dass daran gearbeitet wird, diese Eintrittsbarriere deutlich zu senken. Beispielsweise die Entwicklung alternativer Lernmodelle, um die menschliche Anwesenheit in der Datenoptimierungsphase vollständig zu eliminieren. Es wird auch geschätzt, dass diese neue Modelle Sie könnten es schaffen siebenmal weniger energieintensiv von denen, die von OpenAi und Google Gemini verwendet werden. Dieser letzte Aspekt ist wichtig, da sich die Entwicklung der KI in ihrer jetzigen Form negativ auf die Umwelt auswirkt.
Eines dieser Modelle findet sich in dem Lösungsvorschlag des europäischen Start-ups wieder Mistral und auch bei Claude, dem sprachlichen Modell von Anthropisch, ein Start-up unter der Leitung von Dario Amodei. Kartoffelbrei Lama 3, dessen Einführung Meta vorbereitet, und ChatGPT5, die bald auf den Markt kommen, nutzen diese innovativen Modelle. In den letzten Tagen haben Amazon-Forscher eine Methode (Model Disgorgement) vorgestellt, um Fehler und unerwünschte Daten aus dem allgemeinen Modell zu entfernen, ohne es von Grund auf neu zu generieren.
In Wirklichkeit ist die disruptivste Innovation jedoch eine andere Herangehensweise an das Problem der Bereitstellung künstlicher Intelligenz. Dies ist ein ähnlicher Ansatz wie im Bereich der Kernenergie mit kleinen modularen Reaktoren (SMRs).
Wir beziehen uns auf KI-Systeme, die kleiner, spezialisierter und kostengünstiger in der Erstellung und Wartung sind. Diese Modelle können sein Wird auf einer Vielzahl von Geräten verwendet B. Smartphones, Kameras und Sensoren, und erreichen so Nutzer wie kleine Unternehmen und Profis, die sich große Modelle nicht leisten können. Da sie darüber hinaus weder die Cloud noch eine Internetverbindung benötigen, um zu funktionieren, bieten sie eine erste Lösung für das große Problem der Privatsphäre, des Datenschutzes und des Urheberrechts.
Diese Woche Microsoft e Apple sie starteten jeweils Phi-3 e OpenELM, zwei Familien von Sprachmodellen, die eine begrenztere Rechenressource verbrauchen als die Modelle, die wir bereits kennen. Und was noch interessanter ist, ist, dass der Code beider Familien gemeinfrei ist.
Die Phi-3-Familie von Microsoft
„Der Ansatz, den wir bei der Phi-Serie verfolgen, unterscheidet sich von dem, den der Rest der Branche verfolgt, der sich scheinbar hauptsächlich auf die Vergrößerung konzentriert, mit dem Ziel, mehr Daten hinzuzufügen und so das Modell größer zu machen“, sagte er Sébastién Bubeck, Vizepräsidentin für generative künstliche Intelligenzforschung bei Microsoft, an Katyanna Quach vom Magazin „Semafor“, einer globalen Online-Zeitung, die 2022 von Ben Smith, dem ehemaligen Kolumnisten der „New York Times“, gegründet wurde.
Für Microsoft ist die Investition in kleinere Modelle sinnvoll, um den Kunden mehr Optionen zu bieten als die größeren Systeme, die aus der Partnerschaft mit OpenAI hervorgegangen sind. Wer sich den Einsatz von Modellen dieser Größenordnung nicht leisten kann, kann auf kleinere Alternativen wie den Phi-3 mini zurückgreifen.
Microsoft verwendete a Mischung aus echten Daten Auszüge aus dem Internet e synthetische Daten von der KI selbst generiert, um die Sets der Phi-3-Familie zu trainieren.
"The Deshalb ist Phi-3 so gut „Das liegt an der Größe“, sagte Bubeck, „weil wir die Daten viel sorgfältiger verarbeitet haben.“ Das bedeutet, dass der zum Trainieren des Modells verwendete Text an der Quelle überprüft und ausgewählt wurde, um die Qualität und Genauigkeit des Lernmaterials sicherzustellen.
Nach Angaben des Unternehmens aus Seattle ähnelt die Leistung von Phi-3 der von ChatGPT 3.5, der kostenlosen Version von Open AI.
Apples OpenELM-Familie
Eine ähnliche Philosophie prägt die Skalarfamilie Apples OpenELM. Sein Merkmal ist, dass es kann Arbeiten Sie mit iPhone-Ressourcen und auf anderen Geräten der Firma Cupertino dank der Balance zwischen Leistung und Systemanforderungen. Dieses Gleichgewicht ist für die lokale Ausführung von OpenELMa unerlässlich, wobei Daten und Verarbeitung auf dem Gerät erfolgen.
Auch im Fall von OpenELM fiel die Wahl der Entwickler auf Qualität der verwendeten Texte und Daten um das Modell zu trainieren. Das Apple-Team filterte Text aus öffentlichen Datensätzen und versuchte, die Komplexität sprachlicher Strukturen und des natürlichen Sprachlexikons zu bewahren und auf das Modell zu übertragen.
Obwohl Apple Open ELM noch nicht in seine Geräte integriert hat, wird davon ausgegangen, dass dies der nächste Schritt sein wird iOS-Update (die 18., erwartet auf der Global Developer Conference Anfang Juni) wird es enthalten, einschließlich Verbesserungen an Siri sowie Zusammenfassungs- und Autovervollständigungsfunktionen in Apps. Diese neuen Leistungen sollten auf dem iPhone 16 besser abschneiden, das für diese Aufgaben mit dem neuen, leistungsstärkeren und optimierten M4-Chip ausgestattet wird.
Das Verhältnis kleiner Modelle
Nicht alle Benutzer benötigen das fortschrittlichste oder modernste Sprachmodell, das in der Lage ist, Hunderte von Dokumenten oder wissenschaftliche Forschung zu analysieren. Für viele spezifische Aufgaben, kleinere Modelle können gut funktionieren effizient, schnell und wirtschaftlich.
Bei Benchmarking-Tests Phi-mini, bestehend aus 3,8 Milliarden Parametern im Vergleich zu den 175 Milliarden von ChatGPT-3.5, weist Leistungen auf, die sich nicht wesentlich von letzteren unterscheiden.
Noch kleiner sind die OpenELM-Modelle von Apple: Sie liegen zwischen 270 Millionen und 3 Milliarden Parametern. Um die Miniaturdimension der Apple-Lösung zu verstehen, bedenken Sie einfach, dass das neue Llama 3-Modell von Meta, das in die kleine Kategorie eingeordnet werden kann, aus 8 Milliarden Parametern besteht.
Die durchschnittliche Version der OpenELM-Familie von Apple, die über etwas mehr als eine Milliarde Parameter verfügt, scheint Modelle vergleichbarer Größe zu übertreffen, obwohl sie mit weniger Daten trainiert wird.
Die Wahl offener Systeme
Künstliche Intelligenz Es hatte noch keine großen Auswirkungen auf Smartphones und Technologieunternehmen sind schnell dabei, die Möglichkeiten zu erkunden. Es gibt keinen besseren Weg, um zu sehen, welche neuen KI-Produkte und -Apps entwickelt werden können, als sie für Entwicklerexperimente zu öffnen.
Aus diesem Grund hat sogar Apple, das seine Technologie bekanntermaßen geheim hält, das veröffentlicht Quellcode und Trainingsanweisungen für sein OpenELM-System.
In einem Artikel erklärten Apple-Forscher, dass die Reproduzierbarkeit und Transparenz von LLMs für die Weiterentwicklung der künstlichen Intelligenz und die Untersuchung ihrer potenziellen Vorurteile und Risiken von entscheidender Bedeutung sind.
Sind diese kleinen Modelle wirklich gültig?
An dieser Stelle fragt man sich, ob Miniatur-KI wirklich die gute Idee zu sein scheint. Leider habe ich verwendete Benchmarks und Tests um die Leistungsfähigkeit künstlicher Intelligenz zu bewerten Sie sind nicht immer zuverlässig und es ist schwierig, sie genau zu vergleichen.
Dies ist eine der wichtigsten Schlussfolgerungen desaktueller „AI Index“-Bericht von der Stanford University. „Semafor“ berichtet über eine Stellungnahme des Forschungsleiters, Nestor Maslej, was besagte, dass einige der Benchmarks nicht widerspiegeln, wie Menschen Chatbots tatsächlich nutzen. Die Branche testet ihre Effizienz bei der Lösung mathematischer Probleme.
Den meisten Benutzern ist die Lösung mathematischer Gleichungen jedoch egal und sie würden es vorziehen, wenn das Modell von vornherein genauer wäre.
. . .
Quellen:
- Katyanna Quach, Microsoft und Apple wollen mit kleineren KI-Modellen groß herauskommen, „Semafor“, 26. April 2024
- Kate O'Flaherty, Neue KI-Sicherheitsmaßnahme für iOS 18 verändert das Spiel für alle iPhone-Benutzer, „Forbes“, 29. April 2024
- Karen Weise und Cade Metz, Microsoft macht einen neuen Vorstoß in kleinere KI-Systeme, „The New York Times“, 23. April 2024
- Katyanna Quach, „Disgorgement“: Amazon-Forscher schlagen Möglichkeiten vor, schlechte KI-Daten loszuwerden, „Semafor“, 1. Mai 2024
- Karen Weise, Im Wettlauf um die Entwicklung von KI plant Tech ein großes Sanitär-Upgrade, „The New York Times“, 27. April 2024
- Kevin Roose, KI hat ein Messproblem, „The New York Times“, 15. April 2024
- Madhumita Murgia und Cristina Criddle, OpenAI und Meta bereiten neue KI-Modelle vor, die zum „Argumentieren“ fähig sind, „The Financial Times“, 9. April 2024