Cerebras bringt schnellste KI-Inferenz der Welt auf den Markt

Cerebras bringt schnellste KI-Inferenz der Welt auf den Markt

Die Entwicklung von Cerebras Inference als schnellste KI-Inferenzlösung der Welt ermöglicht es Entwicklern, die Leistung von Wafer-Scale-Computern für KI-Inferenz über eine einfache API zu nutzen. Mit Preisen ab nur 10 Cent pro Million Tokens bietet Cerebras Inference eine 100-fache höhere Preis-Leistungs-Verhältnis für KI-Workloads im Vergleich zu GPU-Lösungen. Im Gegensatz zu alternativen Ansätzen, die Genauigkeit für Leistung Kompromittieren, bietet Cerebras die schnellste Leistung, während sie state-of-the-art Genauigkeit beibehält, indem sie während des gesamten Inferenzlaufes im 16-Bit-Bereich bleibt.

Inferenz ist das am schnellsten wachsende Segment der KI-Berechnung und macht etwa 40% des gesamten KI-Hardwaremarktes aus. Die Geschwindigkeit von über 1.000 Tokens pro Sekunde bei der KI-Inferenz ist vergleichbar mit der Einführung von Breitbandinternet, was neue Möglichkeiten eröffnet und ein neues Zeitalter für KI-Anwendungen ankündigt. Cerebras’ 16-Bit-Genauigkeit und 20-fach schnellere Inferenzrufe ermöglichen es Entwicklern, KI-Anwendungen der nächsten Generation zu entwickeln, die komplexe, mehrstufige, Echtzeitaufgaben erfordern, wie zum Beispiel KI-Agenten.

Cerebras hat sein Inferenzdienst in drei wettbewerbsfähigen Preiskategorien verfügbar gemacht: Free, Developer und Enterprise. Die Free Tier bietet kostenlosen API-Zugriff und großzügige Nutzungsbeschränkungen für alle, die sich anmelden. Die Developer-Tier bietet Nutzern einen API-Endpunkt zu einem Bruchteil der Kosten von Alternativen auf dem Markt, mit Modellen wie Llama 3.1 8B und 70B zu Preisen von 10 Cent und 60 Cent pro Million Tokens. Die Enterprise-Tier bietet speziell angepasste Modelle, benutzerdefinierte Service Level Agreements und dedizierte Unterstützung. Preisinformationen für Unternehmen sind auf Anfrage erhältlich.

Cerebras Inference wird von dem Cerebras CS-3-System und seinem branchenführenden KI-Prozessor, dem Wafer Scale Engine 3 (WSE-3), angetrieben. Im Vergleich zu grafischen Verarbeitungseinheiten, die Kunden dazu zwingen, Kompromisse zwischen Geschwindigkeit und Kapazität einzugehen, bietet der CS-3 eine optimale Benutzerleistung und hohe Durchsatzleistung. Die riesige Größe des WSE-3 ermöglicht es vielen gleichzeitigen Benutzern, von blitzschneller Geschwindigkeit zu profitieren. Mit 7.000-mal mehr Speicherbandbreite als die NVIDIA H100 löst der WSE-3 die grundlegende technische Herausforderung von Generative AI: Speicherbandbreite. Entwickler können einfach auf die Cerebras Inference-API zugreifen, die voll kompatibel mit der OpenAI-Chat Completions-API ist, was eine nahtlose Migration mit nur wenigen Zeilen Code ermöglicht.