Cerebras bringt schnellste KI-Inferenz der Welt auf den Markt

Die Entwicklung von Cerebras Inference als schnellste KI-Inferenzlösung der Welt ermöglicht es Entwicklern, die Leistung von Wafer-Scale-Computern für KI-Inferenz über eine einfache API zu nutzen. Mit Preisen ab nur 10 Cent pro Million Tokens bietet Cerebras Inference eine 100-fache höhere Preis-Leistungs-Verhältnis für KI-Workloads im Vergleich zu GPU-Lösungen. Im Gegensatz zu alternativen Ansätzen, die Genauigkeit für Leistung Kompromittieren, bietet Cerebras die schnellste Leistung, während sie state-of-the-art Genauigkeit beibehält, indem sie während des gesamten Inferenzlaufes im 16-Bit-Bereich bleibt.

Inferenz ist das am schnellsten wachsende Segment der KI-Berechnung und macht etwa 40% des gesamten KI-Hardwaremarktes aus. Die Geschwindigkeit von über 1.000 Tokens pro Sekunde bei der KI-Inferenz ist vergleichbar mit der Einführung von Breitbandinternet, was neue Möglichkeiten eröffnet und ein neues Zeitalter für KI-Anwendungen ankündigt. Cerebras’ 16-Bit-Genauigkeit und 20-fach schnellere Inferenzrufe ermöglichen es Entwicklern, KI-Anwendungen der nächsten Generation zu entwickeln, die komplexe, mehrstufige, Echtzeitaufgaben erfordern, wie zum Beispiel KI-Agenten.

Cerebras hat sein Inferenzdienst in drei wettbewerbsfähigen Preiskategorien verfügbar gemacht: Free, Developer und Enterprise. Die Free Tier bietet kostenlosen API-Zugriff und großzügige Nutzungsbeschränkungen für alle, die sich anmelden. Die Developer-Tier bietet Nutzern einen API-Endpunkt zu einem Bruchteil der Kosten von Alternativen auf dem Markt, mit Modellen wie Llama 3.1 8B und 70B zu Preisen von 10 Cent und 60 Cent pro Million Tokens. Die Enterprise-Tier bietet speziell angepasste Modelle, benutzerdefinierte Service Level Agreements und dedizierte Unterstützung. Preisinformationen für Unternehmen sind auf Anfrage erhältlich.

Cerebras Inference wird von dem Cerebras CS-3-System und seinem branchenführenden KI-Prozessor, dem Wafer Scale Engine 3 (WSE-3), angetrieben. Im Vergleich zu grafischen Verarbeitungseinheiten, die Kunden dazu zwingen, Kompromisse zwischen Geschwindigkeit und Kapazität einzugehen, bietet der CS-3 eine optimale Benutzerleistung und hohe Durchsatzleistung. Die riesige Größe des WSE-3 ermöglicht es vielen gleichzeitigen Benutzern, von blitzschneller Geschwindigkeit zu profitieren. Mit 7.000-mal mehr Speicherbandbreite als die NVIDIA H100 löst der WSE-3 die grundlegende technische Herausforderung von Generative AI: Speicherbandbreite. Entwickler können einfach auf die Cerebras Inference-API zugreifen, die voll kompatibel mit der OpenAI-Chat Completions-API ist, was eine nahtlose Migration mit nur wenigen Zeilen Code ermöglicht.

Cerebras bringt schnellste KI-Inferenz der Welt auf den Markt

Zunehmender Einsatz von KI im Gesundheitswesen erfordert weltweite Nachhaltigkeitsinitiativen

Zunehmende Verbreitung künstlicher Intelligenz im indischen Gesundheitswesen

Zunehmende Beweise zeigen die Bedeutung von KI für das Gesundheitswesen

Zoom und Suki arbeiten zusammen, um KI-gestützte klinische Dokumentation bereitzustellen.

Hochleistungsfähige maschinelles Lernen-basierte Kalibrierung kostengünstiger Stickstoffdioxid-Sensoren unter Verwendung von Umgebungsparameter-Differenzen und globaler Datenskalierung – Wissenschaftliche Berichte

Schätzungen der klimabedingten Auswirkungen auf die Sterblichkeit in Deutschland auf Basis neuronaler Netzwerke: Anwendung auf Klimasimulationen von Handlungsgeschichten – Scientific Reports

XElemNet: Ein Machine Learning-Framework, das eine Reihe von erklärbaren KI-Technologien (XAI) für tiefe neuronale Netze in der Materialwissenschaft anwendet

Integration von maschinellem Lernen und Einzelzell-Transkriptomanalyse zur Identifizierung potenzieller Biomarker und Analyse immunologischer Merkmale bei ischämischem Schlaganfall

Die Ernte der Daten – College of Landwirtschaft und Lebenswissenschaften

Mit KI mit Verstorbenen sprechen: Das Geschäft der ‘digitalen Auferstehung’ könnte unethisch, rechtlich bedenklich oder nicht hilfreich sein.

Die Zukunft von ChatGPT: Wird es kostenlos bleiben?

Exklusiv: Serve Robotics Executive Interview mit EnerCom – Oil & Gas 360