Derzeit berichtet Frau Yang, dass die Entwicklung von Large Language Models (LLM) hauptsächlich darauf beruht, fortschrittliche und teure Grafikprozessoren (GPUs) von Unternehmen wie Nvidia und Advanced Micro Devices in Rechenzentren einzusetzen, um Projekte mit großen Mengen an Rohdaten durchzuführen, was großen Technologiefirmen und gut finanzierten Start-ups einen erheblichen Vorteil verschafft. Sie und ihre Kollegen schlagen einen dezentralen Ansatz für die LLM-Entwicklung vor, bei dem Entwickler kleinere Modelle in Tausenden spezifischer Domänen trainieren, die dann zu einem umfassenden LLM, auch bekannt als Foundation Model, heranreifen.
Diese domänenspezifischen Modelle, die normalerweise auf 13 Milliarden Parametern begrenzt sind, können Leistungen erbringen, die mit oder sogar über den neuesten Modellen von OpenAI’s GPT-4 liegen, wobei weit weniger GPUs von etwa 64 bis 128 Karten verwendet werden. Laut Yang kann dieser Ansatz die Rechenanforderungen in jedem Stadium der LLM-Entwicklung reduzieren. Dieser Paradigmenwechsel kann die LLM-Entwicklung für Universitätslabors und kleine Unternehmen zugänglicher machen. Ein evolutionärer Algorithmus entwickelt dann diese domänenspezifischen Modelle weiter, um letztendlich ein umfassendes Grundlagenmodell zu erstellen, so sagt sie.
Der erfolgreiche Start einer solchen LLM-Entwicklung in Hongkong wäre ein großer Erfolg für die Stadt, die sich zu einem Innovations- und Technologiezentrum entwickeln möchte. Aufgrund des dynamischen Umfelds in Hongkong sowie des Zugangs zu KI-Talenten und Ressourcen sei die Stadt ein idealer Ort, um Forschung zu diesem neuen Entwicklungsparadigma durchzuführen, so Yang. Sie fügte hinzu, dass der Präsident der Polytechnischen Universität Hongkong, Teng Jin-guang, diese Vision teile. Yang berichtet, dass ihr Team bereits bestätigt habe, dass kleine KI-Modelle, wenn sie zusammengefügt werden, die fortschrittlichsten LLMs in spezifischen Bereichen übertreffen können.
Der nächste Schritt bestehe darin, eine inklusivere Infrastrukturplattform aufzubauen, um mehr Talente in die KI-Community zu locken, so dass einige Veröffentlichungen bis Ende dieses Jahres oder Anfang nächsten Jahres veröffentlicht werden können. Während in Zukunft einige cloud-basierte große Modelle dominieren werden, würden auch kleine Modelle in verschiedenen Domänen florieren, prognostizierte sie. Yang, die einen Doktortitel von der Duke University in North Carolina erhalten hat, hat an der Entwicklung von Alibabas 10-Billionen-Parameter M6 Multimodal AI-Modell mitgewirkt und veröffentlicht.
Hinterlasse eine Antwort