Unitree öffnet sein Roboter-Hirn — UnifoLM-VLA-0 als Open Source.
Unitree Robotics hat mit UnifoLM-VLA-0 ein multimodales Vision-Language-Action-Modell (VLA) als Open Source veröffentlicht — frei zugänglich auf GitHub und Hugging Face. Das Modell übersetzt natürliche Sprache und Kamerabilder direkt in Roboterbewegungen und erreicht im LIBERO-Benchmark 98,7 Punkte — der bislang höchste veröffentlichte Wert seiner Kategorie, vor OpenVLA, InternVLA und der π0-Serie von Physical Intelligence. Auf dem Unitree-G1-Humanoiden steuert es 12 Aufgabenkategorien mit einer einzigen Policy: Pillendosen aufschrauben, Gegenstände einpacken, Werkzeug aufräumen.
Was ist passiert?
Lange war die Hardware der Engpass der humanoiden Robotik — inzwischen ist es die Software. Ein Roboter, der laufen und greifen kann, ist nur dann nützlich, wenn er versteht, was er tun soll, und das in Bewegung übersetzt. Genau diese Brücke schlagen Vision-Language-Action-Modelle: Sie nehmen ein Kamerabild und einen Sprachbefehl entgegen und geben unmittelbar Steuerbefehle aus. Mit UnifoLM-VLA-0 stellt Unitree ein solches Modell quelloffen zur Verfügung — nicht als Forschungsartefakt, sondern als wiederverwendbare Infrastruktur.
Das Modell baut auf dem Sprach-Bild-Modell Qwen2.5-VL-7B auf und wurde auf einer Mischung aus allgemeinen Bild-Text-Daten und offenen Roboter-Datensätzen feinjustiert — darunter Unitrees eigener Datensatz und der Libero-Datensatz. Praktiker beschreiben es als eine der „engineering-vollständigsten" offenen VLA-Basen, die derzeit verfügbar sind: Man kann darauf aufbauen, statt bei null zu beginnen.
Warum das eine positive Entwicklung ist
Drei Effekte sind absehbar:
- Demokratisierung. Wer bisher ein leistungsfähiges Roboter-Steuermodell wollte, war auf proprietäre Stacks angewiesen. Eine offene Basis mit Spitzen-Benchmark macht Manipulationsforschung für hunderte Labore gleichzeitig zugänglich.
- Geschwindigkeit. Eine einzige Policy für 12 Aufgaben bedeutet: keine händische Neuprogrammierung pro Tätigkeit. Neue Aufgaben werden gezeigt, nicht codiert.
- Kompatibilität. Gepaart mit dem 16.000-Dollar-G1 entsteht erstmals ein vollständiger, bezahlbarer Stack aus offener Hardware und offener Intelligenz.
Der Benchmark in Zahlen
Wie es im Alltag aussieht
In den von Unitree gezeigten Demonstrationen übernimmt der G1 Aufgaben, die für Menschen trivial, für Roboter aber notorisch schwierig sind: eine Pillendose mit kindersicherem Verschluss aufdrehen, lose Werkzeuge sortieren, Päckchen packen. Der Reiz liegt nicht in der einzelnen Tätigkeit, sondern darin, dass dieselbe Policy alle bewältigt — ohne pro Aufgabe neu trainiert zu werden. Genau diese Generalität ist der Schritt von der Demo zur Anwendung.
„Open Source verschiebt die Frage von ‚Wer hat das beste Modell?' zu ‚Wer baut die besten Anwendungen darauf?'"
Was bleibt offen?
Ein hoher Simulations-Benchmark ist nicht dasselbe wie robuster Realeinsatz. LIBERO misst Manipulation in kontrollierten Szenarien; die unstrukturierte Wirklichkeit — wechselndes Licht, unbekannte Objekte, Zeitdruck — bleibt die eigentliche Hürde. Auch Sicherheit und Zuverlässigkeit über lange Einsätze sind mit einem offenen Basismodell nicht automatisch gelöst. Aber die Reihenfolge stimmt: erst eine starke, offene Grundlage, dann der lange Weg in die Anwendung — getragen von vielen Schultern statt einer.
Original-Quellen
Code und Gewichte direkt bei github.com/unitreerobotics/unifolm-vla
Quellen
- Pandaily — Unitree Robotics Open-Sources Multimodal Vision-Language-Action Model: UnifoLM-VLA-0: pandaily.com
- GitHub — unitreerobotics/unifolm-vla: github.com/unitreerobotics/unifolm-vla
- Projektseite — UnifoLM-VLA-0: Vision-Language-Action Foundation Model: unigen-x.github.io/unifolm-vla
- Hugging Face — unitreerobotics/UnifoLM-VLA-Base: huggingface.co/unitreerobotics