Společnost Xiaomi nedávno představila dva významné projekty v oblasti robotiky a umělé inteligence. Prvním z nich je model Xiaomi-Robotics-0, pokročilý model pro vizi-jazyk-akci (VLA), optimalizovaný pro vysoký výkon a plynulé provádění v reálném čase. Tento model byl pečlivě vyškolen na rozsáhlých datech z robotických trajektorií a vize-jazykových dat, což mu umožňuje generovat akce s širokou a obecnou použitelností. Během post-trénování byly implementovány techniky pro asynchronní provádění, aby se snížila latence při inferenci během reálných robotických úkolů. Při nasazení byly pečlivě sladěny časové kroky předpovězených akcí, což zajišťuje plynulé a bezproblémové provádění v reálném čase. Model Xiaomi-Robotics-0 dosahuje špičkových výsledků ve všech simulačních benchmarkech a vykazuje vysoké úspěšnosti a propustnost při reálných robotických úkolech. Pro podporu budoucího výzkumu je kód a modelové kontrolní body otevřeně dostupné na oficiálních stránkách projektu.
Druhým projektem je Xiaomi MiMo-VL-Miloco-7B, domácí model pro vizi-jazyk, specializovaný na prostředí chytré domácnosti. Tento model dosahuje vynikajících výsledků v rozpoznávání gest a porozumění běžným scénářům v domácnosti. Kombinuje specializaci na domácí scénáře s obecnými schopnostmi multimodálního uvažování, což mu umožňuje efektivně řešit úkoly v reálných aplikacích chytré domácnosti. Model je postaven na základu MiMo-VL-7B a dosahuje vedoucích F1 skóre v rozpoznávání gest a porozumění běžným domácím scénářům. Dále vykazuje konzistentní zlepšení v benchmarkech pro video, jako jsou Video-MME, Video-MMMU a Charades-STA, stejně jako v jazykových benchmarkech, včetně MMMU-Pro a MMLU-Pro. Pro dosažení rovnováhy mezi specializací a obecným uvažováním byl navržen dvoustupňový tréninkový proces, který kombinuje supervizované doladění s posilovaným učením založeným na optimalizaci skupinové relativní politiky. Modelové kontrolní body, kvantizované GGUF váhy a hodnotící nástroje pro domácí scénáře jsou veřejně dostupné na oficiálních stránkách projektu.
Tyto projekty ukazují závazek společnosti Xiaomi k inovacím v oblasti robotiky a umělé inteligence, s cílem zlepšit interakci mezi uživateli a jejich chytrými domácnostmi prostřednictvím pokročilých modelů pro vizi-jazyk-akci.
