Besikuriantis startuolis „Physical Intelligence“ nėra suinteresuotas kurti robotus. Vietoj to, komanda turi ką nors geriau: aprūpinti aparatinę įrangą nuolat besimokančiomis dirbtinio intelekto programinės įrangos „smegenimis“, todėl esamos mašinos galės savarankiškai atlikti vis daugiau užduočių, kurioms reikia tikslių judesių ir miklumo, įskaitant namų ruošos darbus.
Per praėjusius metus matėme šokančius šunis robotus, net kai kuriuos su šaudyti liepsnomis, taip pat vis pažangesnius humanoidus ir mašinas, skirtas specialistams atlikti surinkimo linijose. Bet mes vis dar laukiame savo Rosey the Robot iš Jetsonai.
Bet mes galime greitai būti ten. San Francisko fizinis intelektas (Pi) atskleidė savo bendrą robotikos AI modelį, kuris gali suteikti esamoms mašinoms atlikti įvairias užduotis – šiuo atveju ištraukti skalbinius iš džiovyklės ir sulankstyti drabužius, subtiliai supakuoti kiaušinius į konteinerį, malti kavą. pupelės ir „bussing“ stalai. Neįmanoma įsivaizduoti, kad ši sistema galėtų matyti, kaip šie mobilūs metaliniai pagalbininkai rieda namuose, siurbia, pakuoja ir išpakuoja indaplovę, kloja lovą, žiūri į šaldytuvą ir sandėliuką, kad kataloguotų savo turinį ir sugalvotų vakarienės planą. – Ir, ei, kodėl gi ne, taip pat gaminu tą vakarienę.
Su šia vizija Pi atskleidžia savo „bendros paskirties roboto pagrindinį modelį“, žinomą kaip π0 (pi-nulis).
Fizinio intelekto (π) misija yra įnešti bendrosios paskirties AI į fizinį pasaulį.
Džiaugiamės galėdami parodyti pirmąjį žingsnį šios misijos link – mūsų pirmasis generalistinis modelis π₀ 🧠 🤖
Popierius, dienoraštis, nekarpyti vaizdo įrašai: https://t.co/XZ4Luk8Dci pic.twitter.com/XHCu1xZJdq
– Fizinis intelektas (@physical_int) 2024 m. spalio 31 d
„Manome, kad tai pirmas žingsnis siekiant mūsų ilgalaikio tikslo plėtoti dirbtinį fizinį intelektą, kad vartotojai galėtų tiesiog paprašyti robotų atlikti bet kokią jų pageidaujamą užduotį, kaip jie galėtų prašyti didelių kalbų modelių (LLM) ir pokalbių robotų asistentų. bendrovė paaiškina. „Kaip ir LLM, mūsų modelis yra apmokytas naudojant plačius ir įvairius duomenis ir gali vadovautis įvairiomis teksto instrukcijomis. Skirtingai nuo LLM, jis apima vaizdus, tekstą ir veiksmus bei įgyja fizinio intelekto mokydamasis įgytos patirties iš robotų, mokydamasis tiesiogiai perduoti žemo lygio duomenis. variklio komandos per naują architektūrą. Jis gali valdyti įvairius robotus ir gali būti paragintas atlikti norimą užduotį arba sureguliuoti, kad būtų pritaikytas sudėtingiems taikymo scenarijams.
Savo tyrimuose pi-zero demonstruoja, kaip dirbtinio intelekto apmokyta aparatinė įranga gali atlikti įvairius darbus, reikalaujančius skirtingo vikrumo ir judesių. Iš viso pamatinis modelis atliko 20 užduočių, kurių visoms reikėjo skirtingų įgūdžių ir manipuliacijų.
„Mūsų tikslas renkantis šias užduotis yra ne išspręsti kokią nors konkrečią programą, o pradėti suteikti mūsų modeliui bendrą fizinės sąveikos supratimą – pradinį fizinio intelekto pagrindą“, – pažymi komanda.
π₀ yra VLA generalistas:
– Atlieka vikrias užduotis (skalbinių lankstymas, stalų klojimas ir daugelis kitų)
– Transformatoriaus ir srauto suderinimas sujungia VLM išankstinio mokymo ir nuolatinio veikimo gabalų 50 Hz pranašumus
– jis iš anksto parengtas naudojant didelį π duomenų rinkinį, apimantį daugelį formos veiksnių pic.twitter.com/zX9hvVdQuH– Fizinis intelektas (@physical_int) 2024 m. spalio 31 d
Dabar esu paskutinis „New Atlas“ žmogus, susižavėjęs robotika, daugiausia dėl to, kad didžioji dalis to, ką matėme, buvo specializuotos mašinos – ir, tiesą pasakius, man buvo prisotintas humanoidų, vežančių dėžes iš taško A. į B. Biologijoje specialistai puikiai moka išnaudoti vieną nišą – pavyzdžiui, bites, drugelius ir koalą – ir tai daro itin gerai. Tai yra, kol išorinės jėgos, tokios kaip buveinių praradimas ar ligos, neatskleis savo apribojimų.
Tačiau generalistai, kaip meškėnas ar grizlis, gali ne taip gerai užimti vieną nišą kaip kiti, tačiau jie daug geriau prisitaiko prie įvairesnių buveinių ir maisto šaltinių. Dėl to jie galiausiai labiau tinka dinamiškiems aplinkos pokyčiams.
Panašiai bendrieji robotai galės daugiau nei meistriškai pastatyti plytų sieną; ir, gebėdami mokytis, jie galės prisitaikyti prie įvairių fizinio pasaulio iššūkių ir turėti nuolat tobulėjančių įgūdžių rinkinį.
„Pi-zero“ naudoja internetinio masto vizijos kalbos modelio (VLM) išankstinį mokymą su srauto suderinimu, kad sinchronizuotų savo judesius su AI mokymusi. Jo išankstinis mokymas apėmė 10 000 valandų „vikrios manipuliacijos duomenų“ iš septynių skirtingų robotų konfigūracijų, taip pat 68 užduotis. Tai buvo papildyta esamais robotų manipuliavimo duomenų rinkiniais iš OXE, DROID ir Bridge.
Mes lyginame π₀ ir π₀-small (ne VLM versija) su keletu ankstesnių modelių:
– „Octo“ ir „OpenVLA“, skirta 0 kadrų VLA
– ACT ir difuzijos politika vienai užduočiaiAtliekant matytas užduotis, tobulinant naujas užduotis ir kalbant apie tai, jis puikiai veikia pic.twitter.com/TUDsFjitDr
– Fizinis intelektas (@physical_int) 2024 m. spalio 31 d
„Mikrulingam roboto manipuliavimui reikalingas pi-nulis, kad variklio komandos būtų išvestos aukštu dažniu, iki 50 kartų per sekundę“, – pažymi komanda. „Siekdami užtikrinti tokį miklumo lygį, sukūrėme naują metodą, skirtą išplėsti iš anksto paruoštus VLM su nuolatiniais veiksmais, naudojant srauto suderinimą, difuzijos modelių variantą. Pradedant nuo įvairių robotų duomenų ir VLM, iš anksto apmokyto naudoti interneto masto duomenis, apmokome savo vizijos, kalbos ir veiksmų srauto derinimo modelį, kurį vėliau galime išmokyti naudoti aukštos kokybės roboto duomenis, kad išspręstume daugybę tolesnių užduočių.
„Mūsų žiniomis, tai yra didžiausias ikimokyklinis mišinys, kada nors naudojamas roboto manipuliavimo modeliui“, – pažymėjo mokslininkai savo tyrime.
Nors bendrovė vis dar tik pradeda savo tyrimus ir plėtrą, Pi vienas iš įkūrėjų ir generalinis direktorius Karolis Hausmanas – mokslininkas, anksčiau dirbęs robotų srityje „Google“ – mano, kad jos pagrindinis modelis įveiks esamas kliūtis apibendrinimo srityje, įskaitant sumą. laiko ir išlaidų, susijusių su aparatinės įrangos mokymu fizinio pasaulio duomenimis, siekiant išmokti naujų užduočių. „Pi“ komandoje taip pat yra vienas iš įkūrėjų Sergejus Levine’as, kuris yra robotų kūrimo pradininkas Stanfordo universitete, ir Brianas Ichteris, buvęs „Google“ mokslininkas.
2023 m. satyrikas ir architektas Karlas Sharro paplito savo tviteryje: „Žmonės, dirbantys sunkų darbą už minimalų atlyginimą, o robotai rašo poeziją ir piešia, nėra ateitis, kurios aš norėjau“. Tais pačiais metais Holivudas sustojo, kai Amerikos rašytojų gildijos nariai pradėjo streiką, matydami niūrų kelią kūrybiniams kūrėjams šio naujo technologijų amžiaus akivaizdoje.
Ir nors dirbtinis intelektas vis dar gali ateiti – ir jau atėjo – daugeliui mūsų darbų (jūs neturite to mums, žurnalistams priminti), Pi vizija labiau atitinka XX amžiaus vidurio futuristų, kurie matė. pasaulis, kuriame mašinos palengvino mūsų gyvenimą. Galbūt pavadinkite mane naivia, bet jei mano namų ruošos darbams ateis robotas, jis gali jį atlaikyti.
Daugiau vaizdo įrašų apie pratimus, kuriuos komanda atliko „pi-zero“ robotams, galite pamatyti „Pi“ tinklaraščio įraše, tačiau štai vienas demonstruoja įspūdingą ir subtilų darbą.
Perdirbtų kiaušinių rūšiavimas
Mokslinį darbą apie pi-zero kūrimą ir mokymą rasite čia.
Šaltinis: Fizinis intelektas