Trio का परिचय — भौतिक संचालन के लिए एक विश्व मॉडल
MachineFi Labs · स्थिति अपडेट

Trio: भौतिक संचालन के लिए एक विश्व मॉडल

Trio पर MachineFi Labs से एक स्थिति अपडेट — हमने क्या बनाया है, अभी क्या चल रहा है, और अपने कैमरों को इस पर कैसे लाएँ।

हाईवे पर एक Tesla, डैश पर Autopilot सड़क विज़ुअलाइज़ेशन के साथ
कार चलाता हैTesla FSD
DreamerV4 — खेलों और नियंत्रण वातावरणों का एक ग्रिड जिन्हें वह खेलना सीखता है
खेल खेलता हैDreamerV4
Physical Intelligence का pi-आर्म रोबोट एक रसोई में काम करते हुए
घर के काम करता हैPhysical Intelligence
World Labs — एक अन्वेषण-योग्य 3D दुनिया उत्पन्न करते हुए (स्थानिक बुद्धिमत्ता)
एक दुनिया बनाता हैWorld Labs
कार चलाना, खेल खेलना, कपड़े तह करना, एक दुनिया बनाना — हर एक एक विश्व मॉडल है। Trio एक अलग प्रकार का है।

पूरे इतिहास में, भौतिक दुनिया को लोगों ने चलाया है। एक व्यक्ति देखता है कि क्या हो रहा है, आँकता है कि इसका क्या अर्थ है, और उस पर कार्य करता है — ट्रक चलाता है, लाइन पर काम करता है, फ़्लोर पर घूमता है। अनुभव करो, पूर्वानुमान लगाओ, कार्य करो: इस लूप में हमेशा एक इंसान की ज़रूरत रही है।

AI ने पहले डिजिटल दुनिया को बदला — भाषा, कोड, चित्र। अब यह भौतिक दुनिया पर शुरू हो रहा है। एक AI जो जीवंत ट्रैफ़िक में कार चलाता है। एक AI जो यह कल्पना करके वीडियो गेम सीखता है कि वह कैसे खेला जाता है। एक रोबोट जो कपड़ों का ढेर तह करता है। इन सबके नीचे जो हिस्सा है — वह चीज़ जो किसी मशीन को किसी स्थिति को देखने, यह कल्पना करने कि आगे क्या होगा, और उस पर कार्य करने देती है — वह एक विश्व मॉडल है। Trio एक अलग प्रकार का विश्व मॉडल है।

वे जान-बूझकर संकीर्ण हैं: एक कार, एक खेल, एक रोबोट, एक कार्य। लेकिन सबसे बड़ी भौतिक सतह पहले से ही जुड़ी हुई और देख रही है — हर गोदाम, स्टोर, कारखाने और देखभाल फ़्लोर के ऊपर लगे कैमरे, हज़ारों घंटे रिकॉर्ड करते हुए, जो आज लगभग कुछ नहीं बनाते सिवाय उस फुटेज के जिसे कुछ गलत होने के बाद खींचा जाता है। एक विश्व मॉडल जो उन पर चले — पूरे संचालनों पर, जीवंत — वही अवसर है। Trio इसी के लिए बना है।

Trio क्या है

ध्यान दें कि उन चारों में क्या समान है: हर एक एक चीज़ चलाता है — एक कार, एक खेल, एक रोबोट। कोई भी एक संचालन नहीं चलाता। और भौतिक अर्थव्यवस्था का अधिकांश हिस्सा वहीं रहता है — लंच रश में एक रेस्तराँ, एक कार वॉश जो कारों को अपने बे से होकर चक्र में ले जाता है, ट्रक लोड करता एक गोदाम, अपने फ़्लोर पर काम करता एक स्टोर, एक कारखाना लाइन — ऐसी जगहें जहाँ दर्जनों लोग, वाहन और मशीनें एक साथ चलते हैं, चौबीसों घंटे, और यह सब उन कैमरों पर जिन्हें देखने का समय किसी के पास नहीं है।

यही Trio के लिए है। Trio हमारा भौतिक संचालन के लिए विश्व-मॉडल प्लेटफ़ॉर्म है — कोई एकल अखंड मॉडल नहीं, बल्कि तीन उत्पादों का एक सुइट जो मिलकर एक जीवंत संचालन को अनुभव करते, पूर्वानुमान लगाते और उस पर कार्य करते हैं। जहाँ एक भाषा मॉडल सीखता है कि टेक्स्ट कैसे काम करता है, वहीं Trio सीखता है कि एक स्थान कैसे काम करता है — उसमें क्या है, वह कैसे चलता है, आगे क्या होता है — आपके संचालन के लिए, उन कैमरों से जो आपके पास पहले से हैं। हम भाषा मॉडल को प्रतिस्थापित नहीं करते; हम उन्हें भौतिक दुनिया देते हैं।

Trio उस लूप को तीन चरणों में चलाता है — और उसी क्रम में आता है। अनुभव आज जीवंत है; पूर्वदृष्टि और कार्य आगे आने वाले हैं।

आज, उनमें से दो वास्तविक हैं और आपके हाथों में हैं। Trio-Retina (देखना) किसी भी कैमरा फ़ीड को इस बात के एक मानक, जीवंत पाठ में बदल देता है कि क्या हो रहा है — कौन कहाँ है, क्या कर रहा है, कहाँ जा रहा है। Trio-Lumen (समझना) इसे सादी भाषा में प्रोग्राम-योग्य बनाता है — “समय-पश्चात लोडिंग डॉक में किसी को भी फ़्लैग करो” — चौबीसों घंटे हर फ़्रेम को देखते हुए और उसे घटनाओं और अलर्ट में बदलते हुए। अनुभव और समझ, आज आ रहे हैं।

pip install trio-retina Trio-Retina ओपन सोर्स है — आपकी अपनी मशीन पर चलता है, या Playground में इसे जीवंत आज़माएँ →

वे दोनों वह नींव हैं जिस पर बाकी सब बना है। पूर्वदृष्टि और कार्य — मुसीबत के होने से पहले उसका अनुमान लगाना, फिर फ़्लोर पर कार्य करना — लूप के अगले चरण हैं। यह क्रम जान-बूझकर है: आप वह पूर्वानुमान नहीं लगा सकते जिसे आप अभी देख नहीं सकते, इसलिए हमने पहले दृष्टि बनाई।

खुले इंटरनेट पर प्रशिक्षित एक मॉडल सीखता है कि दुनिया कैसी दिखती है। Trio सीखता है कि आपका संचालन कैसे चलता है।

यह एक गोदाम में कैसा दिखता है

अमूर्तता हटा दें। एक लोडिंग डॉक, शिफ़्ट के बीच। एक फ़ोर्कलिफ़्ट एक बे से पीछे की ओर निकलती है; एक कर्मचारी दो रैक के बीच से एक ऐसे रास्ते पर बाहर आता है जो उसे काटता है। अभी तक कोई दूसरे को नहीं देख सकता।

एक गोदाम के भीतर — Trio फ़ोर्कलिफ़्ट और कर्मचारी को देखता है, काटते हुए रास्ते का पूर्वानुमान लगाता है, और कार्य करता है: टक्कर से पहले निर्णय

देखना — Trio-Retina, कैमरे के पास एक छोटे बॉक्स पर चलते हुए, दोनों को पहले से ही ट्रैक की गई वस्तुओं के रूप में रखता है: फ़ोर्कलिफ़्ट और व्यक्ति, उनकी स्थितियाँ, और प्रत्येक किधर जा रहा है।

पूर्वानुमान — Trio का विश्व मॉडल अगले दो सेकंड आगे बढ़ाता है। दोनों रास्ते प्रतिच्छेद करते हैं। उसने ठीक यही ज्यामिति पहले बुरी तरह समाप्त होते देखी है।

कार्य — एक नियतात्मक एज सुरक्षा गेट लगभग 50 मिलीसेकंड में प्रतिच्छेदन अलार्म दागता है — इससे तेज़ कि कोई भी व्यक्ति प्रतिक्रिया कर सके — और फ़ोर्कलिफ़्ट को रुकने का संकेत दिया जाता है। एक दुर्घटना रिपोर्ट के बजाय एक बाल-बाल बचना।

यही पूरा सिद्धांत एक ही फ़्रेम में है: वह फुटेज नहीं जिसे कुछ होने के बाद आप खींचते हैं, बल्कि एक निर्णय जो उसके होने से ठीक पहले उस क्षण लिया गया।

एक वास्तविक विश्व मॉडल — और हमारा कैसे अलग है

Trio एक तेज़ी से आगे बढ़ते क्षेत्र के भीतर बैठता है। विश्व मॉडल वहाँ हैं जहाँ AI के बहुत से श्रेष्ठ दिमाग अब इशारा कर रहे हैं। यह विचार Ha व Schmidhuber के World Models (2018) तक जाता है — एक एजेंट जो अपने वातावरण का एक संक्षिप्त मॉडल सीखता है और उसके भीतर रोलआउट का “सपना” देखता है। Yann LeCun तर्क देते हैं कि अव्यक्त (latent) स्थान में एक पूर्वानुमानी विश्व मॉडल (उनका JEPA) स्वायत्त मशीन बुद्धिमत्ता के मार्ग पर छूटा हुआ टुकड़ा है; Fei-Fei Li इस सीमांत को स्थानिक बुद्धिमत्ता कहती हैं, और उनकी World Labs ऐसे मॉडल बनाती है जो अन्वेषण-योग्य 3D दुनियाएँ उत्पन्न करते हैं। यह क्षेत्र मोटे तौर पर खेमों में बँटता है:

  • अव्यक्त पूर्वानुमानV-JEPA 2 (Meta) और Dreamer शृंखला अव्यक्त स्थान में गतिकी सीखते हैं और उसके भीतर योजना बनाते हैं।
  • जनरेटिव व इंटरैक्टिव दुनियाएँGenie 3 (DeepMind), NVIDIA Cosmos, और World Labs का Marble वातावरणों की कल्पना और उत्पादन करते हैं।
  • ड्राइविंगTesla FSD और Wayve का GAIA-2 पृथ्वी पर सबसे अधिक तैनात विश्व मॉडल चलाते हैं — एक कार के लिए।
  • रोबोटिक्सPhysical Intelligence, Skild AI, और Figure एक ही रोबोट के लिए आधारभूत मॉडल बनाते हैं।

उनमें से लगभग सभी या तो एक दुनिया की कल्पना या अनुकरण करते हैं, या एक एकल एजेंट के अहं-केंद्रित डोमेन का मॉडल बनाते हैं — एक कार, एक रोबोट। Trio वह है जो जीवंत, वास्तविक, पहले से मौजूद तृतीय-पुरुष संचालनों पर चलता है — एक पूरा गोदाम या स्टोर, एक साथ कई लोग और मशीनें — और उन पर वास्तविक समय में कार्य करता है।

एक वास्तविक विश्व मॉडल — और हमारा कैसे अलग है: Trio जीवंत, तृतीय-पुरुष, पूरे-संचालन वाले चतुर्थांश में बैठता है
विश्व मॉडलकिसके लिए अनुकूलितTrio कैसे भिन्न है
JEPA · V-JEPA (LeCun)अव्यक्त स्थान में सामान्य विश्व मॉडल सीखना — शोधजीवंत संचालनों पर एक तैनात उत्पाद; विशेषीकृत, कोई वास्तुकला नहीं
World Labs (Fei-Fei Li)अन्वेषण-योग्य 3D दुनियाओं का उत्पादन व पुनर्निर्माणउस दुनिया को पढ़ता है जिसे आपके कैमरे पहले से देखते हैं; कोई उत्पन्न नहीं करता
Genie · Cosmosवातावरणों की कल्पना व अनुकरणपहले से मौजूद स्थानों पर वास्तविक समय में निर्णय लेता है
Tesla FSDएक कार चलाना — अहं-केंद्रित, एकल डोमेनतृतीय-पुरुष, बहु-इकाई, एक पूरा संचालन, कई डोमेन
Physical Intelligence · Figure · Skildएक रोबोट, एक कार्यतर्क करता है कि एक पूरे संचालन को आगे क्या करना चाहिए

दो अक्ष Trio को अलग करते हैं। तकनीकी रूप से — यह छोटा, तेज़ और विशेषीकृत है: एज पर वास्तविक समय में, लगभग $0.004 प्रति क्वेरी का तल, प्रति निर्णय बिल किया गया, एक जमे हुए आधार के साथ छोटे प्रति-साइट एडाप्टर (LoRA, GPU-घंटों में प्रशिक्षित) के बजाय हर फ़्रेम पर फिर से चलाया जाने वाला एक विशाल सामान्य मॉडल। OVBench स्ट्रीमिंग बेंचमार्क पर, एक ओपन-वेट मॉडल को Trio के स्टैक में लपेटना केवल वास्तुकला से सटीकता को +2.3 अंक बढ़ाता है, और इसका अनुभव बिना उन निश्चित मिनट-सीमाओं के स्ट्रीम करता है जिन पर अग्रणी मॉडल रुक जाते हैं। परिदृश्य के अनुसार — यह उन संचालनों पर चलता है जो पहले से मौजूद हैं, और उन पर अभी कार्य करता है, बजाय एक दुनिया की कल्पना करने, एक कार चलाने, या एक रोबोट को हिलाने के।

Trio कैसे बना है

तकनीकी टीमों के लिए: यहाँ बताया गया है कि Trio हर कैमरे पर पूरे दिन चलने के लिए पर्याप्त तेज़ और सस्ता कैसे रहता है। यदि आप संचालन की कहानी के लिए यहाँ हैं, तो आगे स्किम करें — निष्कर्ष अंतिम पंक्ति है।

पाँच सिद्धांत इस सिस्टम को एक साथ बाँधते हैं: परतों के बीच हर इंटरफ़ेस एक दृढ़-प्रकार वाला, निरीक्षण-योग्य दृश्य ग्राफ़ है (कभी कोई अपारदर्शी वेक्टर नहीं); एक राउटर लागत का स्वामी है, सस्ती परतों को निरंतर चलाता है और महँगे तर्क को केवल आवश्यकता पड़ने पर जगाता है; उपकरण द्वि-दिशात्मक हैं, इसलिए तर्क परत निचली परतों को पुनः जाँचने या पुनः अनुकरण करने का आदेश दे सकती है; हर निर्णय अपने साक्ष्य के साथ आता है, इसलिए एक ऑपरेटर उसका निरीक्षण, विवाद और अधिक्रमण कर सकता है; और आधार मॉडल जमे रहते हैं जबकि छोटे प्रति-परिनियोजन एडाप्टर — LoRA मॉड्यूल और एक क्रॉस-टियर फ़्यूज़न एडाप्टर, पूर्ण पुनर्प्रशिक्षण के बजाय GPU-घंटों में प्रशिक्षित — प्रत्येक साइट को विशेषीकृत करते हैं।

ये सिद्धांत सात तलों के रूप में साकार होते हैं — एक एकल निर्णय के मार्ग में छह, साथ ही सभी पर अभिशासन:

एक निर्णय Trio से कैसे बहता है — सात तल (संवेदन, एज अनुभव, पूर्वानुमानी, फ़्यूज़न व स्मृति, तर्क, कार्य) साथ ही एज–क्लाउड सातत्य के पार MLOps व अभिशासन

चूँकि अनुभव और पूर्वानुमान स्थानीय रूप से चलते हैं और केवल संक्षिप्त प्रतीक व अव्यक्त मान क्लाउड तक जाते हैं — कभी कच्चा वीडियो नहीं — Trio प्रति निर्णय बिल किया जाता है, प्रति फ़्रेम प्रति टोकन नहीं।

Trio कहाँ चलता है

गोदाम एक फ़्रेम था। जिस रेस्तराँ, कार वॉश, स्टोर, कारखाने से हमने शुरुआत की — वही मॉडल किसी भी ऐसे संचालन की ओर इशारा करता है जो कैमरों पर चलता है, आज मानव ऑपरेटरों के साथ-साथ, उसे सामने लाते हुए जो उनके मौजूदा सिस्टम चूक जाते हैं:

फ़्रैंचाइज़ी संचालन
फ़्रैंचाइज़ी संचालनकतार प्रबंधन, नुकसान में कमी, कर्मचारी अनुपालन, ग्राहक-प्रवाह विश्लेषण।
सुरक्षा व पहुँच
सुरक्षा व पहुँचघुसपैठ पहचान, मँडराने का विश्लेषण, टेलगेटिंग रोकथाम, समय-पश्चात प्रवर्तन।
लॉजिस्टिक्स व भंडारण
लॉजिस्टिक्स व भंडारणयार्ड व फ़्लोर के पार डॉक स्थिति, वाहन ठहराव, PPE अनुपालन, सुरक्षा-SOP प्रवर्तन।
विनिर्माण व औद्योगिक
विनिर्माण व औद्योगिकहर लाइन व मशीन ज़ोन के पार लाइन निगरानी, दोष पहचान, ख़तरा अलर्ट।
स्मार्ट शहर
स्मार्ट शहरसड़कों व परिवहन के पार पार्किंग, यातायात प्रवाह, सार्वजनिक सुरक्षा, बुनियादी ढाँचा निगरानी।
स्वास्थ्य व जीवन विज्ञान
स्वास्थ्य व जीवन विज्ञाननिवासी कमरों व परिसरों के पार गिरावट पहचान, अधिभोग पैटर्न, व्यवहार निगरानी।
आतिथ्य व स्थल
आतिथ्य व स्थलबड़े पैमाने पर भीड़ प्रबंधन, VIP-ज़ोन पहुँच नियंत्रण, रीयल-टाइम घटना प्रतिक्रिया।
महत्वपूर्ण बुनियादी ढाँचा
महत्वपूर्ण बुनियादी ढाँचाउन स्थलों के लिए 24/7 परिधि बुद्धिमत्ता, घुसपैठ पहचान, स्वायत्त प्रतिक्रिया जो एक अलर्ट चूक नहीं सकते।

हमने क्या बनाया है — और आगे क्या है

Trio अब व्हाइटबोर्ड पर एक थीसिस नहीं है। v1.0 तकनीकी रिपोर्ट पूरे सिस्टम को औपचारिक रूप देती है — अनुभव–पूर्वानुमान–कार्य स्टैक, पाँच सिद्धांत, सात तल — दो पूरी तरह से काम किए गए संदर्भ डोमेन (एक कार वॉश और एक गोदाम) के साथ, ऊपर बताए गए फ़ोर्कलिफ़्ट-और-पैदल यात्री वाले बाल-बाल बचने तक, जिसे एक नियतात्मक एज सुरक्षा गेट ने पकड़ा जो लगभग 50 मिलीसेकंड में दागता है, 100 मि.से. की सीमा के भीतर अच्छी तरह। Trio-Retina ओपन सोर्स है (pip install trio-retina), और Playground जीवंत हैplatform.machinefi.com/playground खोलें और अपने ब्राउज़र में Trio को असली फुटेज पढ़ते देखें।

तीन शक्तियाँ अभी को वह क्षण बनाती हैं: एज सिलिकॉन अंततः क्लाउड राउंड-ट्रिप के बिना वास्तविक समय का परिचालन तर्क चला सकता है; बहु-इकाई दृश्य समझ एक शोध सीमा पार कर चुकी है जिसके पास एकल-वस्तु पहचान कभी नहीं पहुँची; और भौतिक वातावरणों के ऑपरेटर शायद आज के AI में सबसे कम-मूल्यांकित क्षमता के लिए तैयार हैं — उन कैमरों के ऊपर एक विश्व मॉडल जो उनके पास पहले से हैं, बिना नए हार्डवेयर के। यहाँ से, Trio लूप में ऊपर बढ़ता है — आज देखने और समझने से पूर्वानुमान की ओर और, समय आने पर, फ़्लोर पर कार्य करने की ओर।

आज ही Trio से शुरुआत करें

दो रास्ते — दोनों अभी जीवंत हैं:

इस पर बनाएँ · डेवलपर

GitHub पर Trio-Retina

ओपन-सोर्स अनुभव परत — मॉडल-अज्ञेय स्थिति परत जो किसी भी डिटेक्टर को घटनाओं की एक मानक स्ट्रीम प्लस अव्यक्त स्थिति में बदल देती है। pip install trio-retina और इसे अपनी मशीन पर चलाएँ।

★ GitHub पर Trio-Retina को स्टार करें →
इसके साथ खेलें · ऑपरेटर

प्लेटफ़ॉर्म पर Trio-Lumen

अपने संचालन को ब्राउज़र में जीवंत होते देखें — Trio असली फुटेज को स्थिति वाली वस्तुओं और भीड़ को प्रवाह के रूप में पढ़ता है, फिर इसे अपने कैमरों की ओर मोड़ें और सादी भाषा में पूछें।

Trio-Lumen को जीवंत आज़माएँ →

— MachineFi Labs टीम


विश्व मॉडल पर आगे पढ़ें