Aizkulisēs: Kā mākslīgais intelekts patiesībā seko taviem kalorijām

Ēdiena atpazīšanas tehnoloģiju attīstība
Pirms dažiem gadiem precīza ēdiena atpazīšana pēc fotogrāfijas šķita gandrīz neiespējama. Sākotnējās sistēmas balstījās uz vienkāršām datorredzes metodēm un spēja atpazīt tikai dažus ēdienus ideālos apstākļos. Ja apgaismojums bija slikts vai uz šķīvja bija vairāki produkti, tās bieži kļūdījās.
Lūzuma punkts bija modernu multimodālo lielo valodas modeļu (LLM) attīstība – MI sistēmas, kas apmācītas ar milzīgiem tekstu un attēlu datu apjomiem. Šie modeļi ne tikai "redz" ēdienu, bet arī saprot to kontekstā, līdzīgi kā uztura speciālists.
Fakts: Mūsdienu ēdiena atpazīšanas modeļi ir apmācīti ar miljoniem ēdienu attēlu no visas pasaules, tāpēc tie spēj atpazīt dažādu kultūru ēdienus.
Kā multimodālais MI "redz" tavu ēdienu
Kad nofotografē savu maltīti, notiek vairāki sarežģīti procesi:
1. solis: Attēla analīze
MI vispirms analizē fotogrāfijas pikseļus, nosakot formas, krāsas, tekstūras un telpiskās attiecības. Tas palīdz atšķirt dažādus produktus uz šķīvja.
2. solis: Objektu noteikšana
Modelis sadala attēlu reģionos un identificē katru ēdiena sastāvdaļu, pat ja tās pārklājas vai ir daļēji paslēptas. Tas spēj atšķirt, piemēram, burrito no tortiljas vai enčiladas.
3. solis: Detalizēta atpazīšana
MI pamana nianses, ko cilvēks varētu nepamanīt – piemēram, maizes garozas brūnumu, kas liecina par pilngraudu sastāvu, gaļas tekstūru, kas norāda uz pagatavošanas veidu, vai dārzeņu spīdumu, kas signalizē par eļļas klātbūtni.
4. solis: Porcijas novērtēšana
Izmantojot telpisko izpratni un atsauces punktus, MI novērtē katras sastāvdaļas apjomu un svaru. Mūsdienu sistēmas ņem vērā perspektīvu un dziļumu, lai sniegtu pārsteidzoši precīzus rezultātus.
5. solis: Uzturvērtības datu meklēšana
Identificētie ēdieni tiek salīdzināti ar uzturvērtības datubāzēm, lai noteiktu kalorijas, makro- un mikroelementus pēc novērtētā daudzuma.
6. solis: Konteksta izpratne
Modelis izmanto zināšanas par gatavošanas metodēm, virtuves tipiem un biežāk sastopamām kombinācijām, lai precizētu rezultātus un aizpildītu trūkstošo informāciju.
Miglainā loģika – MI priekšrocība
Mūsdienu MI ēdiena atpazīšanas īstā vērtība ir spēja tikt galā ar nenoteiktību jeb "miglaino loģiku". Atšķirībā no tradicionālām programmām, kas darbojas pēc stingriem noteikumiem, lielie valodas modeļi spēj:
- Izteikt pamatotus minējumus, ja informācija ir nepilnīga
- Apvienot vizuālos datus ar taviem tekstuālajiem aprakstiem
- Izmantot kontekstuālas zināšanas par tipiskām sastāvdaļām
- Mainīt pārliecības līmeni atkarībā no attēla kvalitātes
- Mācīties no lietotāju atsauksmēm un kļūt precīzākiem ar laiku
Šī "miglainā loģika" ir līdzīga tam, kā strādā cilvēks-eksperts. Uztura speciālistam nav jāveic ķīmiska analīze, lai zinātu, ka pastā ir ogļhidrāti, un viņš var aptuveni noteikt porcijas lielumu bez svariem. MI beidzot ir sasniegusi līdzīgu kontekstuālu izpratni.
Tradicionālā datorredze (agrāk)
- Atpazīst tikai konkrētus, apmācītus ēdienus
- Grūtības ar jauktiem vai sarežģītiem ēdieniem
- Nepieciešams ideāls apgaismojums un leņķis
- Nav konteksta izpratnes
- Bināra – "pareizi vai nepareizi" atpazīšana
Multimodālie LLM (tagad)
- Atpazīst gandrīz jebkuru ēdienu no jebkuras virtuves
- Tiek galā ar sarežģītām, daudzkomponentu maltītēm
- Strādā dažādos apgaismojumos
- Saprot kontekstu, pagatavošanas metodes
- Izmanto varbūtību novērtējumus
Kad teksts satiekas ar attēlu: multimodālā priekšrocība
Īstais izrāviens ēdiena atpazīšanā notika, kad MI iemācījās apstrādāt attēlus un tekstu kopā – to sauc par multimodālo apmācību. Tas ļauj MI saprast ēdienu daudz dziļāk.
Piemēram, ja nofotografē zupas bļodu un pievieno komentāru "mājas vistas nūdeļu", MI nesaskata tikai šķidrumu ar peldošiem objektiem – tā saprot, ka ēd vistas nūdeļu zupu, un izmanto zināšanas par tipiskām sastāvdaļām un uzturvērtību, pat ja viss nav skaidri redzams attēlā.
Šī teksta-attēla integrācija veido "papildinošas informācijas loku" – vizuālie dati palīdz precizēt tekstu, bet teksts palīdz interpretēt neskaidros vizuālos elementus. Rezultāts ir daudz precīzāka un noderīgāka sistēma nekā tikai attēlu analīze.
"Spēcīgākās MI sistēmas ne tikai redz, kas ir priekšā – tās saprot, ko skatās, bagātīgā kontekstā."
Izaicinājumi un ierobežojumi
Lai arī MI ēdiena atpazīšana ir ļoti attīstījusies, tai joprojām ir ierobežojumi:
Šie ierobežojumi parāda, ka MI uztverama kā gudrs palīgs, nevis neapstrīdama autoritāte. Labākās sistēmas atzīst nenoteiktību un ļauj lietotājam precizēt rezultātus.
Precizitātes un lietojamības līdzsvars
Galvenais izaicinājums MI ēdiena atpazīšanā nav tikai maksimāla precizitāte – svarīgāk ir atrast līdzsvaru starp precizitāti un lietošanas ērtumu. Kā minējām rakstā par vienkāršību kaloriju uzskaitē, sistēma, kas ir 99% precīza, bet pārāk sarežģīta, būs mazāk noderīga nekā tā, kas ir 90% precīza, bet ērta ikdienā.
Mūsdienu MI apzināti izvēlas šādu kompromisu, priekšroku dodot:
- Ātrumam, nevis izsmeļošai analīzei – rezultāti dažu sekunžu laikā
- Intuitīvai lietošanai, nevis tehniskai precizitātei – vienkārši nofotografē, nevis aizpildi sarežģītas anketas
- Regulārai lietošanai, nevis retai perfekcijai – labāk sekot līdzi bieži, nevis tikai dažreiz ļoti precīzi
Patiesība ir vienkārša: visprecīzākais uztura uzskaites rīks ir tas, kuru lietosi katru dienu.
MI ēdiena atpazīšanas nākotne
Kas sagaida šo tehnoloģiju nākotnē? Dažas aizraujošas inovācijas jau ir ceļā:
Personalizēta uzturvērtības modelēšana
Nākotnes MI ņems vērā tavu vielmaiņu un pielāgos uzturvērtības aprēķinus, balstoties uz tavu individuālo reakciju uz dažādiem ēdieniem, izmantojot, piemēram, glikozes sensorus un citus biometriskos datus.
3D porciju novērtēšana
Jaunas datorredzes metodes izmantos dziļuma sensorus vai vairākus leņķus, lai izveidotu 3D modeļus un daudz precīzāk noteiktu porciju lielumu – bez speciālas aparatūras.
Uzturvērtības "ceļošana laikā"
MI spēs secināt, ko esi ēdis, pat pēc stundām, balstoties uz vielmaiņas rādītājiem, ļaujot reģistrēt maltītes arī tad, ja aizmirsti tās pierakstīt uzreiz.
Papildinātās realitātes integrācija
AR brilles sniegs uzturvērtības informāciju reāllaikā, skatoties uz ēdienu, palīdzot pieņemt gudrākus lēmumus vēl pirms ēšanas – vairs nebūs jāfotografē!
Cilvēka loma joprojām ir svarīga
Neskatoties uz tehnoloģiju attīstību, cilvēka loma uztura uzskaitē ir neaizvietojama. MI ir uztverama kā palīgs, kas atvieglo procesu un sniedz ieteikumus – nevis kā cilvēka sprieduma aizvietotājs.
Nākotnes efektīvākās uztura uzskaites sistēmas apvienos MI ar cilvēka pieredzi un intuīciju. Tās zinās, kad sniegt precīzus aprēķinus un kad pietiek ar aptuvenām vērtībām. Tās sapratīs, ka perfekta uzskaite, kas rada stresu, ir sliktāka par aptuvenu, kas palīdz uzturēt veselīgas attiecības ar ēdienu.
Galu galā MI lielākais ieguldījums uztura uzskaitē nav tikai precizitāte – tā ir pieejamība. Padarot uztura uzskaiti tik vienkāršu, ka to var uzturēt ikviens, šīs tehnoloģijas palīdz miljoniem cilvēku veidot veselīgākas attiecības ar ēdienu.
Izmēģini MI balstītu uztura uzskaiti pats! Nofotografē nākamo maltīti un pārliecinies, cik precīzi Crumpeat to analizēs – bez mērbļodiņām vai svariem.
Uzzini, kāpēc vienkāršība ir svarīga – lasi mūsu rakstu par to, kāpēc lielākā daļa kaloriju uzskaites lietotņu cieš neveiksmi pārlieku sarežģītības dēļ.