Užkulisiuose: Kaip dirbtinis intelektas iš tikrųjų skaičiuoja tavo kalorijas

2025 m. gegužės 3 d. Crumpeat komanda
DI analizuoja maistą kompiuterinės regos pagalba
Šiuolaikinis DI gali išgauti detalią mitybos informaciją iš paprastos maisto nuotraukos
Kai Crumpeat programėlėje nufotografuojate savo patiekalą, atrodo, kad ji stebuklingai atpažįsta, ką valgote, ir per kelias sekundes pateikia tikslią mitybos informaciją. Bet kas iš tikrųjų vyksta už šios sklandžios patirties? Pažvelkime į pažangią DI technologiją, kuri keičia maisto atpažinimą ir kalorijų skaičiavimą.

Maisto atpažinimo technologijų raida

Prieš kelerius metus tiksliai atpažinti maistą iš nuotraukos buvo beveik neįmanoma. Ankstyvos sistemos rėmėsi paprastais kompiuterinės regos metodais ir galėjo atpažinti tik ribotą maisto rūšių kiekį idealiomis sąlygomis. Jei apšvietimas buvo prastas ar lėkštėje keli skirtingi produktai – sistema dažnai visiškai nesuveikdavo.

Lūžis įvyko atsiradus pažangiems daugiarūšiams dideliems kalbiniams modeliams (LLM) – DI sistemoms, apmokytoms su milžiniškais tekstų ir vaizdų duomenų rinkiniais. Šie modeliai ne tik „mato“ jūsų maistą – jie supranta jį kontekste, panašiai kaip mitybos specialistas.

Įdomus faktas: Šiuolaikiniai maisto atpažinimo modeliai apmokyti su milijonais maisto nuotraukų iš viso pasaulio, todėl geba atpažinti patiekalus iš įvairių virtuvių ir kultūrų.

Kaip daugiarūšis DI „mato“ jūsų maistą

Kai nufotografuojate savo patiekalą, per kelias akimirkas įvyksta keli sudėtingi procesai:

1 žingsnis: Vaizdo analizė

DI pirmiausia apdoroja nuotraukos pikselius, atpažįsta formas, spalvas, tekstūras ir erdvinius santykius. Tai padeda atskirti skirtingus maisto produktus lėkštėje.

2 žingsnis: Objektų atpažinimas

Modelis suskaido vaizdą į sritis ir identifikuoja atskirus maisto produktus, net jei jie persidengia ar yra dalinai paslėpti. Jis gali atskirti, pavyzdžiui, buritą nuo lavašo ar enčilados.

3 žingsnis: Detalių atpažinimas

DI pastebi subtilias detales, kurių žmogus galbūt nepastebėtų – pvz., duonos skrudimo raštą, kuris rodo, kad ji pilno grūdo, mėsos tekstūrą, iš kurios galima spręsti apie gaminimo būdą, ar daržovių blizgesį, kuris išduoda aliejaus kiekį.

4 žingsnis: Porcijos įvertinimas

Naudodamas erdvinį suvokimą ir atskaitos taškus, DI įvertina kiekvieno produkto tūrį ir svorį. Šiuolaikinės sistemos geba atsižvelgti į perspektyvą ir gylį, todėl apskaičiavimai stebėtinai tikslūs.

5 žingsnis: Mitybos duomenų paieška

Atpažinti produktai sulyginami su išsamia mitybos duomenų baze, kad būtų nustatytas kalorijų, makro- ir mikroelementų kiekis pagal įvertintas porcijas.

6 žingsnis: Kontekstinis supratimas

Galiausiai modelis pasitelkia žinias apie gaminimo būdus, virtuvės tipus ir įprastus produktų derinius, kad užpildytų trūkstamą informaciją ir patikslintų įvertinimus.

Neryški logika – DI stiprybė

Kas išskiria šiuolaikinį DI maisto atpažinimą – tai gebėjimas dirbti su neapibrėžtumu, vadinamu „neryškia logika“. Skirtingai nei tradicinės programos, veikiančios pagal griežtas taisykles, dideli kalbiniai modeliai gali:

  • Protingai spėti, kai informacija neišsami
  • Integruoti vizualius duomenis su jūsų aprašymais
  • Remtis kontekstinėmis žiniomis apie įprastus patiekalų ingredientus
  • Reguliuoti pasitikėjimo lygį pagal nuotraukos kokybę
  • Tobulėti laikui bėgant iš naudotojų atsiliepimų ir pataisymų

Ši neryški logika labai primena, kaip dirba žmonės-ekspertai. Mitybos specialistas neprivalo chemiškai ištirti jūsų makaronų, kad žinotų, jog juose yra angliavandenių, ir gali apytiksliai įvertinti porciją be svarstyklių. DI pagaliau pasiekė panašų kontekstinį supratimą.

Tradicinė kompiuterinė rega (ankščiau)

  • Atpažįsta tik konkrečius apmokytus produktus
  • Sunkiai susidoroja su mišriais ar sudėtingais patiekalais
  • Reikalingas idealus apšvietimas ir kampas
  • Nėra kontekstinio supratimo
  • Tik „teisinga arba klaidinga“ identifikacija

Daugiarūšiai LLM (dabar)

  • Atpažįsta beveik bet kokį maistą iš bet kurios virtuvės
  • Suvaldo sudėtingus, daugiasluoksnius patiekalus
  • Veikia įvairiomis apšvietimo sąlygomis
  • Supranta kontekstą, gaminimo būdus
  • Vertina tikimybę, o ne tik „taip/ne“

Kai tekstas susitinka su vaizdais: daugiarūšio DI pranašumas

Tikrasis proveržis įvyko, kai DI modeliai išmoko apdoroti ir vaizdus, ir tekstą kartu – tai vadinama daugiarūšiu mokymusi. Tokiu būdu DI gali suprasti maistą taip, kaip anksčiau buvo neįmanoma.

Pavyzdžiui, jei nufotografuojate sriubos dubenį ir parašote komentarą „namų vištienos sriuba“, DI nemato tik skysčio su plaukiojančiais objektais – jis supranta, kad valgote vištienos sriubą ir pritaiko žinias apie įprastus ingredientus bei maistinę sudėtį, net jei kai kurių elementų nuotraukoje nesimato.

Ši teksto ir vaizdo integracija sukuria vadinamąjį „papildomos informacijos ciklą“. Vaizdiniai duomenys padeda tikslinti tekstą, o tekstas – interpretuoti neaiškius vaizdo elementus. Rezultatas – sistema, kuri yra daug tikslesnė ir naudingesnė nei ta, kuri remiasi tik vaizdais.

„Galingiausios DI sistemos ne tik mato, kas yra nuotraukoje – jos supranta, ką mato, platesniame kontekste.“

Dr. Fei-Fei Li, DI tyrėja

Iššūkiai ir ribotumai

Nors DI maisto atpažinimas labai pažengė, svarbu suprasti dabartinius ribotumus:

DI negali aptikti nematomų ingredientų, pvz., druskos, cukraus ar įsigėrusio aliejaus. Jis daro pagrįstas prielaidas pagal įprastus gaminimo būdus, tačiau jie gali labai skirtis.

Naminiai patiekalai gali labai skirtis nuo standartinių duomenų bazės įrašų. Jūsų močiutės lazanija gali būti visai kitokia nei „vidutinė“ lazanija duomenų bazėje.

Nors situacija sparčiai gerėja, daugelis DI sistemų vis dar geriau atpažįsta vakarietišką maistą nei kitų kultūrų patiekalus – tai atspindi mokymo duomenų šališkumą.

Vizualiai panašūs perdirbti produktai gali turėti visiškai skirtingą sudėtį ir kalorijų kiekį. Dvi identiškai atrodančios batonėliai gali būti visiškai skirtingos sudėties.

Šie ribotumai rodo, kad DI maisto atpažinimą geriausia vertinti kaip išmanų asistentą, o ne neklystantį autoritetą. Pačios efektyviausios sistemos pripažįsta neapibrėžtumą ir leidžia naudotojui patikslinti rezultatus.

Balansas tarp tikslumo ir patogumo

Didžiausias iššūkis DI maisto atpažinime – ne tik pasiekti tobulą tikslumą, bet rasti pusiausvyrą tarp tikslumo ir patogumo. Kaip aptarėme straipsnyje apie paprastumą kalorijų sekime, sistema, kuri yra 99 % tiksli, bet per sudėtinga naudoti kasdien, yra mažiau vertinga nei ta, kuri 90 % tiksli, bet puikiai įsilieja į kasdienybę.

Šiuolaikiniai DI sprendimai sąmoningai renkasi šį kompromisą, teikdami pirmenybę:

  • Greitis svarbiau nei išsami analizė – rezultatai per kelias sekundes, o ne minutes
  • Intuityvus naudojimas svarbiau nei techninis tikslumas – paprasta nuotrauka vietoj sudėtingų klausimynų
  • Nuoseklumas svarbiau nei retkarčiais pasiekiamas tobulumas – skatinama reguliariai sekti, o ne siekti retų idealių rezultatų

Tai atspindi paprastą tiesą: tiksliausias mitybos sekimo įrankis yra tas, kurį iš tikrųjų naudosite kasdien.

DI maisto atpažinimo ateitis

Kas laukia šios sparčiai tobulėjančios technologijos? Artimiausiu metu matysime keletą įdomių naujovių:

Asmeninis mitybos modeliavimas

Ateities DI mokysis jūsų individualios medžiagų apykaitos ir koreguos mitybos įvertinimus pagal tai, kaip jūsų organizmas reaguoja į skirtingus produktus, remdamasis gliukozės jutikliais ir kitais biometriniais duomenimis.

Pažangus 3D tūrio įvertinimas

Naujos kompiuterinės regos technologijos leis naudoti gylio jutiklius ar kelis kampus, kad būtų sukurtas 3D maisto modelis ir daug tiksliau įvertintos porcijos – be specialios įrangos.

Mitybos „laiko kelionė“

DI galės atsekti, ką valgėte, net iš vėliau darytų nuotraukų, remdamasis metaboliniais žymenimis – leis stebėti mitybą net jei pamiršote užfiksuoti valgį laiku.

Papildytos realybės integracija

AR akiniai realiu laiku rodys mitybos informaciją apie matomą maistą – padės priimti sprendimus dar prieš valgant ir visiškai panaikins poreikį fotografuoti patiekalus.

Žmogaus vaidmuo išlieka svarbus

Nepaisant visų technologinių pasiekimų, žmogaus vaidmuo mitybos stebėsenoje išlieka esminis. DI geriausia vertinti kaip išmanų pagalbininką, kuris sumažina rūpesčių ir padeda priimti sprendimus – bet ne kaip žmogaus sprendimų pakaitalą.

Ateities efektyviausios mitybos sekimo sistemos derins pažangiausią DI su žmogaus patirtimi ir intuicija. Jos supras, kada reikia pateikti tikslius įvertinimus, o kada pakanka apytikslės vertės. Jos žinos, kad tobulas sekimas, sukeliantis nerimą, yra blogiau nei netobulas, bet skatinantis sveiką santykį su maistu.

Galiausiai didžiausias DI indėlis į mitybos stebėseną – ne tik didesnis tikslumas, bet ir prieinamumas. Supaprastindamos maisto sekimą tiek, kad tai galėtų daryti kiekvienas, šios technologijos demokratizuoja mitybos žinias ir padeda milijonams žmonių kurti sveikesnius santykius su maistu.

Išbandykite DI pagrįstą mitybos sekimą patys. Nufotografuokite kitą savo patiekalą ir pažiūrėkite, kaip tiksliai Crumpeat jį išanalizuos – jokių matavimo indų ar svarstyklių nereikės.

Sužinokite, kodėl paprastumas svarbus mūsų straipsnyje apie tai, kodėl dauguma kalorijų sekimo programėlių žlunga dėl perteklinio sudėtingumo.

Dalintis straipsniu:

Prenumeruokite mūsų naujienlaiškį

Prašome įvesti galiojantį el. paštą.