Za kulisami: Jak AI naprawdę śledzi Twoje kalorie

3 maja 2025 Zespół Crumpeat
AI analizujące jedzenie za pomocą komputerowego widzenia
Nowoczesna AI potrafi wyciągnąć szczegółowe informacje żywieniowe ze zwykłego zdjęcia posiłku
Gdy robisz zdjęcie swojego posiłku w Crumpeat, aplikacja w magiczny sposób rozpoznaje, co jesz i w kilka sekund podaje dokładne dane żywieniowe. Ale co tak naprawdę dzieje się za tą płynną obsługą? Zajrzyjmy za kulisy zaawansowanej technologii AI, która napędza nowoczesne rozpoznawanie jedzenia i liczenie kalorii.

Ewolucja technologii rozpoznawania jedzenia

Jeszcze kilka lat temu dokładne rozpoznawanie jedzenia na zdjęciach wydawało się niemal niemożliwe. Wczesne systemy opierały się na prostych technikach komputerowego widzenia, które rozpoznawały tylko ograniczoną liczbę potraw w idealnych warunkach. Jeśli światło było słabe lub na talerzu znajdowało się kilka dań, systemy te często całkowicie zawodziły.

Przełom nastąpił wraz z rozwojem zaawansowanych multimodalnych dużych modeli językowych (LLM) – systemów AI trenowanych na ogromnych zbiorach tekstów i obrazów. Te modele nie tylko "widzą" Twoje jedzenie, ale rozumieją je w kontekście, podobnie jak ludzki dietetyk.

Ciekawostka: Nowoczesne modele rozpoznawania jedzenia są trenowane na milionach zdjęć potraw z całego świata, dzięki czemu rozpoznają dania z różnych kuchni i kultur.

Jak multimodalne AI "widzi" Twoje jedzenie

Gdy robisz zdjęcie posiłku, w ciągu sekund zachodzi kilka zaawansowanych procesów:

Krok 1: Analiza obrazu

AI najpierw przetwarza surowe piksele zdjęcia, identyfikując kształty, kolory, tekstury i relacje przestrzenne. Dzięki temu odróżnia różne składniki na talerzu.

Krok 2: Detekcja obiektów

Model dzieli obraz na regiony i identyfikuje poszczególne składniki, nawet jeśli się nakładają lub są częściowo zasłonięte. Potrafi odróżnić burrito od wrapa czy enchilady.

Krok 3: Rozpoznawanie detali

AI analizuje subtelne wskazówki wizualne, których człowiek mógłby nie zauważyć – np. wzór przypieczenia na chlebie świadczący o pełnoziarnistości, teksturę mięsa sugerującą sposób przygotowania czy połysk warzyw wskazujący na obecność oleju.

Krok 4: Szacowanie porcji

Wykorzystując rozumienie przestrzenne i punkty odniesienia, AI szacuje objętość i wagę każdego składnika. Nowoczesne systemy uwzględniają perspektywę i głębię, by uzyskać zaskakująco dokładne wyniki.

Krok 5: Wyszukiwanie wartości odżywczych

Rozpoznane produkty są dopasowywane do rozbudowanych baz danych żywieniowych, by określić kalorie, makroskładniki i mikroskładniki na podstawie oszacowanych porcji.

Krok 6: Rozumowanie kontekstowe

Na koniec model wykorzystuje wiedzę o metodach przygotowania, typach kuchni i typowych połączeniach składników, by uzupełnić brakujące dane i doprecyzować szacunki.

Moc rozumowania "na oko"

To, co wyróżnia nowoczesne AI do rozpoznawania jedzenia, to umiejętność radzenia sobie z niejednoznacznością – inżynierowie nazywają to "rozumowaniem rozmytym". W przeciwieństwie do tradycyjnego oprogramowania działającego według sztywnych reguł, duże modele językowe potrafią:

  • Stawiać trafne hipotezy przy niepełnych danych
  • Łączyć wskazówki wizualne z opisami tekstowymi podanymi przez użytkownika
  • Wykorzystywać wiedzę kontekstową o typowych składnikach w danym daniu
  • Dostosowywać poziom pewności w zależności od jakości i wyrazistości zdjęcia
  • Uczyć się na podstawie opinii i poprawek użytkowników

Takie rozumowanie jest bardzo zbliżone do pracy ludzkiego eksperta. Dietetyk nie musi chemicznie analizować makaronu, by wiedzieć, że zawiera węglowodany, i potrafi oszacować porcję bez ważenia talerza. AI wreszcie osiągnęła podobny poziom rozumienia kontekstu.

Tradycyjne widzenie komputerowe (dawniej)

  • Ograniczone do rozpoznawania wybranych potraw
  • Problemy z daniami mieszanymi i złożonymi
  • Wymagało idealnego światła i kąta
  • Brak rozumienia kontekstu
  • Zero-jedynkowa identyfikacja

Multimodalne LLM (obecnie)

  • Rozpoznaje praktycznie każde jedzenie z każdej kuchni
  • Radzi sobie ze złożonymi, wieloskładnikowymi posiłkami
  • Działa w różnych warunkach oświetleniowych
  • Rozumie kontekst i sposoby przygotowania
  • Ocena oparta na prawdopodobieństwie

Gdy tekst spotyka obraz: przewaga multimodalności

Prawdziwy przełom w rozpoznawaniu jedzenia nastąpił, gdy modele AI nauczyły się przetwarzać jednocześnie obrazy i tekst – to tzw. uczenie multimodalne. Dzięki temu AI rozumie jedzenie w sposób wcześniej nieosiągalny.

Przykład: robisz zdjęcie miski zupy i dopisujesz "domowy rosół z makaronem" – AI nie widzi już tylko cieczy z pływającymi obiektami, ale rozumie, że jesz rosół i wykorzystuje wiedzę o typowych składnikach i wartościach odżywczych, nawet jeśli nie wszystko widać na zdjęciu.

To połączenie tekstu i obrazu tworzy tzw. "pętlę informacji uzupełniających". Dane wizualne pomagają zrozumieć tekst, a tekst pozwala lepiej zinterpretować niejasne elementy obrazu. Efekt? System jest znacznie dokładniejszy i bardziej użyteczny niż taki, który opiera się tylko na zdjęciach.

"Najpotężniejsze systemy AI nie tylko widzą, co jest na zdjęciu – rozumieją, na co patrzą, w szerokim kontekście."

Dr Fei-Fei Li, badaczka AI

Wyzwania i ograniczenia

Choć AI do rozpoznawania jedzenia zrobiła ogromny postęp, warto znać jej obecne ograniczenia:

AI nie wykryje niewidocznych składników, takich jak sól, ilość cukru czy oleje wchłonięte podczas smażenia. Opiera się na typowych metodach przygotowania, ale te mogą się bardzo różnić.

Wartości odżywcze domowych dań mogą się znacznie różnić od tych w bazach danych. Przepis Twojej babci na lasagne może być zupełnie inny niż "średnia" lasagne w bazie.

Choć sytuacja się poprawia, wiele systemów AI lepiej rozpoznaje dania kuchni zachodniej niż potrawy z innych tradycji, co wynika z uprzedzeń w danych treningowych.

Podobnie wyglądające produkty przetworzone mogą mieć zupełnie inne wartości odżywcze. Dwa identyczne batony energetyczne mogą różnić się składem i kalorycznością.

Te ograniczenia pokazują, że AI do rozpoznawania jedzenia to raczej inteligentny asystent niż nieomylny autorytet. Najlepsze systemy uwzględniają niepewność i pozwalają użytkownikowi korygować wyniki.

Równowaga między dokładnością a wygodą

Największym wyzwaniem w AI do rozpoznawania jedzenia nie jest perfekcyjna dokładność, lecz znalezienie równowagi między precyzją a wygodą. Jak pisaliśmy w artykule o prostocie w liczeniu kalorii, system, który jest 99% dokładny, ale zbyt uciążliwy w codziennym użyciu, daje mniej korzyści niż taki, który jest 90% dokładny, ale łatwy i szybki.

Nowoczesne AI celowo wybiera ten kompromis, stawiając na:

  • Szybkość zamiast dogłębnej analizy – Wyniki w kilka sekund, nie minut
  • Intuicyjną obsługę zamiast technicznej precyzji – Wystarczy zdjęcie, nie skomplikowane formularze
  • Regularność zamiast okazjonalnej perfekcji – Zachęta do codziennego śledzenia, nie sporadycznej dokładności

To podejście wynika z prostej prawdy: najdokładniejszy licznik kalorii to ten, którego faktycznie używasz każdego dnia.

Przyszłość rozpoznawania jedzenia przez AI

Co dalej z tą szybko rozwijającą się technologią? Przed nami kilka ekscytujących nowości:

Spersonalizowane modele żywieniowe

W przyszłości AI będzie uczyć się Twojego metabolizmu i dostosowywać szacunki na podstawie tego, jak Twój organizm reaguje na różne produkty – np. dzięki pomiarom z glukometrów czy innych urządzeń biometrycznych.

Zaawansowane szacowanie objętości 3D

Nowe techniki komputerowego widzenia pozwolą tworzyć modele 3D posiłków na podstawie głębi lub kilku zdjęć, co znacznie poprawi szacowanie porcji – bez potrzeby specjalnego sprzętu.

Żywieniowa podróż w czasie

AI będzie potrafiła odtworzyć, co jadłeś, na podstawie zdjęć zrobionych nawet kilka godzin później, analizując markery metaboliczne – umożliwi to retroaktywne śledzenie posiłków, nawet jeśli zapomnisz je zapisać na bieżąco.

Integracja z rzeczywistością rozszerzoną

Okulary AR będą wyświetlać informacje żywieniowe w czasie rzeczywistym, gdy patrzysz na jedzenie – pomoże to podejmować świadome decyzje jeszcze przed jedzeniem i wyeliminuje konieczność robienia zdjęć.

Człowiek wciąż jest najważniejszy

Mimo tych imponujących osiągnięć technologicznych, ludzki czynnik pozostaje kluczowy w śledzeniu odżywiania. AI to przede wszystkim inteligentny asystent, który ułatwia życie i daje wskazówki – nie zastąpi jednak ludzkiego rozsądku.

Najskuteczniejsze systemy przyszłości połączą najnowsze AI z ludzką wiedzą i intuicją. Będą wiedzieć, kiedy podać precyzyjne dane, a kiedy wystarczą przybliżone wartości. Zrozumieją, że perfekcyjne śledzenie, które wywołuje stres, jest gorsze niż niedoskonałe, ale wspierające zdrową relację z jedzeniem.

Ostatecznie największą zaletą AI w śledzeniu odżywiania nie jest sama dokładność, lecz dostępność. Upraszczając logowanie posiłków do poziomu, który każdy może utrzymać na co dzień, te technologie demokratyzują świadomość żywieniową i pomagają milionom ludzi budować zdrowsze nawyki.

Przekonaj się, jak działa AI w praktyce. Zrób zdjęcie swojego posiłku i zobacz, jak trafnie Crumpeat go przeanalizuje – bez miarki i wagi kuchennej.

Dowiedz się, dlaczego prostota jest kluczowa – przeczytaj nasz artykuł o tym, dlaczego większość aplikacji do liczenia kalorii zawodzi przez zbędną złożoność.

Udostępnij ten artykuł:

Zapisz się do newslettera

Podaj poprawny adres e-mail.