Bo fotki były za ładne
Mimo licznych doniesień o coraz doskonalszych technologiach, dzięki którym maszyny dysponują własnym "wzrokiem", eksperci ostrzegają przed nadmiernym optymizmem.
Naukowcy ze słynnej uczelni MIT (Massachusetts Institute of Technology) twierdzą, że niemal ludzki sposób oglądania świata przez komputery w rzeczywistości jest efektem nie stopnia zaawansowania algorytmów analizujących obraz, lecz odpowiednio dobranych warunków testów i demonstracji.
Według badaczy, czasy "inteligentnych" samochodów i sztucznych oczu dla niewidomych są bardziej odległe, niż mogłoby wynikać z obietnic niektórych zespołów badawczych. Co ciekawe, ostrzeżenie to jest wynikiem eksperymentu, który dał... zbyt dobre wyniki.
Problemem okazało się powszechne testowanie systemów analizy obrazu za pomocą bazy zdjęć nazwanej Caltech101. Według MIT, obrazy znajdujące się w tej bazie zostały nieprawidłowo dobrane, co oznacza, że wytrenowane na niej oprogramowanie zawiedzie w rzeczywistych warunkach. Wspomniana kolekcja zawiera bowiem zdjęcia wykonane przez fotografów, którzy z reguły posługiwali się pewnymi metodami kompozycji kadru czy doboru tematów. W świecie rzeczywistym automat "zobaczy" przez kamerę zupełnie inne obrazy - mniej estetyczne, ale za to bardziej różnorodne i nie zawsze prawidłowo oświetlone.
Zmienność obrazu może sprawiać problemy systemom, których struktura jest wzorowana na najprostszych mechanizmach analizy obrazu przez mózg. Modelom tym brakuje możliwości przetwarzania informacji na wyższym poziomie, gdzie już nie bada się jedynie położenia linii, ale kształty, powierzchnie czy odległości między obiektami. Naukowcy z MIT skonstruowali taki właśnie prymitywny model, aby sprawdzić rozmiary jego porażki w konfrontacji z bazą Caltech 101. Tymczasem ich "zabawka" spisała się doskonale, dorównując, a czasem nawet przewyższając pięć najnowocześniejszych obecnie systemów rozpoznawania obrazu.
Następnie badacze przeprowadzili bardziej przemyślany test. Za pomocą obrazów samolotów i samochodów badali reakcję systemu na zmienne położenie, rozmiar i orientację obiektów pokazywanych komputerom. Mimo jedynie dwóch typów przedmiotów do rozpoznania, komputer miał spore problemy odróżnieniem ich od siebie. Wniosek okazał się niepokojący dla twórców komputerowego wzroku: "dobra jakość" modelu nie wynikała z jego rzeczywistych możliwości, lecz z obrazów testowych, które miały niewiele wspólnego z różnorodnością rzeczywistego świata.
Autorzy opisanych badań wzywają do udoskonalenia obecnie stosowanych standardów oraz lepszego doboru materiałów "treningowych". Dzięki temu możliwe stałyby się dokładniejsze porównywanie różnych technologii i ocena postępów. Ponadto autorzy eksperymentu uważają, że nim komputery upodobnią się do ludzkiego mózgu, naukowcy powinni zrozumieć, dlaczego rozpoznawanie przedmiotów jest tak trudne, a możliwości mózgu - tak imponujące.