Widzenie komputerowe (Computer Vision) to dziedzina sztucznej inteligencji, która specjalizuje się w opracowywaniu technik uczenia maszynowego pozwalających programom komputerowym na weryfikację, procesowanie i wyszukiwanie sensownych informacji z mediów graficznych (obrazów, wideo na żywo).
Co to znaczy
Dzięki bardzo mocnym konwolucyjnym sieciom neuronowym systemy przestały postrzegać fotografię cyfrową wyłącznie w kategoriach losowych pikseli. Proces analityczny stał się precyzyjny: współczesne narzędzia Computer Vision pomagają e-sklepom grupować automatycznie zdjęcia produktowe wedle fasonu i koloru (Visual Search), odczytywać znaki z przemykających tablic rejestracyjnych na parkingach, czy chociażby ułatwiać pracę platformom social-media w kwestii nakładania masek i tagowania twarzy z wysoką skutecznością statystyczną.
Dlaczego to ważne
Automatyzacja procesów organizacyjnych (operacyjnych), na przykład seryjne przypisywanie tekstów alternatywnych (Alt text) na bardzo dużym zbiorze wizualnym dla optymalizacji organicznej SEO w e-commerce. Zmniejsza koszta ludzkiego zaangażowania w klasyfikację.
Zarządzasz serwisem z używaną odzieżą od klientów detalicznych. Nowa funkcjonalność skanera wizualnego pozwala użytkownikowi wgrać zdjęcie torebki, a technologia rozpozna w ułamku sekundy krawędzie, sklasyfikuje rodzaj zapięcia i wyświetli podpowiedzi najbardziej zbieżnych stylowo propozycji ubrań z aktualnej bazy sklepowej.
Czym to nie jest
- Mechanizmem generatywnym. Wizja komputerowa klasycznie służy percepcji i analizie stanu obecnego ze zbioru wejściowego, natomiast gałąź graficznego Generative AI zajmuje się wtórnym budowaniem nowej wizji w formie wyjściowej grafiki.
- Zwykłą korekcją optyczną obrazu bazującą na skryptach obróbki koloru np. w aparatach cyfrowych.
Jak rozpoznać
Zazwyczaj spotykane procesy w branży obok pojęcia: „OCR (optyczne rozpoznawanie znaków z dokumentu)”, „Visual Search (wyszukiwanie po produkcie)”, „Face Detection”.