Overfitting, czyli przeuczenie modelu, oznacza, że model świetnie wypada na danych treningowych, ale słabo radzi sobie z nowymi danymi. Zapamiętuje szczegóły i szum zamiast nauczyć się wzorca, który da się uogólnić.
Co to znaczy
Overfitting, czyli przeuczenie modelu, występuje wtedy, gdy model zbyt dokładnie dopasowuje się do danych treningowych. Na tych danych wypada świetnie, ale słabo radzi sobie z nowymi przypadkami. Model zapamiętuje szczegóły i szum zamiast nauczyć się wzorca, który da się uogólnić.
Przykład w marketingu
Wyobraź sobie model przewidujący, który lead kupi usługę. Jeśli model został wytrenowany na małej próbce i za bardzo dopasował się do kilku nietypowych klientów, może uznać przypadkowe cechy za kluczowe. Na przykład zacznie premiować leady z jednej branży tylko dlatego, że w krótkim okresie akurat kilka takich firm kupiło produkt.
Dlaczego to problem?
Overfitting daje fałszywe poczucie skuteczności. Raport z testu wygląda dobrze, ale po wdrożeniu kampania nie dowozi wyników. W content marketingu podobny problem pojawia się, gdy system za mocno uczy się jednego szablonu tekstu i produkuje kolejne materiały o identycznej strukturze.
Dlatego przy pracy z AI warto sprawdzać nie tylko wynik na danych historycznych, ale też jakość na nowych danych. Przydatne są testy walidacyjne, kontrola ręczna i porównanie z prostszym procesem. Narzędzia z katalogu narzędzi AI powinny wspierać decyzję, a nie zastępować ocenę zespołu.
Jak ograniczyć ryzyko?
Pomaga większa i bardziej zróżnicowana próbka danych, prostszy model, walidacja na oddzielnym zbiorze oraz regularne monitorowanie wyników po wdrożeniu. W praktyce marketingowej warto też sprawdzać, czy model nie optymalizuje się pod metrykę, która nie ma znaczenia biznesowego.
Dlaczego to ważne
Pomaga zrozumieć, dlaczego model z dobrym wynikiem testowym może zawieść po wdrożeniu w kampanii, scoringu leadów albo rekomendacjach.
Model lead scoringu uczy się na małej próbce klientów i zaczyna traktować przypadkową branżę jako najważniejszy sygnał zakupu. Po wdrożeniu źle ocenia nowe leady.
Czym to nie jest
To nie jest po prostu wysoka skuteczność modelu. Problemem jest brak skuteczności na nowych danych.
Jak rozpoznać
Wyniki na danych treningowych są bardzo dobre, a na walidacji, nowych klientach albo kolejnej kampanii wyraźnie słabsze.