Vizuálny transformer a pozornostné mapy
Na príklade detekcie symbolu na povrchu pneumatiky ukážeme ako rozpoznanie, čo stroj vidí, pomáha stroju zistiť, kde to vidí. Na rozdiel od konvolučných neurónových sietí, pri ktorých je detektor objektov realizovaný spustením veľkého počtu klasifikátorov zdieľajúcich váhy nad rôznymi miestami obrazu, pri transformeroch je schopnosť určiť masku objektu do istej miery inherentnou súčasťou klasifikátora (pokiaľ je úspešne natrénovaný). Predstavíme architektúru vizuálneho transformeru, ukážeme, ako sa dá z neho táto maska vytiahnuť a ako sa dá zmeniť stratégia trénovania tak, aby sme túto schopnosť transformeru zvýraznili. Ide o tzv. destiláciu bez anotácii, kedy sa opakovaním trénovania zdokonaľuje schopnosť siete rozlišovať medzi rôznymi objektmi na neanotovaných obrázkoch z obrovskej dátovej množiny.