Mesterséges intelligencián alapuló képleírások tesztje

A cikk témái:

Manapság egyre többször hallani, hogy a mesterséges intelligencián alapuló technológiák bizonyos akadálymentességi problémákat esetleg maguktól is meg tudnak majd oldani. Ezek közé tartozhat például a képek alternatív szövegezése. Kíváncsi voltam, hogy így 2021 nyarán ezt vajon milyen eredménnyel csinálják meg a különböző technológiák.

Gyorsan leszögezem, hogy szerintem a képek alternatív szövegét továbbra is mindig a tartalom szerzőjének, szerkesztőjének kell megadnia.

Nincs ugyanis az a mesterséges intelligencia, ami pótolni tudná a szerző gondolatait, elképzeléseit. Ő az aki a legjobban tudja, hogy pontosan milyen célból használja az adott képet. Az esetek döntő többségében nem is az számít, hogy pontosan mi látható a képen, hanem az, hogy a szerző mit akart vele ábrázolni, szemléltetni. Az alternatív szövegnek lényegében ezt a gondolatot kell átadnia.

Ez különösen igaz, ha a kép nem önmagában, hanem a szerző által megírt szöveges kontextusban (pl. egy cikkben, blogbejegyzésben, tananyagban, közösségi médiumban, stb.) szerepel.

Az említett szempontokat jártam körül a Mi legyen az alt attribútum szövege? című cikksorozatomban is.

A tesztalanyok

A teszthez négy általam készített fotót „mutattam meg” öt különböző szoftver intelligens képfelismerő funkciójának. A szoftverek a következők voltak:

JAWS for Windows 2021 képernyőolvasó program „Intelligens képfelismerés” funkciója
VoiceOver iOS képernyőolvasó program „Képleírások” funkciója
Chrome böngésző „Képleírások lekérése a Google-tól” funkciója
Facebook automatikus helyettesítő szöveg funkciója
Microsoft 365 Word automatikusan generált helyettesítő szöveg funkciója

Sajnos a felsoroltak közül a VoiceOver és a Chrome említett funkciója még nem tud magyarul. A JAWS is csak gépi fordítású magyar szöveget biztosít.

Kutyás fotó

Nézzük az első képet. Ezen jómagam látszódom az öreg erdélyi kopó kutyámmal. Persze ezzel rögtön három olyan dolgot is elárultam, amit az intelligens képfelismerő algoritmusok valószínűleg csak akkor tudnak majd, ha arc- és kutyafajta felismerést is végeznek. Az viszont már kevésbé valószínű, hogy a köztünk lévő viszonyt is ki tudják következtetni. Persze kérdés, hogy az alternatív szöveg szempontjából adott tartalmi kontextusban ezeknek van-e bármilyen relevanciája. Például számít-e, hogy név szerint ki van a képen, vagy lényeges-e a kutya fajtája? Attól függ.

Erre a képre a következő alternatív szövegeket generálták a tesztelt szoftverek:

Egy kutyát tartó férfi.

Ezek a kódok leírják a képet: ember, fa, húsevő, személy.

Ezek a kódok valószínűleg leírják a képet: emlős, kutya, állat.

Ez a kód lehetséges, hogy leírja a képet: kiskutya.

— JAWS

A person holding a brown and white dog in front of a group of trees under a blue sky.

— VoiceOver

Úgy tűnik, hogy a következőről van szó: Companion dog.

— Chrome

Lehet, hogy egy kép erről: Szántai Károly, kutya és szabadtéri.

— Facebook

A képen személy, fa, kültéri, kutya látható.

— Word

Szendvicses fotó

A következő képen egy szendvics látható, amit én raktam össze, egy kerti parti során. Két rozskenyér szelet közé egy grillezett tonhalszeletet, paradicsomot, salátát és sajtszószt tettem. Itt is az a kérdés vajon ezek az információk kiderülnek a képből, és egyáltalán fontosak-e. Vagy csak elég annyi, hogy ez egy szendvics. A válasz most is az, hogy attól függ.

Erre a képre a következő alternatív szövegeket generálták a tesztelt szoftverek:

Egy szendvics ül az asztal tetején.

Ezek a kódok leírják a képet: gyorsétterem, snack étel, szendvics, étel, étterem.

Ezek a kódok valószínűleg leírják a képet: pékáru, vacsora.

Ez a kód lehetséges, hogy leírja a képet: finom.

— JAWS

A sandwich with meat and vegetables on a plate.

— VoiceOver

Úgy tűnik, hogy a következőről van szó: sandwich on a wooden table. Fast food: BLT, Burger.

— Chrome

Lehet, hogy egy kép erről: étel.

— Facebook

A képen szendvics, étel, rágcsálnivaló látható.

— Word

Kápolnás fotó

A következő képet a piliscsabai kálvárián található kápolnáról, és az előtte álló keresztről készítettem. Nyilvánvaló, hogy önmagában a képről nem derül ki, hogy hol készült, legfeljebb csak azok számára, akik ismerik a helyet.

Erre a képre a következő alternatív szövegeket generálták a tesztelt szoftverek:

Egy kis óratorony egy téglaépület előtt.

Ez az objektum lehetséges, hogy feltűnik a képen: épület.

Ezek a kódok leírják a képet: fénykép, kültéri, templom, ég, épület, fa.

Ezek a kódok valószínűleg leírják a képet: berendezési tárgyak, fa, felhő, fű, homlokzat, ház, növény, természeti táj.

Ez a kód lehetséges, hogy leírja a képet: tégla.

Ezek a kódok nagyjából leírják a képet: kő, régi.

— JAWS

A stone building with a cross on top of it.

— VoiceOver

Úgy tűnik, hogy a következőről van szó: old church in the village. Chapel: Stone wall.

— Chrome

Lehet, hogy egy kép erről: szabadtéri.

— Facebook

A képen fa, kültéri, égbolt, épület látható.

— Word

Tojásszobros fotó

Végül egy olyan kép, ami szerintem nem csak a képfelismerő algoritmusokat, de a látó embereket is elbizonytalanítja. A képen egy hatalmas, kék színű, fehér pöttyökkel és virágmintákkal díszített húsvéti tojásszobor látható, amit Pilisvörösvár egyik kereszteződésénél fotóztam le.

Erre a képre a következő alternatív szövegeket generálták a tesztelt szoftverek:

Egy tábla a fűvel borított mező tetején.

Ez az objektum lehetséges, hogy feltűnik a képen: labda.

Ezek a kódok leírják a képet: fű, szöveg, ég.

Ezek a kódok valószínűleg leírják a képet: ablak, azure, ballon, elektromos kék, felhő, húsvéti tojás, színárnyalatok és árnyalatok, téglalap.

Ez a kód lehetséges, hogy leírja a képet: növény.

Ez a kód nagyjából leírja a képet: kék.

— JAWS

A blue balloon with white polka dots on a grassy surface.

— VoiceOver

Úgy tűnik, hogy a következőről van szó: inflatable.

— Chrome

Lehet, hogy egy kép erről: szabadtéri.

— Facebook

A képen fű, kültéri, égbolt, aláírás látható.

— Word