Kāpēc datu anotācija ir svarīga dažos mašīnmācīšanās projektos?

Video: Airbnb 2021: Introducing 100+ upgrades

Saturs

J:

A:

Datu anotācija ir svarīga mašīnmācībā, jo daudzos gadījumos tas mašīnmācīšanās programmas darbu padara daudz vieglāku.

Tam ir sakars ar atšķirību starp uzraudzītu un neuzraudzītu mašīnmācību. Ar kontrolētu mašīnu apguvi apmācības dati jau ir marķēti, lai mašīna varētu vairāk izprast vēlamos rezultātus. Piemēram, ja programmas mērķis ir identificēt kaķus attēlos, sistēmā jau ir liels skaits fotoattēlu, kas atzīmēti kā kaķi vai nē. Pēc tam tā izmanto šos piemērus, lai salīdzinātu jaunos datus, lai iegūtu rezultātus.

Ar neuzraudzītu mašīnu apguvi nav etiķešu, un tāpēc kaķu identificēšanai sistēmai ir jāizmanto atribūti un citi paņēmieni. Inženieri var apmācīt programmu tādu kaķu vizuālo īpašību atpazīšanai kā ūsas vai astes, taču process gandrīz nekad nav tik vienkāršs, kā tas būtu kontrolētā mašīnmācībā, kur šīm etiķetēm ir ļoti liela nozīme.

Datu anotācija ir etiķešu piestiprināšanas process apmācības datu kopām. Tos var izmantot dažādos veidos - iepriekš mēs runājām par bināro datu anotāciju - kaķiem vai ne kaķiem -, taču ir svarīgi arī citi datu anotācijas veidi. Piemēram, medicīnas jomā datu anotācija var ietvert īpašu bioloģisko attēlu marķēšanu ar tagiem, kas identificē patoloģiju, vai slimības marķierus citām medicīniskām īpašībām.

Datu anotēšana prasa darbu - un to bieži veic cilvēku komandas -, taču tā ir būtiska sastāvdaļa tam, kas daudziem mašīnmācīšanās projektiem ļauj darboties precīzi. Tas nodrošina sākotnējo iestatījumu programmas mācīšanai, kas tai jāapgūst, un kā diskriminēt dažādas izejas, lai nākt klajā ar precīziem rezultātiem.