Kāpēc mākslīgos atkārtotos neironu tīklus bieži ir grūti apmācīt?

Video: #58 Mašīntulkošana un citi digitālie valodas rīki: saruna ar Andreju Vasiļjevu (ar subtitriem)

Saturs

J:

A:

Mākslīgu atkārtotu neironu tīklu apmācības grūtības ir saistītas ar to sarežģītību.

Viens no vienkāršākajiem veidiem, kā izskaidrot, kāpēc atkārtotos neironu tīklus ir grūti apmācīt, ir tas, ka tie nav sākotnēji neironu tīkli.

Sākotnējos neironu tīklos signāli pārvietojas tikai vienā virzienā. Signāls pārvietojas no ieejas slāņa uz dažādiem slēptiem slāņiem un uz priekšu uz sistēmas izejas slāni.

Turpretī atkārtotiem neironu tīkliem un citiem dažāda veida neironu tīkliem ir sarežģītākas signāla kustības. Klasificēti kā “atgriezeniskās saites” tīkli, atkārtotiem neironu tīkliem var būt signāli, kas pārvietojas gan uz priekšu, gan atpakaļ, un tie var saturēt dažādas “cilpas” tīklā, kur skaitļi vai vērtības tiek ievadīti atpakaļ tīklā. Eksperti to saista ar atkārtotu neironu tīklu aspektu, kas ir saistīts ar viņu atmiņu.

Turklāt ir arī vēl viens sarežģītības tips, kas ietekmē atkārtotus neironu tīklus. Viens lielisks piemērs tam ir dabiskās valodas apstrādes jomā.

Sarežģītā dabiskās valodas apstrādē neironu tīklam jāspēj atcerēties lietas. Arī tajā ir jāveic ieguldījumi. Pieņemsim, ka ir programma, kas vēlas analizēt vai paredzēt vārdu citu vārdu teikumā. Var būt, piemēram, fiksēts piecu vārdu garums, lai sistēma to novērtētu. Tas nozīmē, ka neironu tīklam ir jābūt ievadiem katram no šiem vārdiem, kā arī spējai “atcerēties” vai apmācīt šo vārdu kontr. Šo un citu līdzīgu iemeslu dēļ atkārtotajos neironu tīklos sistēmā parasti ir šīs mazās slēptās cilpas un atsauksmes.

Eksperti žēlojas, ka šie sarežģījumi apgrūtina tīklu apmācību. Viens no izplatītākajiem veidiem, kā to izskaidrot, ir citējot eksplodējošo un izzūdošo gradienta problēmu. Būtībā tīkla svars novedīs pie eksplodējošām vai izzūdošām vērtībām ar lielu skaitu piespēļu.

Neironu tīkla pionieris Geofs Hintons skaidro šo fenomenu tīmeklī, sakot, ka atpakaļejošās lineārās caurlaides liks mazākajiem svariem eksponenciāli sarukt un lielākiem svariem eksplodēt.

Pēc viņa domām, šī problēma pasliktinās ar garām sekvencēm un vairāk laika posmiem, kuru laikā signāli pieaug vai mazinās. Var palīdzēt svara svara inicializēšana, taču šie izaicinājumi ir iebūvēti atkārtotajā neironu tīkla modelī. Theres vienmēr būs tas jautājums, kas piesaistīts viņu īpašajam dizainam un būvei. Būtībā daži no sarežģītākajiem neironu tīklu veidiem patiešām izlemj mūsu spēju tos viegli pārvaldīt. Mēs varam radīt praktiski bezgalīgu sarežģītības pakāpi, taču bieži redzam, ka pieaug paredzamība un mērogojamības problēmas.