Lai aizpildītu vārdnīcas vilcienu un testu komplektiem saistībā ar sava K tuvāko kaimiņu (KNN) algoritma izmantošanu mašīnmācībā, izmantojot Python, mums ir jāievēro sistemātiska pieeja. Šis process ietver mūsu datu pārveidošanu piemērotā formātā, ko var izmantot KNN algoritms.
Vispirms sapratīsim Python vārdnīcu pamatjēdzienu. Vārdnīca ir nesakārtota atslēgu un vērtību pāru kolekcija, kurā katra atslēga ir unikāla. Mašīnmācīšanās kontekstā vārdnīcas parasti tiek izmantotas, lai attēlotu datu kopas, kur atslēgas atbilst pazīmēm vai atribūtiem, bet vērtības apzīmē atbilstošos datu punktus.
Lai aizpildītu vilcienu un testa komplektu vārdnīcas, mums ir jāveic šādas darbības:
1. Datu sagatavošana: sāciet ar datu apkopošanu un sagatavošanu mūsu mašīnmācīšanās uzdevumam. Tas parasti ietver datu tīrīšanu, trūkstošo vērtību apstrādi un datu pārveidošanu piemērotā formātā. Pārliecinieties, vai dati ir pareizi marķēti vai iedalīti kategorijās, jo tas ir būtiski uzraudzītiem mācību uzdevumiem.
2. Datu kopas sadalīšana. Tālāk mums ir jāsadala datu kopa divās daļās: vilcienu komplektā un testa komplektā. Vilciena komplekts tiks izmantots, lai apmācītu mūsu KNN algoritmu, savukārt testa komplekts tiks izmantots, lai novērtētu tā veiktspēju. Šis sadalījums palīdz mums novērtēt, cik labi mūsu algoritms vispārina neredzamus datus.
3. Funkciju izvilkšana. Kad datu kopa ir sadalīta, mums no datiem ir jāizņem attiecīgie līdzekļi un jāpiešķir tie kā atslēgas mūsu vārdnīcās. Funkcijas var būt skaitliskas vai kategoriskas atkarībā no mūsu datu veida. Piemēram, ja strādājam ar attēlu datu kopu, mēs varam iegūt tādas funkcijas kā krāsu histogrammas vai tekstūras deskriptorus.
4. Vērtību piešķiršana: pēc funkciju izvilkšanas mums katrai vārdnīcu atslēgai ir jāpiešķir atbilstošās vērtības. Šīs vērtības atspoguļo faktiskos datu punktus vai gadījumus mūsu datu kopā. Katram eksemplāram jābūt saistītam ar tai atbilstošajām līdzekļu vērtībām.
5. Vilciena komplekta vārdnīca: izveidojiet vārdnīcu, lai attēlotu vilciena sastāvu. Šīs vārdnīcas atslēgas būs līdzekļi, un vērtības būs saraksti vai masīvi, kas satur atbilstošās pazīmju vērtības katram vilciena komplekta eksemplāram. Piemēram, ja mums ir datu kopa ar divām funkcijām (vecums un ienākumi) un trīs gadījumi, vilcienu sastāva vārdnīca var izskatīties šādi:
train_set = {'vecums': [25, 30, 35], 'ienākumi': [50000, 60000, 70000]}
6. Testa komplekta vārdnīca: tāpat izveidojiet vārdnīcu, lai attēlotu testa kopu. Šīs vārdnīcas atslēgas būs tādas pašas funkcijas kā vilcienu komplektā, un vērtības būs saraksti vai masīvi, kas satur atbilstošās pazīmju vērtības katram testa kopas eksemplāram. Piemēram, ja mums ir testa kopa ar diviem gadījumiem, testa kopas vārdnīca var izskatīties šādi:
test_set = {'vecums': [40, 45], 'ienākumi': [80000, 90000]}
7. Vārdnīcu izmantošana. Kad vilcienu un testa komplektu vārdnīcas ir aizpildītas, mēs varam tās izmantot kā ievadi mūsu pašu KNN algoritmam. Algoritms izmantos pazīmju vērtības no vilcienu kopas, lai veiktu prognozes vai klasifikāciju testa kopas gadījumiem.
Veicot šīs darbības, mēs varam efektīvi aizpildīt vārdnīcas vilcienu un testu komplektiem saistībā ar mūsu pašu KNN algoritma piemērošanu mašīnmācībā, izmantojot Python. Šīs vārdnīcas kalpo par pamatu mūsu algoritma veiktspējas apmācībai un novērtēšanai.
Lai aizpildītu vārdnīcas vilcienu un testu kopām, mums ir jāsagatavo un jāsadala datu kopa, jāizvelk attiecīgie līdzekļi, jāpiešķir funkciju vērtības atbilstošajām vārdnīcu atslēgām un jāizmanto šīs vārdnīcas mūsu pašu KNN algoritmā.
Citi jaunākie jautājumi un atbildes par Pielietojot savu K tuvāko kaimiņu algoritmu:
- Kā mēs aprēķinām mūsu pašu K tuvāko kaimiņu algoritma precizitāti?
- Kāda nozīme ir pēdējam elementam katrā sarakstā, kas apzīmē klasi vilciena un testa komplektos?
- Kāds ir datu kopas jaukšanas nolūks pirms sadalīšanas apmācības un testa kopās?
- Kāpēc ir svarīgi notīrīt datu kopu pirms K tuvāko kaimiņu algoritma lietošanas?