Mašininis mokymasis, padarė išvadą: ar „be kodo“ įrankiai pranoko rankinę analizę?

Mašininis mokymasis, padarė išvadą: ar „be kodo“ įrankiai pranoko rankinę analizę?

Aurichas Lawsonas | Getty Images

Aš nesu duomenų mokslininkas. Ir nors žinau, kaip elgtis su Jupyter bloknotu ir esu parašęs nemažą kiekį Python kodo, aš nepritariu mašininio mokymosi ekspertui. Taigi, kai koncertavau pirmoji mūsų be kodo / žemo kodo mašininio mokymosi eksperimento dalis ir gavosi geresnis nei 90 procentų modelio tikslumas, įtariau, kad padariau kažką ne taip.

Jei iki šiol nestebėjote, pateikiame trumpą apžvalgą prieš nukreipdami jus į pirmuosius du šios serijos straipsnius. Kad pamatyčiau, kiek pažengė mūsų likusių žmonių mašininio mokymosi įrankiai, ir išsipirkti neįveikiama užduotis Praėjusiais metais man buvo paskirtas mašininis mokymasis – paėmiau nusidėvėjusį širdies priepuolio duomenų rinkinį iš Kalifornijos universiteto Irvino archyvo ir bandžiau pranokti duomenų mokslų studentų rezultatus, naudodamas „Amazon Web Services“ „lengvąjį mygtuką“. žemo kodo ir be kodo įrankiai.

Visa šio eksperimento esmė buvo pamatyti:

  • Ar santykinis naujokas galėtų efektyviai ir tiksliai naudoti šias priemones
  • Nesvarbu, ar įrankiai buvo ekonomiškesni nei surasti ką nors, kas žino, ką jie daro, ir perduoti jiems tai

Tai nėra tikras vaizdas, kaip paprastai vyksta mašininio mokymosi projektai. Ir, kaip radau, parinktis „be kodo“, kurią teikia „Amazon Web Services“ –„SageMaker“ drobė– skirtas dirbti kartu su daugiau duomenų mokslo požiūriu „SageMaker“ studija. Tačiau „Canvas“ pranoko tai, ką galėjau padaryti naudodamas „Studio“ žemo kodo metodą, nors tikriausiai dėl mano mažiau įgudusių duomenų tvarkymo rankų.

(Tiems, kurie neskaitė dviejų ankstesnių straipsnių, pats laikas pasidžiaugti: Štai pirma dalisir štai antra dalis.)

Roboto darbo įvertinimas

„Canvas“ leido eksportuoti bendrinamą nuorodą, kuri atidarė modelį, kurį sukūriau su visa mano versija iš daugiau nei 590 pacientų duomenų eilučių iš Klivlando klinikos ir Vengrijos kardiologijos instituto. Ši nuoroda suteikė man šiek tiek daugiau supratimo apie tai, kas vyko „Canvas“ juodojoje dėžutėje su „Studio“, a Jupyterio pagrindu platforma, skirta duomenų mokslo ir mašininio mokymosi eksperimentams atlikti.

Kaip gudriai rodo jo pavadinimas, Jupyter yra pagrįstas Python. Tai žiniatinklio sąsaja su konteinerio aplinka, leidžiančia susukti branduolius pagal skirtingus Python diegimus, atsižvelgiant į užduotį.

Įvairių „Studio“ branduolio konteinerių pavyzdžiai.

Įvairių „Studio“ branduolio konteinerių pavyzdžiai.

Branduoliai gali būti užpildyti bet kokiais moduliais, kurių reikia projektui, kai atliekate į kodą orientuotus tyrinėjimus, pvz., Python duomenų analizės biblioteką (pandos) ir SciKit-Learn (sklearn). Naudojau vietinę Jupyter Lab versiją, kad atlikčiau didžiąją dalį pradinės duomenų analizės, kad sutaupyčiau AWS skaičiavimo laiką.

„Studio“ aplinkoje, sukurtoje naudojant nuorodą „Canvas“, buvo iš anksto sukurtas turinys, suteikiantis įžvalgos apie sukurtą „Canvas“ modelį – kai kuriuos iš jų trumpai aptariau paskutinis straipsnis:

Išsami modelio informacija iš „Canvas“ geriausios programos „Studio“.
Išskleisti / Išsami modelio informacija iš „Canvas“ geriausios programos „Studio“.

Kai kurios detalės apėmė hiperparametrus, naudojamus geriausiai suderintoje „Canvas“ sukurto modelio versijoje:

Modelio hiperparametrai.
Išskleisti / Modelio hiperparametrai.

Hiperparametrai yra patobulinimai, kuriuos AutoML atliko skaičiavimams pagal algoritmą, kad pagerintų tikslumą, taip pat kai kuriuos pagrindinius namų tvarkymo veiksmus – „SageMaker“ egzempliorių parametrus, derinimo metriką („F1“, kurią aptarsime netrukus) ir kitas įvestis. Visa tai yra gana standartinė dvejetainei klasifikacijai, tokiai kaip mūsų.

Modelio apžvalgoje „Studio“ buvo pateikta šiek tiek pagrindinės informacijos apie „Canvas“ sukurtą modelį, įskaitant naudojamą algoritmą (XGBoost) ir santykinę kiekvieno stulpelio svarbą, įvertintą vadinamuoju pavadinimu. SHAP vertės. SHAP yra tikrai siaubingas akronimas, reiškiantis „SHapley Additive Explanations“, kuris yra žaidimo teorija– pagrįstas kiekvienos duomenų ypatybės įnašo į modelio išvesties pokyčius išgavimo metodas. Pasirodo, kad „pasiektas maksimalus širdies susitraukimų dažnis“ modeliui turėjo nežymų poveikį talasemija (“thall”) ir angiogramos rezultatai (“caa”) – duomenų taškai, kurių duomenų neturėjome daug – turėjo didesnį poveikį, nei aš norėjau. Matyt, negalėjau jų tiesiog numesti. Taigi atsisiunčiau modelio našumo ataskaitą, kad gaučiau išsamesnės informacijos apie tai, kaip modelis išsilaikė:

Leave a Reply

Your email address will not be published.