Karpathy este hackerul GOAT AI!
Încântat să lansăm un nou depozit: nanochat!
(este printre cele mai dezechilibrate pe care le-am scris).
Spre deosebire de depozitul meu similar anterior nanoGPT, care a acoperit doar preantrenamentul, nanochat este o conductă minimă, de la zero, completă de antrenament/inferență a unei simple clone ChatGPT într-o singură bază de cod cu dependență minimă. Porniți o cutie GPU în cloud, rulați un singur script și în doar 4 ore mai târziu puteți vorbi cu propriul LLM într-o interfață web asemănătoare ChatGPT.
Cântărește ~ 8.000 de linii de cod destul de curat pentru:
- Antrenați tokenizatorul folosind o nouă implementare Rust
- Antrenați în prealabil un Transformer LLM pe FineWeb, evaluați scorul CORE pe o serie de valori
- Midtrain pe conversațiile utilizator-asistent de la SmolTalk, întrebări cu răspunsuri multiple, utilizarea instrumentelor.
- SFT, evaluează modelul de chat pe cunoașterea lumii cu alegere multiplă (ARC-E/C, MMLU), matematică (GSM8K), cod (HumanEval)
- RL modelul opțional pe GSM8K cu "GRPO"
- Deducerea eficientă a modelului într-un motor cu cache KV, precompletare/decodare simplă, utilizarea instrumentului (interpret Python într-un sandbox ușor), vorbiți cu el prin CLI sau WebUI de tip ChatGPT.
- Scrieți un singur raport de remarcare, rezumând și gamificând totul.
Chiar și pentru un cost de până la ~ 100 USD (~ 4 ore pe un nod 8XH100), puteți antrena o mică clonă ChatGPT cu care puteți vorbi și care poate scrie povești/poezii, răspunde la întrebări simple. Aproximativ ~12 ore depășește metrica GPT-2 CORE. Pe măsură ce creșteți în continuare la ~ 1000 USD (~41,6 ore de instruire), devine rapid mult mai coerent și poate rezolva probleme simple de matematică/cod și poate susține teste cu răspunsuri multiple. De exemplu, un model de adâncime 30 antrenat timp de 24 de ore (acest lucru este aproximativ egal cu FLOP-urile GPT-3 Small 125M și 1/1000 din GPT-3) ajunge la 40 de secunde pe MMLU și 70 pe ARC-Easy, 20 de secunde pe GSM8K etc.
Scopul meu este să obțin întregul stack "strong baseline" într-un depozit coeziv, minimal, lizibil, hackable, maxim forkable. nanochat va fi proiectul de bază al LLM101n (care este încă în curs de dezvoltare). Cred că are, de asemenea, potențialul de a deveni un cablon de cercetare sau un punct de referință, similar cu nanoGPT înaintea lui. Nu este în niciun caz terminat, reglat sau optimizat (de fapt cred că există probabil destul de multe fructe la îndemână), dar cred că este într-un loc în care scheletul general este suficient de ok încât să poată urca pe GitHub, unde toate părțile acestuia pot fi îmbunătățite.
Link către depozit și o prezentare detaliată a speedrun nanochat se află în răspuns.

24,87 K
21
Conținutul de pe această pagină este furnizat de terți. Dacă nu se menționează altfel, OKX nu este autorul articolului citat și nu revendică niciun drept intelectual pentru materiale. Conținutul este furnizat doar pentru informare și nu reprezintă opinia OKX. Nu este furnizat pentru a fi o susținere de nicio natură și nu trebuie să fie considerat un sfat de investiție sau o solicitare de a cumpăra sau vinde active digitale. În măsura în care AI-ul de generare este utilizat pentru a furniza rezumate sau alte informații, astfel de conținut generat de AI poate să fie inexact sau neconsecvent. Citiți articolul asociat pentru mai multe detalii și informații. OKX nu răspunde pentru conținutul găzduit pe pagini terțe. Deținerile de active digitale, inclusiv criptomonedele stabile și NFT-urile, prezintă un grad ridicat de risc și pot fluctua semnificativ. Trebuie să analizați cu atenție dacă tranzacționarea sau deținerea de active digitale este adecvată pentru dumneavoastră prin prisma situației dumneavoastră financiare.