Blog
OpenAI'in basini cektigi LLM (large language model) dunyasinda kodun cok bir anlami yok. O cozulmus ve acik kaynak oldugu icin de metalastirilmis (yani "commoditized") bir problem. Bu alanda en buyuk sorun veri toplama. Elinizde ne kadar cok veri olursa o kadar buyuk isler ortaya koyabilirsiniz. Tabi verinin bir parca islenmis ve kaliteli olmasi da onemli.
Daha once de yazdigim gibi, ne yazik ki, ne Llama, ne Cohere ne diger acik kaynak calismalar su ana kadar Turkce acik veri seti ortaya koymadilar. Bunun sebebi bizde Common Crawl gibi bir yapinin olmamis olmasi. Sadece Bogazici'nin bu konuda anlamli sayilabilecek bir calismasi var, ama ordaki veri setinin buyuklugu sadece 700MB, bu da GPT-2 motoru ustunde
sadece 30M parametre ediyor. Su ana kadar anlamli LLM'lerdeki verinin en dusuk parametre sayisinin 7B (yani 7 milyar) oldugunu hesaba katacak olursak, daha en az 200 kat veri daha edinmemiz gerektigi ortaya cikiyor.
Daha once mastoturk'te de yazdigim gibi gpt neo-x altyapisindaki veri setlerini Turkcelestirmek istesek 20 milyon dolar gibi bir butce gerekecek. Llama'nin kullandigi verisetleri ise soyle:
Commoncrawl 878B C4 175B GitHub 59B Books 26B ArXiv 28B Wikipedia 24B StackExchange 20B
Boylesi bir veriseti icin ise acik piyasa kosullarinda 30 milyon dolar gibi bir butce gerekiyor.