12 June 2023

Turkce LLM verisi yapmak

OpenAI'in basini cektigi LLM (large language model) dunyasinda kodun cok bir anlami yok. O cozulmus ve acik kaynak oldugu icin de metalastirilmis (yani "commoditized") bir problem. Bu alanda en buyuk sorun veri toplama. Elinizde ne kadar cok veri olursa o kadar buyuk isler ortaya koyabilirsiniz. Tabi verinin bir parca islenmis ve kaliteli olmasi da onemli.

Daha once de yazdigim gibi, ne yazik ki, ne Llama, ne Cohere ne diger acik kaynak calismalar su ana kadar Turkce acik veri seti ortaya koymadilar. Bunun sebebi bizde Common Crawl gibi bir yapinin olmamis olmasi. Sadece Bogazici'nin bu konuda anlamli sayilabilecek bir calismasi var, ama ordaki veri setinin buyuklugu sadece 700MB, bu da GPT-2 motoru ustunde

sadece 30M parametre ediyor. Su ana kadar anlamli LLM'lerdeki verinin en dusuk parametre sayisinin 7B (yani 7 milyar) oldugunu hesaba katacak olursak, daha en az 200 kat veri daha edinmemiz gerektigi ortaya cikiyor.

Daha once mastoturk'te de yazdigim gibi gpt neo-x altyapisindaki veri setlerini Turkcelestirmek istesek 20 milyon dolar gibi bir butce gerekecek. Llama'nin kullandigi verisetleri ise soyle:

Commoncrawl   878B
C4            175B
GitHub         59B
Books          26B
ArXiv          28B
Wikipedia      24B
StackExchange  20B

Boylesi bir veriseti icin ise acik piyasa kosullarinda 30 milyon dolar gibi bir butce gerekiyor.

tags: