Büyük Dil Modellerinin Türkçe Verisetleri Ile e Gitilmesi Ve Ince Ayarlanması

Büyük dil modellerinin Türkçe verisetleri ile eğitilmesi ve ince
ayarlanması
A. Taha Arslan
arXiv:2306.03978v1 [cs.CL] 6 Jun 2023
Mayıs 2023
Özet nin kapsayıcılığı yeterli düzeyde değildir. Bu durum,

yayımlanan verisetlerinde gözlemlenebilir. Bunu gi-
Large language models have advanced enormously, dermenin yolları Türkçe içerikli büyük verisetleri-
gained vast attraction and are having a phase of inten- nin oluşturulması, büyük dil modellerinin bunlarla
sed research upon them. Some of the developed mo- eğitilmesi ve önceden eğitilmiş modellerin Türkçe
dels and corresponding training datasets have been girdilerle ince ayarlanmaları olarak sayılabilir. Bu
made public and open-accessible. Hence these may çalışmada açık erişimli dil modelleri ve verisetleri
be further fine-tuned with some techniques to obtain üzerinde durulmakta ve Türkçe temelli yapılmış bazı
specialized models for specific tasks. When it comes deneyler, karşılaşılan sorunlar ve sonuçlar anlatıl-
to Turkish language, open-access large language mo- maktadır.
dels do not provide satisfactory coverage. This can be
also observed over published datasets. In this work,
we propose some ideas to mitigate this issue. These 1 Giriş
include creating large Turkish supported datasets,
training LLMs with these and fine-tuning already Son yıllarda yapay zekâ alanında yaşanan dramatik
trained models with Turkish inputs. We introduce gelişmelerden birisi de, büyük dil modellerinin yani
open-access LLMs and datasets and further report çok sayıda parametreye sahip (bir milyar ve üstünde)
our findings on Turkish-based trainings, problems yapay sinir ağlarının gene çok sayıda etiklenmemiş
encountered. We conclude with outcomes of these metin ve kendi gözetimli ya da yarı gözetimli öğ-
experiments and propose ideas for further works. —– renim yöntemleri ile eğitilmeleridir. Bu yaklaşım,
Büyük dil modelleri geçtiğimiz dönemde inanılmaz 2018 yılından itibaren artarak devam etmektedir. Bu
ölçüde gelişmiş, büyük ilgi toplamış ve üzerlerinde gelişmeler ayrıca doğal dil işleme (NLP) araştırmala-
yoğun araştırmaların yapıldığı bir dönem geçirmekte- rının bir önceki yaklaşım olan gözetimli öğrenimden
dirler. Geliştirilen modeller ve bunları eğitmede kul- birtakım görevler için farklılaşmarını da beraberinde
lanılan verisetlerinden bazıları açık erişimli olarak getirmiştir [1].
sunulmaktadır. Böylece bunlar üzerinde ince ayar- Büyük dil modelleri genellikle bir cümlede yer
lama teknikleri uygulanarak özelleşmiş görevler için alan bir sonraki kelimeyi kestirmek üzere kurgulan-
çalışabilir modeller elde etmek mümkündür. Türkçe salar da, belli görev tanımları ile özelleştirilmeleri ve
söz konusu olduğunda sunulan büyük dil modelleri- ince ayarlanmaları sonucunda farklı işlevleri de ger-
1
çekleştirebilirler. Bu görevler arasında, duygu ana- diği ürününü Kasım 2022’de sundu. InstructGPT adı
lizi, makine tercümesi, soru cevaplama, eksik kelime verilen bu ince ayarlamada, eğitilen büyük dil mo-
tamamlama bulunmaktadır. İstem teknikleri, modele dellerine istemlere yanıt dönme ve istem takip etme
çözülmek istenen problemi bir metin istemi olarak özellikleri ekleme amacı güdülmektedir [6, 7].
sunar. Bu yapılırken bu probleme benzeyen bir ya Bu çalışmada, hali hazırda açık erişime sunulmuş
da daha fazlası çözümleriyle birlikte istemin içeri- bulunan büyük dil modelleri ve bu modellerin eğitil-
sinde yer alabilir. Böylece, dil modeli neyi çözmesi melerinde ve ince ayarlanmalarında kullanılan gene
gerektiğini kestirebilir. GPT-3 gibi çok daha güçlü açık erişimli verisetleri incelenmiştir. Ayrıca, bir bü-
modeller buna gereksinim duymadan bu görevleri yük dil modelinin Türkçe içerik ile eğitilmesi denen-
yapabilmektedirler. miş, bir başka önceden eğitilmiş ağın Türkçe istem
Son yıllarda geliştirilen önemli büyük dil mo- girdileri ile ince ayarlanması ve bu istemlere yanıt
dellerinin tamamına yakını transformer derin öğ- dönmesi incelenmiştir. Bu deneyler ile ilgili yürütü-
renme modelini esas almıştır. Bu modelde en önemli len hazırlıklar ve aşamalar Bölüm 4’te, sonuçlar ise
unsur, öz-dikkat denilebilecek (self-attention) girdi Bölüm 5’te sunulmuştur.
verinin her bir parçasının önem derecesini ayırt
edici biçimde ağırlıklandırma tekniğidir [2]. Trans-
former’ların uygulama alanları arasında makine ter- 2 Verisetleri
cümesi, doküman özetleme, doküman oluşturma, bi-
yolojik dizi analizi ve video anlamlandırma yer al- Başarım oranı yüksek bir dil modelinin eğitilebil-
maktadır. Transformer’lar genelde önce gözetimsiz mesi için gerekli olan en önemli aşamalardan birisi
öneğitim ve ardından gözetimli ince ayarlama içe- çok büyük ve ön işlemden geçmiş bir metin veriseti-
ren bir kendi gözetimli eğitimden geçirilmektedir. nin hazırlanmasıdır. Bu aşama, hali hazırda sunulan
GPT-2, GPT-3, GPT-4, BERT, XLNet, RoBERTa açık erişimli verisetleri indirilerek yapılabileceği gibi
ve ChatGPT gibi büyük dil modelleri transformer kaynaklar indirilerek sıfırdan da gerçekleştirilebilir.
yapısındadırlar. İngilizce ve diğer yaygın diller için bu hazır veri-
Transformer mimarisinin Google tarafından 2017 setlerinin kolaylıkla bulunabilmesine karşın malesef
yılında oluşturulmasının ardından [3], OpenAI 2018 Türkçe için hazır verisetleri yeterli ve kolay ulaşı-
yılında önceden eğitilmiş üreteç transformer yapı- labilir değiller. Bu konudaki bir diğer önemli husus
sını yayınlamış ve ilk örneği olarak GPT-1 modelini da telif hakları meselesidir. Tablo-1’de açık erişimli
geliştirmiştir [4]. Bu yapı 12 öz-dikkat içeren 12 kat- veri kaynakları hakkında bilgiler özetlenmiştir.
mandan ve her birinde 64 olmak üzere toplamda 768 Hugging Face, Inc. firmasının sağladığı altyapı
adet boyutsal durum içermektedir. Daha sonra gelişti- ile önceden hazırlanmış verisetleri ve derin öğrenme
rilen GPT-2 modeli, GPT-1’dne göre hem parametre ağ modelleri herkese açık bir şekilde paylaşılmakta-
sayısı hem de veriseti bakımından 10 kat büyüktü dır [13]. Bu verisetleri arasında farklı görevler için
[5]. GPT-2 kamunun kullanımı için açık erişim ola- oluşturulmuş Openwebtext [14], C4 ve PIQA [15]
rak yayımlandır. 2020 senesinde sunulan GPT-3 ise gösterilebilir. Huggin Face tarafından sunulmakta
175 milyar parametre ile çok daha büyük bir yapıya olan modeller arasında ise farklı görevler için eği-
sahipti. GPT-3’ün kaynak kodu hiçbir zaman açık- 1 Common Crawl, belli aralıklarda bu kayıtları almakta ve
lanmadı. OpenAI, GPT-3.5 adı verilen modelin ince sunmaktadır. Bu çalışmanın yapıldığı andaki en son arşiv kaydı
ayarlanması ile geliştirilen ve adına ChatGPT de- Mart/Nisan 2023 tarihlidir ve kayıt adı CC-MAIN-2023-14’tür.
2
Kaynak Büyüklük Türkçe içerik Açıklama
yaklaşık 3.15 milyar web
Common Crawl1 %0.7897 [9] Kâr amacı gütmeyen kuruluş.
sayfası (380 TiB) [8]
OpenAI’nın ilk GPT modeli
BookCorpus [10] 11,000 kitap, 985 milyon kelime. bilinmiyor
için kullanıldı.
Common Crawl verisinin
C4 ve T5 [11] 745 GB. Sadece İngilizce veri. temizlenmiş hali. Google tarafından
yayımlanmıştır.
GPT-2’in eğitildiği Webtext’e
Openwebtext 8 milyon doküman, 38GB veri. Sadece İngilizce veri.
alternatif olarak hazırlanmıştır.
Diğer büyük kaynaklardan veriseti
RedPajama [12] 1.2 Trilyon belirtke. bilinmiyor
oluşturmayı sağlayan proje.
Vikipedi 731 MB. Sadece Türkçe veri. Bu çalışmada kullanılmıştır.
Tablo 1: Açık erişimli metin kaynakları.
tilmiş T5, BERT, BART, GPT-2 ve BLOOM gibi uygun olduğu düşünülebilir.
önemli modeller yer almaktadır.
Belirtkeleştirme (Tokenization) Sözcüksel ana-
lizde bir girdi metni oluşturan parçaların sınıflan-
Türkçe metinlerden veriseti oluşturma. Hali ha- dırılması ve ayırt edilmesi işlemidir. Oluşturulan be-
zırda açık erişimle sunulan verisetlerinde Türkçe içe- lirtkeler takip eden bir başka işlemde kullanılırlar.
riğin hiç olmaması ya da çok az yer alması nede- Girdi verisetinden yer alan bütün veri belirtkelere
niyle büyük dil ağları araştırmalarında kullanmak ayrılarak bir sözvarlığı seti oluşturulur. Büyük dil
üzere sıfırdan bir veriseti oluşturmak elzem olmakta- modellerinin eğitilmesinde kullanılan verisetleri üze-
dır. Bu çalışmada yer alan deneyleri yürütülmek için rinde çoğunlukla Byte-Pair Encoding (BPE) belirt-
böyle bir veriseti sadece Vikipedi (Wikipedia Türkçe keleştirme algoritması uygulanmaktadır.
sürümü) makaleleri kullanılarak gerçekleştirilmiş-
tir. Bunun için, güncel ve sıkıştırılmış trwiki2 ar- 3 Modellerinin eğitilmeleri ve ince
şivi indirilmiş ardından bir Python betiği yardımıyla
json formatında veriseti oluşturulmuştur. 731 MB ayarlanmaları
büyüklüğündeki bu veride ön işleme ve temizlik ya-
Açık erişimli büyük dil modelleri. Ticari büyük
pıldıktan sonra farklı uzunluklarda toplam 818.454
dil modelleri dışında bazı şahıs ve kurumlar tara-
adet metin elde edilmiştir. Bu metinler, tiktoken
fından kaynağı paylaşılan büyük dil modelleri mev-
modülü [16] ile belirtkeleştirilince 296.1 milyon
cuttur. Bunlar arasında, Meta şirketi tarafından ya-
adet belirtke oluşmuştur. Bu sonuç GPT-2 mode-
yımlanan LLaMa [17] modelinin 7, 13, 33 ve 65
linin de belirtkeleştirildiği 50 bin ögeden oluşan
milyar parametre içeren varyantları bulunmaktadır.
r50k_base dil kodlaması kullanıldığında elde edi-
Bu modeller 1 ve 1.4 trilyon belirtke (token) ile eği-
len sayıdır. GPT-3.5 ve GPT-4’te kullanılan 100 bin
tilmişlerdir. Malesef eğitim verisetinde yer alan 20
ögelik cl100k_base kullanılacak olursa oluşan sayı
242.6 milyon olmaktadır. Bunun Türkçe için daha 2 https://dumps.wikimedia.org/trwiki/20230520/
3
dil içinde Türkçe bulunmamaktadır. BLOOM [18] şimli olarak sunulan önceden eğitilmiş büyük dil
dil modelinde yer alan 46 dil arasında da Türkçe yer modelleri ince ayar teknikleri uygulanarak Türkçe
almamaktadır. istemlere yanıt verir hale getirilmeye çalışılmıştır.
Kamuya açılmış büyük dil modelleri Tablo-2’de İkinci kısımda ise, Türkçe içerikli veriseti oluşturul-
özetlenmiştir. Bu modeller eğitilirken çoğunlukla muş ve büyük bir dil modeli sıfırdan eğitilmiştir.
Adam algoritmasının iyileştirilmiş bir versiyonu olan
AdamW optimizasyon algoritması kullanılmakta- Türkçe istemleri takip eden modellerin elde
dır [19]. edilmesi. Bu işlem için, Portekizce ve Almanca
için yapılan çalışmalara benzer şekilde, Stanford
İnce ayarlama (fine-tuning). Önceden eğitilmiş Alpaca’nın 52.000 adetlik girdisi M2M100 mo-
büyük bir dil modelinin katsayılarının alınarak belli deli ve belirtkeleştirme aracı [26] ile Türkçe’ye
bir görev için, çok daha küçük başka bir verisetiyle çevrilmiştir[27]. Bu Türkçeleştirme işlemi oldukça
tekrar eğitilmesidir. Bu aşama için daha düşük bir başarılı gözükmektedir. Örneğin ilk iki istem ve ya-
öğrenim oranı katsayısı kullanılır. Böylece bu dil nıtları aşağıdaki şekildedir:
modeli bu görev için özelleşmiş olacaktır. Örneğin, 1 {
istem takip etme bu yeteneklerden biri olabilir. Ör- 2 " komut ":" Sa ğ l ı kl ı kalmak i ç in 3
neğin, LlaMa modeli açık erişimli ve oldukça büyük ipucu verin ." ,
olduğu için bu modelin istem takip etme için ince 3 " girdi ":"" ,
ayarlanması akla yatkın olmaktadır. Bu işlemi Stan- 4 " ç ı kt ı ":"1. Dengeli bir diyet
yiyin ve bol miktarda meyve ve
ford Alpaca gerçekleştirmiştir [20]. Çalışmalarında
sebze i ç erdi ğ inizden emin
52,000 adet ve modelin kendiliğinden ürettiği önce- olun . 2. V ü cudunuzu aktif ve g
den hazırlanmış istem-girdi-cevap ya da istem-cevap ü ç l ü tutmak i ç in d ü zenli
şeklinde metin havuzu oluşturmuşlar [21], LlaMa- olarak egzersiz yap ı n . 3.
7B ve LlaMa-13B modellerini ince ayarlamışlardır. Yeterli uyku al ı n ve tutarl ı
Böylece elde edilen modelin GPT-3.5’a (text-davinci- bir uyku program ı tutun ."
003) benzer şekilde davrandığını öne sürmektedirler. 5 },
Buna benzer şekilde alpaca-lora projesi Alpaca so- 6 {
7 " komut ":" Ü ç ana renk nedir ?" ,
nuçlarını LoRA tekniğini [22] kullanarak çok daha
8 " girdi ":"" ,
düşük donanım seviyelerinde gerçeklemiştir [23]. İki 9 " ç ı kt ı ":" Ü ç ana renk k ı rm ı z ı ,
başka proje de, Cabrita ve Zicklein, bu çalışmaları sı- mavi ve sar ı d ı r ."
rasıyla Portekizce’ye ve Almanca’ya taşımışlar yani10 },
bu dillerde verilen istemlere ince ayarlanmış LlaMa11 ...
modeli tarafından yanıt dönülmesini hedeflemişler-
dir [24, 25]. Bir istem, komut ve girdiden oluşabileceği gibi
girdi içermeyen bir komuttan da oluşabilir. Dil mo-
deli bu iki türde hazırlanan metinlerden oluşan ve-
4 Deneyler risetiyle birkaç tekrarla (epoch sayısı 3 alınmıştır)
eğitilince buna benzer sorulara yanıt dönebilir hale
Bu çalışma kapsamında gerçekleştirilen deneyler iki gelmektedir. LlaMa modellerinden 7 milyar para-
kısımdan oluşmaktadır. İlkinde, hali hazırda açık eri- metre içeren versiyonu bu şekilde eğitilmiştir.
4
Model Sene Büyüklük Türkçe içerik Açıklama
GPT-2 2019 1.5 milyar parametre. Yok OpenAI tarafından. Transformer tabanlı.
BLOOM 2022 366 milyar belirtke, 176 milyar parametre. Yok Transformer tabanlı.
LlaMa 2023 7, 13, 33 ve 65 milyar parametre. Yok Meta firması tarafından. Transformer tabanlı.
Tablo 2: Açık erişimli büyük dil modelleri.
Açık erişimli bir büyük dil modelinin Türkçe ve- lundurulduğunda bunun altında yatan nedeni ya da
risetiyle eğitilmesi. Bölüm 2’de anlatıldığı gibi nedenleri incelemek faydalı olacaktır. Ayrıca GPT-2
Türkçe içerikli bir veriseti oluşturulmuştur. Açık eri- modelinin eğitilmesinde sadece bir metin kaynağın-
şimli olan GPT-2 modeli bu verisetiyle eğitilmiş- dan yararlanıldığı için çıktılar tatmin edici ölçüde
tir. Bu işlem gerçekleştirilirken nanoGPT projesin- gerçekleşmemektedir. Bunu geliştirmenin yolu daha
den [28] faydalanılmıştır. Bu modeldeki parametre büyük ölçüde Türkçe içerikli metinlerden bir veriseti
sayısı 124 milyondur. Veriseti oluşturulurken toplam oluşturmak ya da mümkünse böyle bir verisetinin
verinin %0.1’lik kısmı test veriseti olarak ayrılmış ve açık erişimli kaynaklardan indirmektir. Elbette bü-
bu ayrı tutulan veriseti model eğitimi sırasında aşırı yük dil modellerini büyük verisetleri ile eğitebilmek
öğrenme ya da eksik öğrenme sorunlarını gözlemek için daha fazla sayıda donanıma ve GPU kartına eri-
için kullanılmıştır. 8000 iterasyon sonrası eğitim eği- şebilme ihtiyacı da aşikardır.
tim ve test setleri için sırasıyla 1.3784 ve 1.6127 ka- Çalışma boyunca geliştirilen betikler bir Github
yıp değerlerine ulaşılmıştır. Öğrenim oranı 0.0006 ile deposuna yüklenecek ve bu belgenin ilerleyen sü-
maksimum olacak şekilde başlatılmış ve iterasyonlar rümlerinde paylaşılacaktır.
boyunca bir kosinüs fonksiyonu ile azaltılmıştır. Ay-
rıca belli bir iterasyon sayısı boyunca ısınma eğitimi
uygulanmıştır. Bütün çalışmalar bir adet NVIDIA
A100-40GB GPU kartı üzerinden yürütülmüştür.
Kaynaklar
[1] Wikipedia contributors, “Large language
5 Sonuç ve Tartışma model — Wikipedia, the free encyclopedia.”
https://en.wikipedia.org/w/index.php?
LlaMa modelinin Türkçe girdilerle eğitilmemesi ne- title=Large_language_model&oldid=
ticesinde ilk yapılan çalışmanın sonuçları başarısız 1157161819, 2023. [Online; accessed
olmuştur. Zaten Türkçe kelimeleri görmemiş ve ta- 28-May-2023].
nımamış bir modelin bu şekilde yanıt dönebilmesini
beklemek mantıksız olacaktı. Önümüzdeki çalışma- [2] Wikipedia contributors, “Transfor-
larda, Türkçe desteği olan ve açık erişimi bulunan bü- mer (machine learning model) —
yük bir dil modeli ile bu yöntem tekrarlanabilir. GPT- Wikipedia, the free encyclopedia.”
2 modelinin eğitiminde elde edilen kayıp oranları https://en.wikipedia.org/w/index.php?
nanoGPT tarafından raporlanan sayılardan oldukça title=Transformer_(machine_learning_
düşük çıkmıştır. Bu başta iyi bir şey gibi gözükse model)&oldid=1157314320, 2023. [Online;
de, kullanılan verisetinin küçüklüğü göz önünde bu- accessed 28-May-2023].
5
[3] A. Vaswani, N. Shazeer, N. Parmar, J. Usz- visual explanations by watching movies and
koreit, L. Jones, A. N. Gomez, L. Kaiser, and reading books,” in Proceedings of the IEEE
I. Polosukhin, “Attention is all you need,” 2017. international conference on computer vision,
pp. 19–27, 2015.
[4] A. Radford, K. Narasimhan, T. Salimans,
I. Sutskever, et al., “Improving language un- [11] C. Raffel, N. Shazeer, A. Roberts, K. Lee,
derstanding by generative pre-training,” 2018. S. Narang, M. Matena, Y. Zhou, W. Li, and
P. J. Liu, “Exploring the limits of transfer le-
[5] A. Radford, J. Wu, R. Child, D. Luan, D. Amo- arning with a unified text-to-text transformer,”
dei, I. Sutskever, et al., “Language models are Journal of Machine Learning Research, vol. 21,
unsupervised multitask learners,” OpenAI blog, no. 140, pp. 1–67, 2020.
vol. 1, no. 8, p. 9, 2019.
[12] T. Computer, “Redpajama: An open source
[6] “Openai – aligning language models to recipe to reproduce llama training dataset.”
follow instructions.” https://openai.com/ https://github.com/togethercomputer/
research/instruction-following. Acces- RedPajama-Data, April 2023.
sed: 2023-05-29.
[13] “Hugging face – the ai community building the
[7] L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. future..” https://huggingface.co/. Acces-
Wainwright, P. Mishkin, C. Zhang, S. Agar- sed: 2023-05-28.
wal, K. Slama, A. Ray, J. Schulman, J. Hil-
[14] E. P. S. T. Aaron Gokaslan, Vanya Cohen,
ton, F. Kelton, L. Miller, M. Simens, A. As-
“Openwebtext corpus.” http://Skylion007.
kell, P. Welinder, P. Christiano, J. Leike, and
github.io/OpenWebTextCorpus, 2019.
R. Lowe, “Training language models to follow
instructions with human feedback,” 2022. [15] Y. Bisk, R. Zellers, R. L. Bras, J. Gao, and
Y. Choi, “Piqa: Reasoning about physical
[8] Common Crawl, “Size of common commonsense in natural language,” in Thirty-
crawl monthly archives — statistics Fourth AAAI Conference on Artificial Intelli-
of common crawl monthly archives.” gence, 2020.
https://commoncrawl.github.io/
cc-crawl-statistics/plots/crawlsize, [16] “Openai – how to count tokens with tik-
2023. [Online; accessed 28-May-2023]. token.” https://github.com/openai/
openai-cookbook/blob/main/examples/
[9] Common Crawl, “Distribution of languages How_to_count_tokens_with_tiktoken.
— statistics of common crawl monthly arc- ipynb. Accessed: 2023-05-29.
hives.” https://commoncrawl.github.io/
cc-crawl-statistics/plots/languages, [17] H. Touvron, T. Lavril, G. Izacard, X. Marti-
2023. [Online; accessed 28-May-2023]. net, M.-A. Lachaux, T. Lacroix, B. Rozière,
N. Goyal, E. Hambro, F. Azhar, A. Rodriguez,
[10] Y. Zhu, R. Kiros, R. Zemel, R. Salakhutdinov, A. Joulin, E. Grave, and G. Lample, “Llama:
R. Urtasun, A. Torralba, and S. Fidler, “Alig- Open and efficient foundation language mo-
ning books and movies: Towards story-like dels,” 2023.
6
[18] T. L. Scao and et al., “Bloom: A 176b- [27] “M2m100.” https://huggingface.co/
parameter open-access multilingual language transformers/v4.4.2/model_doc/m2m_
model,” 2023. 100.html. Accessed: 2023-05-29.
[19] I. Loshchilov and F. Hutter, “Decoupled weight [28] “nanogpt.” https://github.com/karpathy/

decay regularization,” 2019. nanoGPT, 2023.
[20] R. Taori, I. Gulrajani, T. Zhang, Y. Du-

bois, X. Li, C. Guestrin, P. Liang, and T. B.
Hashimoto, “Stanford alpaca: An instruction-
following llama model.” https://github.
com/tatsu-lab/stanford_alpaca, 2023.
[21] Y. Wang, Y. Kordi, S. Mishra, A. Liu, N. A.

Smith, D. Khashabi, and H. Hajishirzi, “Self-
instruct: Aligning language model with self
generated instructions,” 2022.
[22] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu,

Y. Li, S. Wang, L. Wang, and W. Chen, “Lora:
Low-rank adaptation of large language models,”
2021.
[23] “alpaca-lora: Instruct-tune llama on consumer

hardware.” https://github.com/tloen/
alpaca-lora, 2023.
[24] “Cabrita: A portuguese finetuned instruction

llama.” https://github.com/22-hours/
cabrita, 2023.
[25] “Zicklein: A german finetuned instruction

llama.” https://github.com/avocardio/
Zicklein, 2023.
[26] A. Fan, S. Bhosale, H. Schwenk, Z. Ma,

A. El-Kishky, S. Goyal, M. Baines, O. Celebi,
G. Wenzek, V. Chaudhary, N. Goyal, T. Birch,
V. Liptchinsky, S. Edunov, E. Grave, M. Auli,
and A. Joulin, “Beyond english-centric multi-
lingual machine translation,” 2020.

Büyük Dil Modellerinin Türkçe Verisetleri Ile e Gitilmesi Ve Ince Ayarlanması

Uploaded by

Copyright:

Available Formats

You might also like

Büyük Dil Modellerinin Türkçe Verisetleri Ile e Gitilmesi Ve Ince Ayarlanması

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Büyük Dil Modellerinin Türkçe Verisetleri Ile e Gitilmesi Ve Ince Ayarlanması

Uploaded by

Copyright:

Available Formats

Büyük dil modellerinin Türkçe verisetleri ile eğitilmesi ve ince

Özet nin kapsayıcılığı yeterli düzeyde değildir. Bu durum,

Tablo 1: Açık erişimli metin kaynakları.

Tablo 2: Açık erişimli büyük dil modelleri.

[19] I. Loshchilov and F. Hutter, “Decoupled weight [28] “nanogpt.” https://github.com/karpathy/

[20] R. Taori, I. Gulrajani, T. Zhang, Y. Du-

[21] Y. Wang, Y. Kordi, S. Mishra, A. Liu, N. A.

[22] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu,

[23] “alpaca-lora: Instruct-tune llama on consumer

[24] “Cabrita: A portuguese finetuned instruction

[25] “Zicklein: A german finetuned instruction

[26] A. Fan, S. Bhosale, H. Schwenk, Z. Ma,

You might also like