Büyük Dil Modellerinin Türkçe Verisetleri Ile e Gitilmesi Ve Ince Ayarlanması

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

Büyük dil modellerinin Türkçe verisetleri ile eğitilmesi ve ince

ayarlanması
A. Taha Arslan
arXiv:2306.03978v1 [cs.CL] 6 Jun 2023

Mayıs 2023

Özet nin kapsayıcılığı yeterli düzeyde değildir. Bu durum,


yayımlanan verisetlerinde gözlemlenebilir. Bunu gi-
Large language models have advanced enormously, dermenin yolları Türkçe içerikli büyük verisetleri-
gained vast attraction and are having a phase of inten- nin oluşturulması, büyük dil modellerinin bunlarla
sed research upon them. Some of the developed mo- eğitilmesi ve önceden eğitilmiş modellerin Türkçe
dels and corresponding training datasets have been girdilerle ince ayarlanmaları olarak sayılabilir. Bu
made public and open-accessible. Hence these may çalışmada açık erişimli dil modelleri ve verisetleri
be further fine-tuned with some techniques to obtain üzerinde durulmakta ve Türkçe temelli yapılmış bazı
specialized models for specific tasks. When it comes deneyler, karşılaşılan sorunlar ve sonuçlar anlatıl-
to Turkish language, open-access large language mo- maktadır.
dels do not provide satisfactory coverage. This can be
also observed over published datasets. In this work,
we propose some ideas to mitigate this issue. These 1 Giriş
include creating large Turkish supported datasets,
training LLMs with these and fine-tuning already Son yıllarda yapay zekâ alanında yaşanan dramatik
trained models with Turkish inputs. We introduce gelişmelerden birisi de, büyük dil modellerinin yani
open-access LLMs and datasets and further report çok sayıda parametreye sahip (bir milyar ve üstünde)
our findings on Turkish-based trainings, problems yapay sinir ağlarının gene çok sayıda etiklenmemiş
encountered. We conclude with outcomes of these metin ve kendi gözetimli ya da yarı gözetimli öğ-
experiments and propose ideas for further works. —– renim yöntemleri ile eğitilmeleridir. Bu yaklaşım,
Büyük dil modelleri geçtiğimiz dönemde inanılmaz 2018 yılından itibaren artarak devam etmektedir. Bu
ölçüde gelişmiş, büyük ilgi toplamış ve üzerlerinde gelişmeler ayrıca doğal dil işleme (NLP) araştırmala-
yoğun araştırmaların yapıldığı bir dönem geçirmekte- rının bir önceki yaklaşım olan gözetimli öğrenimden
dirler. Geliştirilen modeller ve bunları eğitmede kul- birtakım görevler için farklılaşmarını da beraberinde
lanılan verisetlerinden bazıları açık erişimli olarak getirmiştir [1].
sunulmaktadır. Böylece bunlar üzerinde ince ayar- Büyük dil modelleri genellikle bir cümlede yer
lama teknikleri uygulanarak özelleşmiş görevler için alan bir sonraki kelimeyi kestirmek üzere kurgulan-
çalışabilir modeller elde etmek mümkündür. Türkçe salar da, belli görev tanımları ile özelleştirilmeleri ve
söz konusu olduğunda sunulan büyük dil modelleri- ince ayarlanmaları sonucunda farklı işlevleri de ger-

1
çekleştirebilirler. Bu görevler arasında, duygu ana- diği ürününü Kasım 2022’de sundu. InstructGPT adı
lizi, makine tercümesi, soru cevaplama, eksik kelime verilen bu ince ayarlamada, eğitilen büyük dil mo-
tamamlama bulunmaktadır. İstem teknikleri, modele dellerine istemlere yanıt dönme ve istem takip etme
çözülmek istenen problemi bir metin istemi olarak özellikleri ekleme amacı güdülmektedir [6, 7].
sunar. Bu yapılırken bu probleme benzeyen bir ya Bu çalışmada, hali hazırda açık erişime sunulmuş
da daha fazlası çözümleriyle birlikte istemin içeri- bulunan büyük dil modelleri ve bu modellerin eğitil-
sinde yer alabilir. Böylece, dil modeli neyi çözmesi melerinde ve ince ayarlanmalarında kullanılan gene
gerektiğini kestirebilir. GPT-3 gibi çok daha güçlü açık erişimli verisetleri incelenmiştir. Ayrıca, bir bü-
modeller buna gereksinim duymadan bu görevleri yük dil modelinin Türkçe içerik ile eğitilmesi denen-
yapabilmektedirler. miş, bir başka önceden eğitilmiş ağın Türkçe istem
Son yıllarda geliştirilen önemli büyük dil mo- girdileri ile ince ayarlanması ve bu istemlere yanıt
dellerinin tamamına yakını transformer derin öğ- dönmesi incelenmiştir. Bu deneyler ile ilgili yürütü-
renme modelini esas almıştır. Bu modelde en önemli len hazırlıklar ve aşamalar Bölüm 4’te, sonuçlar ise
unsur, öz-dikkat denilebilecek (self-attention) girdi Bölüm 5’te sunulmuştur.
verinin her bir parçasının önem derecesini ayırt
edici biçimde ağırlıklandırma tekniğidir [2]. Trans-
former’ların uygulama alanları arasında makine ter- 2 Verisetleri
cümesi, doküman özetleme, doküman oluşturma, bi-
yolojik dizi analizi ve video anlamlandırma yer al- Başarım oranı yüksek bir dil modelinin eğitilebil-
maktadır. Transformer’lar genelde önce gözetimsiz mesi için gerekli olan en önemli aşamalardan birisi
öneğitim ve ardından gözetimli ince ayarlama içe- çok büyük ve ön işlemden geçmiş bir metin veriseti-
ren bir kendi gözetimli eğitimden geçirilmektedir. nin hazırlanmasıdır. Bu aşama, hali hazırda sunulan
GPT-2, GPT-3, GPT-4, BERT, XLNet, RoBERTa açık erişimli verisetleri indirilerek yapılabileceği gibi
ve ChatGPT gibi büyük dil modelleri transformer kaynaklar indirilerek sıfırdan da gerçekleştirilebilir.
yapısındadırlar. İngilizce ve diğer yaygın diller için bu hazır veri-
Transformer mimarisinin Google tarafından 2017 setlerinin kolaylıkla bulunabilmesine karşın malesef
yılında oluşturulmasının ardından [3], OpenAI 2018 Türkçe için hazır verisetleri yeterli ve kolay ulaşı-
yılında önceden eğitilmiş üreteç transformer yapı- labilir değiller. Bu konudaki bir diğer önemli husus
sını yayınlamış ve ilk örneği olarak GPT-1 modelini da telif hakları meselesidir. Tablo-1’de açık erişimli
geliştirmiştir [4]. Bu yapı 12 öz-dikkat içeren 12 kat- veri kaynakları hakkında bilgiler özetlenmiştir.
mandan ve her birinde 64 olmak üzere toplamda 768 Hugging Face, Inc. firmasının sağladığı altyapı
adet boyutsal durum içermektedir. Daha sonra gelişti- ile önceden hazırlanmış verisetleri ve derin öğrenme
rilen GPT-2 modeli, GPT-1’dne göre hem parametre ağ modelleri herkese açık bir şekilde paylaşılmakta-
sayısı hem de veriseti bakımından 10 kat büyüktü dır [13]. Bu verisetleri arasında farklı görevler için
[5]. GPT-2 kamunun kullanımı için açık erişim ola- oluşturulmuş Openwebtext [14], C4 ve PIQA [15]
rak yayımlandır. 2020 senesinde sunulan GPT-3 ise gösterilebilir. Huggin Face tarafından sunulmakta
175 milyar parametre ile çok daha büyük bir yapıya olan modeller arasında ise farklı görevler için eği-
sahipti. GPT-3’ün kaynak kodu hiçbir zaman açık- 1 Common Crawl, belli aralıklarda bu kayıtları almakta ve
lanmadı. OpenAI, GPT-3.5 adı verilen modelin ince sunmaktadır. Bu çalışmanın yapıldığı andaki en son arşiv kaydı
ayarlanması ile geliştirilen ve adına ChatGPT de- Mart/Nisan 2023 tarihlidir ve kayıt adı CC-MAIN-2023-14’tür.

2
Kaynak Büyüklük Türkçe içerik Açıklama
yaklaşık 3.15 milyar web
Common Crawl1 %0.7897 [9] Kâr amacı gütmeyen kuruluş.
sayfası (380 TiB) [8]
OpenAI’nın ilk GPT modeli
BookCorpus [10] 11,000 kitap, 985 milyon kelime. bilinmiyor
için kullanıldı.
Common Crawl verisinin
C4 ve T5 [11] 745 GB. Sadece İngilizce veri. temizlenmiş hali. Google tarafından
yayımlanmıştır.
GPT-2’in eğitildiği Webtext’e
Openwebtext 8 milyon doküman, 38GB veri. Sadece İngilizce veri.
alternatif olarak hazırlanmıştır.
Diğer büyük kaynaklardan veriseti
RedPajama [12] 1.2 Trilyon belirtke. bilinmiyor
oluşturmayı sağlayan proje.
Vikipedi 731 MB. Sadece Türkçe veri. Bu çalışmada kullanılmıştır.

Tablo 1: Açık erişimli metin kaynakları.

tilmiş T5, BERT, BART, GPT-2 ve BLOOM gibi uygun olduğu düşünülebilir.
önemli modeller yer almaktadır.
Belirtkeleştirme (Tokenization) Sözcüksel ana-
lizde bir girdi metni oluşturan parçaların sınıflan-
Türkçe metinlerden veriseti oluşturma. Hali ha- dırılması ve ayırt edilmesi işlemidir. Oluşturulan be-
zırda açık erişimle sunulan verisetlerinde Türkçe içe- lirtkeler takip eden bir başka işlemde kullanılırlar.
riğin hiç olmaması ya da çok az yer alması nede- Girdi verisetinden yer alan bütün veri belirtkelere
niyle büyük dil ağları araştırmalarında kullanmak ayrılarak bir sözvarlığı seti oluşturulur. Büyük dil
üzere sıfırdan bir veriseti oluşturmak elzem olmakta- modellerinin eğitilmesinde kullanılan verisetleri üze-
dır. Bu çalışmada yer alan deneyleri yürütülmek için rinde çoğunlukla Byte-Pair Encoding (BPE) belirt-
böyle bir veriseti sadece Vikipedi (Wikipedia Türkçe keleştirme algoritması uygulanmaktadır.
sürümü) makaleleri kullanılarak gerçekleştirilmiş-
tir. Bunun için, güncel ve sıkıştırılmış trwiki2 ar- 3 Modellerinin eğitilmeleri ve ince
şivi indirilmiş ardından bir Python betiği yardımıyla
json formatında veriseti oluşturulmuştur. 731 MB ayarlanmaları
büyüklüğündeki bu veride ön işleme ve temizlik ya-
Açık erişimli büyük dil modelleri. Ticari büyük
pıldıktan sonra farklı uzunluklarda toplam 818.454
dil modelleri dışında bazı şahıs ve kurumlar tara-
adet metin elde edilmiştir. Bu metinler, tiktoken
fından kaynağı paylaşılan büyük dil modelleri mev-
modülü [16] ile belirtkeleştirilince 296.1 milyon
cuttur. Bunlar arasında, Meta şirketi tarafından ya-
adet belirtke oluşmuştur. Bu sonuç GPT-2 mode-
yımlanan LLaMa [17] modelinin 7, 13, 33 ve 65
linin de belirtkeleştirildiği 50 bin ögeden oluşan
milyar parametre içeren varyantları bulunmaktadır.
r50k_base dil kodlaması kullanıldığında elde edi-
Bu modeller 1 ve 1.4 trilyon belirtke (token) ile eği-
len sayıdır. GPT-3.5 ve GPT-4’te kullanılan 100 bin
tilmişlerdir. Malesef eğitim verisetinde yer alan 20
ögelik cl100k_base kullanılacak olursa oluşan sayı
242.6 milyon olmaktadır. Bunun Türkçe için daha 2 https://dumps.wikimedia.org/trwiki/20230520/

3
dil içinde Türkçe bulunmamaktadır. BLOOM [18] şimli olarak sunulan önceden eğitilmiş büyük dil
dil modelinde yer alan 46 dil arasında da Türkçe yer modelleri ince ayar teknikleri uygulanarak Türkçe
almamaktadır. istemlere yanıt verir hale getirilmeye çalışılmıştır.
Kamuya açılmış büyük dil modelleri Tablo-2’de İkinci kısımda ise, Türkçe içerikli veriseti oluşturul-
özetlenmiştir. Bu modeller eğitilirken çoğunlukla muş ve büyük bir dil modeli sıfırdan eğitilmiştir.
Adam algoritmasının iyileştirilmiş bir versiyonu olan
AdamW optimizasyon algoritması kullanılmakta- Türkçe istemleri takip eden modellerin elde
dır [19]. edilmesi. Bu işlem için, Portekizce ve Almanca
için yapılan çalışmalara benzer şekilde, Stanford
İnce ayarlama (fine-tuning). Önceden eğitilmiş Alpaca’nın 52.000 adetlik girdisi M2M100 mo-
büyük bir dil modelinin katsayılarının alınarak belli deli ve belirtkeleştirme aracı [26] ile Türkçe’ye
bir görev için, çok daha küçük başka bir verisetiyle çevrilmiştir[27]. Bu Türkçeleştirme işlemi oldukça
tekrar eğitilmesidir. Bu aşama için daha düşük bir başarılı gözükmektedir. Örneğin ilk iki istem ve ya-
öğrenim oranı katsayısı kullanılır. Böylece bu dil nıtları aşağıdaki şekildedir:
modeli bu görev için özelleşmiş olacaktır. Örneğin, 1 {
istem takip etme bu yeteneklerden biri olabilir. Ör- 2 " komut ":" Sa ğ l ı kl ı kalmak i ç in 3
neğin, LlaMa modeli açık erişimli ve oldukça büyük ipucu verin ." ,
olduğu için bu modelin istem takip etme için ince 3 " girdi ":"" ,
ayarlanması akla yatkın olmaktadır. Bu işlemi Stan- 4 " ç ı kt ı ":"1. Dengeli bir diyet
yiyin ve bol miktarda meyve ve
ford Alpaca gerçekleştirmiştir [20]. Çalışmalarında
sebze i ç erdi ğ inizden emin
52,000 adet ve modelin kendiliğinden ürettiği önce- olun . 2. V ü cudunuzu aktif ve g
den hazırlanmış istem-girdi-cevap ya da istem-cevap ü ç l ü tutmak i ç in d ü zenli
şeklinde metin havuzu oluşturmuşlar [21], LlaMa- olarak egzersiz yap ı n . 3.
7B ve LlaMa-13B modellerini ince ayarlamışlardır. Yeterli uyku al ı n ve tutarl ı
Böylece elde edilen modelin GPT-3.5’a (text-davinci- bir uyku program ı tutun ."
003) benzer şekilde davrandığını öne sürmektedirler. 5 },
Buna benzer şekilde alpaca-lora projesi Alpaca so- 6 {
7 " komut ":" Ü ç ana renk nedir ?" ,
nuçlarını LoRA tekniğini [22] kullanarak çok daha
8 " girdi ":"" ,
düşük donanım seviyelerinde gerçeklemiştir [23]. İki 9 " ç ı kt ı ":" Ü ç ana renk k ı rm ı z ı ,
başka proje de, Cabrita ve Zicklein, bu çalışmaları sı- mavi ve sar ı d ı r ."
rasıyla Portekizce’ye ve Almanca’ya taşımışlar yani10 },
bu dillerde verilen istemlere ince ayarlanmış LlaMa11 ...
modeli tarafından yanıt dönülmesini hedeflemişler-
dir [24, 25]. Bir istem, komut ve girdiden oluşabileceği gibi
girdi içermeyen bir komuttan da oluşabilir. Dil mo-
deli bu iki türde hazırlanan metinlerden oluşan ve-
4 Deneyler risetiyle birkaç tekrarla (epoch sayısı 3 alınmıştır)
eğitilince buna benzer sorulara yanıt dönebilir hale
Bu çalışma kapsamında gerçekleştirilen deneyler iki gelmektedir. LlaMa modellerinden 7 milyar para-
kısımdan oluşmaktadır. İlkinde, hali hazırda açık eri- metre içeren versiyonu bu şekilde eğitilmiştir.

4
Model Sene Büyüklük Türkçe içerik Açıklama
GPT-2 2019 1.5 milyar parametre. Yok OpenAI tarafından. Transformer tabanlı.
BLOOM 2022 366 milyar belirtke, 176 milyar parametre. Yok Transformer tabanlı.
LlaMa 2023 7, 13, 33 ve 65 milyar parametre. Yok Meta firması tarafından. Transformer tabanlı.

Tablo 2: Açık erişimli büyük dil modelleri.

Açık erişimli bir büyük dil modelinin Türkçe ve- lundurulduğunda bunun altında yatan nedeni ya da
risetiyle eğitilmesi. Bölüm 2’de anlatıldığı gibi nedenleri incelemek faydalı olacaktır. Ayrıca GPT-2
Türkçe içerikli bir veriseti oluşturulmuştur. Açık eri- modelinin eğitilmesinde sadece bir metin kaynağın-
şimli olan GPT-2 modeli bu verisetiyle eğitilmiş- dan yararlanıldığı için çıktılar tatmin edici ölçüde
tir. Bu işlem gerçekleştirilirken nanoGPT projesin- gerçekleşmemektedir. Bunu geliştirmenin yolu daha
den [28] faydalanılmıştır. Bu modeldeki parametre büyük ölçüde Türkçe içerikli metinlerden bir veriseti
sayısı 124 milyondur. Veriseti oluşturulurken toplam oluşturmak ya da mümkünse böyle bir verisetinin
verinin %0.1’lik kısmı test veriseti olarak ayrılmış ve açık erişimli kaynaklardan indirmektir. Elbette bü-
bu ayrı tutulan veriseti model eğitimi sırasında aşırı yük dil modellerini büyük verisetleri ile eğitebilmek
öğrenme ya da eksik öğrenme sorunlarını gözlemek için daha fazla sayıda donanıma ve GPU kartına eri-
için kullanılmıştır. 8000 iterasyon sonrası eğitim eği- şebilme ihtiyacı da aşikardır.
tim ve test setleri için sırasıyla 1.3784 ve 1.6127 ka- Çalışma boyunca geliştirilen betikler bir Github
yıp değerlerine ulaşılmıştır. Öğrenim oranı 0.0006 ile deposuna yüklenecek ve bu belgenin ilerleyen sü-
maksimum olacak şekilde başlatılmış ve iterasyonlar rümlerinde paylaşılacaktır.
boyunca bir kosinüs fonksiyonu ile azaltılmıştır. Ay-
rıca belli bir iterasyon sayısı boyunca ısınma eğitimi
uygulanmıştır. Bütün çalışmalar bir adet NVIDIA
A100-40GB GPU kartı üzerinden yürütülmüştür.
Kaynaklar
[1] Wikipedia contributors, “Large language
5 Sonuç ve Tartışma model — Wikipedia, the free encyclopedia.”
https://en.wikipedia.org/w/index.php?
LlaMa modelinin Türkçe girdilerle eğitilmemesi ne- title=Large_language_model&oldid=
ticesinde ilk yapılan çalışmanın sonuçları başarısız 1157161819, 2023. [Online; accessed
olmuştur. Zaten Türkçe kelimeleri görmemiş ve ta- 28-May-2023].
nımamış bir modelin bu şekilde yanıt dönebilmesini
beklemek mantıksız olacaktı. Önümüzdeki çalışma- [2] Wikipedia contributors, “Transfor-
larda, Türkçe desteği olan ve açık erişimi bulunan bü- mer (machine learning model) —
yük bir dil modeli ile bu yöntem tekrarlanabilir. GPT- Wikipedia, the free encyclopedia.”
2 modelinin eğitiminde elde edilen kayıp oranları https://en.wikipedia.org/w/index.php?
nanoGPT tarafından raporlanan sayılardan oldukça title=Transformer_(machine_learning_
düşük çıkmıştır. Bu başta iyi bir şey gibi gözükse model)&oldid=1157314320, 2023. [Online;
de, kullanılan verisetinin küçüklüğü göz önünde bu- accessed 28-May-2023].

5
[3] A. Vaswani, N. Shazeer, N. Parmar, J. Usz- visual explanations by watching movies and
koreit, L. Jones, A. N. Gomez, L. Kaiser, and reading books,” in Proceedings of the IEEE
I. Polosukhin, “Attention is all you need,” 2017. international conference on computer vision,
pp. 19–27, 2015.
[4] A. Radford, K. Narasimhan, T. Salimans,
I. Sutskever, et al., “Improving language un- [11] C. Raffel, N. Shazeer, A. Roberts, K. Lee,
derstanding by generative pre-training,” 2018. S. Narang, M. Matena, Y. Zhou, W. Li, and
P. J. Liu, “Exploring the limits of transfer le-
[5] A. Radford, J. Wu, R. Child, D. Luan, D. Amo- arning with a unified text-to-text transformer,”
dei, I. Sutskever, et al., “Language models are Journal of Machine Learning Research, vol. 21,
unsupervised multitask learners,” OpenAI blog, no. 140, pp. 1–67, 2020.
vol. 1, no. 8, p. 9, 2019.
[12] T. Computer, “Redpajama: An open source
[6] “Openai – aligning language models to recipe to reproduce llama training dataset.”
follow instructions.” https://openai.com/ https://github.com/togethercomputer/
research/instruction-following. Acces- RedPajama-Data, April 2023.
sed: 2023-05-29.
[13] “Hugging face – the ai community building the
[7] L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. future..” https://huggingface.co/. Acces-
Wainwright, P. Mishkin, C. Zhang, S. Agar- sed: 2023-05-28.
wal, K. Slama, A. Ray, J. Schulman, J. Hil-
[14] E. P. S. T. Aaron Gokaslan, Vanya Cohen,
ton, F. Kelton, L. Miller, M. Simens, A. As-
“Openwebtext corpus.” http://Skylion007.
kell, P. Welinder, P. Christiano, J. Leike, and
github.io/OpenWebTextCorpus, 2019.
R. Lowe, “Training language models to follow
instructions with human feedback,” 2022. [15] Y. Bisk, R. Zellers, R. L. Bras, J. Gao, and
Y. Choi, “Piqa: Reasoning about physical
[8] Common Crawl, “Size of common commonsense in natural language,” in Thirty-
crawl monthly archives — statistics Fourth AAAI Conference on Artificial Intelli-
of common crawl monthly archives.” gence, 2020.
https://commoncrawl.github.io/
cc-crawl-statistics/plots/crawlsize, [16] “Openai – how to count tokens with tik-
2023. [Online; accessed 28-May-2023]. token.” https://github.com/openai/
openai-cookbook/blob/main/examples/
[9] Common Crawl, “Distribution of languages How_to_count_tokens_with_tiktoken.
— statistics of common crawl monthly arc- ipynb. Accessed: 2023-05-29.
hives.” https://commoncrawl.github.io/
cc-crawl-statistics/plots/languages, [17] H. Touvron, T. Lavril, G. Izacard, X. Marti-
2023. [Online; accessed 28-May-2023]. net, M.-A. Lachaux, T. Lacroix, B. Rozière,
N. Goyal, E. Hambro, F. Azhar, A. Rodriguez,
[10] Y. Zhu, R. Kiros, R. Zemel, R. Salakhutdinov, A. Joulin, E. Grave, and G. Lample, “Llama:
R. Urtasun, A. Torralba, and S. Fidler, “Alig- Open and efficient foundation language mo-
ning books and movies: Towards story-like dels,” 2023.

6
[18] T. L. Scao and et al., “Bloom: A 176b- [27] “M2m100.” https://huggingface.co/
parameter open-access multilingual language transformers/v4.4.2/model_doc/m2m_
model,” 2023. 100.html. Accessed: 2023-05-29.

[19] I. Loshchilov and F. Hutter, “Decoupled weight [28] “nanogpt.” https://github.com/karpathy/


decay regularization,” 2019. nanoGPT, 2023.

[20] R. Taori, I. Gulrajani, T. Zhang, Y. Du-


bois, X. Li, C. Guestrin, P. Liang, and T. B.
Hashimoto, “Stanford alpaca: An instruction-
following llama model.” https://github.
com/tatsu-lab/stanford_alpaca, 2023.

[21] Y. Wang, Y. Kordi, S. Mishra, A. Liu, N. A.


Smith, D. Khashabi, and H. Hajishirzi, “Self-
instruct: Aligning language model with self
generated instructions,” 2022.

[22] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu,


Y. Li, S. Wang, L. Wang, and W. Chen, “Lora:
Low-rank adaptation of large language models,”
2021.

[23] “alpaca-lora: Instruct-tune llama on consumer


hardware.” https://github.com/tloen/
alpaca-lora, 2023.

[24] “Cabrita: A portuguese finetuned instruction


llama.” https://github.com/22-hours/
cabrita, 2023.

[25] “Zicklein: A german finetuned instruction


llama.” https://github.com/avocardio/
Zicklein, 2023.

[26] A. Fan, S. Bhosale, H. Schwenk, Z. Ma,


A. El-Kishky, S. Goyal, M. Baines, O. Celebi,
G. Wenzek, V. Chaudhary, N. Goyal, T. Birch,
V. Liptchinsky, S. Edunov, E. Grave, M. Auli,
and A. Joulin, “Beyond english-centric multi-
lingual machine translation,” 2020.

You might also like