Korpusgestützte Sprachanalyse in Lexikographie Und Phraseologie

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 4

Sözlük Bilgisi ve Tümcebilimde Derlem Tabanlı Dil Analizi

1.Derlem Dilbilim ve uygulamalı dilbilim

- Derlemler, dijital medyanın yayılmasından önce dilbilimin birçok uygulama alanlarında


kullanıldı. Özellikle tarihsel dilbilim ve sözlük bilgisinde kaynak metinlerden oluşan bir
derlemden elde edilen belgelerin toplanması ve değerlendirilmesi, uzun bir geleneğe
sahiptir. Derlem verilerin bilgisayar destekli toplanması ve değerlendirilmesi, dilsel
düzenlilikleri ve yapıları nitelik ve nielik bakımından doğru kullanım bağlamlarında
analiz etmek için artık birçok yeni imkanlar sunmaktadır.

- Hesaplamalı dilbilim ve dilbilim, derlemlerin dijital gelişimine katkıda bulunabilecek


standartları ve araçları geliştirmek için disiplinlerarası bir şekilde ortak çalışır. Dijital
derlemlerin uygulama alanlarında önerilen iki başlangıç vardır; 2006 yılında
Lemnitzer/Zinsmeister tarafından almanca yazılmış ve yine aynı senede
McEnery/Xiao/Tono tarafından ingilizce yazılmış çalışmalardır. İkisi de anlaşılır ve
kullanım odaklı yazılmıştır, ayrıca derlemlerin kullanımını çeşitli uygulama alanlarında
yayınlanmış derlem tabanlı çalışmalar örneğinde tartışmaktadır.

- Araştırmacımız, bu makalede derlem dilbiliminin uygulama alanlarından sözlük bilgisi


ve tümcebilimde kelime dağarcığı gelişiminin deneysel araştırmasını ele almaktadır.
Dijital derlemler iki alanda da yaygın bir şekilde kullanılmaktadır; mevcut sözlük
projelerinin çoğu, çok kelimeli sözlük birimlerinin ve eşdizimliliklerin tanımı için derlem
temelli uzman araçları içermesi nedeniyle dijital derlemlerle birlikte çalışır.

- Dil öğrenenler ile yayınevlerindeki ve eğitim kurumlarındaki dil çalışanları, öncesinde


sözlük editörlerine ayrılmış olan bağımsız dil analizi için çevrimiçi ve ücretsiz
imkanlara sahiptir. Makalenin amacı, bu tür sistemlerin kullanımı için gerekli olan arka
plan bilgisini tanıtmak ve basit analiz örneklerini kullanarak derlem tabanlı dil
analizinin potansiyellerini ortaya koymaktır.

2. Derlem tabanlı dil analizinin temel kavramları


- Lemnitzer/Zinsmeister ‘’derlem’’ ifadesini ‘’Derlem Dilbilimine Giriş’’ kitabında şöyle
tanımlar:
‘’ Bir derlem, yazılı veya sözlü ifadelerin toplanmasıdır. Derlem verileri genellikle
dijitalleştirilir, yani bilgisayarlarda saklanır ve okunabilir. Derlemin bileşenleri; metinler,
ilgili veriler, bu verileri açıklayan meta veriler ve dilbilimsel açıklamaları yansıtan
bilgilerdir. ‘’

- Derlemler hakkında konuşurken ve yazarken günlük dil ifadesiyle belirtmek yararlı


olacaktır. Bu makalede birbirleriyle ilişkili olan ‘’kelime oluşumu, kelime formu ve
sözlükbirim’’ terimleri kullanılmıştır:
. Kelime oluşumu; devam eden bir metindeki kelimenin her oluşumunu sayar
. Kelime formu birimi; bir cümle veya metinde birbirinden bağımsız olan formların ne
sıklıkla meydana geldiğini belirler
. Araştırmacımız genellikle sözlükbilgisel ve sözlükbilimsel analizlerin konusu olan,
anlamsal olarak belirlenmiş kelime birimleri için ‘’sözlükbirim’’ terimini kullanır
- Derlemlerin kapsamlılığı genellikle kelime oluşumunda belirlenir; bazı derlemlerde
kelime formlarının, cümlelerin ya da belgelerin sayısı da verilir. Sözlükbilgisel derlem
araştırmalarını açıklamada, bir arama için ‘’sonuç listesi’’ ve işlem sonrası entellektüel
bir sonuca varmak için oluşturulmuş ‘’belge listesi’’ arasında terminolojik olarak ayrım
yapmak eşyazımlılık probleminden dolayı oldukça faydalıdır.

- Bu terminolojik bağlantılarla birlikte derlem tabanlı dil analizinde tipik iş akışı şöyle
tanımlanabilir: araştırma sorusu için bir arama modeli formüle edilir; derler araştırma
sistemi bunun için bir sonuç listesi oluşturur.

2.1. Ana veriler - meta veriler – açıklamalar


- Dijital derlemlerde depolanmış veriler (metin belgeleri, konuşma transkriptleri,
görüntü, ses ve video dosyaları) ana veriler olarak tanımlanır. Yazılı dildeki derlemler
için tipik meta veriler; yazar, yayın tarihi ve yayın yeridir. Konuşma derlemlerinin tipik
meta verileri; kaydın tarihi, yeri ve süresi, konuşmaya dahil olan kişiler hakkında
bilgiler, etkileşimin konusu ve durumu ve varsa yazıya geçirme standardı hakkındaki
bilgilerdir. Sözlük bilgisinde yazar, sayfa gösterimi ve yayın yeri gibi meta verileri
doğru kaynak bilgileriyle alıntılanabilir yapmak önemlidir.

- Derlem araştırma sistemleri, arama isteklerini belirli yazarlara, zaman aralıklarına ve


metin türlerine kısıtlamak için dijital olarak yönetilen meta verileri kullanabilir. Ayrıca
meta veriler, ana verilerin otomatik değerlendirmesine dahil edilebilir. Dilbilimsel
açıklamar, dijital formdaki derlemin ana verilerine eklenen yapısal özellikler
hakkındaki bilgilerdir. Kelime türleri açıklamaları, dilbilimsel işlemin önemli bir
parçasıdır. Temel olarak eş sesli kelime formları için kullanılır. Örneğin; ‘’schicken’’
kelimesinin sıfat türü ile emir kipinde çekimlenmiş yüklem türünü belirlemek için
kullanılabilir.

- Kısaltmalar derlem dilbiliminde ‘’etiketler’’ olarak adlandırılır; etiketlerin çizelgesi ve


anlamı ‘’Tagsets (etiketler kümesi)’’ de gösterilir. Almanca derlem teknolojisi için
standartlaştırılmış, önemli bir Tagset olan Stuttgart-Tübingen-Tagset, almanca
derlemleri için kelime türleri açıklamasına yönelik hazırlanmış etiketlerdir.

- Örnek cümle: Peter hält an der Ampel an.


Peter: NE <özel isim> hält: VVFIN <kök fiil>
an: APPR <prepozisyon> der: ART <belirli ya da belirsiz artikel>
Ampel: NN <normal isim> an: PTKVZ <ayrılabilir fiil eki>

- Almanca gibi çekimli bir dil için bir diğer önemli dilbilimsel işlem formu da ‘’kök
ayırma’’dır. Bu işlem çekimli kelime formlarında örneğin; sah, sieht, sähe, gesehen
gibi temel bir forma indirilerek yani mastar hali ‘’sehen’’ ile yapılır. Yapısal analizler
için ilginç olan, özel kelime yapıları için özel olarak arama yapılmasını mümkün kılan
biçimbilimsel analizdir. Kelime türleri açıklaması ve kök ayırma, dilbilimsel işlemin
standartları arasındadır. Anak büyük derlemlerde düzenleme akılcı değil, otomatiktir.
Sonuçta yüz milyon kelime oluşumu örneğinin veya daha fazlasını manuel bir şekilde
açıklamak son derece uğraştırıcı olacaktır.
2.2. Derlem araştırması: Araçlar ve işlevler
- Derlem araştırma sistemlerinde sunulan işlevler benzerdir ve tarayıcıdaki ilgili yardım
metinlerinde kapsamlı bir şekilde belgelenir. Bir derlem araştırma sistemi; arama
taleplerini yorumlar, sonuç dizinlerini oluşturur ve bunları görüntüler. Arama sorguları,
arama dilinin sözdizimi gibi belirli bir formda formüle edilmelidir.

- Bir aralık penceresinin belirtimi, derlem araştırma sistemlerinde yararlı bir işlevdir. Bir
DWDS araştırmasında n sayısından fazla olmayan bir aralık penceresinde birbirini
takip eden iki ögenin ortak oluşumunu aramak için ‘’#n’’ kodu kullanılır.
2.3. Derlemlerin türleri
- Dilbilimsel açıklamaların mevcudiyeti ve özel araçların kullanımı, dilbilimsel olarak
düzenlenmiş derlemlerle çalışmayı World Wide Web’de bilgi araştırmaları için
tasarlanmış olan Google gibi arama motorlarının kullanımından ayırır. Metin ve
konuşma derlemleri arasındaki ayrım, derlem içinde toplanan dil verilerinin medyatik
gerçekleşmesine dayanır; metin derlemleri yazılı olarak üretilmiş metinleri içerir.
İnternetin sosyal ağlarında iletişim konusunda araştırma yapmak için; metin, görüntü,
ses ve video verilerinden oluşan multimedya web derlemlerine duyulan ihtiyaç
giderek artmaktadır.

- Gönderim derlemleri ve özel derlemler arasındaki ayrım, derlem belgeleri tarafından


kapsanacak olan dilsel konu alanına dayanmaktadır. Gönderim derlemleri, belirli bir
zaman diliminin genel dilini temsil etmek ister. Özel derlemler ise seçili metin türleri
alanlarına, yazarlara ve değişkenliklere kasten sınırlama getirir. Sabit sayıda belge,
yani statik derlem veya durumunu zaman içinde değiştiren dinamik bir derlem olup
olmadığını bilmek, değerlendirme verilerinin alıntılanabilmesi için önemlidir.
3. Alman dili için çevrimiçi-derlemler: Genel bakış
- Çevrimiçi derlemler, dilbilimsel düzenlemenin yetersizliği nedeniyle derlem tabanlı dil
analizi için uygunluğu sınırlıdır. Alman dili için üretsiz ve hesaplamalı dilbilimsel
bilgiye gerek kalmaksızın düzenlenmiş üç adet çevrimiçi derlemler bulunmaktadır:
1) Mannheimdaki IDS Enstitüsü; çağdaş alman diliyle yazılmış en büyük derlemler
koleksiyonuna sahiptir.
2) ‘’Deutschen Spracharchiv’’, kapsamlı bir yazılı ve sözlü dil verileri stoğuna sahiptir.

- 3) Berlin Brandenburg Bilimler Akademisi, ‘’DWDS’’ projesi çerçevesinde dilbilimsel


olarak düzenlenmiş pek çok derleme üretsiz erişim imkanı sunmaktadır.
4. Sözlük bilgisi ve tümcebilimde dijital derlemler
- Derlemlerle çalışmak, sözlük bilgisinmde uzun bir geleneğe sahiptir. Derlemler,
günümüz sözlük yazarlarının anadilsel yeterliliği olmayan çağdaş sözlükleri ve eski dil
düzeylerini tanımlaması için oldukça gereklidir. Sözlük araştırması, basılı sözlüklerin
taslak oluşturma süreçlerini detaylı bir şekilde kaydetmiş ve tanımlamıştır.

- Dijital derlem teknolojisinin sözlükbilimsel çalışma süreçleri için avantajları şunlardır:

1) Dijital derlemlerden geniş ‘’sonuç listeleri’’ oluşturulabilir; böylece zaman ve maliyet


tasarrufu yapılır.
2) Dijital olarak işlenmiş belgeler nicel olarak değerlendirilebilir, özellikle sıklık ile ilgili
veriler ve kelime oluşumlarının ortak hareketi hesaplanabilir.
4.1. Dijital sözlükler ve derlemler
- Dijital medya ve internet sadece sözlük basım süreçlerini değil, aynı zamanda
internette sözlük portalları ya da sözlüksel bilgi sistemleri olarak bulunan
sözlükbilgisel ürünleri de değiştirmektedir. Bu yüzden sözlük yapımcıları, dijital
sözlükler oluşturmada fazlaca çaba göstermek zorunda değildir. Çağdaş alman
dilinde derlem belgelerini zenginleştirmek için iki dijital sözlük portalı kullanılır; bunlar
Alman Dili Enstitüsü ‘’OWID’’ sözlük portalı ve Leipzig Üniversitesinin ‘’Almanca
kelime dağarcığı’’ projesi adı altında bulunan eLexiko sözlüğüdür.
4.2. ‘’Stress’’ analizi örneğinden sıklık bilgileri ve değişim süreçleri
- Eskiden daha az stres vardı!
Sıklıkla duyulan bu iddianın doğru olup olmadığı, bir derlem analiziyle kesin olarak
açıklanamaz. Bununla birlikte DWDS çekirdek derlemindeki araştırma, ‘’Stress’’
arama kelimesinin sadece 1970lerden beri belgelendiğini göstermektedir.

4.3. ‘’Zeitigen’’ analizi örneğinde tipik oluşumlar ve eşdizimlilikler


- Derlem dilbilimi ve sözlükbilim, uzun zamandır istatiksel yöntemlerle derlem
verilerinden eşdizimlilikleri belirlemek ve bunları sözlüksel dil açıklamaları için
kullanılabilir hale getirmek amaçlı araştırmalar yapmaktadır.

5. Sonuç
- Dilbilimsel olarak düzenlenmiş derlemler, dil verilerini nicel ve nitel olarak doğru bir
şekilde analiz etmek için çeşitli imkanlar sunmaktadır. Sade örnekler; derlem
verilerinin dikkatle yorumlanması gerektiğini ve bu dijital teknolojinin sözlükbilgisel
çalışmanın yerini alamayaccağını, yalnızca destekleyici ve tamamlayıcı olacağını
belirtmiş olabilir. Sözlükbilgisel araştırma süreçlerinde;
. Anahtar kelimeler olarak hangi sözlükbirimleri bulunur ?
. Anahtar kelime için kaç versiyn kullanılır ?

- . Tipik ve sıra dışı kullanım içerikleri nelerdir ? gibi temel soruları, derlem verilerinin
uzman değerlendirmesi temelinde cevaplanması gerekmektedir. Büyük dijital
derlemler, otomatik yöntemle hatasız değildir. Ancak sözlükbilimsel araştırma ve
düzenleme için metodik ve teknik olarak yetkin bir sözlükbilimciler ekibi fırsatları
sunmaktadır.

- Yeni hesaplamalı sözlüksel işlevler; örneğin ilginç ve olağan dışı belgelerin


araştırılması, yeni anlamların keşfi ve gelişimi, mecazların tespiti gibi sözlük bilgisi ve
derlem dilbilimi arasındaki diyalogda geliştirilmeli ve sözlük projelerinde somut olarak
değerlendirilmelidir. Derlem tabanlı sözlük bilgisi, yakında bilgisayar kullanımı ve dilin
deneysel araştırmalarından yararlanan dilbilimciler için heyecan verici, disiplinlerarası
bir faaliyet alanı olacaktır.

You might also like