بسم الله الرحمن الرحيم

المعالجة الصرفية لخوارزميات ال lemmatization في مكتبة NLTK

تاريخ النشر : Dec. 7, 2021

None


lemmatization

أكمالا للمنشور السابق فقد أتفقنا علي ضرورة تقليل الكلمات الخاضعة للمعالجة عن طريق التجذيع أي رد الكلمة الي أصلها (كالمصدر في اللغة العربية ), وجوهر فكرة lemmatization تكون بناءً علي المعني القاموسي -يعني في مدونة لازم الخورزمية ترجعلها- بخلاف Stemmer الذي يقوم فكرتة علي تجذيع الكلمة بناً علي تركيبها.

from nltk.corpus import wordnet as wn

للحصوا علي المرادفات

wn.synsets('spoke')

النتيجة

[Synset('spoke.n.01'),
 Synset('rundle.n.01'),
 Synset('talk.v.02'),
 Synset('talk.v.01'),
 Synset('speak.v.03'),
 Synset('address.v.02'),
 Synset('speak.v.05')]

لمعرفة معني كلمة من النتيجة السابقة

wn.synset('spoke.n.01').definition()

النتيجة

'support consisting of a radial member of a wheel joining the hub to the rim'

تريد أمثلة تحتوي علي الكلمة

wn.synset('talk.v.02').examples()
['She talks a lot of nonsense', 'This depressed patient does not verbalize']

العودة إلي مكتبة NLTK