أكمالا للمنشور السابق فقد أتفقنا علي ضرورة تقليل الكلمات الخاضعة للمعالجة عن طريق التجذيع أي رد الكلمة الي أصلها (كالمصدر في اللغة العربية ), وجوهر فكرة lemmatization تكون بناءً علي المعني القاموسي -يعني في مدونة لازم الخورزمية ترجعلها- بخلاف Stemmer الذي يقوم فكرتة علي تجذيع الكلمة بناً علي تركيبها.
from nltk.corpus import wordnet as wn
للحصوا علي المرادفات
wn.synsets('spoke')
النتيجة
[Synset('spoke.n.01'),
Synset('rundle.n.01'),
Synset('talk.v.02'),
Synset('talk.v.01'),
Synset('speak.v.03'),
Synset('address.v.02'),
Synset('speak.v.05')]
لمعرفة معني كلمة من النتيجة السابقة
wn.synset('spoke.n.01').definition()
النتيجة
'support consisting of a radial member of a wheel joining the hub to the rim'
تريد أمثلة تحتوي علي الكلمة
wn.synset('talk.v.02').examples()
['She talks a lot of nonsense', 'This depressed patient does not verbalize']