الكلمات الشائعة (stop words) أو الكلمات المستبعدة هي الكلمات التي تستبعد قبل المعالجة اللغوية الآلية للبيانات (نصوص). وهي الكلمات التي تتكرر في النصوص مثل (في، من، إلى،...) ويستحسن تجاهلها من أجل تحسين اداء النموذج . ويرجع الفضل لهانس بيتر لوهن (من الرواد في استرجاع المعلومات) في استعمال هذا المصطلح والمفهوم في التطوير.
الكلمات المستبعدة عادة تعد نوعا من الضوضاء اللغوي وإزالتها تساعد الخوارزميات على التركيز على باقي الكلام
لكن يوجد اختلاف في اعتبار الكلمة مستبعدة، فمثلا يمكن أن تعتبر أسماء الأعداد مستبعدة في نص ما، لكنها تصبح ذات قيمة في نص اقتصادي، وكلمات مثل أسماء الشهور، لها أهمية في النصوص التاريخية، لذا توجب أن يتم تصنيف الكلمات، يمكن للمبرمج فيما بعد أن يحدد ما هي الكلمات التي يريدها.
العودة إلي تحديد Stop Words |الكلمات الشائعة | الكلمات المستبعدة