در این مقاله از ویژگیهای مکان مشخصه برای توصیف کلی زیر- کلمات چاپی فارسی استفاده شده است. در محاسبه این ویژگیها تعداد برخوردها با بدنه زیر- کلمات به 2 محدود شده است. از این ویژگیها، با روش PCA، 12 ویژگی ناهمبسته انتخاب شده اند. از روش -kمیانگین با معیار فاصله اقلیدسی برای خوشه بندی تصاویر زیر- کلمات استفاده شده است. تصاویر 9445 زیر- کلمه با قلم لوتوس 12 و درجه تفکیک 400 نقطه در اینچ، به 150 و 300 خوشه تقسیم شدند. مقادیر کمترین و بیشترین تعداد نمونه های خوشه ها در خوشه بندی به 150 خوشه به ترتیب 11 و 91 زیر- کلمه و در خوشه بندی به 300 خوشه به ترتیب 2 و 58 زیر- کلمه به دست آمد. در یک آزمایش برای ارزیابی خوشه بندی، تصاویر 200 زیر- کلمه که دوباره رویش شدند، به 300 خوشه طبقه بندی شدند. در این طبقه بندی از معیار فاصله اقلیدسی از میانگین خوشه ها استفاده شد. در انتخاب اول، پنج انتخاب اول و ده انتخاب اول به ترتیب %80.69، %97.52 و %100 از این زیر- کلمات به درستی طبقه بندی شدند.