در این مقاله، روش جدیدی برای بخش بندی معنایی تصاویر در حضور داده های آموزشی نظارتی ضعیف ارائه می گردد. هدف اصلی در بخش بندی معنایی اختصاص برچسب به تمامی پیکسل های تصویر است. در داده های آموزشی نظارتی ضعیف، تنها برچسب های معنایی موجود در تصویر مشخص می گردد و مکان آن ها در تصویر مشخص نمی گردد. نوآوری روش پیشنهادی، استفاده همزمان از اطلاعات سطح شی و سطح متن در تعیین برچسب های معنایی در تصویر می باشد. در روش پیشنهادی، نواحی تصاویری که دارای مجموعه برچسب های یکسانی می باشند، با یکدیگر ترکیب می گردند به گونه ای که در تصاویری که دارای برچسب های مشترک هستند، نحوه ظهور یکسان داشته و موقعیت مکانی آن ها نسبت به دیگر برچسب های معنایی موجود در تصویر نیز یکسان باشد. همچنین برای بهینه کردن تابع هزینه ی پیشنهادی، یک الگوریتم تکرار شونده ارائه شده است که در آن در ابتدا تمامی پیکسل های مجموعه تصاویر، به صورت اولیه برچسب گذاری می گردد. سپس مدل ظهور هر برچسب معنایی و مدل متن آن با استفاده از ماشین بردار پشتیبان آموزش می بیند. در قدم بعد، برچسب پیکسل ها به گونه ای به روزرسانی می گردد که در مجموعه تصاویری که دارای برچسب های یکسانی می باشند، اطلاعات سطح شی و سطح متن مشابه باشند. به روزرسانی برچسب ها تا زمانی ادامه می یابد که در دو دور متوالی، برچسب پیکسل ها تغییر نیابد. برای ارزیابی کارایی روش پیشنهادی از مجموعه داده ی MSRC استفاده شده است. روش پیشنهادی بر روی مجموعه داده ی MSRC، دقت میانگین نرخ شناسایی گروهی 72% را به دست آورده است که در مقایسه با دیگر روش های قابل مقایسه و موفق پیشین 1% افزایش دقت داشته است.