مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

مقاله طرح

مشخصات مقاله

مجری: واحد صنعتی شریف
سال:1371 | تاریخ پایان: بهمن 1371

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

901
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

0
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات طرح

عنوان

استخراج فراوانی کلمات متداول نوشتار فارسی

نهاد حامی(کارفرما)

 جهاد دانشگاهی

نویسندگان

فرهاد-رمضان پور

صفحات

 صفحه شروع | صفحه پایان

کلیدواژه

ثبت نشده است

چکیده

 اطلاعات آماری دقیق از کلمات متداول در نوشتار فارسی برای مقاصد تحقیقاتی در زمینه های نمایه سازی، فشرده سازی متون، ترجمه ماشینی و تبدیل گفتا به نوشتار یا بالعکس از لوازم اصلی کار محسوب می شود.در این پروژه، ابتدا نمونه های تصادفی از متون فارسی در موضوعات گوناگون و متنوع اجتماعی، اقتصادی، ورزشی، علمی، ادبی، تاریخی، فرهنگی، سیاسی و … به حجم حدودا نه میلیون کلمه جمع آوری و ذخیره سازی کامپیوتری شدند. سپس فهرست کلمات فارسی بر حسب حروف الفبا و بر حسب فراوانی ظهور در متون فارسی تهیه و در قالب گزارش های مکتوب ارائه گردید. خلاصه ای از فعالیت های انجام شده عبارتند از: - تبدیل مجموعه کاراکترهایی که متون از طریق آن جمع آوری شده بود و به مجموعه کاراکترهایی که مورد نظر بود. - تفکیک اطلاعات نمونه ای جمع آوری شده به فایل های جداگانه به دلیل حجیم بودن اطلاعات برای سهولت پردازش - حذف اطلاعات تکراری و نامناسب پس از بازبینی نسبتا دقیق اطلاعات - پردازش تک تک فایل های اطلاعات جمع آوری شده و محاسبه فراوانی مطلق کلمات در هر یک از آن ها و ذخیره فراوانی ها بر حسب ترتیب قاموسی کلمات - ادغام کلمات یکسان با املاهای متفاوت و استخراج نهایی فراوانی کلمات به ترتیب قاموسی به حجم دقیقا 793410 کلمه - حذف کلماتی که فراوانی آن ها یک بوده و در نتیجه استخراج 73773 کلمه مجزا از اطلاعاتی به حجم 7317553 کلمه و محاسبه فراوانی آن ها.

استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    APA: کپی

    رمضان پور، فرهاد. (بهمن 1371). استخراج فراوانی کلمات متداول نوشتار فارسی. تهران، ایران: مراکز جهاد دانشگاهی. https://sid.ir/paper/787475/fa

    Vancouver: کپی

    رمضان پور فرهاد. [Internet]. استخراج فراوانی کلمات متداول نوشتار فارسی. تهران، ایران: مراکز جهاد دانشگاهی؛ بهمن 1371. Available from: https://sid.ir/paper/787475/fa

    IEEE: کپی

    فرهاد رمضان پور، “استخراج فراوانی کلمات متداول نوشتار فارسی،” ایران، مراکز جهاد دانشگاهی، بهمن 1371. [Online]. Available: https://sid.ir/paper/787475/fa

    مقالات مرتبط نشریه ای

  • ثبت نشده است.
  • مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources
    مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources
    مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources
    مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources
    مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources
    مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources
    مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources
    بازگشت به بالا
    telegram sharing button
    whatsapp sharing button
    linkedin sharing button
    twitter sharing button
    email sharing button
    email sharing button
    email sharing button
    sharethis sharing button