فیلترها/جستجو در نتایج    

فیلترها

سال

بانک‌ها


گروه تخصصی



متن کامل


اطلاعات دوره: 
  • سال: 

    1402
  • دوره: 

    1
  • شماره: 

    2
  • صفحات: 

    145-159
تعامل: 
  • استنادات: 

    0
  • بازدید: 

    50
  • دانلود: 

    0
چکیده: 

خلاصه سازی استخراجی متن یک تکنیک ضروری در پردازش زبان طبیعی است که با استخراج مهمترین جملات به تولید نسخه های فشرده از متن کمک می کند. در خلاصه سازی استخراجی جملاتی که حاوی اطلاعات مفید و مرتبط هستند برای خلاصه نهایی انتخاب می شوند. به منظور شناسایی این جملات الگوریتم های متفاوتی وجود دارند که عملکرد و خلاصه ایجاد شده از هرکدام بر اساس نوع متن و اندازه خلاصه مورد نیاز متفاوت است. در این مقاله روشی با نام Sa-TRB ارائه شده است، که برگرفته از دو الگوریتم TextRank و BERT بوده و علاوه بر استفاده از این دو روش از اشتراک جملات ایجاد شده سایر الگوریتم ها نیز بهره می برد تا دقت بالایی در انتخاب جملات خلاصه نهایی داشته باشد. مهمترین معیار برای ارزیابی عملکرد الگوریتم ها کیفیت خلاصه نهایی آنهاست، چنانکه هر چقدر خلاصه نهایی ایجاد شده توسط این الگوریتم ها به خلاصه ایجاد شده توسط انسان مشابه باشد، کیفیت خلاصه ایجاد شده بهتر است. برای به دست آوردن اندازه این تشابه از معیارهای روش ROUGE استفاده می شود. در نهایت با انجام آزمایش هایی روی دیتاست cnn-dailymail با اندازه خلاصه های مختلف نشان داده می شود که روش پیشنهادی با افزایش اندازه خلاصه مورد نیاز با وجود کاهش در معیار فراخوانی دارای دقت، امتیاز و در نتیجه کیفیت بالاتر خلاصه نهایی است، به طوری که در دو آزمایش آخر که نرخ فشردگی 20 و 25 درصد است، امتیاز روش پیشنهادی به 24.68 و 23.34 درصد رسیده است که تقریبا یک درصد از بهترین روش های آزمایش شده دیگر بهتر است.

شاخص‌های تعامل:   مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید 50

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesدانلود 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesاستناد 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمرجع 0
اطلاعات دوره: 
  • سال: 

    1403
  • دوره: 

    11
  • شماره: 

    3
  • صفحات: 

    47-60
تعامل: 
  • استنادات: 

    0
  • بازدید: 

    29
  • دانلود: 

    0
چکیده: 

در عصر انفجار اطلاعات، حوزه علم اطلاعات و دانش شناسی به دنبال ساده سازی و ارتقای فرآیند تولید اصطلاحنامه است. این هدف با استفاده از تکنیک های متن کاوی و الگوریتم های یادگیری ماشین تحقق می یابد. رویکرد پیشنهادی شامل استخراج خودکار موضوعات از داده های متنی بدون ساختار و شناسایی مفاهیم کلیدی در حوزه علم اطلاعات و دانش شناسی است. هدف اصلی این پژوهش، بهبود و توسعه اصطلاحنامه با تمرکز بر تکنیک های متن کاوی است. این رویکرد به طور مؤثری بازیابی اطلاعات را تسهیل می کند و فرآیند تولید اصطلاحنامه را ساده سازی می کند. روش شناسی پژوهش شامل چند مرحله اصلی است. ابتدا، چکیده های مقالات مرتبط با حوزه علم اطلاعات و دانش شناسی از پایگاه استنادی Web of Science در بازه زمانی 2022-1968 جمع آوری شدند. داده ها در پایتون پیش پردازش شدند تا از نویسه ها و نمادهای غیرضروری پاک سازی شوند. سپس، الگوریتم TextRank با استفاده از کتابخانه های Pandas و NLTK برای کشف موضوعات پنهان در متن ها اعمال شد. این فرآیند تکراری به شناسایی موضوعات رأس در حوزه موضوعی منجر شد. در نهایت، با تحلیل و مقایسه اصطلاحنامه دستی موجود و بررسی معیارهای انسجام موضوع و پوشش موضوعی، اثربخشی رویکرد پیشنهادی ارزیابی و اصطلاحات رأس انتخاب شدند. این روش به طور مؤثری از داده های بزرگ برای استخراج موضوعات کلیدی در حوزه علم اطلاعات و دانش شناسی استفاده کرد. یافته های پژوهش بیان می کند که این مطالعه با استفاده از تکنیک های متن کاوی و الگوریتم TextRank، به استخراج موضوعات کلیدی و انتخاب موضوعات رأس پرداخته است. نتایج نشان دهنده شناسایی 17 موضوع اصلی در حوزه علم اطلاعات و دانش شناسی است. این موضوعات شامل حوزه های مهمی مانند آرشیوها و مراکز اطلاعاتی، هوش مصنوعی، کتابشناختی، رده بندی، توسعه مجموعه، واژگان کنترل شده، کتابخانه های دیجیتال، سازمان دهی اطلاعات، بازیابی اطلاعات و استخراج داده ها، علم اطلاعات و کتابداری، نظام های اطلاعات و منابع، مدیریت دانش، کتابخانه ها و خدمات اجتماعی، فراداده، خدمات مرجع، سرعنوان های موضوعی و علم سنجی هستند. این فهرست موضوعات رأس به طور مؤثری نماینده مفاهیم کلیدی در حوزه علم اطلاعات و دانش شناسی است و می تواند به عنوان پایه ای برای توسعه اصطلاحنامه و بهبود فرآیند بازیابی اطلاعات استفاده شود. این پژوهش با بهره گیری از روش های متن کاوی و الگوریتم های پیشرفته، به استخراج و پیشنهاد موضوعات کلیدی برای اصطلاح رأس از طریق تجزیه و تحلیل دقیق منابع متنی، پرداخت.

شاخص‌های تعامل:   مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید 29

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesدانلود 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesاستناد 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمرجع 0
اطلاعات دوره: 
  • سال: 

    1396
  • دوره: 

    14
  • شماره: 

    4 (پیاپی 34)
  • صفحات: 

    143-157
تعامل: 
  • استنادات: 

    0
  • بازدید: 

    868
  • دانلود: 

    394
چکیده: 

در این مقاله، خلاصه سازی استخراجی گفتار با استفاده از روش های مختلف یادگیری ماشین مورد مطالعه قرار گرفته است. خلاصه سازی یک فایل گفتاری به معنای استخراج بخش های مهم و شاخص گفتار به منظور دسترسی، جستجو، استخراج و مرورگری آسان تر و کم هزینه تر اطلاعات فایل های گفتاری است. در این مقاله، یک روش جدید خلاصه سازی گفتار بدون استفاده از سامانه بازشناسی خودکار گفتار ارائه شده است. الگوهای تکراری بین دو جمله گفتاری با استفاده از الگوریتم S-DTW، به طورمستقیم از روی سیگنال گفتار شناسایی می شوند. بعد از تعیین شباهت بین دو جمله و استخراج تعدادی ویژگی از هر جمله تاثیر روش های مختلف یادگیری ماشین، بانظارت، بی نظارت و نیمه نظارتی مورد بررسی قرار گرفته است. آزمایش ها برروی یک پیکره خوانده شده اخبار فارسی انجام شده است. نتایج نشان می دهد با استفاده از ویژگی های مناسب، بدون استفاده از رونوشت به کارایی بالاتری نسبت به روش های پایه (3٪ افزایش در مقایسه با انتخاب نخستین جملات و 5٪ افزایش در مفایسه با انتخاب طولانی ترین جملات با استفاده از معیار ROUGE-3) می توان دست پیدا کرد.

شاخص‌های تعامل:   مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید 868

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesدانلود 394 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesاستناد 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمرجع 0
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources
litScript
telegram sharing button
whatsapp sharing button
linkedin sharing button
twitter sharing button
email sharing button
email sharing button
email sharing button
sharethis sharing button