پیکره متنی زبان فارسی

یکی از مهم­ترین گام­ها در طراحی و ساخت سیستم­های بازشناسی گفتار پیوسته با دایرۀ لغات بزرگ (LVCSR)، تعلیم مدل زبانی (Language Model) برای مدل­کردن نحوۀ توالی کلمات در یک زبان خاصّ است. برای انجام چنین کاری، داشتن مقادیر بسیار زیادی از دادگان متنی (Text) از آن زبان همراه با برچسب­های لازم ضروری است. از طرفی در بسیاری از پروژه­های تحقیقاتی در زمینۀ پردازش زبان طبیعی (Natural Language Processing)، چنین دادگانی مورد نیاز است. پیکرۀ متنی زبان فارسی، دادگانی است که جواب­گوی این­گونه نیازها در شناسایی گفتار فارسی و پردازش زبان طبیعی است.

پیکرۀ متنی زبان فارسی، مجموعه­ای از متون نوشتاری و گفتاری زبان فارسی به­صورت رسمی است که از منابع واقعی همچون روزنامه­ ها، سایت­ها و مستنداتِ از قبل تایپ­شده، جمع­آوری­شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً 100 میلیون کلمه است و از منابع مختلف تهیه گردیده و دارای تنوعات بسیار زیادی است.

پیکرۀ متنی زبان فارسی دارای قابلیت­ها و ویژگی­های زیر است:

  • جمع­آوری و سازمان­دهی متون نوشتاری و گفتاری رسمی زبان فارسی با حجم 100 میلیون کلمه.
  • ویرایش نیمه­خودکار اوّلیه متون.
  • برچسب­دهی نحوی- معنایی کلمات برای 10 میلیون کلمه با استفاده از 882 برچسب به­صورت دستی توسط دانشجویان رشتۀ
    زبان­شناسی براساس دستورالعمل.
  • تهیۀ نویسه­های UniCode و XML برای پرونده­های متنی دادگان.
  • امکان برچسب­دهی گروه­های نحوی.
  • طبقه­بندی هر پرونده برحسب موضوع و منبع آن.
  • پوشش موضوعات مختلف سیاسی، اجتماعی، اقتصادی، فرهنگی، ... .
  • به­همراه داشتن یک نرم­افزار آماری برای محاسبه و استخراج ویژگی­های زبانی از قبیل: توزیع احتمالی مشروط، واژگان بسامدی، شناسایی هم­نگاره­ها، همایندها، مطابقه­ها و ترتیب قاموسی با امکان گزارش­گیری.
  • طراحی یک زبان جستجوی هوشمند.
  • اوّلین و تنها پیکرۀ متنی حجیم و استاندارد در زبان فارسی.
  • استفاده در تعلیم مدل زبانی (Language Model) برای سیستم­های بازشناسی گفتار پیوستۀ فارسی با دایرۀ لغات بزرگ (LVCSR).
  •  استفاده در پروژه­های مربوط به پردازش زبان طبیعی (Natural Language Processing) همچون POS Tagging و ... .