محصولات
یکی از مهمترین گامها در طراحی و ساخت سیستمهای بازشناسی گفتار پیوسته با دایرۀ لغات بزرگ (LVCSR)، تعلیم مدل زبانی (Language Model) برای مدلکردن نحوۀ توالی کلمات در یک زبان خاصّ است. برای انجام چنین کاری، داشتن مقادیر بسیار زیادی از دادگان متنی (Text) از آن زبان همراه با برچسبهای لازم ضروری است. از طرفی در بسیاری از پروژههای تحقیقاتی در زمینۀ پردازش زبان طبیعی (Natural Language Processing)، چنین دادگانی مورد نیاز است. پیکرۀ متنی زبان فارسی، دادگانی است که جوابگوی اینگونه نیازها در شناسایی گفتار فارسی و پردازش زبان طبیعی است.
پیکرۀ متنی زبان فارسی، مجموعهای از متون نوشتاری و گفتاری زبان فارسی بهصورت رسمی است که از منابع واقعی همچون روزنامه ها، سایتها و مستنداتِ از قبل تایپشده، جمعآوریشده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً 100 میلیون کلمه است و از منابع مختلف تهیه گردیده و دارای تنوعات بسیار زیادی است.
پیکرۀ متنی زبان فارسی دارای قابلیتها و ویژگیهای زیر است:
- جمعآوری و سازماندهی متون نوشتاری و گفتاری رسمی زبان فارسی با حجم 100 میلیون کلمه.
- ویرایش نیمهخودکار اوّلیه متون.
- برچسبدهی نحوی- معنایی کلمات برای 10 میلیون کلمه با استفاده از 882 برچسب بهصورت دستی توسط دانشجویان رشتۀ
زبانشناسی براساس دستورالعمل. - تهیۀ نویسههای UniCode و XML برای پروندههای متنی دادگان.
- امکان برچسبدهی گروههای نحوی.
- طبقهبندی هر پرونده برحسب موضوع و منبع آن.
- پوشش موضوعات مختلف سیاسی، اجتماعی، اقتصادی، فرهنگی، ... .
- بههمراه داشتن یک نرمافزار آماری برای محاسبه و استخراج ویژگیهای زبانی از قبیل: توزیع احتمالی مشروط، واژگان بسامدی، شناسایی همنگارهها، همایندها، مطابقهها و ترتیب قاموسی با امکان گزارشگیری.
- طراحی یک زبان جستجوی هوشمند.
- اوّلین و تنها پیکرۀ متنی حجیم و استاندارد در زبان فارسی.
- استفاده در تعلیم مدل زبانی (Language Model) برای سیستمهای بازشناسی گفتار پیوستۀ فارسی با دایرۀ لغات بزرگ (LVCSR).
- استفاده در پروژههای مربوط به پردازش زبان طبیعی (Natural Language Processing) همچون POS Tagging و ... .
