پردازش گفتار چیست؟

پردازش گفتار چیست؟

سیستم پردازش گفتار

هدف بلند مدت از سیستم های بازنشانی خودکار گفتار، طراحی ماشینی است که سیگنال صوتی مربوط به یک جمله بیان شده را به دنباله ای از کلمات نوشته شده تبدیل نماید.سیستم های بازنشانی خودکار گفتار اطلاعات متنوعی از منابع دانش گوناگون را در جهت دستیابی به جمله بیان شده از روی سیگنال صوتی دریافت شده به کار میگیرند.

پردازش گفتار به عنوان یکی از زیر شاخه های پردازش سیگنال، به سرعت در حال گسترش است. تکنیک های پیچیده و نوآوری های روز افزون این دانش، همگی در راستای دستیابی به این ارزو هستند ک امکان بیابیم مفاهیم در قالب ابزار های ریاضی فراهم گردد.دراین مقاله به بیان خلاصه ای از انواع روش های پردازش گفتار میپردازیم:

  • تحت تاثیر قرار گرفتن کیفیت سیگنال صوتی به وسیله نویز محیط و تابع انتقال سیستم انتقال مانند میکروفون، تلفن.
  • عدم وضوح مرز ما بین کلمات و واج ها در سیگنال صوتی
  • تنوع وسیع سرعت بیان
  • دقت ناکافی در بیان کلمات و به خصوص انتهای انها در گفتار محاوره ای نسبت به گفتار مجزا.
  • تاثیر تنوعات متعدد گوینده از جمله جنسیت، شرایط فیزیولوژیک و روانی بر گفتار.
  • به کارگیر محدودیت های معنایی نهوی زبان برای گفتار زبان طبیعی به روشی مشابه ارتباط انسان با انسان در سیستم بازنشانی

در جهت غلبه بر مشکلات مذکور تاکنون روش های متنوعی پیشنهاد شده است که از جمله آنها روش های آماری مبتنی بر قانون تصمیم گیری بیز می باشد. روش های مبتنی بر شبکه عصبی و در برخی موارد ترکیب روش هاش اماری و شبکه عصبی است.با بررسی روش های فوق میتوان دریافت که شناسایی کلمه یا واج بدون خطا بدون استفاده از دانش سطوح بالاتر به خصوص در بازنشانی گفتار پیوسته با حجم لغت نامه بزرگ .امکام پذیر نیست.

پردازش گفتار چیست؟

به عنوان یک نتیجه، یک سیستم بازنشانی گفتار که با انبوهی از فرض ها درباره واج ها، کلمات و معانی و ادراک مشخص میشود در نظر بگیرید. در سیستم های میتنی بر قانون تصمیم گیری بیز برخی از این محدودیت ها توسط مدل زبانی به سیستم باز نشانی اعمال میشود.

نتایج مطالعه و بررسی ها نشان داده است که مدل های زبانی که در حالت کلی توالی واحدهای زبانی را مبدل میکنند در کاهش خطای باز نشانی نقش عمده ای را ایفا میکنند.در این میان، استفاده از مدل های زبانی مبتنی بر شبکه های عصبی با وجود قابلیت این شبکه ها در یادگیری زنجیره نماد ها و نیز به دلیل قابلیت هموارسازی و خاصیت تعمیم دهی انها بر روش های اماری مزیت دارد.

فناوری تشخیص گفتار نرم افزاری است ک قادر است صوت را به متن تبدیل کند.فناوری تشخیص گفتار به رایانه ای که توانایی دریافت صدا را دارد برای مثال به یک میکروفون مجهز است این قابلیت را می دهد که صحبت کاربر را متوجه شود.

این فناوری در تبدیل گفتار به متن به عنوان جایگزین برای ارتباط با رایانه کاربرد دارد. برقراری ارتباط گفتاری با رایانه ها به جای استفاده از صفحه کلید و ماوس یکی از زمینه های تحقیقاتی مهم چند دهه اخیر است و شرکت های بزرگی همچون مایکروسافت، فیلیبس، ای ال ای تی، ای بی ام سالانه هزینه های هنگفتی را برای این منظور پرداخت کرده و میکنند.

ازجمله محدودیت های این نرم افزار این است که کلماتی که در این نرم افزار وجود دارد کلماتی است که از قبل به نرم افزار معرفی شده است. ضمن آن که در این نرم افزار کلمات محاوره ای قابل شناسایی نیست. لازم به ذکر است که کاربرد این نرم افزار در ادارات و سازمان ها برای کاهش به کار گیری نیروی انسانی بهره بیشتری دارد. همچنین افزایش امنیت نیز یکی دیگر از قابلیت های استفاده از این نرم افزار است.

مطالب مرتبط

نظر خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *