کلمات کلیدی مربوط به کتاب تعمیرات گفتار، مرزهای زبانی و نشانگرهای گفتمان: مدل سازی گفته های سخنرانان در گفتگوی گفتاری: علوم کامپیوتر و محاسبات، پردازش رسانه، پردازش صدا، پردازش گفتار
در صورت تبدیل فایل کتاب Speech Repairs, Intonational Boundaries and Discourse Markers: Modeling Speakers’ Utterances in Spoken Dialog به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب تعمیرات گفتار، مرزهای زبانی و نشانگرهای گفتمان: مدل سازی گفته های سخنرانان در گفتگوی گفتاری نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
تعمیرات گفتار، مرزهای زبانی و نشانگرهای گفتمان:
مدلسازی سخنان سخنرانان در گفتگوی گفتاری توسط
پیتر آنتونی هیمن
دانشگاه روچستر، روچستر، نیویورک. 1997
چکیده
گفتگوی گفتاری تعاملی چالشهای جدیدی را برای سیستمهای
درک زبان طبیعی فراهم میکند. یکی از مهمترین چالشها صرفاً
تعیین
گفتارهای مورد نظر گوینده است: هم تقسیمبندی چرخش گوینده به
گفتهها و هم تعیین
کلمات مورد نظر در هر گفته. حتی با فرض تشخیص کامل کلمه،
مشکل
آخری با وقوع تعمیرات گفتاری پیچیده میشود، که در جایی رخ میدهد
که گوینده به عقب برمیگردد و چیزی را که گفته است تغییر میدهد
(یا تکرار میکند). کلماتی که
جایگزین یا تکرار می شوند، دیگر بخشی از گفته مورد نظر نیستند، و
بنابراین نیاز به شناسایی دارند. با مشکل سوم در هم تنیده شده
است: شناسایی نشانگرهای گفتمان.
موارد واژگانی که می توانند به عنوان نشانگر گفتمان عمل کنند،
مانند خوب و خوب،
مبهم هستند که آیا یک واحد گفتار را معرفی می کنند یا یک گفتار را
سیگنال می دهند
تعمیر کنید، یا صرفاً بخشی از متن یک گفته هستند، همانطور که در
آن اشکالی ندارد. سیستمهای گفتگوی
گفتاری باید این سه موضوع را با هم و در مراحل اولیه پردازش
بررسی کنند. در واقع، همانطور که این سه موضوع به شدت با یکدیگر
در هم تنیده هستند،
با شناسایی نقش نحوی یا قسمتی از گفتار (POS) هر کلمه و مشکل
تشخیص گفتار نیز در هم تنیده شده اند. پیش بینی کلمه بعدی با توجه
به
کلمات قبلی.
در این پایان نامه، ما یک مدل زبان آماری برای حل این مسائل ارائه
می کنیم.
به جای یافتن بهترین تفسیر کلمه برای یک سیگنال صوتی، ما دوباره
تعریف می کنیم. مشکل
تشخیص گفتار به طوری که تگهای POS، نشانگرهای گفتمان،
تعمیرات گفتار و پایانهای عبارات زبانی را نیز شناسایی میکند
(یک نشانه اصلی در تعیین واحدهای بیان
viii
). افزودن این عناصر اضافی به مشکل تشخیص گفتار در واقع به آن
امکان میدهد
کلمات درگیر را بهتر پیشبینی کند، زیرا میتوانیم از
پیشبینیهای
تنهای مرزی، نشانگرهای گفتمان و تعمیرات گفتار برای توضیح بهتر
استفاده کنیم. چه کلمه ای
بعدی رخ خواهد داد. علاوه بر این، ما میتوانیم از اطلاعات
آکوستیک، مانند اطلاعات
سکوت، که با تعمیرات گفتاری و پایانهای اصطلاحی
همزمان رخ میدهد، که مدلهای زبان فعلی فقط میتوانند به عنوان
نویز در سیگنال صوتی در نظر بگیرند، استفاده کنیم. .
خروجی این مدل زبان شرح بسیار کامل تری از نوبت گوینده است،
با
بخشی از گفتار اختصاص داده شده به هر کلمه، پایان های عبارت لحنی
و نشانگرهای گفتمان
شناسایی شده، و گفتار تعمیرات شناسایی و اصلاح شد. در واقع،
شناسایی
پایانهای عبارت، نشانگرهای گفتمان، و حل و فصل تعمیرات
گفتار
به تشخیصدهنده گفتار این امکان را میدهد تا به جای صرفاً
کلمات درگیر، گفتارهای گوینده را مدلسازی کند. بنابراین میتواند
تحلیل معناداری بیشتری از نوبت گوینده را برای پردازش بعدی
برگرداند.
Speech Repairs, Intonational Boundaries and Discourse
Markers: Modeling Speakers’ Utterances in Spoken
Dialog by
Peter Anthony Heeman
University of Rochester, Rochester, New York. 1997
Abstract
Interactive spoken dialog provides many new challenges for
natural language understanding
systems. One of the most critical challenges is simply
determining the speaker’s
intended utterances: both segmenting a speaker’s turn into
utterances and determining
the intended words in each utterance. Even assuming perfect
word recognition, the latter
problem is complicated by the occurrence of speech repairs,
which occur where the
speaker goes back and changes (or repeats) something she just
said. The words that are
replaced or repeated are no longer part of the intended
utterance, and so need to be identified.
The two problems of segmenting the turn into utterances and
resolving speech
repairs are strongly intertwined with a third problem:
identifying discourse markers.
Lexical items that can function as discourse markers, such as
well and okay, are
ambiguous as to whether they are introducing an utterance unit,
signaling a speech
repair, or are simply part of the context of an utterance, as
in that’s okay. Spoken
dialog systems need to address these three issues together and
early on in the processing
stream. In fact, just as these three issues are closely
intertwined with each other,
they are also intertwined with identifying the syntactic role
or part-of-speech (POS) of
each word and the speech recognition problem of predicting the
next word given the
previous words.
In this thesis, we present a statistical language model for
resolving these issues.
Rather than finding the best word interpretation for an
acoustic signal, we redefine the
speech recognition problem to so that it also identifies the
POS tags, discourse markers,
speech repairs and intonational phrase endings (a major cue in
determining utterance
viii
units). Adding these extra elements to the speech recognition
problem actually allows it
to better predict the words involved, since we are able to make
use of the predictions of
boundary tones, discourse markers and speech repairs to better
account for what word
will occur next. Furthermore, we can take advantage of acoustic
information, such as silence
information, which tends to co-occur with speech repairs and
intonational phrase
endings, that current language models can only regard as noise
in the acoustic signal.
The output of this language model is a much fuller account of
the speaker’s turn, with
part-of-speech assigned to each word, intonation phrase endings
and discourse markers
identified, and speech repairs detected and corrected. In fact,
the identification of
the intonational phrase endings, discourse markers, and
resolution of the speech repairs
allows the speech recognizer to model the speaker’s utterances,
rather than simply the
words involved, and thus it can return a more meaningful
analysis of the speaker’s turn
for later processing.