Система регистрации речи диспетчерских переговоров

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

Скачать Бесплатно!
Для того чтобы скачать эту работу.
1. Пожалуйста введите слова с картинки:

2. И нажмите на эту кнопку.
закрыть



оситель и т.п. Единственным ограничением является сохранение информационного содержимого - так, чтобы при последующем анализе можно было однозначно выделить и декодировать переносимую информацию, а из нее - исходный сигнал.

 

2.2 Способы представления звука в цифровом виде

Исходная форма звукового сигнала - непрерывное изменение амплитуды во времени - представляется в цифровой форме с помощью "перекрестной дискретизации" - по времени и по уровню.

 

Согласно теореме Котельникова, любой непрерывный процесс с ограниченным спектром может быть полностью описан дискретной последовательностью его мгновенных значений, следующих с частотой, как минимум вдвое превышающей частоту наивысшей гармоники процесса; частота Fd выборки мгновенных значений (отсчетов) называется частотой дискретизации.

 

Из теоремы следует, что сигнал с частотой Fa может быть успешно дискретизирован по времени на частоте 2Fa только в том случае, если он является чистой синусоидой, ибо любое отклонение от синусоидальной формы приводит к выходу спектра за пределы частоты Fa. Таким образом, для временной дискретизации произвольного звукового сигнала (обычно имеющего, как известно, плавно спадающий спектр), необходим либо выбор частоты дискретизации с запасом, либо принудительное ограничение спектра входного сигнала ниже половины частоты дискретизации.

 

Одновременно с временной дискретизацией выполняется амплитудная - измерение мгновенных значений амплитуды и их представление в виде числовых величин с определенной точностью. Точность измерения (двоичная разрядность N получаемого дискретного значения) определяет соотношение сигнал/шум и динамический диапазон сигнала (теоретически это - взаимно-обратные величины, однако любой реальный тракт имеет также и собственный уровень шумов и помех).

 

Полученный поток чисел (серий двоичных цифр), описывающий звуковой сигнал, называют импульсно-кодовой модуляцией или ИКМ (Pulse Code Modulation, PCM), так как каждый импульс дискретизованного по времени сигнала представляется собственным цифровым кодом.

 

Чаще всего применяют линейное квантование, когда числовое значение отсчета пропорционально амплитуде сигнала. Из-за логарифмической природы слуха более целесообразным было бы логарифмическое квантование, когда числовое значение пропорционально величине сигнала в децибелах, однако это сопряжено с трудностями чисто технического характера.

 

Временная дискретизация и амплитудное квантование сигнала неизбежно вносят в сигнал шумовые искажения, уровень которых принято оценивать по формуле 6N + 10lg (Fдискр/2Fмакс) + C (дБ), где константа C варьируется для разных типов сигналов: для чистой синусоиды это 1.7 дБ, для звуковых сигналов - от -15 до 2 дБ. Отсюда видно, что к снижению шумов в рабочей полосе частот 0..Fмакс приводит не только увеличение разрядности отсчета, но и повышение частоты дискретизации относительно 2Fмакс, поскольку шумы квантования "размазываются" по всей полосе вплоть до частоты дискретизации, а звуковая информация занимает только нижнюю часть этой полосы.

 

В большинстве современных цифровых звуковых систем используются стандартные частоты дискретизации 44.1 и 48 кГц, однако частотный диапазон сигнала обычно ограничивается возле 20 кГц для оставления запаса по отношению к теоретическому пределу. Также наиболее распространено 16-разрядное квантование по уровню, что дает предельное соотношение сигнал/шум около 98 дБ. В студийной аппаратуре используются более высокие разрешения - 18-, 20- и 24-разрядное квантование при частотах дискретизации 56, 96 и 192 кГц. Это делается для того, чтобы сохранить высшие гармоники звукового сигнала, которые непосредственно не воспринимаются слухом, но влияют на формирование общей звуковой картины.

 

Для оцифровки более узкополосных и менее качественных сигналов частота и разрядность дискретизации могут снижаться; например, в телефонных линиях применяется 7- или 8-разрядная оцифровка с частотами 8..12 кГц.

 

Представление аналогового сигнала в цифровом виде называется также импульсно-кодовой модуляцией (ИКМ, PCM - Pulse Code Modulation), так как сигнал представляется в виде серии импульсов постоянной частоты (временная дискретизация), амплитуда которых передается цифровым кодом (амплитудная дискретизация). PCM-поток может быть как параллельным, когда все биты каждого отсчета передаются одновременно по нескольким линиям с частотой дискретизации, так и последовательным, когда биты передаются друг за другом с более высокой частотой по одной линии.

 

2.3 Особенности восприятия речевых данных человеком.

Некоторые факты о восприятии звука

  • Частотный спектр воспринимаемый человеком (примерно) от 20 Hz до 20 kHz, наибольшая чувствительность в диапазоне от 2 до 4 KHz.
  • Динамический диапазон (от самых тихих воспринимаемых звуков до самых громких) около 96 dB (более чем 1 к 30000 по линейной шкале).
  • Общеизвестно, что человек в состоянии различить изменение частоты на 0.3% на частоте порядка 1kHz.
  • Если два сигнала различаются менее чем на 1дб по амплитуде - они трудноразличимы. Разрешение по амплитуде зависит от частоты, и наибольшая чувствительность наблюдается в диапазоне от 2 до 4 KHz.
  • Пространственное разрешение (способность к локализации источника звука) - до 1 градуса.
  • Звуки различной частоты распространяются в воздухе с разной скоростью. В результате высокочастотная часть

s