Фрагмент для ознакомления
2
Введение
В мире высококачественного аудио и аудиопроизводства сжатие дан-ных является одним из наиболее важных показателей, используемых слуша-телями и создателями для обозначения качества своих аудиофайлов.
Цифровое сжатие звука позволяет эффективно хранить и передавать аудиоданные. Различные методы сжатия звука предлагают разные уровни качества, сложность, качество сжатого звука и количество сжатия данных. Аудиоданные требуют большого количества битов для представления. Было обнаружено, что, если аудиоданные тщательно сжаты, звук отличного каче-ства может быть сохранен или передан с гораздо более низкой скоростью передачи данных.
Сжатие цифровых аудиоданных — это мощный инструмент для значи-тельного уменьшения размеров файлов, что облегчает обмен музыкой и за-писями в Интернете. Проще говоря, без цифрового сжатия звука не суще-ствовало бы современного ландшафта потокового аудио.
Звук, будь то аналоговый или цифровой, несжатый, сжатый с потерями или сжатый без потерь, является только представлением звука. Звуковой сиг-нал должен воспроизводиться через преобразователь (динамики, наушники) и передаваться в наши уши, чтобы его можно было услышать.
Этот реферат представляет собой обзор методов, используемых для сжатия цифровых аудиосигналов. Цель реферата состоит в том, чтобы обес-печить полезной информацией с цифровой обработкой звука и изложения основного процесса оцифровки звука. В данной работе представлены основ-ные принципы методов сжатия звука, и краткое обсуждение нескольких из-бранных стандартов сжатия звука.
1. Звук и цифровые аудиоданные
Звук - физическое явление, представляющее собой распространение в виде упругих волн механических колебаний в твёрдой, жидкой или газооб-разной среде. Звук - субъективное восприятие этих колебаний специальными органами чувств животных или человека.
В обычной ситуации те или иные объекты (мембраны, деки, струны и т.п.), совершая механические колебания в воздушной среде, создают области повышенного и пониженного давления, что приводит к формированию рас-пространяющихся в пространстве звуковых волн.
Количество колебаний воздуха в секунду называется частотой звука. Волны с разной частотой воспринимаются нами как звук разной высоты: волны с малой частотой воспринимаются как низкие, басовые звуки, а волны с большой частотой - как высокие.
2. Сжатие цифровых аудиоданных
Но даже в самый раний период развития цифрового звука использова-лись простые методы сокращения данных, чтобы избежать увеличения объе-ма доступных носителей записи и передачи — такие методы, как снижение частоты дискретизации и низкобитовое квантование. В наши дни сокращение объема данных стало гораздо более изощренным и позволяет нам достичь большего с меньшими затратами — больше каналов, больше времени запи-си,
Хотя процесс уменьшения объема данных, необходимых для представ-ления цифрового аудиосигнала, обычно называют сжатием данных, более точным определением является сокращение данных. Сжатие подразумевает обратимый процесс (вы можете расширить сжатый материал, чтобы восста-новить оригинал), но большинство стратегий сокращения данных являются потерями, что означает, что данные безвозвратно выбрасываются. Система без потерь (а их несколько) — это система, в которой некоторые данные ис-ходного сигнала не записываются, но, тем не менее, могут быть идеально воссозданы при воспроизведении — настоящее сжатие данных.
Сокращение данных не ограничивается только цифровым звуком. Процессы шумоподавления, такие как системы Dolby и dbx, включают со-кращение данных в аналоговой области. Они позволяют хранить аудиосиг-налы с широким динамическим диапазоном на ленточном носителе с ограни-ченным диапазоном — так же, как мы пытаемся втиснуть большой объем цифровых аудиоданных на носитель с ограниченной скоростью передачи данных. Многие из методов аналогового шумоподавления в равной степени применимы к цифровому уменьшению аудиоданных, хотя и с гораздо боль-шей сложностью, допускаемой сложными алгоритмами DSP.
Сокращение данных используется в цифровых видеокамерах, DVD, ла-зерных дисках, семплерах, цифровых звуковых рабочих станциях, клавиа-турах на основе сэмплов, дисковых многодорожечных рекордерах, сетях ра-дио- и телевещания, телефонных системах и многих других приложениях. Существует сбивающее с толку разнообразие систем, многие из которых имеют довольно загадочные названия, например. AC3, DTS, APT X100, MPEG, ATRAC, PASC и G722.
Последний из них представляет собой международный телекоммуника-ционный стандарт для передачи речи с ограниченной полосой пропускания по цифровой телефонной сети и используется только в основных приложени-ях ISDN. Остальные предназначены для высококачественного стереофониче-ского (а в некоторых случаях объемного) звука и позволяют кодировать полнополосные сигналы с широким динамическим диапазоном.
Чтобы дать представление об эффективности этих систем, стоит упомя-нуть, что методы кодирования без потерь (по крайней мере, в аудио) не мо-гут обеспечить намного лучшее снижение скорости передачи данных, чем 2:1, тогда как все системы с потерями могут превышать 4:1. — а некоторые обеспечивают даже 12:1. Как правило, чем выше коэффициент сжатия, тем более очевидными и отвлекающими являются артефакты обработки, но по-следнее поколение процессов MPEG2, работающих с соотношением сторон 12:1, удивительно хорошо, хотя и не полностью «прозрачно».
Сжатие звука направлено на уменьшение количества битов, необходи-мых для точного воспроизведения звука. Важно помнить, что цифровой файл — будь то аудио, видео, программное обеспечение, текстовый доку-мент или что-то еще — это всего лишь строка двоичных цифр (битов). Сжа-тие направлено на удаление любых ненужных битов при сохранении точного звука.
2.3. Нерелевантность и перцептивное кодирование
Последняя и наиболее противоречивая стратегия заключается в удале-нии данных, которые не имеют отношения к делу, т.е. данные, представляю-щие звуки, которые считаются неслышимыми в присутствии других элемен-тов сложного звукового сигнала. Это зависит от частотной и временной мас-кировки и полностью зависит от точности «перцептивной модели» слуховой системы человека.
Перцептивное кодирование включает в себя очень точную фильтрацию и анализ звука; обработка, которая возможна только при использовании цифровых технологий. Набор фильтров делит аудиосигнал на множество уз-ких полос (обычно 32 или более) перед обработкой, а затем модель восприя-тия анализирует спектральный состав звука, чтобы определить, какие эле-менты могут быть полностью замаскированы (т. е. нерелевантны) и поэтому можно отбросить. Остальные звуковые сигналы повторно квантуются с низ-ким разрешением, достаточным только для того, чтобы поместить шум кван-тования ниже порога маскирования в каждой полосе частот.
Временное маскирование вычисляется путем деления сигнала на блоки выборок (обычно длиной около 10 миллисекунд) и анализа каждого блока на наличие переходных процессов, которые будут действовать как времен-ные маскеры. Большинство систем изменяют длину блока, чтобы использо-вать преимущества как обратной, так и прямой маскировки (объяснено во вставке «Моделирование восприятия» в другом месте этой статьи).
Сложная цифровая фильтрация и спектральный анализ перцепционно-го кодирования в сочетании с процессом обработки звука блоками могут со-здавать значительные временные задержки в аудиосигнале. Полный путь ко-дирования/декодирования может иметь задержку от 20 до 200 миллисекунд, что часто вызывает серьезные проблемы в приложениях реального времени.