ハイレゾ音源からCDフォーマットへ変換する時のディザリングについて(Audacityの場合）

通常ディザリングを行うケースとしては、ビット深度が24bit以上のハイレゾ音源をCDフォーマット（16bit）に落とす時に量子化ノイズを改善するためにディザリングを行うものです。　以下の３つのケースでディザリング処理を行うべきかを考察してみました。

ハイレゾ録音のデジタル音源からCDフォーマットに書き出す場合
レコードから録音した24bitハイレゾ音源をCDに書き出す場合
ハイレゾ音源からAAC（MP3）に書き出す場合

ディザリングの原理は専門的で難解ですので、ここでは1khz 正弦波（24bitハイレゾ音源）を用いて、CDフォーマット（16bit）に変換した時に、ディザリングが付加されているとスペクトル上でどのような振る舞いになるかを調べてみました。　

なお、ディザリングを評価するに当たりAudacityを使って評価しました。（Audacity以外にfoober2000でもディザリングを追加する機能があります）

ディザリングについて

ウィキペディアによるディザリングの説明（一部引用）を下に記します。

ディザ（Dither）とは、量子化誤差（端数）を、単純に丸めるのではなく、全体の量子化誤差が最小化するよう確率を調整して切り捨てまたは切り上げのどちらかをランダムにおこなうためによるゆらぎのことである。そのような一種のノイズ的データを追加する作業および技法はディザリング（Dithering）またはディザ法と呼ばれる。誤差を周囲のデータに拡散する手法をも含めて言うこともある。ディザリングは、デジタル音響やデジタル動画のデータを処理する際に普通に行われ、CDの制作でも最終段階でよく行われている。

たとえばSACDなどに収められる量子化ビット数（ビット深度）24ビットのデータがあるのにたいしてCDのデータは16ビットである。16ビットはCDの規格の数字であり、制作工程では24ビットで処理されていたとしてもCDに収録するためのマスターの段階では16ビットにしなければならない。プレイヤーが再生するデータも16ビットである。この規格の枠内で高品位化を図る手法のひとつとして、量子化ビット数の多い（たとえば24ビットの）データを16ビットに変換する際に、ディザリングをおこなう、という手法がある。

音質面から説明すると、「デジタル臭い」と表現される硬質な音の傾向を緩和することが出来る。具体的には、サ行の声が耳に刺さらなくなる様な変化が起きる。

以上の説明では分かり難いので、自分なりの解釈を含めて具体的に説明しますと、CDの場合は、ビット深度が16bitですので、測定できるポイントは、２の16乗ですので、フルスケールで65536の測定ポイントがあります。　(Dレンジで言うと９６ｄｂ)　　例えば、入力信号が１khzの正弦波で10vp-pの信号を記録すると、65536の測定ポイントがあり１ポイント当たりの最小測定電圧は、153uvということになります。　では、極端な例として１khzの正弦波で入力電圧が微小の306uvp-p（-90dbFS）を記録しますと1bit分（2値）の分解能しかとれず、その時の波形は、下のように正弦波と異なる信号劣化した階段状の波形になります。　

16bit -90dbFS波形（ノーマライズ-3db増幅）

この階段状の波形は、奇数次の高調波成分が含まれ、これが量子化ノイズ（＝量子化誤差）になります。（後段で示す「CD変換ディザ無し」のスペクトルをご覧ください。　全帯域に奇数次の高調波成分が草むらの様に量子化ノイズが分布しています）

今度は、レベルを28db上げて16bit -78dbFSの場合は下の様に細かい階段状の正弦波になります。

16bit -78dbFS波形（ノーマライズ-3db増幅）

更に、レベルを上げて16bit -60dbFSの場合は、見た目は殆ど正弦波になりますが、量子化誤差は内在しています。　つまり、記録レベルが上がると量子化誤差の影響が相対的に減少することになります。　

16bit -60dbFS波形（ノーマライズ-3db増幅）

量子化ノイズが相対的に減少するので歪率が減少します。　実際の歪率で置き換えると、16bit -60dbFSで約1％THD+N（「CDフォーマットのここがダメ」参照）になります。（24bit -60dbFSの場合は約0.01%THD+N）

リアルサウンドで考えますと、フォルテでの大きな音量レベルであれば、このノイズは殆ど影響しませんが微小なピアニッシモレベルになると、「デジタル臭い」と表現される硬質な音の傾向が生る可能性があります。

16bit化による、この量子化ノイズ（奇数次の高調波成分）を改善する（硬質さをぼやかす）ために、微小なノイズ的データを追加する作業および技法をディザリング（Dithering）と言うことと解釈しました。（毒をもって毒を制すと言うことですね）

一方、ビット深度24bitのハイレゾの場合、１khzの正弦波で入力電圧が微小の306uvp-p（-90dbFS）を記録すると9bit分（512値）の分解能がありますので、その時の波形は、下の様に、16bitとは違って綺麗な正弦波が再現され量子化ノイズ（＝量子化誤差）も桁違いに少なくなりますのでディザリングは不要です。

24bit -90dbFS波形（ノーマライズ-3db増幅）

Audacityのディザリング設定

ディザリングのノイズ種類は、下の環境設定画面に示します様に「無し」、「矩形」「三角形（triangle）」「ノイズシェービング（shaped）」の３種類から選択することが出来ます。

Audacityのディザリング設定画面

ポイント

英文の「Audacityのディザ詳細」（ここをクリック）によりますと、「ディザリングの種類の中で、”In most cases, triangle or shaped dither produce the subjectively best results.”　（ほとんどの場合、triangleやshapedディザが主観的に最適な結果をもたらします。）：DeepLで機械翻訳」との表記があり、「triangle dither」か「shaped dither」を推奨しています。　

そのため、今回は「三角形（triangle）」と「ノイズシェービング（shaped）」の2種類に絞って評価することにしました。　

ディザリングの種類を設定しておけば、24bitハイレゾファイルをAudacityに取り込んだ後、16bit CDフォーマット(Wav)で書き出すと、ディザリング設定に従ったノイズが付加されて書き出されます。

1khz 正弦波の24bit ハイレゾファイルからCDフォーマットへディザリング付きで変換する（スペクトル）

1khz 正弦波（-20db）ファイルのスペクトルを表示させるツールは、今回もWS（WaveSpectra）を使わせて頂きました。　スペクトルと合わせて、歪率を示すTHD＋N と THDを測定しました。

（備考）THDとは、total harmonic distortionで全高調波歪。　THD+N とは、全高調波歪にノイズを含めたものです。

24bit ハイレゾファイル

1khz 正弦波（24bit ハイレゾファイル）スペクトル

THD+N：0.00007%　THD：0%

CD変換ディザ無し

24bit ハイレゾファイルからディザ無しでCD変換のスペクトル：
全帯域に量子化ノイズ（奇数次の高調波）が乗っている
THD+N：0.0175%　THD：0.0032%

CD変換三角形ディザ付加

24bit ハイレゾファイルから三角形ディザでCD変換のスペクトル：
全帯域に量子化ノイズが丸められたノイズが乗っている
THD+N：0.03073%　THD：0.00174%

CD変換ノイズシェービングディザ付加

24bit ハイレゾファイルからノイズシェービングディザでCD変換のスペクトル：
可聴感度が大きい帯域でノイズが抑えられノイズが高域に追いやられている。
THD+N：0.12386%　THD：0.00519%

ディザリングのマトメ（考察）

ディザリングの種類で夫々の特徴が分かりました。　箇条書きにしますと以下の通りです。

ポイント

三角形ディザ付加の場合：全帯域に亘って均一にノイズが付加され、高調波歪だけに着目すると、ディザ無しよりも改善されていました。（THD：0.0032% → 0.00174% ）
ノイズシェービングディザ付加の場合：高域ノイズが大きくなっていますが、可聴感度が高くなる1khz〜5khz帯域に対してディザ無しよりもノイズが低減していました。

※ デジタル録音ベースの24bitハイレゾ音源からCDへ変換する場合、夫々の特徴を踏まえた上で、ディザリング処理を行うことが有効と考えられます。

次に、アナログレコードから録音された24bitハイレゾ音源をCD化する場合、ディザリング処理を行うべきか考察してみます。

アナログレコードの場合

「アナログ・レコードのここがダメ」で示した様に低域に関わるノイズやレコードの摺動ノイズなど、デジタル録音に比べてS/Nの面で相当不利です。　実際にテストレコード（AD-1）で24bit ハイレゾ録音した1khz 正弦波をCDフォーマットに変換した時のスペクトルを以下に示します。

ディザリング無し

三角形ディザ付加

このスペクトルで分かることは、レコードからの録音ではノイズフロアーが-100db程度付近にあり、このノイズに更にディザノイズを乗せることは全く意味がないと考えます。　また、三角形ディザ付加のスペクトルは、高域（19khz付近以上）に対してディザ無しよりもノイズフロアがフラットになっていますが、全帯域にディザノイズを付加しているためと思われます。

最後に、24bitハイレゾ音源からAAC（MP3）に変換する時にディザリングを行うべきかを考えてみました。

AAC（MP3）に変換する場合

Apple Musicで配信されている音源は、Apple Digital Mastersテクノロジーによってディザを廃したAACフォーマットで配信されています。（詳しくは、「24bit対応Apple Digital MastersのAAC音質（その１）」参照）　この要点は、24bitに対応したAACエンコーダを使用しているからディザリングは必要ないということです。　以下のスペクトルは、24bitに対応しているXLDアプリでAAC変換した例を示しています。

24bit対応 AACエンコーダ（XLDの場合）

ノイズフロアがオリジナルの24bit ハイレゾファイルとほぼ同じレベルにあり、CDの16bit 量子化ノイズより格段に小さくなっています。　そのため、ディザリングは不要です。

24bit ハイレゾファイルからAAC変換のスペクトル：
THD+N：0.00066%　THD：0.00006%

以上から、お使いのAAC（MP3）変換アプリで、ハイレゾ音源をAAC（MP3）変換する時の対応ビット深度が、16bitならディザリングが必要で、24bitならディザリングは不要と考えられます。

以下の記事にAAC（MP3）変換アプリの対応ビット深度を調べる方法が書かれています。

参考

: サウンドアプリに搭載されているMP3（AAC）エンコーダのビット深度を調べてみました。

折角のハイレゾ（24bit）音源をMP3やAACにエンコードする時、出来るだけビット深度を維持したまま変換したい訳ですが、foober2000を除いてビット深度の設定が出来ず、サウンドアプリによっては ...

続きを見る

結論として、リアルサウンドを24bit以上でデジタル録音されたハイレゾ音源をCDフォーマット（16bit）に落とす場合は、ディザリングを行うことは有効と思われます。　一方、元々ノイズフロアーが-100db程度あるアナログレコード録音の場合は、ディザを付加する意味は無いと思われます。　
CDの録音プロセスが判るSPARSコード的に言うと、ディザリングが効果を発揮するのはDDDに限定されると言えます。

ハイレゾ音源からCDフォーマットへ変換する時のディザリングについて(Audacityの場合）

ディザリングについて

Audacityのディザリング設定

1khz 正弦波の24bit ハイレゾファイルからCDフォーマットへディザリング付きで変換する（スペクトル）

ディザリングのマトメ（考察）

サウンドアプリに搭載されているMP3（AAC）エンコーダのビット深度を調べてみました。

iPhoneのボイスメモで撮った音を大きく、クリアーにするには

ハイレゾ音源をエンコードするならMP３かAACか

M1-MAC対応の仮想オーディオ・ドライバ「BlackHole」で「らじる★らじる」を収録する

高品質でAAC変換できると言われるFFmpeg libfdk_aacエンコーダをハイレゾピュアー音源(24bit)で音質評価してみました。

CDと比較してアナログレコードの音質が好ましいのは何故？（考察編）

ハイレコのブログ