データに秘められたメッセージを受け取るための「新しい表現」を探る

筑波大学 図書館情報メディア系 助教
寺澤 洋子電気通信大学電子工学科・同大学院修士課程電子工学専攻修了。スタンフォード大学音楽学科CCRMA修士課程・博士課程修了。Ph.D. (Music)。 AES教育財団ジョン・アーグル記念奨学金(2008)、IPA未踏スーパークリエータ(2009)、日米先端工学シンポジウムベストスピーカー賞 (2014)等受賞。パリ国際芸術都市アーティスト・イン・レジデンス、IRCAM客員研究員,筑波大学TARAセンター研究員、東京芸術大学非常勤講師等を経て、現在、筑波大学図書館情報メディア系助教およびJSTさきがけ研究者(兼任)。ダンナさんと家事と育児を半分こして、先生業とママ業の両方を楽しんでいます。

表現するメディアとしての“音”の可能性を追究する

一般的に人間の視野角度は左右で120度、上下で130度程度と言われている。一方、聴覚は360度どこでも感知する事ができる。特に聴覚は音の時間変化の理解に優れており、音程や音量の変化を鋭敏に感じ取るため、たとえば声色の変化で相手の感情を読み取ったり、足音で男女の違いを聴き分けたり、見失った携帯電話の位置を着信音を頼りに把握するといったことができるのだ。

可聴化研究とは、もともと音では無いものを音に変換し、それを聴いて事象を理解するという分野だ。心電図や金属探知機、ガイガーカウンターなどが身近な可聴化の例と言えるだろう。心臓の状態、金属の場所、放射線の量などを表現する場合、画像で示したりグラフを用いたりする事も可能だ。

だがもっと豊かに情報を表現する事はできないだろうか。可聴化とは、事象を音に変換する事で人間が事象そのものをよりダイレクトに知覚し、わずかな変化を鮮明に伝達する表現を追究する試みであると言える。

寺澤  「表現するメディアとしての音の可能性はもっと拡大していくと信じています。音楽は、たくさんの音を組織化して使う事で色々なメッセージを伝える事ができますよね。そのように、音をうまく使って多くの情報を表情豊かに伝える事ができると思います。」

寺澤先生は「可聴化すること」のみを研究しているのではない。「表現の可能性を広げる」ためにメディアとしての“音”を利用しているのだ。ただ音に変換するだけではなく、言語や視覚よりも豊かな、しかしまだ世界に確立されていない新たな表現のパターンを生み出すことが寺澤先生の研究である。

 

データ可聴化の流れ

寺澤先生の研究する「音をメディアとした新たな表現」の世界に触れる前に、まず可聴化の流れについて理解しておこう。事例として56チャンネルのECoG(皮質脳波計測)のデータを例にして可聴化のプロセスをたどる。各過程での音声データを聴きながら解説を読み進めていただくことをお勧めしたい。

右図1に示すのが、56チャンネルの皮質脳波のデータだ。本記事では、サンプルとして56チャンネルのうち21番目のチャンネル(チャンネル21)をとりあげる。

チャンネル21を取り出してプロットすると図2のようになる。

 

オーディフィケーション

まずはこのデータの値をそのまま音に置き換えて聴いてみる。これは「オーディフィケーション(Audification)」という過程で、ある事象のデータの値をそのまま音に置き換えて聴く事だ。

人間の耳が音として知覚できる周波数の範囲は限られているため、信号上では音に変換されていてもたいていの場合は無音に感じることが多い。このデータを直接音にして聞いても、殆ど音は聴こえない(例1)。

 
このデータのスペクトログラム(図3)を見てみよう。スペクトログラムとは、時間によって変化する信号の周波数成分を表したもの。横軸は時間、縦軸は周波数、赤い部分はエネルギーの高いところ、青い部分はエネルギーの低いところを表す。エネルギーの殆どが50Hz以下に集中していることがわかる。このデータを可聴化しただけでは無音に感じてしまう理由はこのエネルギー分布にある。

人の耳では、周波数は低すぎても高すぎても聴こえづらい。周波数が20Hz程度の低音からやっと聴こえ始め、一番聴こえやすい領域は2000Hz前後、20kHz以上の高い音は殆ど聴こえない。また、音楽で普通に使われる音域は120Hzから1500Hzくらいである。

このデータは周波数が低すぎるため、そのまま聴くと音が低く感じられ、よく聴こえないことになる。全く音がしないわけではないが「ボコボコ」といった音がかすかに感じられる程度になる(オーディフィケーション)。

 
そこで、人間の耳に「聴こえる」ようにするために、AM変調の手法を用いる。
AM変調とは「搬送波」と呼ばれる正弦波の振幅をそれよりもずっと低い周波数の信号で変化させることで、ラジオ放送にも使われている手法だ。つまり、搬送波を耳で聴こえやすい周波数の正弦波にして、正弦波の大きさを皮質脳波のデータによって変化させる(図4)。そうすると、そのままでは聴こえなかった皮質脳波が、音量の変化として聴こえるようになる(例2)。
 
このような変換を経て、ようやく元のデータに存在したリズムや大きさの変化を耳で聴き取ることが可能になる。
 

音のグルーピング

ここまでで聴いてみたデータは、もともと56チャンネルあったうちの一つ(チャンネル21)だったので、このような音は56個作れることになる。沢山作ると何ができるのだろうか?

チャンネル22のデータ(図5)とチャンネル17のデータ(図6)を見てみよう。先ほどのチャンネル21のデータと比べると、チャンネル22は「似ている」データ(相関係数:0.72)であり、チャンネル17は何らかのノイズが入った結果「似ていない」データ(相関係数:0.02)となっている。

 
これらの「似ている」データと「似ていない」データからも、先ほどと同じ方法で搬送波の周波数を変えて作ってみよう。そうすると、先ほどのように音の大きさのパターンからデータの変化の様子が聴こえてくるだろうか?
 
それぞれの音を聴き比べてみると、チャンネル21の音とチャンネル22の音(例3)は「似ている」けれど、チャンネル21の音とチャンネル17の音(例4)は「似ていない」ことがわかる。

さらに、これらの音に「合唱」をさせてみる。 二つ以上の音を重ねることを「ミキシング」というが、チャンネル21とチャンネル22をミキシングした音(例5)と、チャンネル21とチャンネル17の音をミキシングした音(例6)を聴いてみよう。

 
「似ている」パターンを持つ音同士なら、とけあって聴こえ、「似ていない」パターンを持つ音同士なら、別のパートとして分離して聴こえてくる。
このように、いくつかの音が合わさった時に、人間の耳は音がとけ合う様子から「似ている・似ていない」といったパターン(構造)を判断することできる。「複数の音が合わさった時に、折り重なりを理解し、分離し、まとめる」聴覚の機能を「聴覚情景分析」と言う。

さて、最初にもどって、56チャンネルのデータを見てみよう(図1)。

この56チャンネルのデータで、ひとつひとつのチャンネルを可聴化してできあがった56個の音をミキシングするとどうなるか、聴いてみよう(例7)。

 
56個の音を足し合わせたのにも関わらず、もっと少ない数の音を重ね合わせたかのようにまとまって聴こえてくる。「似ている」音同士はとけ合っていて、「似ていない」音同士は分離して聴こえてくるので、56個の音の中で、似ているもの同士でまとめて聴いていることになるのだ。つまり「聴覚情景分析」の機能がフルに使われて、データの中の「似ている・似ていない」のパターンが、直観的にわかるようになっている。
 

新しい「理解のパターン」を探求する

このような複数の音を使って「理解のパターン」を表現することは、作曲では自在に用いられているが、データを観察するといった目的のためには、まだまだ応用の事例が少ない。我々はデータをグラフ化したり、文章に変換することでデータに込められた意味を理解しようとしてきた。しかし、一般的に普及しているグラフ化や文章化だけでは伝わり切らない情報があるはずだ。それを音を媒介して受け取ろうという試みが可聴化の本質である。
どのようにしたら上手に「理解のパターン」を表現できるか、あるいは、聴こえてくるパターン(構造)と元のデータにあるパターン(構造)を正確に関連づけるにはどうしたらいいのか、といった話題は、今後の発展が楽しみな研究課題である。

寺澤 「人が物事をどのように受け取るか、という研究が実はメインの部分なんです。IT化が進み、世の中のたくさんの事がデータとして取れるようになってきています。可聴化は音にすることによって理解する、と言いましたが、この“理解する”というプロセスは非常に謎に満ちているんですね。情報に直面した時に、「これは意味がある」と感じる仕組みを解明する。これは心理学や認知科学の領域です。物事を理解するプロセスが理論化できれば、よりわかりやすくデータを音でデザインすることが可能になります。」
 
たとえば音楽を聴いた時、「これは楽しい雰囲気だ」「これは悲しい感じだ」など楽曲によって感じ取る印象は異なる。それはリズムや和音、スケールといった音のデザインセオリーと、人間が音から楽しさや悲しさを感じる認知・理解の理論が一致しているということだ。

寺澤先生が追究している「音を使って表現の可能性を広げる事」とは、人間の認知・理解の理論をさらに拡張し、新たな音のデザインセオリーを確立することである。

 

生データに触れることが直感を鍛える

可聴化を研究するために必要なことはとても多い。データ分析の知識だけでなく、解析やマッピングのためのソフトウェアをプログラミングできる技術、音に関する知識など多岐に渡っている。しかし何より計測された生データを読み解く訓練が大切だと寺澤先生は語る。

寺澤  「生のデータを見て、並んでいる数字を自分でプロットしてみることが大事だと思います。 ありきたりの分析はされ尽くしていて、そこには新しい発明や発見の余地は無いんです。。本当に新しい事は想像を膨らませたり、試行錯誤したり、勘が働いたり。そういう所に種があります。その着想が生まれるためには、データを見て味見した経験をたくさん積み重ねていくんです。すると「このデータのここが面白い!」と発想が広がります。そこに新しい発見の余地があります。」

【参考文献】Hiroko Terasawa, Josef Parvizi, and Chris Chafe: “Sonifying ECoG Seizure Data with Overtone Mapping: a Strategy for Creating Auditory Gestalt from Correlated Multichannel Data.” Proceedings of the International Conference on Auditory Display 2012 (ICAD2012), pp. 129-134. (2012)。