→トップ
オーディオ・ビジュアル班ではマルチメディア全般の,音源分離・音源同定技術を軸とした自動採譜システムの構築と,ユーザの嗜好に基づいた楽曲音楽情報検索技術の研究,ならびに人物の顔などの動きを元に人物追跡することでマーケティングに応用するシステムや手の3D姿勢を推定してユビキタスやアミューズメント応用へ向けた実世界指向インターフェースの研究を行っている.また,バイオインフォマティックスのタンパク質の3D構造比較の研究も行っている.
PowerPoint画像による研究解説
→(Audio:自動採譜モデル)(Visual:人物検出拡張現実感システム)(バイオインフォマティックス)

Audio 自動採譜システム M2 北原 聡志
B4 井下 貴仁
音楽情報検索 M1 野元 悠一
B4 安念 高志
B4 浜脇 修平
Visual
人物検出・トラッキング M2 持木 怜
B4 板垣 秀星
AR・インタラクション M2 近藤 裕介
B4 岩谷 周
超解像処理技術 M1 鈴木 惇也
バイオインフォマティックス(タンパク質構造比較) M2 田村 翔平

~Audio~
自動採譜システム
1.研究背景・目的
オーディオ班では、コンピュータを用いて音響信号から自動的に楽譜を生成する「自動採譜システム」の研究を行っている。自動採譜システムが実現されれば、誰もが容易に楽譜を作成できるようになる他、作曲支援、音楽検索システム、鼻歌や即興演奏の楽譜化など様々なアプリケーションへの応用も期待される。

2.従来手法と問題点
 自動採譜を行うためには「オンセット検知」、「音源分離」、「音高推定」、「楽器認識」などの要素技術が必要となる。近年ではハードウェアの進歩により、対象が単楽器単音旋律→単楽器和音旋律→複数楽器複数旋律へと複雑さを増しつつある。しかしながら、既存の自動採譜システムでは楽器の種類まで認識できるシステムはほとんどない。また周波数構造を重視しているため、オクターブ誤りなどの問題を抱えている。

3.提案手法
私たちの提案するシステムでは、まず、オンセットを検知して入力曲を分割する。次に周波数軸上のスペクトルに対してクラスタリング処理を施し音源分離を行う。そして、これらの各単音について音高と楽器を推定する。最終的にこれらの処理結果を統合して、ピアノロール形式の楽譜を出力する。

音楽情報検索
研究背景
さまざまなオーディオデータフォーマットの急速な普及に伴い、ネット上での音楽情報の流通が盛んになっているほか、PCや携帯型音楽再生機にデータを蓄積することが個人でも可能になってきている。また、近年では、携帯電話における音楽配信サービスなども開始されている。このような背景から大量の音楽データの中から必要な音楽情報を検索するシステムの需要が高くなっており、音楽情報検索に関連した分野の研究報告が盛んになっている。

従来手法と問題点
既存の音楽情報検索システムの多くは検索対象音楽データの中からある特定の楽曲を検索することを目的としている。このようなシステムにおいては、ユーザが検索したい楽曲データに関する何らかの事前知識(タイトル等)を持っているということが前提に考えられており、ユーザが未知の音楽情報を見つけ出すことができない。このことに関して[1]ではユーザ嗜好に基づいた音楽情報検索システムが提案されている。

提案内容
ユーザ嗜好に基づいた音楽情報検索システムでは,予め用意していたジャンル情報を基に特徴空間を構築している.しかし,学習用の音楽データと検索対象となる音楽データの特徴が大きく異なっていると,特徴空間内における検索対象データの分布が偏ってしまい,ユーザの嗜好が検索結果に反映されないことがある.そこで本研究では検索対象楽曲に対してクラスタリングを行い,クラスタリング結果を元に学習データの抽出を行なうことで,特徴空間を再構築させ検索精度の向上を図る.

~Visual~
人物検出・トラッキング
コンピュータを用いて人物画像(顔・手・全身)の自動認識を行う技術は、マーケティングやセキュリティ、マンマシン・インターフェースなどの観点から個人識別や人物行動の追跡など広い範囲での応用が期待され、重要な技術として注目されている。近年ではショッピングモール、コンビニエンスストア、スーパー等の店舗の監視カメラの映像から来客数のカウント、性別・年齢といった客層の自動分析、ならびに店舗内の行動パターンの分析を行うシステムの開発が進められている。画像中からの人物検出・追跡は、肌色情報や背景差分を用いて候補を絞り、GMM・SVMといった識別器を用いて行っている。しかし、複雑背景下や人ごみが発生する場所では誤検出が多発し、認識率が低下するという問題が生じる。本研究では背景条件ごとの複数の肌モデルやParticle Filterを用いて、照明・環境の変化に頑健な人物検出・追跡を目指す。


AR・インタラクション
 われわれの住む実世界空間とコンピュータが対象とする情報空間をつなぐインターフェースの一般的なものとして、キーボードやマウス等がある。しかし、これらのインターフェースは情報空間上で人間とコンピュータの対話をサポートしてきたもので、人間にとっては実世界での行動とのギャップが大きく、必ずしも快適に使えるとは言えない。そこで、人間が日常的に直面するさまざまな状況を認識して、その状況において有益な情報を提供し人間をサポートするようなインターフェースが数多く提案されている。実物体の扱いをコンピュータの扱いとするような、つまり実空間と情報空間を境目なくリンクさせるインターフェースおよび環境のことを実世界指向インターフェースと呼んでいる。
 実世界指向インターフェースの研究における基盤となる分野の一つとして拡張現実感(Augmented Reality)がある。拡張現実感(以下AR)とは実世界をベースにコンピュータの情報を重ねて提示することで実世界をよりコンピュータに近づける、あるいは実世界を増強・拡張をして、実世界での作業を支援する技術のことを広く指す。実空間の3次元的な情報をVirtual空間に対応付けを行うことで、実空間とVirtual空間を融合させることができ、コンピュータとのシームレスなインタラクションが可能になる。ARの研究では、実空間とVirtual空間の重ね合わせにおいて、首尾一貫した関係を保つこと(位置合わせ)が重要な課題となっている。近年、手話認識やジェスチャを用いた人とコンピュータの自然な対話を目指す試みが盛んであり、キーボード・マウスに代わるインターフェースとして『手』が注目されている。
 われわれの研究ではARの観点から手形状・姿勢認識技術を位置合わせに利用した実世界指向インターフェースの実現を目的として,ユーザーが手の姿勢やポーズを変えるなどして手を動かすことで、それに伴ったCGのアクションが画面の手の上にリアルタイムに合成表示されるシステムについて開発・検討を行っている.
タンパク質構造比較 <旧Genome>
はじめに
生物は、遺伝子の塩基配列を転写・翻訳し、20種のアミノ酸の並びからなるアミノ酸配列を生成する。このアミノ酸配列は、折り畳まって立体構造をとることでタンパク質として機能し、生命活動を維持している。タンパク質構造は、実験的手法(X線構造解析や核磁気共鳴法)を用いて決定することが可能である。解明されたタンパク質構造の原子座標データは、Protein Data Bank(PDB)データベースに蓄積される。

研究目的
PDBにおけるタンパク質構造座標データが急速に増加する中で、既知構造からタンパク質に対する知見を得ることが重要視されている。一例として、タンパク質構造比較が有効である。タンパク質同士の構造を比較することによって、その機能的・進化的関連などに対する議論が可能になる。

提案手法
 私たちは、タンパク質構造をドロネーコードなるコード付けスキームによってコード化した。すなわち、タンパク質構造を四面体の集合として表し(ドロネー四面体分割)、各四面体にタンパク質の局所構造を表すコード(ドロネーコード)を付与する。このドロネーコードを用いて、タンパク質の構造特徴を表現する。 ドロネーコードは、タンパク質内のアミノ酸の、空間的近接と配列上での近接の情報を持つ。また、タンパク質の全体構造・局所構造、両方の比較に対応できる点もドロネーコードの特徴である。本研究室では、タンパク質構造のドロネーコード化に基づくタンパク質構造研究に取り組んでいる。


Copyright(c) 1999-2004 Katto Laboratory, Waseda university. All Rights Reserved.