音楽理論や方法論の検証と討論コミュの音声合成技術

VOCALOID（ボーカロイド）から、VocaListener（ボーカリスナー）までのまとめ。

VOCALOID（ボカロイド、ボーカロイド）はヤマハが開発した
デスクトップミュージック (DTM) 製作を目的とした音声合成技術、
及びその応用製品の総称。
メロディーと歌詞を入力することで
サンプリングされた人の声を元にした歌声を合成することができる。
2009年現在は新バージョンのVOCALOID2がリリースされている。
開発元のヤマハ自体はVOCALOID製品を提供しておらず、
ライセンス契約を締結した各社がサンプリングされた音声を収録した
歌手ライブラリを独自に製作し、
ヤマハ製のソフトウェア部分と組み合わせて製品として販売されている。
なお、VOCALOIDという言葉は一部応用製品に設定されている
キャラクターを指すために用いられる場合もある。
また、ボカロという略称が用いられるケースもある。

VOCALOID2 Editor
開発元ヤマハ
最新版 2.0.12 / 2009年2月9日
対応OS Windows XP/Vista
種別音声合成、DTM
ボーカルシンセサイザー(歌唱合成)

歌声を作成するための音声合成手法
「周波数ドメイン歌唱アーティキュレーション接続法
(Frequency-domain Singing Articulation Splicing and Shaping) 」
を採用したリアルな歌声を合成するためのソフトウェア。
「実際に収録した人の声を音声ライブラリとして合成するため、
より自然な歌声を合成できるほか、
ビブラートやこぶしなど歌声に必要な音程変化や抑揚を指定でき、
表情豊かな楽曲を手軽に作れるのが特徴」とされる。
2000年3月に開発が開始され、
2003年2月26日に発表、
2004年にVOCALOID技術を使用した最初の製品が発売、
2007年以降はより自然な歌声になるよう改良されたバージョンアップ版の
VOCALOID2を使用した製品が販売されている。
VOCALOIDの登場により、DTMにおいて実際に人間の歌声を録音せずとも
パソコンだけで人間らしい歌声のボーカルパートを作成できるようになった。
なお、VOCALOIDは歌を作成することを前提に開発されたソフトであるため
文章の読み上げには対応していない。
また歌唱に係わる表現でも、
だみ声やシャウトなどを自然に再現することは出来ない。
VOCALOIDという名称は、
「vocal（ボーカル）」に語尾の「oid」を組み合わせて作られた造語である
（「oid」は「のようなもの」「状の」という意味で、
「human（人）」と組み合わせれば「humanoid（ヒューマノイド）」、
ギリシャ語で男を意味する「andr」と組み合わせれば
「android（アンドロイド）」となる）。

VOCALOID2のシステムは大きく分けてユーザーが歌詞やメロディなどを入力する
「スコアエディタ（VOCALOID2 Editor）」、音声素片を収録した
「歌手ライブラリ」、音声素片を連結して歌声を合成する
「合成エンジン」の三要素で構成される。
ヤマハの提供部分である「スコアエディタ」と「合成エンジン」については
VOCALOID2同士であれば基本的に製品ごとの違いは無いため、
既にVOCALOID2製品がインストールされているパソコンに
別のVOCALOID2製品をインストールする場合は
ライブラリの追加だけで使用可能となる。
日本語と英語の二言語に対応。
スタンドアローン（再生、WAVファイルに書き出し）及び、
ReWireアプリケーション又はVSTiとしてDAW等から使用可能。

※スコアエディタ（Score Editor）
ユーザーが入力を行う部分。
音符はピアノロールスタイルで入力し、
歌詞はピアノロールの音符の中に入力する。
日本語用のライブラリを使用する場合は
平仮名、片仮名もしくはローマ字を用いて五十音で歌詞を入力。
英語用のライブラリでは英単語を入力し、
内部の発音辞書により自動的に発音記号に変換される。
発音辞書に登録されていない単語は発音記号を直接編集する。
日本語用と英語用のライブラリで歌詞の入力方法は異なるが、
プラットホームが同じであるためVOCALOID2同士であれば
日本語版のエディタでも英語用のライブラリを読み込ませることも出来、逆も可能。
歌詞の入力は上記のようにライブラリ依存となっているため、
日本語版と英語版のエディタの違いはメニューの表示のみである。
スコアエディタは歌声に表情付けを行うための各種パラメータを備えており、
歌声を作成する際はこうしたパラメータを調整し
曲にあわせた加工を施すことが前提となっている。
ReWireに対応しておりDAWと同期可能。

※歌手ライブラリ（Singer Library）
ヤマハからライセンス供与を受けた各社の担当部分で、
人間の声からサンプリングした音声素片（歌声の断片）を含むデータベース。
音声素片は、音（音素）が変化する際の移り変わりの部分
（ダイフォン、diphone）と、伸ばし音が収録されている。
例えば、「咲いた」（[sa i ta]）という歌詞を合成する場合は、
ダイフォン「#-s,s-a,a-i,i-t,t-a,a-#」（#は無音を示す）と
母音の伸ばし音「a,i」を用い、これらを接続して歌声が作られる。
これら音声素片は合成する際に入力された
メロディに合うピッチ（音高）に変換されるが、
より自然な合成を得られるよう歌手ライブラリには
異なるピッチのものを複数用意している。
1ピッチあたりのダイフォンは日本語用ライブラリでは約500個、
英語では約2500個収録している。
この違いは言語の特性によるもので、
日本語のダイフォンが少ないのは日本語の音素の数が少ないことと、
音節がほとんどの場合開音節（母音で終わる音節）であるためである。
日本語の子音を含むダイフォンでは基本的に
「無音-子音」「母音-子音」「子音-母音」という
組み合わせのパターンとなるが、
英語の場合は閉音節（子音で終わる音節）も多く存在し、
「子音-子音」や「子音-無音」といったように
組み合わせのパターンも多くなるため、
日本語用ライブラリに比べ収録しなければならないダイフォンの数が多く、
データベースの容量も大きくなる。また、このような違いがあるため、
日本語用ライブラリで英語の歌詞を発音させるといったような使用は適さない。

※合成エンジン（Synthesis Engine）
スコアエディタに入力された情報を元にライブラリから音声素片を選び出し、
タイミングやピッチ、音色などを調整、連結して歌声に合成する。
エディタに入力された情報はVOCALOID MIDIという
専用のMIDIメッセージを用いて合成エンジンへ送られる。
DAW等からVOCALOIDをVSTiとして使用する場合は、
同梱されているVSTプラグインを用いてスコアエディタを介さず、
合成エンジンへ直接VOCALOID MIDIメッセージを送る形となる。

初代のVOCALOIDとVOCALOID2の間には互換性がなく、
同一のエディタ上で使用することは出来ない。
音声素片を組み合わせて歌声を合成するシステムであることは変わらないが、
合成エンジンが完全に入れ替えられているほか、
エディタのインターフェースも一新、
歌手ライブラリの音声もそれまでノイズとしてカットしていた
息遣いなどを原音のまま生かし、
ハスキーな歌声にも対応できるようになっている。

※VOCALOIDを使用した製品
（これら第一世代VOCALOIDのエンジン部は
2006年にVer1.1 にバージョンアップしている。）

LEON - 英語/男声
LOLA - 英語/女声
製造元：ZERO-G（イギリス）
（日本国内代理店クリプトン・フューチャー・メディア）
発売日：NAMM 2004 Winter (2004年1月15-18日)にてリリース
（日本国内2004年3月3日）
LEONとLOLAはVOCALOIDエンジンを使用した初めての製品。
どちらもソウルシンガーである。
モデルとなった歌手はイギリスのプロのセッション・シンガーとされるが、
名前は明らかにされていない。
パッケージには男女の口周りの写真があるだけで具体的な人物像は描かれておらず、
男性女性を表す学術記号（♂と♀）がそれぞれのロゴのアルファベット
「O」の部分に当てられている。

MIRIAM - 英語/女声
製造元：ZERO-G（日本国内代理店クリプトン・フューチャー・メディア）
発売日：2004年7月1日（日本国内2004年7月26日）
アディエマスのヴォーカル、ミリアム・ストックリーがモデルであり、
パッケージにも描かれている。

MEIKO - 日本語/女声
製造元：クリプトン・フューチャー・メディア
発売日：2004年11月5日
VOCALOID日本語ライブラリの第1弾。
ポップス、ロック、ジャズ、R&B、童謡まで幅広く歌いこなすとされる。
拝郷メイコ（元ヤマハミュージックコミュニケーションズのシンガーソングライター）がモデル。
パッケージには拝郷メイコ本人ではなく、
赤い服を着た女の子のイメージイラストが描かれている。
初年度で約3,000本を売り上げ、
発売当時におけるDTM市場では異例のヒット商品となった。

KAITO - 日本語/男声
製造元：クリプトン・フューチャー・メディア
発売日：2006年2月17日
VOCALOID日本語ライブラリの第2弾。
声質は伸びやかで清涼感が有り、
POPSを始めとした歌謡曲、童謡までをオールマイティにこなすとされている。
スタジオ・ミュージシャンの「風雅なおと」がモデル。
パッケージには青いマフラーに白い服を身にまとった青い髪の男性が描かれている。
発売当時は売り上げが伸び悩み、
MEIKOの売れ行き3,000本に対して500本しか売れず、
MEIKOの実績から見ると明らかな失敗に終わったとされたが、
初音ミクのヒットでVOCALOIDが注目されるようになってからは
KAITOの人気も上昇し、
2007年末以降売り上げを大きく伸ばしている。

※VOCALOID2を使用した製品

SWEET ANN - 英語/女声
製造元：PowerFX（スウェーデン）
（日本国内代理店クリプトン・フューチャー・メディア）
発売日：2007年6月29日（日本国内2007年9月21日）
VOCALOID2エンジンを搭載した最初の製品。
ポップシンガーであり、ダンスミュージック等を想定している。
MySpaceのプロフィールではスウェーデン人となっている。
PowerFX社は「人造人間」的なイメージ戦略をとっており、
SWEET ANNのパッケージには
首に縫い目のある金髪で小麦色の肌の女性のイラストが描かれている。

初音ミク- 日本語/女声
製造元：クリプトン・フューチャー・メディア
発売日：2007年8月31日
バーチャルアイドル歌手をプロデュースするというコンセプトの
「キャラクター・ボーカル・シリーズ（CVシリーズ）」第1弾。
パッケージにはアニメ調のキャラクターイラストが使用されており、
16歳の少女という設定がつけられている。
得意ジャンルはアイドルポップス / ダンス系ポップス。
サンプリング音声は声優・藤田咲が担当。
新エンジンの採用、キャラクターの人気などにより
発売から約1年で4万本以上を出荷する大ヒット商品となった。

鏡音リン・レン- 日本語/女声・男声
製造元：クリプトン・フューチャー・メディア
発売日：2007年12月27日
「キャラクター・ボーカル・シリーズ」の第2弾。
女声の鏡音リンと男声の鏡音レン、2つ併せて一つの製品としている。
初音ミクと同じくパッケージにアニメ調のキャラクターイラストが使用されており、
14歳の少年少女という設定がつけられている。得意ジャンルは、
鏡音リンはエレクトロ＆ロック系ポップス／歌謡曲、演歌系ポップス、
鏡音レンはダンス＆ロック系ポップス／歌謡曲、演歌系ポップス。
サンプリング音声は声優・下田麻美が一人二役で担当している。
2008年7月に "Act2" と銘打ったライブラリアップデートが行われた。

PRIMA - 英語/女声
製造元：ZERO-G（日本国内代理店クリプトン・フューチャー・メディア）
発売日：2008年1月14日（日本国内2008年2月22日）
ソプラノオペラ歌手で、クラシック系音楽を想定している。
他のVOCALOIDと同じDVD-ROMによるパッケージ製品の販売に加え、
公式サイトでは同一のソフトを安価にダウンロード販売している。

がくっぽいど - 日本語/男声
製造元：インターネット
発売日：2008年7月31日
VOCALOID2エンジンでは男性の声を元にした最初の製品。
ボーカリストGacktの声をサンプリングしており、
Gacktの声質をリアルに再現することが重視されている。
パッケージには漫画家の三浦建太郎のデザインによるイメージキャラクター
「神威がくぽ」のイラストが使用されている。

巡音ルカ - 日本語・英語/女声
製造元：クリプトン・フューチャー・メディア
発売日：2009年1月30日
「キャラクター・ボーカル・シリーズ」の第3弾。
パッケージはキャラクターイラスト、20歳女性という設定となっている。
日本語と英語、二つのライブラリを収録した日英バイリンガルで、
得意ジャンルはラテン・ジャズ、エスノ系ポップス、
ハウス、エレクトロニカ系ダンスとされている。
サンプリング音声は英語に堪能な声優の浅川悠が担当。

Megpoid - 日本語/女声
製造元：インターネット
発売日：2009年6月26日（予定）
Megpoid（メグッポイド）は歌手で声優の中島愛の声をベースとした製品。
パッケージには漫画家のゆうきまさみのデザインによるイメージキャラクター
「GUMI」のイラストが描かれる。

BIG-AL - 英語/男声
製造元：PowerFX
発売日：発売未定
低音を特徴としている。
2008年6月現在、発売未定だが紹介サイトではデモソングが公開されている。

※NetVOCALOID
NetVOCALOIDは、サーバ上にVOCALOIDを実装し
歌声合成機能をネットワークを介して事業者向けに提供する
SaaS型のサービス。
ヤマハの社内プロジェクト
「Y2プロジェクト」の一環として提供が行われているもので、
一般ユーザー向けのサービスはヤマハ自体ではなく提供を受けた事業者が行い、
入力内容は事業者によってNetVOCALOIDサーバへ送られ歌声の合成が行われる。
インターネットにつながっている機器であればVOCALOIDの機能を提供出来、
スペックの低いパソコンや、携帯電話やゲーム機といった機器から
VOCALOIDを利用するサービス、
インターネット上のアバターに歌を歌わせる、
ロボットへの応用、
広告への利用といった展開も可能とされる。
NetVOCALOIDを活用した一般ユーザー向けサービスとしては
2009年4月よりインターネット社の「ケータイがくっぽいど」、
クリプトン・フューチャー・メディアの「ミクと歌おう♪」が
携帯電話向けサービスとして提供されている。

※VocaListener
VocaListener（ボーカリスナー）は産業技術総合研究所で研究されている、
歌声を入力に用いてVOCALOIDのパラメーターを設定し
合成歌唱を作り出すことのできるシステム。
略称は「ぼかりす」。
入力された歌唱からパラメーターを推定し、
更に合成歌唱と元の歌唱とを比較しながらパラメータの再調整を繰り返すことで
歌手ライブラリごとの特性などによらず
元の歌唱の歌い回しを真似た合成歌唱を得ることができる。
元となる歌唱の音高や歌唱スタイルを調整する機能も備えており、
ユーザーの歌唱力が低い場合やユーザが歌唱できない表現にも対応する。
2008年5月28日の第75回音楽情報科学研究会での発表に先立つ同年4月28日に、
動画投稿サイト、ニコニコ動画にて
VocaListenerを用いて作成された歌声が公開され、
その人間が歌っているかのような自然な歌声に
ファンの間で大きな話題を呼んでいる。

コメント(8)

最初
全て
最新の40件

[1] mixiユーザー 06月08日 21:05

UTAU

UTAUとは、飴屋／菖蒲（あめや・あやめ）が
フリーウェアソフトとして配布している、
Windows用歌声合成ソフトウェアのことである。
2008年3月に配布が開始された。歌唱合成ソフトでは、
「ユーザーが声を採取して作成した音源を
歌唱(音階の調整など)させることが可能」なソフトの一つである。

UTAU
開発元飴屋プロジェクト
最新版 Ver0.2.43 / 2009年6月1日
対応OS Windows XP、Windows Vista
種別 DTM、シーケンサー、音声処理
ライセンスフリーウェア

ピアノロール上にノートを挿入して動かし、
完成した譜面のノートにある文字から音声ファイルを使用して結合し
歌唱させることが出来るソフトウェアである。
厳密なソフトウェアの分類としては、
以下で説明されるとおり音声合成というより
「音声データの挿入・編集による歌唱ソフトウェア（シーケンサー）」
に当てはまる。
Vocaloid等の「歌唱目的に特化した音声合成ソフトウェア」
と比較した特徴として、
録音（サンプリング）した音声データそのものを
外部ファイルとして直接利用する。
使用する音声ファイルは、音階によってフォルマントを加工し、
声質の極端な変化を防いでいる
(フィルタは任意で使用しないようにすることも可能)。
音節単位での音声データを、UTAU本体で入力された音階などに応じて
自動的に調整し「切り貼り」する。
また、音符ごとにピッチ調整やエンベロープの設定が可能。
1トラックのみ作成可能であるが、
オーバーラップおよび先行発声の設定によっては
声を被せて1トラック内でコーラスさせることも可能。
作成した楽譜および発音データは、
ustファイルとして保存が出来るほか、音声ファイルである
waveファイルとして保存可能。また
SMFファイルによりMIDIデータの読み込みに対応し、Vocaloidの
VSQファイルにも対応しているため、
それらのファイルとUTAUとの間でデータを互換させることも可能である。
バージョンを重ねるごとに、歌唱調整用の機能
（ノイズ調整やジェンダーファクターに近い機能を持った変声機能）
も追加している。中でも、
「おま☆かせ」は、ビブラートの自動設定や母音結合等、
UTAUを使って歌唱させるときに手間を省かせる目的で有効な機能である。
また、プラグインを用いることも可能。
エンベロープやピッチの調整しだいでは
かなり自然に歌わせることが可能である。
また、本ソフトに関係する主な出来事としては、
エイプリルフールに架空の某caloid（VOCALOID）として作られた
「重音テト（かさねてと）」に
有志が音声ライブラリを提供した事があげられる。

つづく

[2] mixiユーザー 06月08日 21:07

つづき

このソフトの開発には、ニコニコ動画が大いに関わっている。
2007年9月に初音ミクが発売とともに大きな話題になり、
ニコニコ動画に多くの既存曲、
オリジナル曲がアップロードされるようになると、
かねてよりニコニコ動画に
THE IDOLM@STER関連のMAD作品を発表していた、
いわゆる「職人」と呼ばれるユーザーたちは、その動きを面白がり、
THE IDOLM@STERに関する多くの歌から、
曲の一音一音を切り貼りして別の歌に仕立て、
それをニコニコ動画にアップロードしてその出来栄えを競い合っていく。
このような手作業による声の繋ぎ合わせでの歌の制作を
「人力Vocaloid」と称して楽しんでいた。
THE IDOLM@STERは、短い期間に大量の曲が作られており、
一人のアーティストの膨大な音声データを
簡単に集めることが可能であったため、
切り貼りで別の曲に仕立てることが出来た。
それでも膨大な手間がかかるため、切り貼りを簡単に出来る
「人力Vocaloid支援ツール」として開発された。
ツール自体は、2008年1月11日にニコニコ動画で発表されている。
その時点では、コマンドラインツールとバッチファイルを使用したもので、
音声ファイルの中で切り出す音の時間指定
(エンベロープにも近い)の調節を可能としたものであった。
なお、音階は事前に音声を加工したファイルをつくり
まとめておく必要があった。
2008年2月05日に単音の伸縮機能と音程変更、
さらにGUIを追加した動画が公開されている。音源は、JPNTAKE(AquesTalkのエンジンを使用したテキスト読み上げソフト)
が出力した音節を加工して使用された。
2008年2月20日には、単音伸縮における伸縮境界点の設定
(タイムストレッチ)と単音単位でのピッチベンドの調節を可能にした
動画が公開され、基本的な仕様はほぼ完成された。
この時点では、作者が「人力Vocaloid」のツールとして使用していた
MELODYNEに劣らないように改良が加えられている。
2008年3月6日に仕様説明の動画がニコニコ動画で公開され、
同年3月15日にツールの名前をUTAUと命名し現在に至る。
ただし、飴屋／菖蒲は、2008年6月に
「人力Vocaloidは人の手作業で膨大な手間をかけて作られたものであり、
機械で生成するのは方向性が違うため、
『人力ボーカロイド支援ツール』という名称を辞退する」とした。
これによってUTAUは歌声合成ソフトウェアという名称になっている。

つづく

[3] mixiユーザー 06月08日 21:09

つづき

UTAUの音源は、基本的に日本語の音素・音節に切り出した音声ファイル
（waveファイル）を使用する。
同梱されている音声データ（アクエストのテキスト読上げ用ソフトウェア
「AquesTalk」を利用して作成された物）のほかに、
ユーザーが自分で必要な音声データを採集して
制作したデータセットを使用することができる。
UTAU上のノートに入力された文字記号と
ライブラリ内のファイル名を照合して取り出す仕様であるため、
音声ファイルの内容に応じて高音や低音などを表す文字を
付け加えることも可能。また、
ささやき声や子音のみ等といった音声ファイルを用意することで
表現力を高めることも可能。その場合、
音声ファイルは数百に及ぶものもある。
人間の声である必要もなく、
楽器の音や猫の鳴き声で音を奏でる・歌わせるなどの
使い方も登場している。
英語用のライブラリを作ることについては難しいが、
英語発音に似せたライブラリを作ることは可能。
使用する音声ファイルは、音節ごとに発音の基礎情報を
「原音設定」で設定することが必要である。
音声データは独立したファイルであるため、
UTAU以外のソフトを使用して音声ファイル自体を直接加工編集し、
歌唱させることも可能。
有志によっていくつかの無償音声データが提供されているものもある。
キャラクター・ボーカル・シリーズに倣って、
(主にUTAU用の)キャラクター設定を付加している所もある。

UTAUは、あらゆる音声を用いて歌声を作成するのが可能なため、
テレビ番組、CD、DVDソフトから既存の芸能人の音声を採取し、
それをデータとして用いることが出来る。
UTAUの開発の原点は、THE IDOLM@STERというゲームソフトであり、
作者の飴屋／菖蒲も、当初はCDから採集したと見られる
女性声優の音声データを用いて、デモンストレーションを行っていた。
ただし、当人の許諾なく音声データを採集し一般に流布する行為は、
肖像権の侵害になり、既存のテレビ番組、DVD、CDから
音声を採集し、流布する行為は
著作権法違反になる
(個人で楽しむ限りは、著作権法違反にはならない可能性もある)。
自身の声を使って作成した音源を配布する場合は、
肖像権を考慮した上で行ったほうが良い。
収集対象がソフトウェアである場合も、
サンプリング使用が可能かどうかを確認する必要がある。
飴屋／菖蒲は、権利関係がクリアにならない限り、
当面は女性声優の音声データを用いたデモンストレーションを
行わないとしている。

歌声合成ツールＵＴＡＵサポートページ
http://utau2008.web.fc2.com/index.html

[4] mixiユーザー 06月08日 21:16

AquesTone（アクエストーン）

AquesToneは株式会社アクエストが公開している歌唱ソフトウェアである。

AquesToneはMIDIデータと歌詞ファイル(テキスト)から
歌声をリアルタイム合成するソフト。
VSTiプラグインの形で実装されており、
各種のDTM/DAWソフトから利用できる。

AquesToneと比較されるのは、初音ミクを始めとするVocaloidだが、
AquesToneの方向性はVocaloidとは少し異なっている。
AquesToneはVocaloidに比べてかなり軽いという特徴を持っている
(コード部分は300KB程度)ため、リアルタイム演奏性を重視している。

実際、ニコニコ動画上でもキーボードから歌わせてみたり、
KORGのElectoribeシリーズから
歌わせている動画などが上げられていることが多い。

公開からまだあまり時間が経ってないこともあり、
どちらかといえば実験的な動画が多くみられるようだが、
完成度の高い作品も増えてきている。

メインボーカルとして使われるだけでなく、
エフェクトとして使われることも多く、
ニコニコ動画上ではミクと競演している例も見られる他、
「意味のない文字列」により、
意味のない「歌」を歌わせている例も見られる。

リアルタイム演奏が注目されがちだが、
VSTiプラグインであるので、
打ち込みによって歌わせることももちろん可能なため
楽器が演奏できなくとも、当然のように使用できる。

AquesToneは現在のところフリー(無償)ウェアの配布形態をとっている。
将来的には有償になる可能性があることが示唆されているが、
開発者の山崎氏の発言(AV.Watchより)によれば、
有償になることは「ほぼ」無いであろうとのことである。

なお現在のところWindows版のみが配布されている。
動作するDTM/DAWソフトについては開発元の掲示板等を参照のこと。

AquesToneの開発元であるアクエスト社はもともと
音声合成をメインの製品としている。

著名なのがAquesTalkで、
こちらも軽量な音声合成エンジンとして知られており、
Windows版はやはりフリー・ウェアとして配布されている。

また、AquesTalkは歌声合成ツール、
UTAUのデフォルト音声として採用されていることでも知られている。

AquesToneはこのAquesTalkから派生したもので、
AquesTalkの特徴である『軽さ』を受け継いでいる。

AquesTone - VOCAL SYNTHESIZER PLUG-IN
http://www.a-quest.com/aquestone/index.html

[5] mixiユーザー 06月08日 21:25

音声合成（おんせいごうせい、Speech synthesis）とは、
人間の音声を人工的に作り出すことである。
これを行うシステムをスピーチ・シンセサイザー（Speech synthesizer）と呼ぶ。

人工的に人の声を合成するシステムであり、
テキスト（文章）を音声に変換できることから、
しばしばテキスト読み上げ（text-to-speech、略してTTS）システム
とも呼ばれる。また、発音記号を音声に変換するシステムもある。

機械式
現代的な電子信号処理が発明されるずっと以前から、
音声を合成する試みがなされてきた。
初期の試みとしては、のちに教皇シルウェステル2世となる
オーリヤックのジェルベール（1003年没）、
アルベルトゥス・マグヌス（1280年没）、
ロジャー・ベーコン（1294年没）などの人物が音声合成を試みている。
1779年、ドイツ人クリスティアン・クラッツェンシュタインは
母音 (a, e, i, o, u) を発声できる機械を製作した。
この流れはふいごを使った機械式音声合成器を作ったオーストリア
（ハンガリー）のヴォルフガング・フォン・ケンペレンに引き継がれた。
彼は1791年に論文を発表し、その機械について説明している。
この機械は舌と唇をモデル化しており、母音だけでなく子音も発音できた。
1837年、チャールズ・ホイートストンは
フォン・ケンペレンのデザインを元にしゃべる機械を製作し、
1857年、M. FaberはEuphoniaを製作した。
ホイートストンの機械は1923年Pagetによって再現されている。
1930年代、ベル研究所はヴォコーダー (Vocoder) を開発した。
キーボード操作の電子式の音声分析・音声合成マシンで、
その発声はクリアで知的だった。
ホーマー・ダドリー（Homer Dudley）はこれを改良した
VODERを製作し、ニューヨーク万国博覧会 (1939年)に出展した。
1940年代、ハスキンズ研究所（Haskins Laboratories）の
フランクリン・S・クーパー（Franklin S. Cooper）らは
Pattern playbackという名の機械の開発に取り組み、1950年に完成した。
この機械にはいくつかのバージョンがあるが、
実際に機能したのは一つだけである。この機械は、
スペクトル形式の音声パターンの図を音に変換するものであった。
アルヴィン・リバーマン（Alvin Liberman）らは
これを音声学の研究に利用した。

電子式
初期の電子式スピーチ・シンセサイザーは
ロボット的で驚くほど知的である。
その音声は本物と区別するのが難しいと言われた。
それとは別に人間型ロボットに発声させるため、
機械式音声合成も研究が続けられた。
電子式ではスピーカーの音質に制限されるが、
ロボットで人間の体の構造を模倣した機械式音声合成なら、
もっと人間に近い発声になると考えられていた。
最初のコンピュータを使った音声合成システムは
1950年代終盤に開発され、最初のテキスト読み上げシステムは
1968年に開発されている。
1961年、物理学者John Larry Kelly, Jr.とLouis Gerstmenは
ベル研究所にてIBM 704を使って音声合成を行った。
そして"Daisy Bell"という歌をコンピュータに歌わせた。
友人のJohn Pierceを訪ねてベル研究所に来ていた
アーサー・C・クラークは、このデモを聴いた。
クラークはこれに感銘を受け、
『2001年宇宙の旅』でHAL 9000が歌うクライマックスシーンが生まれた。

実用例
音声合成技術は文字を読むことが困難な障害者や、
文字が読めない人（幼児、外国人など）に
画面読み上げソフト（スクリーンリーダー）として長く利用されてきており、
言葉を発することが困難な人が代替手段として利用することも多い。
また、2000年頃から家電製品の音声ガイダンスや、
公共交通機関や防災関係のアナウンス用途として
音声合成されたものが広く使用されるようになっている。
これは、人間が発声したものを録音すると、
台詞の変更の度にその部分を録音をし直さなければならないが、
音声合成であればデータの作成で済むためである。
実際に、鉄道用アナウンスでは、駅が追加されたり名称変更があっても、
その箇所のみが変更されている。
また、最近では個人向けのソフトウェアなどにも活用されてきている。

つづく

[6] mixiユーザー 06月08日 21:27

つづき

テキスト読み上げシステム
テキスト読み上げシステムは、フロントエンドとバックエンドの
ふたつの部分からなる。一般に、
フロントエンドは入力したテキストから
記号化言語表現 (symbolic linguistic representation) を出力する。
バックエンドはフロントエンドで合成された音声の波形を出力する。
音声合成の自然さは、出力される音声がいかに現実の人間の音声に似ているか、
明瞭度は聴きやすさ（出力音声の理解しやすさ）で評価される。
フロントエンド
フロントエンドにはふたつの大きな仕事がある。
ひとつはテキストの中の数字や
省略表現を読み上げるときの表現に変換することである。これは、
「テキストの正規化」、「プリプロセッシング」、「トークン化」などと呼ばれる。
もうひとつは各単語を発音記号に変換し、テキストを熟語や文節、
文などの韻律単位に分割することである。
単語に発音記号を割り当てる処理を
テキスト音素（text-to-phoneme、略してTTP）
変換または書記素音素（grapheme-to-phoneme、略してGTP）変換と呼ぶ。
発音記号と韻律情報を組み合わせて記号化言語表現を作成し、
フロントエンドの出力とする。
この部分は言語によってかなり違いがある。
日本語の場合、わかち書きをしない為、
文章を正確に処理するためには単語を分割する作業が必要となる。
バックエンド
フロントエンドの出力結果を元に、
より自然な音声にするため韻律などの音声の調整を行い、
実際の音声データを出力する。
この処理にて音声の性質が決定されるため、
音声合成ソフト独自色が出ることが多い。
また、一般的に「話言葉」を目指す物が多いが、
歌声の様な調整を行なう音声合成ソフトもある。

オペレーティングシステムでの音声合成
アップル
1984年、アップルコンピュータにMacInTalk機能を搭載した。
その後も新しいOSバージョンでは音質が改善されている。
また、音声認識も導入しており、これらの機能を統合した
PlainTalkは視覚障害者のためのサポートプログラムであった。
Mac OS X v10.4以降にはVoiceOverという音声合成機能になっている。
AmigaOS
1985年のAmigaOSでも音声合成機能が組み込まれていた。
男性と女性の声を選択できる。
AmigaOSでは音声合成を仮想デバイスとしていたため、
コンソール出力を音声合成にリダイレクトすることも可能であった。
このため、ワープロソフトなど各種アプリケーションで
容易に音声合成を利用可能であった。
Microsoft Windows
Windowsでは、SAPIという音声関係のAPIを用意している。
Windows XPではNarratorという音声合成プログラムが追加されている（英語版）。
コールセンターなどでの音声認識と音声合成のパッケージとして
Microsoft Speech Serverが用意されている。
その他
TI-99/4Aには音声合成機能をオプションで追加可能であった。
PC-6001mkIIには音声合成機能が内蔵されていた。
後継のPC-6001mkIISRやPC-6601では歌うことも可能であった。
FM-7/FM-77シリーズには音声合成ボード
(MB22437/FM-77-431) がオプションとして用意されている。
MZ-1500/MZ-2500にはオプションとしてボイスボードが存在する。
五十音と、いくつかのフレーズがサンプリングされ
ROMとして焼きこまれ再生するものである。

インターネットでの音声合成
音声合成マークアップ言語
テキストを音声に変換するためのXML準拠のマークアップ言語がいくつかある。
最近ではSSMLがW3Cから提案されドラフト状態である。
他にもSABLE、JSMLなどがある。
Cascading Style Sheets 2のサブセットは
Aural Cascading Style Sheetsを含んでいる。
音声合成マークアップ言語はVoiceXMLのような
ダイアログ・マークアップ言語とは異なる。
ダイアログ・マークアップ言語はテキスト読み上げだけでなく、
音声認識などにも対応している。

つづく

[7] mixiユーザー 06月08日 21:31

つづき

合成技術
音声波形を生成する主要技術は、大きく
連結的合成 (concatenative synthesis) と
フォルマント合成 (formant synthesis) の2つに分ける事ができる。
連結的合成
連結的合成は、基本的には録音された音声の断片を連結して合成する方法である。
一般に連結的合成は最も自然な合成音声になるといわれているが、
発声のバリエーションと波形の断片化の細かさによっては
出力音声に欠損が生じ、自然さを損なうことがある。
連結的合成には以下にあげる三種類がある。
単位選択合成 (Unit selection synthesis)　
別名としてコーパスベース音声合成方式とも呼ばれる。
大きな音声のデータベース（通常一時間以上の録音された音声から成る）を使用する。
データベースを作成する為には、録音する音声を
「音」、「音節」、「形態素」、「単語」、「成句」、「文節」などに分割し、
それらを人の手によって検索できるようにインデックスを調整して作成する。
音声合成を行う際には、アルゴリズムに従って最も適した音の組み合わせを
データベースから探し出して合成する。
これにより極めて肉声に近い自然な音声に合成することが可能となる。
しかし、より自然に聞こえる音声を合成するには
データベースの情報量を増やす必要があり、
データサイズが膨大となる問題も発生する。
Diphone合成 (Diphone synthesis)
音声ライブラリにターゲットとする言語の
Diphone（音と音のつながり部分）を全て持ち、
それを使用して合成する。
Diphoneの個数はその言語の音素配列論で決まっている。
（スペイン語なら800、ドイツ語なら2500のDiphoneを持つ。）
Diphone合成では、各Diphoneの音声がひとつだけデータベースに格納されている。
実行時にはDiphoneを並べたものに
線形予測分析法（PSOLA、MBROLAなど）のような
デジタル信号処理技法を施して韻律を作る。
できあがった音声は単位選択合成に比較すると音質が劣るが、
フォルマント合成よりは自然な音質になる。しかし、
Diphone合成は結合部の欠陥が目立ち、
フォルマント合成のようなロボット的な発生になってしまう問題がある。
そのため商用では徐々に利用が減っているが、
フリーソフトウェアや研究用としては使われ続けている。
分野限定合成 (Domain-specific synthesis)
録音された単語や文節を連結して音声を合成する。
これは特定分野のテキスト読み上げに使われる。
例えば乗り換え案内の放送や天気予報などである。
これは実装が簡単なので商用にも長年使われてきた。
例えば、しゃべる時計や電卓などである。
この方式は分野を限定しているので自然に聞こえる音声を合成するのが簡単である。
しかし、汎用ではないので、利用は限定される。
内部のデータベースにある単語や文節しか話せないため、
内容が登録されている音声によって限定される。
また、例えばフランス語のリエゾンなど、
前後の単語との関係で発音が変わる場合を再現するのが難しい。
この場合、文脈を考慮して合成する必要がある。
フォルマント合成（合成音声）
フォルマント合成は録音された人間の音声は使用せず、
基底周波数、音色、雑音レベルなどのパラメータを調整して波形を作り、
人工的な音声を作る。
合成された音声はロボット的に聞こえる音声になるため、
人間の音声と間違えることはない。
フォルマント合成は連結的合成と比べ次の様な特徴も持っている。
音の欠損がないので、高速に発声させても明瞭に聞き取れる。
このため高速さを要求されるテキスト読み上げにはよく使われている。
連結的合成のような音声データベースを必要としないので、
データのサイズが小さくなる。
出力音声を容易に変化させることができるので、
イントネーションや音色を自由に変えることが出来る。
上記の様な特徴のため、組み込みシステムでもよく使われ、
フォルマント合成の例として、1970年代末に
テキサス・インスツルメンツが発売した玩具Speak & Spell、
セガの1980年代のいくつかのアーケードゲームがある
（Astro Blaster、Space Fury、Star Trek: Strategic Operations Simulatorなど）。
これらのイントネーションの再現は非常によく、
リアルタイムのテキスト読み上げインタフェースでの実現はこれからである。

つづく

[8] mixiユーザー 06月08日 21:35

つづき

その他の合成手法
Articulatory synthesis
最近まで純粋に学術的研究として使われてきた手法である。
それは人間の声道部分の構造を研究してそこで起こっていることを
人工的に再現するものである。
最近になってその成果が商用の音声合成でも使えるレベルになってきた。
NeXTで使われていたシステムは
カナダのカルガリー大学の研究チームがスピンオフして作った
Trillium Sound Research Inc.が開発したものである。
Trilliumはこれをフリーなgnuspeechとして公開しており、
GNU savannah siteで入手可能である。
Hybrid synthesis
フォルマントと連結的合成を組み合わせたもので、
音の欠損をなるべく少なくしたものである。
HMM-based synthesis
隠れマルコフモデル(HMM)に基づいた合成である。
このシステムでは、周波数スペクトル、基本周波数、持続時間（韻律）が
HMMによって同時にモデル化される。
音声波形はHMM自体が最尤法に基づいて生成する。
Sinewave synthesis
フォルマントを純粋な正弦波の合成によって構成する技法である。

日本語音声合成ソフトウェア
AITalk(R)（株式会社エーアイ）
AIVoice(R)（株式会社エーアイ）
ALTAIR for Windows
AquesTalk（株式会社アクエスト） - ライブラリ。同エンジンを使用し、
歌唱させることに特化したAquesToneも存在する。
CHATR
CSVIEW／VoiceOperator（NEC） - オプションとして音声合成機能が提供されている。
Document Talker
FineVoice (NTT-IT)
FutureVoice (NTT-IT)
FineSpeech
Galatea Talk - 音声認識、音声合成、顔画像合成、対話制御で構成される
Galatea Toolkitの一部。オープンソースソフトウェア。
Hipervoice (NTT-IT)
Hitachi Keiyo Engineering（日立ケーイーシステムズ）
HTS - HMM音声合成システムを学習するためのツールキット。オープンソースソフトウェア。
InnoVoice
JPNTAKE - フリーソフト使いやすい設計。
LaLaVoice 2001 - 東芝製PCのバンドルソフト。単体販売もあり。
ProTALKER 97, ProTALKER/2 (日本IBM)
SmartVoice (NEC)
SpeeCAN
S-PLG100-SG（ヤマハ株式会社）まずハード音源として
Modular Synthesis Plug-in Systemの一つとして販売。(現在は生産終了)
その後、ソフトシンセとしてS-YXG100plus（生産終了）にバンドルされる形で販売されていた。
VOCALOID（ヤマハ株式会社）- メロディと歌詞を入力し歌声を生成する。
エンジン部をヤマハが開発し、クリプトン・フューチャー・メディア、
ZERO-G、POWER FX等が音声部分を作成している。
2007年8月31日にはバージョンアップ版のVOCALOID2が発売された。
Voice of Japan
VoiceSommelier（日立ビジネスソリューション株式会社）
VoiceText（pentax） - 日本語以外の言語にも対応。SDKも存在する。
テレビ東京系列のバラエティ番組『モヤモヤさまぁ～ず2』にて、
ナレーションに利用されている。
VOStalk
Wizard Voice
XIMERA
Yomi
YOMOYOMO - 日本語テキスト音声合成も可能な無料システム。日本国外向けサービス。
しゃべるんです - テキストを音声で読み上げる。WAV/MP3保存可。クリップボード監視機能
自分の声ソフト Polluxstar（OKI） - 特定個人の合成音を作る
システム構築サービス，大阪芸大牧教授の教壇復帰事例は注目された。
ボイスキーボード - セクシーボイス合成ができる。
ボイス君のテキストスピーチ2（株式会社NTTデータ）
バスの車内放送装置 - クラリオンや指月電機製作所、
レゾナント・システムズなどが製造している
ワンマンバス用の放送装置は音声合成の技術を採用しているものもある。
コンピュータゲーム - コナミのときめきメモリアルシリーズに用いられた
EVS（Emotional Voice System）が有名。

History and Development of Speech Synthesis
http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/chap2.html
Dennis Klatt's History of Speech Synthesis
http://www.cs.indiana.edu/rhythmsp/ASA/Contents.html

ログインすると、みんなのコメントがもっと見れるよ