2018年1月9日火曜日

♪第242回:人間そっくりの音声を合成可能なGoogleの音声合成システム「Tacotron 2」

♪第242回:人間そっくりの音声を合成可能なGoogleの音声合成システム「Tacotron 2」
https://it.srad.jp/story/17/12/31/1352241/
(2018年の第3回)

新年早々…時間に追われるのが手短に^^;;
本日は、正月の帰省中に読んだ記事を紹介します~
埋め込みがないので地味且つお手間を取らせてしまいますが、
よろしくお願いいたします~m(_ _)m

…で、まず!

リンク先の記事 (↓の太文字から飛べます)
「人間そっくりの音声を合成可能なGoogleの音声合成システム「Tacotron 2」」

↑を読んで頂きまして…
実際に皆さんの耳で音を聴いて貰うのが一番速いかと~^^;

↓ちなみに音だけ聞きたい方はこちら
https://google.github.io/tacotron/publications/tacotron2/index.html

で…
聴いてみた印象どうです?

ぶっちゃけ合成音声と言われても…
これは気づかない人多いのでは?

正直、自分には良くわかりませんでした^^;

で…その2。
最初に貼ったリンク先の記事への読者の投稿
「参照されてるWaveNetが凄いんだが」の中で紹介されている
ピアノの音の合成の方が個人的にはビビりました。
(その投稿された方も相当驚いている)

↓その音が聞けるリンク先
https://deepmind.com/blog/wavenet-generative-model-raw-audio/

音自体についていえば…
古いLPからの音声程度のクオリティではあるのですが…
聴いた印象ではmidiデータで打ち込んだようなものよりも、
音楽的に聴こえている印象が(・_・;;;


deepmindの記事は全て英文なので、
僕にはイマイチわからない…
いや、イマイチじゃないレベルでわかりませんが><
どういう理屈で音を鳴らしているのか?
もっと詳細が知りたくなる内容です。

TTS(Text to Speech)の実験みたいなことが書いてあるみたいで、
今までとはまた違った音色生成のアプローチが出てきたのかも?
と、元日からワクワクしたのであります^^

…と、昼飯終了時間が来たので唐突に終わりますw