AIによる自動作曲♫ 音楽を創るAIを創るAIリサーチャー且つ作曲家の斎藤喜寛氏を取材しました!

2020年11月17日

皆さん、こんにちは。自分の顔写真を基に西洋風肖像画を生成する「AI画伯」など、クリエイティブな分野でもAIが活用するニュースを耳にするようになりました。ディープラーニングやGANを用いて、様々なAIアートや音楽を作ることもできます。

今回は、音楽AIの研究者且つ作曲家の斎藤喜寛氏に取材しました。音楽業界でのAI活用や、AI・機械学習を用いた自動作曲などにつきまして、詳しくお伺いすることができました。

 

取材者紹介: 斎藤喜寛氏

音楽AIの研究・開発とビジネス活用を行うEXDREAMという会社を2013年から経営しております。元々は1990年頃から作曲を仕事にしており、当初J-pop、その後プログラミングやアルゴリズムを使用した電子環境音楽を作っていました。子供の頃からとても凝り性で音楽視聴よりも、その仕組みが知りたくて音楽理論や音響工学の本ばかり毎日1日中読んでいる様な人間でしたが、そのまま大人になってしまいました。そこで得た音楽領域の数式など少々マニアックな知識は、これまではあまり役に立っているとは正直言えなかったのですが、音楽AI事業を開始してから急に活かせる様になってきて、人生わからないものだと感じています。

 

音楽業界に進出するAI

まずは、音声業界でAIがどのように活用されているのかについてお伺いしました。

斎藤氏: レコメンドシステムでのAI活用は音楽配信サービスでも大いに活用され、成果を挙げています。例えばSpotifyのレコメンドシステムは、3つの機械学習アルゴリズムの組み合わせでできているそうです。

  • 協調フィルタリング
  • 自然言語処理
  • オーディオ波形解析

 

協調フィルタリング

斎藤氏: 協調フィルタリングとは、AとBという似た嗜好を持つ2人のユーザーがいるとして、Aが好んで聞いているけれど、Bはまだ聞いた事がない楽曲がある。2人の好みは似ているのでBも好むはずだからレコメンドしよう、という様な事が行われるアルゴリズムです。

 

自然言語処理

斎藤氏: 自然言語処理は、Spotifyでは各アーティストや楽曲について人々が話題にする時、一緒にどの様なテキストを使用しているのか?をSNSなどから収集、分析しタグ付けを行うために使用されています。例えば、米国シンガーソングライターBillie Eilishについて語られている時、generation z(ジェネレーションZ、Z世代とは、アメリカ合衆国などにおいて概ね1990年代中盤以降に生まれた世代)というワードが頻繁に一緒に使われているとしましょう。するとBillie Eilishとgeneration zというワードは関連性がある、と判断され、タグとして楽曲データに加えられます。これを使用して、generation zというタグを持つ他の楽曲を好んで聞いているリスナーに対し、Billie Eilishをレコメンドするという様な事が行われてる様です。

 

オーディオ波形解析

斎藤氏: 最後はオーディオ波形解析です。Spotifyでは楽曲の踊りやすさであるとか、明るさ暗さ、どのくらい楽器パートが含まれているか、テンポ等、たくさんの楽曲の特徴を、オーディオの波形を解析し取得できる様になっています。これらの特徴は、各楽曲ごとに数値化されそれぞれ類似性をもってタグ付けされレコメンドに使用されます。

このオーディオ特徴によるレコメンドは未知の楽曲との出会いに非常に有用です。何故なら先の2つアルゴリズムと違い、人間では判断しづらい、音楽そのものの類似性から成るレコメンドが可能だからです。
人が思いつかない様な、だけど何かしらの関連が実はある、そんな音楽の発見に大いに貢献できる可能性があります。ちなみにこのオーディオ波形解析には画像認識のアルゴリズムである畳み込みニューラルネットワーク(CNN)が使われている様です。
画像認識アルゴリズムが音楽で使われるなんて意外かもしれませんがとても面白いですね。近年、Spotifyのレコメンドがすごい出来だな、と感じている方も多かったのではないでしょうか。実はこんな風にAIが大活躍していたんです。

 

AIが音楽データを分析、ヒット曲のトレンド予測

音楽トレンド分析や新たなアーティスト発掘なども、AIに期待され、実際に実現できるであろう分野です。
どんな形でか?はこれからだと思いますが、大なり小なり必ず何かしらの実用化はされ、成果を上げると予測しています。

斎藤氏: 例えば日本ではこの9月からBillboard JAPANとNTTデータさんの共同で、NeuroAIという脳情報通信技術で音楽を聴いている際の脳情報を取得、歌詞やコード進行などの各楽曲の特徴と組み合わせてヒット曲の予測をする研究が開始されています。

2185曲の楽曲データというのは、データ数としては少ないかな、とも私は思ったのですが、脳情報というのは非常に人の嗜好を分析するには有効な素晴らしいデータだと思うのでどんな風に身を結ぶのか注目しています。ヒット曲予測ではなくても、ビジネス的にも、芸術的な側面からも、何かしら有益な結果が得られると良いなと思っています。同様な取り組みは海外でも大きな成功例こそまだないもののいくつかニュースにもなった様な例があります。アメリカのロサンジェルスを拠点とするSnafuレコーズというレコード会社は新人発掘にAIを使用する初のレコード会社として話題になりました。

少々前ですが、サンフランシスコ大学でAIを学んでいる学生2人がSpotifyのAPIで取得した180万曲分のオーディオ特徴データからヒット曲かどうかを分類する機械学習モデルを開発した例もありました。モデルによって約90%の精度で分類できたそうです。論文として発表もされています。

実は弊社でも機械学習でヒット曲、またはその他目的に合わせて楽曲の分析分類を行えるニューラルネットワークを開発済みです。その時は20万曲ほどで実践したのですが、75〜90%位の確率でヒット曲分類する事ができました。かなり人力でデータ作成したので大変でしたが、最近音楽データの自動取得プログラムが開発できたので今度は是非数百万曲〜のデータを用いて実践してみたいと思っています。もっと確率が上がるかと期待しています。いずれにしても音楽トレンド分析やアーティスト発掘は、AIがこれから大いに活用され成果を上げていく分野だと考えています。

 

AIを用いた音楽生成サービス

斎藤氏: 次は音楽生成サービスです。LoFiヒップホップ曲を流し続けている「lofi beats 24/7,Tokyo LosT Tracks -サクラチル-」 というYouTubeチャンネルがあります。

 

このチャンネルでSONYのFlow MachinesというAI楽曲制作アシストツールを使用したAI生成曲が以前発表されました。

このlofi beats -サクラチル-に感化されたのだと思いますが、Googleの機械学習音楽ライブラリ “Magenta”を使用したLo-Fi PlayerというAIが生成したLoFiヒップホップ曲を流し続けるYouTubeチャンネルもあります。

このチャンネルは不定期に公開されたり、されなかったりする様ですので視聴の際はご注意ください。YouTubeのお話をしましたが、私がAI音楽生成サービスで1番有望だと思っているのが、実はYouTubeなどに投稿される動画に使用するBGMを自動で作るサービスです。自分で音楽を作りたいわけではないけれど、動画用にどうしても必要。そんな時著作権フリーで早く音楽を用意できるというニーズを満たすにはAI音楽生成は最高のソリューションとなるはずです。実際いくつかのサービスが日本でも立ち上がっています。例として音楽生成アプリのAmadeus Codeさんが運営しているEvoke Musicを紹介させていただきます。非常に音楽的な精度の高い楽曲生成が行われるので高品質な動画BGMが欲しい時に最適なサービスだと思います。

実は、お断りしないといけないのは、Amadeus Codeさんとは弊社が運営している音楽AIアカデミーCANPLAYと協業しており、近々新しいAI音楽のスクール事業を展開する事となっております。そのため是非動画クリエーターに皆様にご使用いただきたく、仲間としても応援しています。

 

AIが作曲した音楽♫

AIが作った曲が是非聴いてみたく、次はAI作曲の例についてお伺いさせて頂きました。

斎藤氏: この様な仕事をしているのでAIが作った曲の例については本当によく質問を受けます。そしていつも困るのは、どこまでがAIが作った曲と定義されるのか。どんな方法がAIが作ったに含まれるのか?単に作られたという事で良いのか?芸術や創造としての意味は問うのか?など、基準をどこに設定して答えれば良いのか判断が難しい事です。今回は私の独断ではありますが、AIを使用した意図が明確だった事、一般に広く公開された事、などを基準にいくつかご紹介したいと思います。例は本当にたくさんあるのですが、その中からごく一部です。

まずはビヨークがマイクロソフトのAzureとコラボレーションしたプロジェクトであるKofsanを紹介します。Kofsanは、楽曲というよりも音楽プロジェクトといった方が良いのですが、ニューヨークのシスターシティホテルの屋上に物体検出のカメラを設置し、天気、雲の動き、鳥の動き、などによって音楽が自律的に変化するという試みです。これまではのテクノロジーでは実現できなかった、まさにAIを活用するからこその音楽体験、アートと言え、非常に興味深いと共に、今後に多くの可能性を感じインスパイアされました。

アンビエント音楽やヒーリング音楽はAI作曲と非常に相性がよく、私も自分のニューラルネットワークで何曲も生成実験を行っています。そんな理由からかとてもたくさんのヒーリング、アンビエントのAI生成曲はリリースされているのですが、一番有名なのは、メジャーレーベルのワーナーミュージックと、史上初めてメジャー契約をしたアルゴリズムとして知られるEndelでしょう。

アプリもリリースされており、日本のレコード会社も資本参加しています。使用しているという方もいらっしゃるかもしれません。つい最近、Grimesというアーティストとコラボレートして AI Lullabyという睡眠音楽専門の新しいAI作曲アプリもリリースしました。

少し聞いてみましたが、これまで以上に心地よいAI作曲が行われており、かなり良いのではと感じました。手前味噌で申し訳ないのですが、私がAI開発と生成を行ったKIOXIA(旧東芝メモリ)と手塚治虫AI復活プロジェクト TEZUKA 2020のCM曲も紹介させてください。

この曲は70年代ロックをAIで生成してみたらどうなるか?という監督の希望を受け、私が70年代のロックギターのフレーズを 数十種類生成し、”人間の”ギタリストの方が演奏、組み合わせ構成して出来上がった曲です。数十種類といっても音楽的に使えるフレーズの生成はとても大変で、私が生成したフレーズは多分1,000曲とか、そのくらいだったと思います。このCMは2019年だったのですが、今ならもっと面白い、もっと進化した事ができると思うのでまた何か機会があればと思っております。

 

自動作曲するAIサービス

斎藤氏: まずはGoogleの機械学習音楽ライブラリであるMagentaです。Pythonプログラミングを使用するのですが、活発にアップデートされており、単音メロディー生成から、バンド演奏の様な楽曲、ピアノ演奏曲やドラムパート作成まで、色々なAI作曲が可能です。私の運営している音楽AIアカデミーの生徒さん達もMagentaを使いこなしてこれまでに無い様な面白い音楽作品をどんどん生み出しています。

Magentaのすごいところは、自分の学習データを使用した独自モデルの作成も可能なところです。AI音楽は、実は自分の学習データを使用した独自モデル作成が1番楽しい部分です。自分の好きな音楽データを学習させて、そんな好みにあった新しい音楽を生成できるAIなんて想像しただけでも面白そうですよね。Magentaは単なる生成ではなく、モデル作成や、さらに言えば開発にもトライしてみて欲しいと思っています。

Open AIのJukeboxというサービスも紹介します。Open AIと言えば、あまりにも精度の高い文章を生成できる事で話題になったGPT-3が知られていますが、このJukeboxもすごいです。

あまりにもすごすぎて、私は使用を躊躇ってしまうほどです。

サンプル曲を聞いてみてください。歌や詩、演奏も全てAIが生成しています。これまでのあらゆる音楽生成とは別次元のレベルです。もちろんこれだけの生成を行うにはコンピュータの性能が非常に必要で、一般に使用される様な性能では同じ様に自由自在に生成とはまだできないのですが、年々性能が上がってる現状を思うと、未来のAI作曲はこのレベルが当たり前にできる様になるのかしれません。Jukeboxの日本語での解説を記事化してありますのでよろしければご覧になってみてください。

 

自動作曲のためのAI技術

斎藤氏: AI作曲は色々なアルゴリズムが使用されますが、もっとも多いのは自然言語処理を応用したニューラルネットワークモデルを使用したものです。RNN(リカレントニューラルネットワーク)とそれをアップグレードした様なLSTMがよく使用されます。なぜ自然言語処理のAIモデルを使用するのかというと、言語も音楽もシーケンスデータ(時間経過のあるデータ)を使用するという共通点があり、かつ翻訳サービスなど自然言語処理の方が先に研究開発が進み、大きく成果を上げていたからです。

先に成果を上げていたものを応用する形で音楽AIは進化してきました。言語も、音楽も次の選択肢を繋げていく事で形作られます。

言語で言えば、

私→は→東京→に→飛行機→で→行った

音楽では、

ド→ド→ソ→ソ→ラ→ラ→ソ

この際「は」の後は「東京」以外にもたくさんの単語の選択肢があります。

「今」などでも選択する事はできます。

「飛行機」の後にくるのは「で」とは限らず、「を」でも選択可能です。

しかしそうなると、おかしくなります。

私→は→今→に→飛行機→を→行った

この様に単純に次の選択肢だけではなくある程度以上の長さのデータを全て考慮し前後関係のおかしくないものにしなければいけません。

音楽も同様です。言語ほどわかりやすく文字では説明できませんが、同様に適当に次の選択肢だけを考慮し音をつなぐととても音痴なメロディーが生成されています。この様な前後関係の整合性を持たせるため長いデータ長の取り扱いに優れているのがRNNやLSTMです。

最近はより長いシーケンスデータを取り扱えるtransformerというものも注目されています。ご自身でAI作曲を実践される場合は先に解説したMagentaをお勧めします。Pythonプログラミングで実践する必要がありますが、プログラミングの必要レベルはそんなに高くありません。一通り構文を知っているレベルであれば実践する事ができると思います。Magentaでは多くのモデルで前述したRNNやLSTMが使用されておりAIの学習にも適しています。ただMagnetaは独自の必要要件や、エラー対策などが必要なライブラリです。ドキュメントもほとんどない、特に日本語のドキュメントは皆無ですのでできれば私の運営している音楽AIアカデミーで学んでいただきたいと思っております。Magentaに関しては、隅から隅まで徹底解説しています。

 

AI作曲から音楽AI開発までを学ぶ MUSIC AI ACADEMY CANPLAY

最後に、斎藤氏が代表者である、AI作曲から音楽AI開発まで学ぶMUSIC AI ACADEMY CANPLAYについてお伺いしました。

斎藤氏: 弊社の音楽AI事業の取り組みは創造・教育・分析という3つの領域で行われております。創造は開発したAIによる音楽作品制作で、先にお話した通り、KIOXIA(旧東芝メモリ)、手塚治虫AI復活プロジェクトTEZUKA 2020 CM音楽のAIプログラミングと音楽生成、パナソニックAIソリューションセンターのオフィス環境実験音楽、三菱地所のイベントでインタラクティブサラウンド音楽の制作、などを行ってきました。

教育は学校運営です。日本初、そしていまだ唯一だと思いますが、MUSIC AI ACADEMY CANPLAYという音楽領域のAI開発、活用を教える学校の運営しています。EXDREAMという会社よりもCANPLAYとしての方が、弊社は認知されているかもしれません。

分析は、音楽トレンド調査、音声認識や音響分類などに使用するデータ作成や、自社開発ニューラルネットワークによる機械学習分析業務を行っています。これらの3つの領域は別々に行われているものではなく全て連携し繋がったサイクルとなっています。創造事業で開発したものをカリキュラムにしてCANPLAYの教育事業に、そこで得たデータを活用し新たな創造のための開発、その開発結果を元に新たなカリキュラムをCANPLAYでという様に、それぞれの事業成果を次の事業のリソースとして活用、成長サイクルをどんどん大きくしていくというビジネスモデルです。

 

起業ストーリー

斎藤氏: 根拠はないのですが、40歳を過ぎたら会社を作ろうと子供の頃から計画していました。その計画通りに40過ぎに会社設立です。意外に思われるかもしれませんが、決めていたから、と言うのが本当に1番の理由です。当初は音楽AI事業を行なっておらず、自分の楽しみのためにAI作曲や開発をしていました。そんな中、ある日、AI音楽生成アプリサービスを行っている知り合いのところに呼ばれました。苦戦しているので音楽の専門家でプログラミングもできる人間からアドバイスが欲しい言う事でした。

そこで話を伺ってみて、大変申し訳ないのですが、ひどかった。。。。

絶対にうまくいくはずないと思わざるを得ませんでした。

とにかく音楽の事を何も理解していない。。。。。

しかしその時に思ったのです、「自分ならうまくやれそうだ」と。

そして事業プランを練り直し、音楽AI教育事業から始めようと立ち上げたのが今のMUSIC AI ACADEMY CANPLAYです。

 

AI作曲プログラミングを学ぶ

斎藤氏: 2017年3月の開講から通算訳300名に音楽AI講義を提供し、現在の在校生も約100名にまで成長しました。音楽生成に加え、音声認識・合成やオーディオ分類、音源分離など音のAI開発に関するあらゆる講義を提供しております。音楽ももちろんですが、特に音のAIは今後非常に伸びる領域です。ビジネス、新しい音楽表現、どちらにも大きな可能性を秘めています。是非CANPLAYで学んでいただき共にAIで未来の音を創造しましょう。

 

ライオンブリッジのAI向け教師データサービスについて

当社は20年以上に渡るAIプロジェクトの実績を持ち、データ作成・アノテーションサービスを提供しております。データサイエンティストや言語学者を含み、100万人のアノテーターが登録されているので、大規模なAIプロジェクトも迅速且つ正確に仕上げます。アノテーターは秘密保持契約に署名することが義務付けられており、データ保護のためにオンサイトスタッフやリモートスタッフを派遣し、アノテーターにお客様ご指定のツールを利用してもらうこともできます。必要に応じて案件に特化した秘密保持契約も作成できるので、データの安全性も保証しております。ご相談・無料トライアルはこちらから。

AI向け教師データの作成やアノテーションサービスを提供し、研究開発をサポートします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。