8割がデータの前処理!データサイエンティストの仕事内容について、富士通クラウドテクノロジーズを取材

森川怜 | 2019年04月05日

最近、注目を集めているデータサイエンティスト。

主な仕事内容は、企業が保有している膨大なデータ(ビッグデータ)を分析し、ビジネスに活用するための知見・情報を引き出すことです。

今回の記事で取材したのは、富士通クラウドテクノロジーズのデータサイエンティスト、高橋佑典さんと堀貴仁さんです。お二人に、データサイエンティストの仕事内容について伺いました。

 

データサイエンティストってどんな仕事?ー富士通クラウドテクノロジーズのデータ・サイエンスチームの構成

お二人が所属する富士通クラウドテクノロジーズのデータサイエンスチームは、以下の三つの役割を担うメンバーで構成されています。

  • データサイエンティスト: 主にデータ分析、AIモデル構築を行う。
  • データエンジニア: 主にデータウェアハウスの構築、データの処理のほか、データサイエンティストが作ったAIモデルをAPIに実装し、システムに組み込む。
  • データディレクター: 主にお客様とデータサイエンティストの間のコミュニケーションをとる管理業務。
<富士通クラウドテクノロジーズ提供資料より>

他の会社では”データアナリスト”という役割もあります。アナリストは、データから今まで知りえなかった情報を探し出し、お客様に伝える役割です。富士通クラウドテクノロジーズではアナリストの仕事もデータサイエンティストの役割に含まれています。

 

データサイエンティストの仕事は8割が前処理!

お二人にはまず、データサイエンティストの仕事内容についてお伺いしました。

高橋さん:「”データサイエンティストの仕事は8割が前処理”と言われるほど、データ分析業務における前処理の比重は非常に大きいです。データが整理されていないと、AIモデル構築までたどり着くことができません。

データの前処理とは、性能のよいAIモデルが構築が出来るよう、データを整理・追加・加工すること。これが、データサイエンティストの仕事の8割を占めます」

<富士通クラウドテクノロジーズ提供資料より>

 

堀さん:「この”データの前処理”がデータサイエンティストの一番苦労する点でもあり、ここで新たな情報を発見できる事に面白みを感じています。

例えば、ある飲食店の来客数予測をする業務をするとします。過去の来客数の実績から来客数予測モデルを構築し精度をみると、ある期間だけ実測値の倍の来客数を予測していました。そこで、その期間について詳しく調査をすると、実はその週は特別なキャンペーンを実施していたことが判明しました。そういった場合には、そのキャンペーンに関するデータを加えて再び来客数予測モデルを構築し、精度を出します。

ここでいう「キャンペーンに関するデータを加える」という作業が”データの前処理”にあたります。

前処理の結果、来客数予測モデルの精度が高くなれば、素直に嬉しいです。その瞬間がある意味で、データサイエンティストのやりがいと言ってもよいと私は考えています」

高橋さん:「少しだけ補足しますと、基本的に予測の精度を向上させるには、データの前処理を確実に行うことが重要だと考えています。一般にAIモデルのチューニングや改良という作業は最後の1%の精度を追求するときに行う、というイメージで差し支えないと思います。一見、モデルのチューニングや改良はデータサイエンティストの花形作業と思われがちですが、実はほとんど行わず、データの前処理が大半を占めるのです」

 

データサイエンティストはコミュニケーション業

高橋さんと堀さんは「データ分析には、お客様とのコミュニケーションが大切である」と口をそろえます。

堀さん:「分析の過程で密なコミュニケーションが行われていない場合、その分析プロジェクトは大抵失敗に終わります。なぜならば、お互いのノウハウや知識(分析手法や業界知識)を共通理解できていない状態で、分析を成功させるのは不可能であるからです。

そのため、データサイエンティストはお客様と密にコミュニケーションを取り、AIモデルに対して業界知識を取り入れたり、データの解釈を間違えないようにしますし、お客様には記述統計量の読み方や手法の選定理由、前処理の内容をわかりやすく説明します」

高橋さん:「このようなコミュニケーションは我々のような事業を展開する会社のデータサイエンティストであれば、必須のスキルであると考えています。学問としてではなく、お客様の課題を解決するという大命題がある以上、当然のことです」

 

最後に、企業でAIを活用したい人や「AI担当」になった人にアドバイス

高橋さん: 「AI活用を始める際は、解決したい課題と扱うデータを明確にする必要があります。なぜなら、AIを活用したいと考えている人は、自分自身も明確な課題とデータを把握しているケースが少ないためです。課題とデータが明確ではない場合、AIを使ったこと自体に満足してしまい、現場の課題解決に繋がらず、AIの導入に至らないことがあります」

堀さん: 「AIは万能なツールではありません。AIを活用したシステムを開発した後も、データとAIモデルを理解した人が運用していかなければなりません。もし、そうした人材がいない場合は、データとAIモデルに精通した人を育成もしくは採用する必要があると考えています。忌憚なく言うと、AI担当者にそのようなデータサイエンティストになる覚悟があるのかを問いたいです。もちろん、私たちは分析過程や結果について出来る限りわかりやすくお伝えしています。しかし、極端な言い方をしてしまえば、お客様にとって私たちは”外部”の人です。ですので、お客様自身(”内部”の人)が実際に手を動かす意欲があるかがプロジェクト成功の鍵といっても過言ではありません。ぜひ当事者意識を持って取り組んでいただければと思います」

著者紹介
森川怜

東京生まれ。横浜、東京育ち、アメリカで留学経験あり。Lionbridgeでウェブ・SNSマーケティングを担当。人が好きで明るい性格。趣味は陸上、旅行、音楽を聴くこと。

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。