平成24年度 博士課程教育リーディングプログラム:東京大学 ソーシャルICT グローバル・クリエイティブリーダー育成プログラム

ホーム > GCL TechTalk シリーズ > 2015/10/05(開講) Global Design Seminar(全7回):「ビジネスのデータセットから学ぶデータサイエンス」

GCL TechTalk シリーズ

2015/10/05(開講) Global Design Seminar(全7回):「ビジネスのデータセットから学ぶデータサイエンス」

10月5日より全7回にわたって「ビジネスのデータセットから学ぶデータサイエンス」の講義(セミナー)が開催されます。
株式会社リクルートコミュニケーションズの3名の講師によって、実際のビジネスシーンで収集されたデータを題材をもとに演習が進められます。現実のビジネスの現場でどのようなデータサイエンスの取り組みがなされているかを体感できる良い機会ですので奮って参加ください。

※コース生は参加・不参加の事前登録が必要です。

出席点:3つのデータセットそれぞれへの演習結果の提出(+プレゼン)を持って出席点に充てます.

GDS_20151005

 

 

 

 

 

Poster

開講日:10月5日(月)
時間:6限(18:45~20:30)
回数:7回(10/5, 10/19, 10/26, 11/2, 11/9, 11/16, 11/23) 予備日:11/30
講義室:工学部2号館 電気系会議室1
対象:GCLコース生、情報理工学生

【担当講師】
尾崎 隆  (株)リクルートコミュニケーションズICTソリューション局アドテクノロジーサービス開発部分析チーム
高柳 慎一      同上
丸山 哲太郎     同上

【概要】
現在の(特に)IT業界を中心とする産業界では、スマートフォンアプリやwebサイトに代表されるようなインターネット上のサービスを通じて陰に陽に様々なデータが収集される。また高度にIT化されたシステムはそれ自体がアクションログやエラーログの形で大量のデータを生み出す。近年多くの企業でそのような実際のビジネスシーンで収集される・生み出されるデータに対して、統計学的手法・機械学習的手法・その他数理的手法に基づいて処理を行い、ビジネス上の課題に対するソリューションを提供する試みが行われている。例えばEコマースサイトにおける商品推薦(レコメンデーション)などはその分かりやすい最たる例であろう。
本講義ではそのような実際のビジネスシーンで収集されたデータを題材とし、学生自ら任意のデータ分析手法を用いて、求められる要件を満たすようなソリューションを構築するハンズオン形式の演習を行う。なお、データ分析手法の選択肢は学生のスキルを勘案し広く設定する(機械学習に限らず、例えば数理統計学的手法も含む)。

演習形式としては、1) 題材となるデータを配布し、2) 次回講義日までに学生は各自配布されたデータをもとにソリューションを構築し、3) 次回講義日に各自のソリューションについてlightening talk形式で発表を行い講師が講評を行う。これを毎講義ごとに繰り返す。

【担当講師からのメッセージ】
情報理工学研究科の学生の皆さんであれば、機械学習や統計モデリングといったデータサイエンスの根幹をなす諸系統の基礎については既に身に付けておられることでしょう。しかしながら、現実のビジネスの現場でデータサイエンスを実践するに当たっては、実務面での問題を解決する上でさらに有用な応用面での知識、さらには実データを扱う際の前処理などにかかわる煩雑な工程が必要とされます。この講義では、実際にリクルートグループのデータサイエンス業務に用いられているデータセットを学生の皆さんに触っていただき、現実のビジネスの現場でどのようなデータサイエンスの取り組みがなされているかを体感していただきます。

【講義・演習内容】
<推奨環境>
OS:いずれのOSでも大丈夫です
言語:R, Python, Javaなど統計学・機械学習パッケージが充実した言語、もしくはMatlab, Weka, Stataなどのデータ分析ソフトウェアやフレームワークなど

<尾崎講師担当分>
本演習では店舗予約アプリのコンバージョン指標を最大化し得る各広告カテゴリ予算の最適配分を決定するための統計モデリングを行う。
リクルートは広告メディア企業であり、 同時に「ゴールは一つじゃない」のリクルートポイント、パン田一郎のフロム・エーのTVCMなど個性的な大型プロモーションでも知られる。
尾崎担当回では、店舗予約サプリのコンバージョン指標に対して、様々な大型プロモーションがどのような影響を与えているかを統計モデリングによって明らかにし、その上でプロモーションにおける各広告カテゴリの予算の最適配分を行うプロセスを体験することを目的とする。
統計モデリングと一口に言っても方法論のバリエーションは非常に幅広い。尾崎からはある一つの解を最後に模範解答として提示するが、これを上回る精度・効率をもたらす方法論の提案が学生の皆さんからなされることを期待したい。

<丸山講師担当分>
データの意味する所を正確に把握し、データという客観的な立場から正確な施策策定行い、地道な業績改善に繋げていくのがデータサイエンティストの目指す姿である。
「ビッグデータ」という言葉が人口に膾炙している昨今ではあるが、決して「ビッグ」ではないデータであっても「リアル」なデータに真摯に向き合うことが、実際の業務では必要である。
リクルートは、企業(個社)とユーザー(個人)両者のニーズを正確に把握し、両者の橋渡し(マッチング)を行うことが基本的な業務内容のひとつである。
本演習は、個々の店舗における特徴量からWeb上のコンバージョンの予測を行うことで、(個人に対する施策はとりあえず置いておいて)店舗という個社に対して行う施策を策定することを目的とする。
機械学習(回帰)の精度を追求するだけでなく、いかに個社の心を掴む施策を打ち立てるかに主眼を置いた分析を行うことを期待したい。

<高柳講師担当分>
通常、WEBサービスにおけるデータ分析の結果は、ABテストなどを通しUI/UXを通しWebサービスを通して改善に用いられるのが通常である。一方、本演習ではデータ分析、特にクラスタリングの結果を、リクルートの強みである営業力を活かし、”リアル”なマーケティングに活用することを目的とする。従って、参加する学生にはリアルマーケティングに活用可能であるという意味で適切なクラスタリングを実施することを期待したい。また、クラスタリング手法、および特徴量(選択|生成)については一切の制限を設けない。


お問合せ:

GCLプロジェクトインキュベーション機構 pim [at] gcl.i.u-tokyo.ac.jp ([at] を@ に変えて送信してください)


« GCL TechTalk シリーズのトップに戻る