- 調査の背景
- (ちょっと脱線)大学の無料公開動画 OCWとか
- データ解析に必要な素養
- データ解析の基礎となる知識
- 数学的な基礎
- 実務的なプログラミングスキル
- 機械学習の基礎知識・応用
- 基礎編
- 機械学習 OCW Tsukuba
- 人工知能と機械学習 OCW Tsukuba
- UTokyo OCW 情報数理科学VII 2019年度開講
- MIT OCW MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018
- MIT 6.034 Artificial Intelligence, Fall 2010
- MIT Introduction to Computational Thinking and Data Science
- MIT Tutorial 3.1: Lorenzo Rosasco - Machine Learning Part 1
- MIT Tutorial 3.2: Lorenzo Rosasco - Machine Learning Part 2
- Stanford CS221: Artificial Intelligence: Principles and Techniques | Autumn 2019
- Stanford CS229: Machine Learning | Autumn 2018
- stanfordonline CS230: Deep Learning | Autumn 2018
- 応用編
- Google Cloud Japan
- その他
- 基礎編
- 分析力+α の知識
- 編集後記
- 補足資料
調査の背景
「ビッグデータの解析」「機械学習(ML)」「ディープラーニング(深層学習)」等々、テレビでもニュースでも溢れかえっている。というか、もうすでに飽き飽きしているかもしれない。
気づけば、巷には、様々な機能のモジュールのオープンソース化(TensorFlowとか)、Auto MLや自動化AIのソフトウェアといった、便利なツール群も充実してきて、実際、MLのことを深く知らずとも、簡単にMLのプログラムを書けて実行できる。。
これからのData Scientistは特段知識なくても、データ解析ができる*1。 ただし、基礎的なバックグラウンドがないと、間違った結果を導いたり、 既存の自動化処理を行うだったりで、発展性にはかけるのは自明だろう。
今回、データ解析に必要そうな知識・スキルを挙げつつ、関連のオンライン講座を調査することにした。
また、データ解析のワークフロー、データサイエンティストに求められるチェックリスト細目についてはデータサイエンス協会から出されていて、記事末尾の補足資料を参考にほしい。
(ちょっと脱線)大学の無料公開動画 OCWとか
世界中の大学で講義を無料公開する方向で進んでいるが、 ようやく日本の大学でも、講義動画の無料公開の動きが出てきている *2。こういう公開の動きは、オープンコースウェア(OCW, Opencourseware) というらしい*3。
もちろん、OCW以外にも、無料公開の資料や動画のコンテンツも結構充実してきている。やや過剰供給気味である気もする。
データ解析に必要な素養
私が生命科学・生物情報学を専門にするので、その観点から述べる *4。
-
- 統計学の基礎
- 生物(医療)統計学
- 多変量解析
-
- 行列・線形代数
- 微分積分
- 解析学
- 最適化数学
- 統計・確率
- 数理生物学
-
- R
- Python
- 情報処理の基礎知識
- データ・結果の可視化
-
- 課題に合わせた分析ストラテジーの選択・設計
- ドメイン知識(医学や薬学、生命科学、心理学、工学などの専門知識)
以下、無料かつ会員登録不要の動画、スライド資料に絞ってまとめてみた。 (今回、有料版、会員登録必要、あるいは一定期間しか視聴できないものは除外した)
データ解析の基礎となる知識
統計学の基礎
確率統計 予備校のノリで学ぶ「大学の数学・物理」
【データの分析が超わかる!】◆分散・標準偏差 (高校数学Ⅰ・A)
看護・保健系大学院生のための統計学習サイト
生物(医療)統計学
(京都大学 OCW)聴講コース「臨床研究者のための生物統計学」全10回
多変量解析
【わかりやすい・多変量解析入門】
数学的な基礎
基礎数学
慶應SFC OCW 問題発見・解決のための数学リテラシー
http://gc.sfc.keio.ac.jp/cgi/class/class_top.cgi?2019_25572gc.sfc.keio.ac.jp
「基礎数学からの展開A」全7回 雪江 明彦 理学研究科教授(2015年度)
行列・線形代数
線形代数入門 予備校のノリで学ぶ「大学の数学・物理」
線形代数I (2013) / Linear Algebra I (2013)
線形代数II (2017) easyarithmetican / atelier aterui
28 線型代数 式変形チャンネル
【理工学部講義】物理情報数学B (線形の数理)
線型代数のEssence Masaki Koga [数学解説]
線形代数 AKITOの勉強チャンネル
【英語】MIT OCW 線形代数( Linear Algebra )
https://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/video-lectures/ocw.mit.edu
京都大学 OCW国際高等教育院 補助教材「ベクトルから行列へー線形性とは何かー」
https://ocw.kyoto-u.ac.jp/ja/ilas/01/videoocw.kyoto-u.ac.jp
微分積分
微積分I (2012) / Calculus I (2012)
微積分II (2015)
ベクトル解析
微分方程式
微積分 AKITOの勉強チャンネル
https://www.youtube.com/playlist?list=PLr7eFwEQAvPicFl2nC37rxphwGCDhKnwi
UTokyo OpenCourseWare x 数値解析
Math 2A: Calculus UCI Open
Math 2B: Calculus UCI Open
https://www.youtube.com/playlist?list=PLqOZ6FD_RQ7mxsWrqTwndCBFXAKC0Xho9
解析学
【解析学】予備校のノリで学ぶ「大学の数学・物理」
慶應大学講義 物理情報数学C
解析学 AKITOの勉強チャンネル
最適化数学
UTokyo OpenCourseWare x 数理手法III
統計・確率
2014年度 確率論 OCW Tsukuba
https://www.youtube.com/watch?v=eiVrWChM1eo&list=PLlNAOVqfWaDmk8ntUZgLCkPa8bRQBupmf
数理手法IV 2017年度開講
慶應大学講義 応用確率論
Introduction to Probability and Statistics 131A UCI Open
Introduction to Probability and Statistics 131B UCI Open
離散数学
離散数学 予備校のノリで学ぶ「大学の数学・物理」
計算機数学I (2019)
数理生物学
Math 113B: Mathematical Biology UCI Open
https://www.youtube.com/playlist?list=PLqOZ6FD_RQ7lnGZ7fkn503y_7U4rrJ-Se
MIT 8.591J Systems Biology, Fall 2014
実務的なプログラミングスキル
プログラミング学習
プログラミングにはやってはいけない勉強法がある!?爆速で成長する王道のプログラミング学習法を紹介!
Rと基礎統計
UTokyo OpenCourseWare x 統計データ解析Ⅰ 2017年度開講
UTokyo OpenCourseWare x 統計データ解析 Ⅱ 2018年度開講
Rオンラインガイド
R言語を用いたデータサイエンス初学者向け集中講義 Masaki Open Lab
続:R言語を用いたデータサイエンス初学者向け集中講義 Masaki Open Lab
Python
UTokyo OpenCourseWare x データマイニング入門 2018年度開講
情報解析講習会ビデオ<2019年度第1回PAGS・DDBJ・DBCLS合同情報解析講習会>
MIT OCW Introduction to Computer Science and Programming in Python
(テキスト資料)
Python 公式チュートリアル(日本語)
Pythonプログラミング入門 #utpython
sites.google.com utokyo-ipp.github.io
jakevdp / WhirlwindTourOfPython
Python機械学習
東京大学松尾研究室 Deep Learning基礎講座演習コンテンツ 公開ページ
東京大学松尾研究室 GCIデータサイエンティスト育成講座演習コンテンツ 公開ページ
情報処理の基礎知識
ICT(情報通信技術)を学ぶ総務省 ICTスキル総合習得プログラム
UTokyo OpenCourseWare x コンピュータシステム概論 2018年度開講
データ・結果の可視化
データサイエンス
データサイエンス集中講義実践編 Masaki Open Lab
データサイエンス集中講義実戦編 Masaki Open Lab
stanfordonline CS545 - Information and Data Analytics Seminar Series
https://www.youtube.com/playlist?list=PLoROMvodv4rO6w46MvMAiPAh7lfOhEIV7
stanfordonline Statistics and Data Science
https://www.youtube.com/playlist?list=PLoROMvodv4rO5jY6RA1eFVcLVY2kJU_EL
機械学習の基礎知識・応用
基礎編
機械学習 OCW Tsukuba
人工知能と機械学習 OCW Tsukuba
UTokyo OCW 情報数理科学VII 2019年度開講
MIT OCW MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018
MIT 6.034 Artificial Intelligence, Fall 2010
MIT Introduction to Computational Thinking and Data Science
MIT Tutorial 3.1: Lorenzo Rosasco - Machine Learning Part 1
MIT Tutorial 3.2: Lorenzo Rosasco - Machine Learning Part 2
Stanford CS221: Artificial Intelligence: Principles and Techniques | Autumn 2019
Stanford CS229: Machine Learning | Autumn 2018
stanfordonline CS230: Deep Learning | Autumn 2018
応用編
メディカルAI専門コース オンライン講義資料
人間中心社会に向けたAI研究開発の潮流 ~安全・高品質AIを日本の競争力に~
https://www.jst.go.jp/pdf/pc202001_2.pdf
深層学習の先にあるもの – 記号推論との融合を目指して(2)
Google Cloud Japan
Google のデータサイエンティストが語る現場で使える機械学習入門 www.youtube.com
D1-2-OS2_AutoML で始める機械学習
D2-6-S11_画像認識 API と簡単にカスタム機械学習モデルを作成可能な "Cloud AutoML"
ビジネスを改善するための機械学習 : 顧客データを最大活用したマーケティングの最適化
民主化が進む機械学習:すでに始まっている、Tensorflow を活用したビジネス活用事例のご紹介
その他
『RapidMiner入門』
分析力+α の知識
大学化学&大学生物 予備校のノリで学ぶ「大学の数学・物理」
2014年度 細胞学概論 OCW Tsukuba
第5回 京都大学 − 稲盛財団合同京都賞シンポジウム「酵母から見えてきたオートファジーの世界」大隅 良典 2018年7月22日
Scientific Computing Skills 5.
生命科学とデータサイエンス OCW Tsukuba
MIT 5.07SC Biological Chemistry I, Fall 2013
MIT 5.08J Biological Chemistry II, Spring 2016
https://www.youtube.com/playlist?list=PLUl4u3cNGP63vvR4xtexZdoPywRYIZI0-
編集後記
いろいろとあり過ぎて、抜粋するだけでも、結構大変な作業だった。 私もこれで自習していこうかと、、
補足資料
(1)データサイエンティストに求められるスキルセット(データサイエンティスト協会 配信資料より引用)
- ビジネス 力(business problem solving):課題背景を理解した上で、ビジネス課題を整理し、解決する力
- データサイエンス 力(data science):情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力
- データエンジニアリング 力(data engineering):データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力
(2)情報処理推進機構 ITSS+(プラス)・ITスキル標準(ITSS)・情報システムユーザースキル標準(UISS)関連情報より引用
「データサイエンス領域」 タスク構造図(中分類)
(3)/// スキルチェックリスト ver3.01 /// (2019年10月30日版)より引用
スキルカテゴリ一覧 | 項目 | |
---|---|---|
データサイエンス力 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
基礎数学 予測 検定/判断 グルーピング 性質・関係性の把握 サンプリング データ加工 データ可視化 分析プロセス データの理解・検証 意味合いの抽出、洞察 機械学習技法 時系列分析 言語処理 画像・動画処理 音声/音楽処理 パターン発見 グラフィカルモデル シミュレーション/データ同化 最適化 |
データエンジニアリング力 | 1 2 3 4 5 6 7 8 |
環境構築 データ収集 データ構造 データ蓄積 データ加工 データ共有 プログラミング ITセキュリティ |
ビジネス力 | 1 2 3 4 5 6 7 8 9 10 |
行動規範 契約・権利保護 論理的思考 着想・デザイン 課題の定義 データ入手 ビジネス観点のデータ理解 分析評価 事業への実装 活動マネジメント |