データサイエンスの学習を始めた方、これから始める方も多いと思います。データサイエンス初学者の頃は特に
何から始めていいかわからない
まずは本で勉強したい!
という方も多いのではないでしょうか。
今回は「これからデータサイエンスを始める」「データサイエンスとはどういうものか、まずは知ってみたい」という方を対象におすすめの本3選を紹介していきます。
データサイエンス・データ分析 オススメ本3選
選定のポイント
対象となる方
- これからデータサイエンスを始めたい
- データサイエンスとは何かを理解したい
- データサイエンス・データ分析手法を学んでみたい
以下の記事ではPythonの学習を進めたい向けにおすすめ参考書を紹介しています。
こんな方に読んでほしい
今回紹介する本は、それぞれ以下のような方に読んでいただきたいです。
- データサイエンス・データ分析に関してまずはおおよそのイメージをつかみたい
- 勉強するといっても何から始めてよいかわからない
- データサイエンス・データ分析を始めるすべての方
⇒1冊目:ディープラーニングG検定 公式テキスト
- ビッグデータにこだわらず、データサイエンス・データ解析を勉強したい
- 解析で何をしているかをちゃんと理解したい方
- Pythonライブラリに頼って解析しているけど、意味が分かっていないという方
⇒2冊目:スモールデータ解析と機械学習
- データ分析の実際の流れを知りたい方
- 特徴量エンジニアリングを勉強したい方
- Kaggleでさらにデータサイエンス力を伸ばしたい方
⇒3冊目:Kaggleで勝つデータ分析の技術
オススメ本での学習と合わせて行いたいこと
Webでの学習
本TechTeacherBlogにはPythonの基礎を学べる記事があり、本と併用していただくことでより学習がスムーズになります。
ディープラーニングG検定 公式テキスト
おすすめポイント
- データサイエンス・データ分析周りの知識を系統だって理解できる
- 基礎内容から丁寧に解説されている
- テキストなので、重要なところがわかりやすい
日本ディープラーニング協会で実施されているG検定の受験用テキストです。本来は「受験用テキスト」なのですが、受験のためでなくても非常に参考になります。
また、「ディープラーニング」となっていますが、ディープラーニングを中心としてデータサイエンス・データ分析・機械学習など系統だって学べるのでまずこれを読んでみることをお勧めします。自分自身の理解度を確かめるためにG検定を受験してみるのも良いです。
本の特徴:概論から詳細まで
G検定はコードの実装ではなく、リテラシー的な知識を問われる試験です。ディープラーニングを実装するためのPythonコードは一切出てきません。具体的には機械学習やディープラーニングの理論的な部分や歴史、どのような種類があるのかなどこの分野の学習を始めるにあたり知っておきたい全体の知識がとわれます。
そのため、このG検定のテキストもディープラーニング含め、データ分析の周辺知識に関して非常にきれいにまとめられています。まずはこの本で全体観を勉強すると今後の学習内容をスムーズに理解できます。
特に、各機械学習手法やディープラーニングの解説においては、どのライブラリを使用してコード実装するかという解説ではなく、「どのような考えでどのようなことを行って解析しているか」という部分がしっかり書いてあるので非常に勉強になります。
データ分析の学習が進んでくると、実装方法に関してよりも、そのデータや解析方法がどのような意味を持っているかが重要になってくることが多くあります。この本で基礎部分をしっかり身につけてください。
スモールデータ解析と機械学習
おすすめポイント
- 解析方法の意味が理解できる
- 統計的な考え方からのデータ解析アプローチの視点が身につく
- 機械学習ライブラリは道具でしかないよ、ということが理解できる
こちらの本もデータサイエンス・データ分析の本質部分を教えてくれる非常に良い本です。特にスモールデータからビッグデータまで取り扱っており、「データをライブラリに入れれば答えが出るね」というところから一歩先に進みたい方には特におすすめです。
本の特徴:スモールデータからビッグデータまで
データサイエンス・データ分析手法は統計的な考え方に基づいて考えられています。ライブラリにデータを入れてそれらしい答えを出すのもよいのですが、そこに向けてどのようなモデルを選択するか、データ自体をどう加工するかを考える際に統計的考え方、また、モデルの意味を知っておくことは非常に有用です。
それに加えてデータの組成を知っておくことも非常に重要です。正しく有用なデータから始めて解析しないと解析結果が誤ったものになってしまいます。漏れなく偏りなく抽出したデータだと思っていても実際には偏りがあることは多々あり、自分でデータを取る際にも提供を受ける際にもこの辺りには注意が必要です。
実際の現場でデータを取り扱う場合はデータを収集ことも大きなポイントを占めており、このあたりのことが第7章「データ収集や解析の心構え」に書かれており、実際のデータを扱う上で非常に参考になります。
このように、解析の意味とそれを取り扱うときの注意点を実践的に解説している一冊で、仕事でデータ分析を行いたい方にはぜひ読んでいただきたい一冊です。
Kaggleで勝つデータ分析の技術
おすすめポイント
- 一般的なデータサイエンス・データ分析の手順がわかる
- 特徴量エンジニアリングの基礎がわかる
- Kaggleへの参加のハードルが下がる
世界的なデータサイエンスコンペであるKaggleで好成績を収めるにはどうしたらよいかという視点でデータ分析の流れを解説している本です。
Kaggleはまだまだ敷居が高いなぁ、という方もいるかもしれませんが、Kaggleにこだわらずともデータ解析の流れがわかるので、ぜひ一度手に取ってみてほしい一冊です。
Kaggleについて以下の記事で詳細に解説しています。
本の特徴:「特徴量」の作り方の解説が充実
Kaggleを目標にしてはいますが、一般的なデータ分析の流れを理解することができます。
機械学習モデルを使用してデータ分析をする際、そのデータを説明する「特徴量」をどのように作成するかは非常に重要であり、特徴量がモデル精度を大きく左右するといっても過言ではありません。
この特徴量を検証したり作成することを「特徴量エンジニアリング」といいますが、この本では特徴量エンジニアリングについて詳しく書かれており、導入部分から丁寧に記述されているので非常に参考になります。この特徴量の作り方の箇所は一読のしがいがあります。
「特徴量エンジニアリング」については以下の記事で詳細に解説しています。
『Tech Teacher』3つの魅力
魅力1. オーダーメイドのカリキュラム
『Tech Teacher』では、決められたカリキュラムがなくオーダーメイドでカリキュラムを組んでいます。「質問だけしたい」「相談相手が欲しい」等のご要望も実現できます。
魅力2. 担当教師によるマンツーマン指導
Tech Teacherでは、完全マンツーマン指導で目標達成までサポートします。
東京大学を始めとする難関大学の理系学生・院生・博士の教師がが1対1で、丁寧に指導しています。
そのため、理解できない箇所は何度も分かるまで説明を受けることができます。
魅力3. 3,960円/30分で必要な分だけ受講
Tech Teacherでは、授業を受けた分だけ後払いの「従量課金制」を採用しているので、必要な分だけ授業を受講することができます。また、初期費用は入会金22,000円のみです。一般的なプログラミングスクールとは異なり、多額な初期費用がかからないため、気軽に学習を始めることができます。
まとめ
・魅力1. 担当教師によるマンツーマン指導
・魅力2. オーダーメイドのカリキュラム
・魅力3. 3,960円/30分で必要な分だけ受講
質問のみのお問い合わせも受け付けております。
まとめ
今回は、データサイエンス初学者がデータサイエンスを勉強するのに役に立つ本3冊を紹介しました。
この記事で紹介した本はすべて素晴らしいのですが、最初からすべて理解するのは大変だと思います。まずはできるところから進めていけば実力がついておのずとすべてできるようになっていきますので躓いてもあきらめずに頑張っていきましょう。