「LLM入門2:数学で理解する、大規模言語モデルの仕組み 」下田 昌平(Kindleペーパーバック 2025)
この本の正式名称は「LLM入門:数学で理解する、大規模言語モデルの仕組み: 機械が言葉を理解する数学的な理由 (LLMマスターシリーズ)」のようです。このブログの別記事に書いた「LLM入門1」の続編で第2巻です。
LLMの仕組み
この第2巻は、確率、統計、線形代数に関することか始まり、LLMの説明、つまり、何故機会が言葉が理解し言葉で答えるのかが分かる仕組みが少し数学を用いて説明されています。具体的には、基礎的な説明の後、勾配降下法・損失関数・最適化手法の説明、大規模データセットとトレーニング手法、非常に重要な技術であるトランスフォーマーやアテンションについての直感的に説明があり、その後、LLMの応用、リスクなどの解説があります。
この本は、確率や線形代数といった基礎知識がない人でも分かるように意識して書かれているようです。実際、よく工夫された、とても分かりやすい記述になっています。しかし、逆に、数学的な基礎知識やニューラルネットワーク、ディープラーニングについての基本的知識がないと、式が書かれていても、LLMの中で具体的にどの様な処理が行われているかというイメージは湧かないのではないかと想像されます。
このシリーズは、「LLMをどう活かすか」を考えるための技術的視座を提供することも目的の一つのようですので、実際に生成AIを使う人にもう少し中身、仕組みを知ってもらうことにも重点がおかれているようですので、その意味では本書は成功しているのでは、と思われます。
具体的な処理については、おそらく、第3巻以降で触れられるのかもしれません。第3巻以降は、実際にアプリ、プロトタイプ開発をしたい人、あるいは実務者、開発者に向けのようですので、私はおそらくこの第2巻で脱落することになると思います。