キニナル・コトバ 第19回「データサイエンスとその周辺」
作成日:2023.09.27 更新日:2023.09.27 公開日:2023.09.27
チャットGPTを始めとする「生成AI」。ちょっと落ち着いた感もありますが、相変わらず話題ですね。生成AIはネットなどで収集した膨大なデータを分析して学習し、ユーザーの指示のもとに文章をまとめたり、絵を描いたり、音楽を作ってくれたりするものです。基本となるのは「ディープラーニング」の技術。
そして、ふと電車の吊り広告などを見ると、「××大学 データサイエンス学部新設」の文字。「データサイエンティストが、現在注目を集めています!」などと、煽りコピーが躍っています。
そういえば最近、「機械学習」やら「ディープラーニング」やら「ビッグデータ」やら「データサイエンス」など「AIに関係していそうな」ワードが、よく使われています。
しかも、2022年から高校では「情報Ⅰ」の授業で、プログラミング教育が必修化。
また、2017年に滋賀大学がデータサイエンス学部を創設したのを皮切りに、2023年には5つの大学でデータサイエンス関連の学部・学科が新設されています。世はまさに「データサイエンス花盛り」。
でも、それぞれどういう意味なの? と疑問に感じたり、よく似てそうな言葉だけど、それぞれの関係は? と悩む人も多いでしょう。筆者もそうした一人です。「データサイエンス」って漠然としすぎていて、よく分かりません。
そこで今回は、基本に立ち返り、データサイエンス周りのワードを集めてみました。
■「AI(人工知能)」とは
まず、AI(人工知能)からいきましょう。AIは「Artifical Intelligence」の略です。1955年にアメリカのジョン・マッカーシーという科学者がこの言葉を初めて使い、翌1956年には初の人工知能の国際会議が開催されました。マッカーシーは、「人工知能の父」と呼ばれています。
AIは、「人工の知能」というだけあって、人間のように考えること、文字や絵、音を読んだり認識したり、ものを書いたり、推測して考えたりすること(推論)をコンピュータに行わせる技術や、そうしたコンピュータそのもののことを言います。
AIにはこれまで、3度のブームがあったと言われています。
一度目は、1950~60年代。広がりつつあったコンピュータを使ってチェスなどを指したり、障害物を避ける乗り物が作られたりしました。簡単な会話ができる、初期の対話型AIが生まれたのもこの頃です。しかし、コンピュータの性能が今と比べて貧弱で、ブームはやがて壁に突き当り、終息しました。
次のブームは、1980~90年代です。この頃発展した知識工学に基づき、人間が入力したデータや知識を利用して推論を行う「エキスパートシステム」が脚光を浴びました。
コンピュータが、株価や病気の診断などを行うものです。しかし、このブームも、データを人間の手で入力しなければならないことや、コンピュータの性能に限界があったことで終息していきます。
そして今が、3度目のブームと言われています。今度は「機械学習」「ディープラーニング」といった、コンピュータが膨大なデータから、自ずと分析を行い、学習する点が違っています。これまでとは、コンピュータの性能も各段に上がりました。生成AIを始め、人間の名人を破るほどになった囲碁や将棋のソフトなど、不可能と思われていた成果が続々と出ています。
■「機械学習」と「ディープラーニング」とは
では、機械学習とは何でしょうか。
現在のAIなどの技術は、まず高度化したコンピュータに、膨大なデータを読み込ませて分類・分析させ、学習して関係性を見つけることが基本になっています。それを可能にしているのが、「機械学習」の技術です。
「機械学習」とは、膨大なデータをコンピュータが読み取って自動的に学習し、ルールやパターンなどを見つけ出すしくみや、そうした研究です。「機械学習」という言葉は、アメリカのコンピュータ・人工知能学者のアーサー・サミュエルによって、1959年に名付けられました。学ばせ方によって、「教師あり学習」「教師なし学習」「強化学習」の3種類に分けられます。
「教師あり学習」は、データの分析に正解(教師データ)がある学習です。コンピュータは正解になるべく近い結果を出すように、学習を重ねていきます。
「教師なし学習」は、正解がない状態で大量のデータを与え、データ群を分類したり、ルールなどを発見させていく方法です。ビッグデータ解析で、コンピュータが思いがけないルールを発見したりするのはこれです。
「強化学習」は、コンピュータが成果を挙げた場合に、報酬を与えて、能力を洗練させていく手法です。たとえば将棋や囲碁のソフトで、勝った場合に報酬を与え、正しい手を指すように学ばせ、コンピュータの「腕前」を上げていくなどの方法があります。
「ディープラーニング」とは、こうした機械学習の一種で「深層学習」といいます。人間が自然に行っている、文字などを読んだり標識などを識別する視覚認識や音声認識などを、多層的に解析し、パターン認識を行う技術です。人間の脳神経構造を模してコンピュータ上に造られた「ニューラルネットワーク」を使い、データからパターンを見つけ出します。
ディープラーニングでは、パターンをいくつもの階層に分けて、より深く学習することができるようになっています。この多層構造での分析が、ディープラーニングの特徴で、高い精度での分析を可能にしています。
■「ビッグデータ」とは
膨大なデータをもとにした「機械学習」。こうした学習を可能にしたのが、「ビッグデータ」の収集です。
「ビッグデータ」とは、人間では全体像を把握することが困難で、通常の処理ソフトでは分析することが不可能な巨大なデータ群のことを指します。ビッグデータに決まった分量はありませんが、一般的に数十テラバイトから1ペタバイトクラスの巨大なデータ量とされます。ちなみに1ペタバイトとは、1,000テラバイト。最近のHDDレコーダーの容量が1テラバイトくらいですから、その1,000台分と考えればいいでしょう。
ビッグデータは、Volume(膨大な量)、Variety(非常な多様さ)、Velocity(発生する速度や頻度)という「3つのV」を兼ね備えたものだとされます。
ビッグデータの種別は、総務省『情報通信白書』によると、(1)政府や地方公共団体から出されるデータ、(2)企業が持つパーソナルデータ以外のデータ、(3)企業が工場などの生産現場からIoT機器などで収集したMtoM(Machine to machine)データ、(4)個人の属性や購買履歴などのパーソナルデータ、の4種類に分けられるとしています。
以前は、機械学習のもととなる大量のデータは、人間の手で集められ、整理してコンピュータに与えられていました。それが、インターネットの登場や、IoT(モノのインターネット化)で、膨大なデータを自動的に収集することが可能になりました。
ビッグデータ利用が盛んになるにつれ、膨大なデータを蓄えておける巨大データベース「データウェア・ハウス(DWH)」の整備も進んでいます。
こうした膨大なデータを集め、統計学などを使って、有益な知見を得る作業を「データマイニング」といいます。「マイニング」、すなわち「お宝掘り」です。たとえば「ある病気にかかった膨大な数の患者のデータを詳しく分析して、予想もしなかった共通点や治療法を見つけ出す」といったことが、このデータマイニングの成果です。分析にはAIが活用されますので、データマイニングもAI周辺のコトバです。
■さて、「データサイエンス」とは
さて、「データサイエンス」というコトバも、実は決まった定義がありません。
一般的には「データサイエンス」は、数学や統計学をはじめとするさまざまな研究を駆使し、膨大なデータの高度な分析を行う学問です。
データサイエンスという言葉自体は1970年代からありますが、現代のそれは、AI(人工知能)を中心に据え、AIに機械学習を行わせて膨大なデータを処理し、新たな知見を得ようとする学問に進化しています。
機械学習も、AI研究も、データマイニングも、自然言語認識も、全部データサイエンスに含まれています。ひょっとすると、基本的なプログラミング技術についても、今のノリだと「データサイエンス」に含まれかねません。
おっと、説明し忘れていましたが、「自然言語認識」というのは、我々が日常話す言葉を解析して、文章の意味を理解したり、分析結果を活用して自動翻訳に役立てたり、対話型AIを作ったりする学問です。人々が話す言葉という、あいまいでかつ膨大なデータ群を扱うので、これも重要なタームです。
まあ、最近、大きな拡がりを見せている分野ですので、あえて定義を決めなくていいかもしれません。まったく関係ないと思っていた分野が、ある日ひょっこりデータサイエンスに加わることもあるかもしれないからです。
大きな可能性・将来性のある分野ですが、今後このブームが定着し、優秀なAI・データサイエンスの人材を輩出してほしいと思います。過去に日本は、官民挙げて「第五世代コンピュータ」の開発を試み、みごとに敗れ去った経験があります。ぜひ今度は、今の世界の潮流に追いつくような、データサイエンスの活況を、日本が生み出してほしいと思います。