Michael Chen | コンテンツ・ストラテジスト | 2024年11月25日
機械学習という概念は、SFからビジネスや組織の情報処理方法における重要な推進要因へと変遷を遂げ、近年では一般的な用語となっています。データ作成のペースが飛躍的に増加し続ける中、機械学習ツールは、パターンを見極め、傾向を探り、最も収益性の高い道筋を描こうとする組織にとって極めて重要です。
機械学習はどの程度一般に浸透しているのでしょうか。eコマース・ウェブサイトやストリーミング・プラットフォームからのおすすめをクリックした場合、クレジット・カードが不正利用された可能性が通知された場合、あるいは文字起こしソフトウェアを使用している場合には、機械学習の恩恵を受けています。機械学習は、金融、医療、マーケティング、小売、その他多くの業界で、データからの貴重なインサイトの抽出とプロセスの自動化に使用されています。
機械学習(ML)は人工知能のサブセットで、より多くのデータを消費するにつれ学習および改善するシステムの構築に重点を置いています。人工知能は、人間の知能を模倣したシステムや機械を指すより広い意味の言葉です。機械学習とAIは一緒に語られることが多く、両方の単語が同じ意味で使われることもありますが、厳密には同じ意味ではありません。
つまり、機械学習はすべてAIですが、AIはすべてが機械学習というわけではありません。
主なポイント
機械学習は、非常に膨大になる可能性のあるデータセットを検索することで、データ内のこれまで知られていなかった関係を見出し、シンプルな統計分析を超えるパターンや傾向を発見する技術です。機械学習では、データのパターンを識別するためにトレーニングされた高度なアルゴリズムを使用し、モデルを作成します。これらのモデルは、予測やデータの分類に使用できます。
アルゴリズムはモデルと同じものではないことにご注意ください。アルゴリズムとは、特定の問題を解決したり、特定のタスクを実行するために使用するルールや手順のセットであり、モデルとは、アルゴリズムをデータセットに適用した際の出力や結果です。
トレーニングの前にはアルゴリズムがあります。トレーニングの後にはモデルができます。
たとえば、機械学習は医療において医療画像の分析、予測分析、病気の診断などのタスクに幅広く利用されています。機械学習モデルは、MRIスキャン、X線スキャン、CTスキャンなどの医療画像を分析して、人間の目には見えなかったり、過労状態の診断医が見落とす可能性のあるパターンの特定や異常の検出に最適です。機械学習システムはまた、症状、遺伝子情報、その他の患者データを分析し、がん、糖尿病、心臓病などの疾患に対する検査を提案することもできます。
機械学習の主な特徴は次のとおりです。
機械学習には主に4つのタイプがあります。それぞれに強みと限界があり、目の前の特定のタスクに適切なアプローチを選択することが重要です。
強化機械学習は、教師なし機械学習と同様に、ラベル付きではないデータセットを使用しており、アルゴリズムがデータを評価します。しかし、強化学習は、存在する可能性のあるあらゆるパターンを見極めるためにデータを探索するのではなく、設定された目標に向かって取り組むという点で異なります。この点を考慮して、アルゴリズムは試行錯誤のプロセスを進めます。アルゴリズムでは、ひとつひとつの動きに、ポジティブ、ネガティブ、またはニュートラルなフィードバックが返され、それを使用して全体的な意思決定プロセスが改善されます。強化学習アルゴリズムは、短期的にネガティブな結果を扱うことになったとしても、プロジェクトの目標に向かってマクロ・レベルで取り組むことができます。このように、強化学習は、プロジェクト目標のコンテキストが選択におけるリスクに影響を与えることができるため、他の手法よりも複雑で動的な状況を扱うことができます。コンピューターにチェスを教えることがそのよい例です。全体的な目標はゲームに勝つことですが、ゲームが進むにつれて駒を犠牲にすることが必要な場合もあります。
貴社のニーズに最適なものはどれでしょうか。教師ありアプローチ、または3つのうちいずれを使用するかは、通常、データの構造と量、トレーニングに割ける予算と時間、最終モデルの適用対象となるユースケースにより決まります。スカートに合うブラウスのお薦めを失敗しても、大きな問題にはないかもしれません。しかし、腫瘍を見逃すことは、そうではありません。
その名前が示すように、機械学習は、プログラマーが問題の解決を目指す静的なアルゴリズムを開発する従来のアプローチではなく、トレーニング・データを評価することによって、特定の目的のために改善されるコンピューターベースの統計モデルを作成することによって機能します。データセットがMLモデルに適用されると、結果の出力はデータ精度によって判定され、データ・サイエンティストはハイパーパラメータと呼ばれる一連の確立された変数と、学習パラメータと呼ばれるアルゴリズムによって調整された変数を通してモデルを調整できます。
アルゴリズムはトレーニング・データを評価しながら調整するため、新しいデータの処理と計算の過程で、アルゴリズムがより優れた機能を発揮できるようにトレーニングされます。アルゴリズムはプロジェクトの計算部分であり、「モデル」という言葉は実際のユースケースに使用できるトレーニング済みのアルゴリズムを指します。
機械学習プロジェクトのスコープ、リソース、および目標によって、最も適切な道筋が決まりますが、ほとんどの場合、一連のステップを伴います。
1.データの収集とコンパイル
MLモデルのトレーニングには、多くの高品質なデータが必要です。しかし、そのようなデータ を見つけることは困難なこともあり、また必要に応じてラベリングすることは、非常に多くのリソー スを要することがあります。潜在的なデータ・ソースを特定した後、それらを評価し、全体的な品質とプロジェクトの既存のデータ統合/リポジトリ・リソースとの一致を確認します。これらのソースは、機械学習プロジェクトにおけるトレーニングの基盤となります。
2.適切なアルゴリズムの選択によるモデルの実現
プロジェクトが教師あり学習、教師なし学習、半教師あり学習のいずれを使用する計画であるかによって、データ・サイエンティストは最適なアルゴリズムを選択することができます。たとえば、ラベル付きデータセットを使用する単純なプロジェクトでは決定木が使用できますが、クラスタリング(データサンプルを類似したオブジェクトのグループに分割すること)では、アルゴリズムが教師なしで機能し、目標に対する最適な道筋を決定するため、より多くのコンピューティング・リソースが必要です。
3.分析のためのデータの改善と準備
入力データはすぐに利用できるとは限りません。データ準備では、すべてのレコードがトレーニング中に簡単に取り込めるように、データセットをクリーンアップします。準備には、日付や時刻のフォーマットの確立、必要に応じて列の結合や分離、実数データで許容できる有効桁数などのフォーマットパラメータの設定など、さまざまな革新的なタスクが含まれます。その他の重要な作業としては、重複レコードの消去(データ重複除外とも呼ばれる)や、外れ値の特定と場合によってはその削除などがあります。
4.トレーニングによるモデルの教育
最適な最終モデルが選択されると、トレーニング・プロセスが開始されます。最適な最終モデルが選択されると、トレーニング・プロセスが開始されます。最初の実行では、結果は素晴らしいものではない可能性がありますが、データ・サイエンティストは必要に応じて微調整を行い、パフォーマンスの改善と精度の向上を図ります。その後、アルゴリズムをより精密に調整するために再度データに触れさせますが、ここでは通常、より多くのデータを用います。アルゴリズムがより多くのデータに触れるほど、最終モデルはより望ましい結果を出すことができるようになります。
5.モデルのパフォーマンスと精度の評価
十分な精度になるまでモデルをトレーニングしたら、今度は未知のデータを使ってモデルのパフォーマンスをテストします。テストには、最初のトレーニング後に使用するトレーニング・データのサブセットを使用することがよくあります。
6.モデル・パラメータのファインチューニングと強化
この時点で、モデルは導入間近で あると考えられます。テスト・データセットで実行すると、非常に正確な結果が得られることになります。強化は、特定のデータ(多くの場合、企業の運用に固有のデータ)を使用した追加トレーニングによって行われ、元のトレーニングで使用している一般化されたデータを補完します。
7.モデルの実用開始
結果の最適化により、モデルは通常の本番使用において、これまで未知であったデータへの取り組みが可能になります。モデルが実用化されると、プロジェクト・チームは、実際のシナリオにおけるモデルのパフォーマンスに関するデータを収集しますこれは、モデルによる予測の全体的な正確性である精度や、正確に予測されたポジティブな観察値の比率である再現率など、主要なパフォーマンスメトリクスをモニターすることによって実行できます。また、モデルの予測がビジネス現場の成果にいかに影響を及ぼしているか、それがブラウスの売上増であれ、診断の改善であれ、ビジネス上の価値を生み出しているかについても検討します。
モデルのパフォーマンスに対する定期的な監査とレビューを実施することは、導入後に発生し得た問題や歪みを確認できるよう支援することができ、モデルが効果的に機能し、期待される目標を達成するために必須です。
アルゴリズムは、機械学習プロジェクトの計算部分です。ひとたびトレーニングされると、アルゴリズムは、質問に答える、あるいは目標を達成する統計的確率を持つモデルを生成します。その目標は、「猫をすべて特定する」といった画像内の特定の特徴を見つけ出すことである場合もあれば、詐欺やスパム、マシンのメンテナンス問題を示す可能性のあるデータの異常を特定することという場合もあります。また、他のアルゴリズムでは、ショッピング・カートに現在入っているアイテムに基づいて、購入者が他に好む可能性のあるファッション・アイテムの予測を試みることもあります。
機械学習で使用されている最も一般的なアルゴリズムには、次のようなものがあります。.
ニューラル・ネットワークを超えて
機械学習はさまざまなアルゴリズムを使用しています。上記で説明したものが最も一般的なアルゴリズムですが、ここではそれほど一般的ではないものの、役立つアルゴリズムを5つ紹介します。
勾配ブースティング | シーケンス内の過去のエラーに着目してモデルを順次構築します。不正やスパムの検出に役立ちます。 |
K近傍(KNN) | シンプルかつ効果的なモデルで、トレーニング・データ内の最近傍のラベルに基づいてデータポイントを分類します。 |
主成分分析(PCA) | 最も重要な機能を特定することで、データの次元を削減します。たとえば異常検知などの可視化やデータ圧縮に役立ちます。 |
Qラーニング | 試行錯誤を通じて学習し、望ましい行動にはリワードを、間違った行動にはペナルティを受け取るエージェントを活用します。 |
サポート・ベクター・マシン(SVM) | 画像分類など、異なるクラスに属するデータポイントを効果的に分離するための超平面を作成します。 |
機械学習により、組織は他の方法では見つけることができないデータに関するインサイトを引き出すことができます。機械学習をプロセスに統合することで得られる最も一般的なメリットには、次のようなものがあります。
機械学習プロジェクトの有効性は、それを構築するシステムとリソースによって決まります。そのため、適切な計画と準備への投資に対する必要性が明らかになります。
以下は、機械学習プロジェクトが直面する最も一般的な課題です。
機械学習は、ほぼすべての業界と組織内のすべての部門に大きなメリットを提供します。数字が処理され、データがあれば、機械学習は効率を向上させ、新たな種類のエンゲージメントを引き出す方法を提供します。あらゆる業界にまたがる一般的な機械学習のユースケースには次のようなものがあります。
Oracle Databaseの機械学習は、機械学習プロセスを加速するためのさまざまな機能と特徴を提供します。データをデータベース内に保持する機能により、データ・サイエンティストは、30種類以上の組み込まれた高パフォーマンスのアルゴリズム、R、SQL、Pythonなどの一般的な言語のサポート、自動化された機械学習機能、コード不要のインターフェースなどを活用しながら、ワークフローを簡素化し、セキュリティを高めることができます。
大規模なデータセットを持つ組織では、HeatWave MySQLを使用したデータベース内の機械学習により、機械学習のためにデータを別のシステムに移動する必要がなくなり、セキュリティの向上、コスト削減、時間の短縮を支援できます。HeatWave AutoMLは、アルゴリズムの選択、トレーニング用のインテリジェントなデータ・サンプリング、機能の選択、チューニングなど、機械学習のライフサイクルを自動化し、多くの場合、時間と労力をより大幅に削減します。
機械学習の利点は、大量のデータを迅速かつ正確に分析および解釈する機能です。一度トレーニングされた機械学習モデルは、人間が検出するまでに数週間かかるようなパターン、トレンド、インサイトを数秒から数分で特定することができます。その結果、十分な情報に基づく意思決定、問題解決の改善、データに基づく予測を行う機能が向上します。さらに、機械学習モデルは定型的なプロセスを自動化し、時間とリソースを削減することができます。機械学習は、職場を革新し、イノベーションを推進する可能性を実現しつつあります。
機械学習はデータの価値を引き出すカギであり、人工知能プログラムを成功させる第一歩です。
AIとMLの違いを教えてください。
人工知能は、人間のように考えるシステムを構築・改善することに焦点を当てた、幅広いコンピューティング分野に与えられた名称です。機械学習は、この分野のサブセットであり、特に学習プロセスのコンピューティングの側面に焦点を当てています。この2つの言葉は同じ意味で使用されることが多く、同じような課題に直面していますが、このようなつながりにもかかわらず、別々に存在しています。
機械学習の4つの主なタイプを教えてください。
機械学習には次の4つのタイプがあります。
機械学習を学ぶことは大変でしょうか。
どのような技術でもそうですが、機械学習の裏と表を学ぶことは、時間と集中が必要とされる反復プロセスです。機械学習を始めるには、統計学の理解とともに、PythonやRなどのプログラミング言語の基礎を身につけることが良い出発点となります。機械学習の出力に対する評価には、回帰、分類、フィッティング、パラメータなどの統計的概念の理解が必要な要素が数多くあります。
機械学習の例を教えてください。
機械学習の最も一般的な例の1つは、提案エンジンです。「こちらもおすすめです」という製品のお薦めとして表示されます。動画ストリーミング・メディアでは、次に見るべきもののアイデアとして見られます。このような場合、アルゴリズムはユーザーの履歴を取り込み、ユーザーが興味を持ちそうなものの予測を作成し、ユーザーがデータポイントを追加するほど、アルゴリズムは予測を改善することができます。