機械学習とは?

Michael Chen | コンテンツ・ストラテジスト | 2024年11月25日

機械学習という概念は、SFからビジネスや組織の情報処理方法における重要な推進要因へと変遷を遂げ、近年では一般的な用語となっています。データ作成のペースが飛躍的に増加し続ける中、機械学習ツールは、パターンを見極め、傾向を探り、最も収益性の高い道筋を描こうとする組織にとって極めて重要です。

機械学習はどの程度一般に浸透しているのでしょうか。eコマース・ウェブサイトやストリーミング・プラットフォームからのおすすめをクリックした場合、クレジット・カードが不正利用された可能性が通知された場合、あるいは文字起こしソフトウェアを使用している場合には、機械学習の恩恵を受けています。機械学習は、金融、医療、マーケティング、小売、その他多くの業界で、データからの貴重なインサイトの抽出とプロセスの自動化に使用されています。

機械学習とは?

機械学習(ML)は人工知能のサブセットで、より多くのデータを消費するにつれ学習および改善するシステムの構築に重点を置いています。人工知能は、人間の知能を模倣したシステムや機械を指すより広い意味の言葉です。機械学習とAIは一緒に語られることが多く、両方の単語が同じ意味で使われることもありますが、厳密には同じ意味ではありません。

つまり、機械学習はすべてAIですが、AIはすべてが機械学習というわけではありません。

主なポイント

  • 機械学習はAIのサブセットです。
  • 機械学習の最も一般的な4つのタイプは、教師あり、教師なし、半教師あり、強化型です。
  • 機械学習アルゴリズムの一般的なタイプには、ニューラル・ネットワーク、決定木、クラスタリング、ランダム・フォレストがあります。
  • ビジネスにおける一般的な機械学習のユースケースには、オブジェクトの識別と分類、異常検知、文書処理、予測分析などがあります。

機械学習について

機械学習は、非常に膨大になる可能性のあるデータセットを検索することで、データ内のこれまで知られていなかった関係を見出し、シンプルな統計分析を超えるパターンや傾向を発見する技術です。機械学習では、データのパターンを識別するためにトレーニングされた高度なアルゴリズムを使用し、モデルを作成します。これらのモデルは、予測やデータの分類に使用できます。

アルゴリズムはモデルと同じものではないことにご注意ください。アルゴリズムとは、特定の問題を解決したり、特定のタスクを実行するために使用するルールや手順のセットであり、モデルとは、アルゴリズムをデータセットに適用した際の出力や結果です。

トレーニングの前にはアルゴリズムがあります。トレーニングの後にはモデルができます。

たとえば、機械学習は医療において医療画像の分析、予測分析、病気の診断などのタスクに幅広く利用されています。機械学習モデルは、MRIスキャン、X線スキャン、CTスキャンなどの医療画像を分析して、人間の目には見えなかったり、過労状態の診断医が見落とす可能性のあるパターンの特定や異常の検出に最適です。機械学習システムはまた、症状、遺伝子情報、その他の患者データを分析し、がん、糖尿病、心臓病などの疾患に対する検査を提案することもできます。

機械学習の主な特徴は次のとおりです。

  • パターンの自動検出
  • 可能性の高い結果の予測
  • 実用的な情報の作成
  • 非常に大量のデータを分析する機能

機械学習のタイプ

機械学習には主に4つのタイプがあります。それぞれに強みと限界があり、目の前の特定のタスクに適切なアプローチを選択することが重要です。

  • 教師あり機械学習は最も一般的なタイプです。この場合、ラベル付けされたデータがアルゴリズムにどのような結論を出すべきか教えます。子供が絵本で果物の見分け方を覚えるように、教師あり学習では、アルゴリズムはすでにラベル付けされたデータセットを用いてトレーニングを行います。教師あり機械学習の例はスパム・メール・フィルタで、アルゴリズムは各メールにスパムかスパムでないかのタグが付けられたラベル付きデータセットでトレーニングされます。モデルはこれらのラベル付けされた例から学習し、識別したパターンに基づいて新しい受信メールがスパムの可能性が高いかどうかを予測することができます。このような教師あり学習では、アルゴリズムが学習して将来正確に予測ができるように、データをラベル付けして正確な回答を提供する人間のエキスパートが必要です。

    ここではまっさらなデータを使用してトレーニングすることが目標ではないことにご注意ください。実際にシステムが目にするものを再現できれば望ましいのですが、スパムの中には特定しやすいものがある一方で、巧妙な例や曖昧な例もあります。過度にクリーンなデータはオーバーフィッティングにつながり、そのモデルは他の純粋なサンプルしか識別できなくなります。
  • 教師なし機械学習はより独立したアプローチを使用し、コンピューターは事前にラベル付けされたデータに依存することなく、複雑なプロセスやパターンを識別することを学習します。教師なし機械学習では、ラベルのないデータに基づいてトレーニングを行うだけでなく、メールがスパムの可能性が高いかどうかといった特定の定義済み出力もありません。

    教師なし機械学習は、類似するデータのグループを特定し、クラスタを作成する傾向があります。一度トレーニングをすれば、モデルは似たようなパターンを識別し、そのデータを適切なグループに分類することができます。教師なし機械学習の一般的な用途は推薦エンジンで、「あれを購入した顧客はこれも購入しています」という推薦事項を提供するために顧客アプリケーションで使用されています。異質なパターンが見つかった場合、アルゴリズムはそれを異常として識別することができ、不正検出に役立ちます。
  • 半教師あり機械学習は、モデルを完全にトレーニングするのに十分なラベル付きデータがないという問題に対処します。たとえば、大規模なトレーニング・データセットがあるにもかかわらず、すべてのデータセットにラベリングを行う時間とコストを費やすことを望まない場合があります。教師あり学習と教師なし学習を組み合わせて使用していることで、完全にトレーニングされたモデルを実現できることがよくあります。トレーニング・プロセスは、教師あり学習のように、ラベル付きデータを使用して初期結果を取得し、アルゴリズムのガイドラインを確立することから始まります。ラベル付きデータを使い切ると、半学習モデルにはラベル付きではないデータセットが提供されます。半学習モデルは、これまでのトレーニングを使用して、ラベル付きデータセットに追加することを目標に、ラベル付きではないデータを調べます。モデルがサンプルに適切なラベルを高い確実性で見つけることができれば、そのサンプルはラベル付きデータに追加されます。学習プロセスは再び開始されますが、今度はより多くのラベル付きサンプル・セットを使用します。これを繰り返すことで、より多くのサンプルによく擬似ラベルと呼ばれるラベルが付けられ、モデルをさらに改善することができます。

    強化機械学習は、教師なし機械学習と同様に、ラベル付きではないデータセットを使用しており、アルゴリズムがデータを評価します。しかし、強化学習は、存在する可能性のあるあらゆるパターンを見極めるためにデータを探索するのではなく、設定された目標に向かって取り組むという点で異なります。この点を考慮して、アルゴリズムは試行錯誤のプロセスを進めます。アルゴリズムでは、ひとつひとつの動きに、ポジティブ、ネガティブ、またはニュートラルなフィードバックが返され、それを使用して全体的な意思決定プロセスが改善されます。強化学習アルゴリズムは、短期的にネガティブな結果を扱うことになったとしても、プロジェクトの目標に向かってマクロ・レベルで取り組むことができます。このように、強化学習は、プロジェクト目標のコンテキストが選択におけるリスクに影響を与えることができるため、他の手法よりも複雑で動的な状況を扱うことができます。コンピューターにチェスを教えることがそのよい例です。全体的な目標はゲームに勝つことですが、ゲームが進むにつれて駒を犠牲にすることが必要な場合もあります。

貴社のニーズに最適なものはどれでしょうか。教師ありアプローチ、または3つのうちいずれを使用するかは、通常、データの構造と量、トレーニングに割ける予算と時間、最終モデルの適用対象となるユースケースにより決まります。スカートに合うブラウスのお薦めを失敗しても、大きな問題にはないかもしれません。しかし、腫瘍を見逃すことは、そうではありません。

機械学習の仕組み

その名前が示すように、機械学習は、プログラマーが問題の解決を目指す静的なアルゴリズムを開発する従来のアプローチではなく、トレーニング・データを評価することによって、特定の目的のために改善されるコンピューターベースの統計モデルを作成することによって機能します。データセットがMLモデルに適用されると、結果の出力はデータ精度によって判定され、データ・サイエンティストはハイパーパラメータと呼ばれる一連の確立された変数と、学習パラメータと呼ばれるアルゴリズムによって調整された変数を通してモデルを調整できます。

アルゴリズムはトレーニング・データを評価しながら調整するため、新しいデータの処理と計算の過程で、アルゴリズムがより優れた機能を発揮できるようにトレーニングされます。アルゴリズムはプロジェクトの計算部分であり、「モデル」という言葉は実際のユースケースに使用できるトレーニング済みのアルゴリズムを指します。

機械学習プロジェクトのスコープ、リソース、および目標によって、最も適切な道筋が決まりますが、ほとんどの場合、一連のステップを伴います。

1.データの収集とコンパイル

MLモデルのトレーニングには、多くの高品質なデータが必要です。しかし、そのようなデータ を見つけることは困難なこともあり、また必要に応じてラベリングすることは、非常に多くのリソー スを要することがあります。潜在的なデータ・ソースを特定した後、それらを評価し、全体的な品質とプロジェクトの既存のデータ統合/リポジトリ・リソースとの一致を確認します。これらのソースは、機械学習プロジェクトにおけるトレーニングの基盤となります。

2.適切なアルゴリズムの選択によるモデルの実現

プロジェクトが教師あり学習、教師なし学習、半教師あり学習のいずれを使用する計画であるかによって、データ・サイエンティストは最適なアルゴリズムを選択することができます。たとえば、ラベル付きデータセットを使用する単純なプロジェクトでは決定木が使用できますが、クラスタリング(データサンプルを類似したオブジェクトのグループに分割すること)では、アルゴリズムが教師なしで機能し、目標に対する最適な道筋を決定するため、より多くのコンピューティング・リソースが必要です。

3.分析のためのデータの改善と準備

入力データはすぐに利用できるとは限りません。データ準備では、すべてのレコードがトレーニング中に簡単に取り込めるように、データセットをクリーンアップします。準備には、日付や時刻のフォーマットの確立、必要に応じて列の結合や分離、実数データで許容できる有効桁数などのフォーマットパラメータの設定など、さまざまな革新的なタスクが含まれます。その他の重要な作業としては、重複レコードの消去(データ重複除外とも呼ばれる)や、外れ値の特定と場合によってはその削除などがあります。

4.トレーニングによるモデルの教育

最適な最終モデルが選択されると、トレーニング・プロセスが開始されます。最適な最終モデルが選択されると、トレーニング・プロセスが開始されます。最初の実行では、結果は素晴らしいものではない可能性がありますが、データ・サイエンティストは必要に応じて微調整を行い、パフォーマンスの改善と精度の向上を図ります。その後、アルゴリズムをより精密に調整するために再度データに触れさせますが、ここでは通常、より多くのデータを用います。アルゴリズムがより多くのデータに触れるほど、最終モデルはより望ましい結果を出すことができるようになります。

5.モデルのパフォーマンスと精度の評価

十分な精度になるまでモデルをトレーニングしたら、今度は未知のデータを使ってモデルのパフォーマンスをテストします。テストには、最初のトレーニング後に使用するトレーニング・データのサブセットを使用することがよくあります。

6.モデル・パラメータのファインチューニングと強化

この時点で、モデルは導入間近で あると考えられます。テスト・データセットで実行すると、非常に正確な結果が得られることになります。強化は、特定のデータ(多くの場合、企業の運用に固有のデータ)を使用した追加トレーニングによって行われ、元のトレーニングで使用している一般化されたデータを補完します。

7.モデルの実用開始

結果の最適化により、モデルは通常の本番使用において、これまで未知であったデータへの取り組みが可能になります。モデルが実用化されると、プロジェクト・チームは、実際のシナリオにおけるモデルのパフォーマンスに関するデータを収集しますこれは、モデルによる予測の全体的な正確性である精度や、正確に予測されたポジティブな観察値の比率である再現率など、主要なパフォーマンスメトリクスをモニターすることによって実行できます。また、モデルの予測がビジネス現場の成果にいかに影響を及ぼしているか、それがブラウスの売上増であれ、診断の改善であれ、ビジネス上の価値を生み出しているかについても検討します。

モデルのパフォーマンスに対する定期的な監査とレビューを実施することは、導入後に発生し得た問題や歪みを確認できるよう支援することができ、モデルが効果的に機能し、期待される目標を達成するために必須です。

機械学習の仕組み

機械学習アルゴリズム

アルゴリズムは、機械学習プロジェクトの計算部分です。ひとたびトレーニングされると、アルゴリズムは、質問に答える、あるいは目標を達成する統計的確率を持つモデルを生成します。その目標は、「猫をすべて特定する」といった画像内の特定の特徴を見つけ出すことである場合もあれば、詐欺やスパム、マシンのメンテナンス問題を示す可能性のあるデータの異常を特定することという場合もあります。また、他のアルゴリズムでは、ショッピング・カートに現在入っているアイテムに基づいて、購入者が他に好む可能性のあるファッション・アイテムの予測を試みることもあります。

機械学習で使用されている最も一般的なアルゴリズムには、次のようなものがあります。.

  • ニューラル・ネットワーク: 人間の脳は、目で見た画像を処理したり、記憶を保存したり、筋肉を制御したりと、さまざまな機能を実行するノードのネットワークを作ることで機能しています。コンピューターベースのニューラル・ネットワークは、こうした脳の構造をモデルにしており、分析したデータと隣接するノードのデータとの関係を重み付けするノードのレイヤーを作成します。ネットワークとして機能するこれらのノードは、写真中の要素など、データの特徴を判断することができます。
  • 線形回帰: 線形回帰アルゴリズムは、データポイントを取得し、予測された結果を最適にサポートする直線の数学的方程式を構築します。これは「ベスト・フィット直線」と呼ばれることもあります。線形回帰は、方程式の変数を微調整して予測エラーを最小限に抑えることで機能します。線形回帰の例は、履歴データに基づいて異なるデータポイントから子供の身長と体重を予測する小児医療に見られます。同様に、BMIは身長と体重を体脂肪全体に関連付けることを目指す線形回帰です。このアルゴリズムは予測にシンプルな直線を使用しているため、エラー率が高くなることがあります。たとえば、BMI30は肥満を示します。これは一般の人にはあてはまることが多いのですが、NFLのラインバッカーのような屈強なアスリートには通常あてはまりません。
  • ロジスティック回帰: バイナリ結果に最適に使用されるロジスティック回帰は、線形回帰に似ていますが、可能なデータ範囲の境界に専門的な考慮事項があります。ロジスティック回帰の例として、潜在顧客を購入者に転換する可能性に関する合否分析があります。ロジスティック回帰は、医療診断で使用されることがよくあります。特定の範囲以上の血漿グルコース濃度は、糖尿病を示す強力な指標として使用されます。ロジスティクス回帰は、メールがスパムかどうかや、クレジット・カード取引が不正かどうかを予測するためにも使用することができます。
  • クラスタリング: クラスタリングは教師なし学習の一形態で、データが個別のグループ(クラスタ)に分類される可能性のあるラベル付きではないデータセットをアルゴリズムに公開します。アルゴリズムはトレーニング・データを評価しながら、データ間のパターンや重複する詳細を探し、グループを作成します。例えば、アルゴリズムがさまざまな果物の栄養価を調べるとします。その結果、柑橘類が1つのグループ、ベリー類が別のグループ、メロンが第3のグループを形成していることが判明することがあります。こうすることで、それぞれのクラスタに独自性を持たせているものを容易に理解することができます。クラスタリングは、市場のセグメンテーションなど、あらゆる種類の分類プロジェクトで特に役立ちます。
  • 意思決定木: 決定木は、教師あり学習と基本的なif-then進行を利用して予測を行います。プロジェクトの複雑さにもよりますが、決定木は単純な結果を出すリソースの少ないアルゴリズムとして最適な場合があります。たとえば、ある大学がどの学生が1年生の英語の授業を免除できるかを決定する場合、まずその学生が高校で英語を4年間履修していたかどうか、また履修していた場合、その授業のGPAが3.6以上であったかどうかを尋ねる意思決定木を使用することがあります。また、SATのリーディング、ライティング、言語の各セクションで特定の基準点以上のスコアを取得しているかを単純に問うことも可能です。
  • ランダム・フォレスト:決定木は、固有の柔軟性のないワークフローとすべての評価質問に回答することが必要であるため、それ自体では限界があります。上記の意思決定木の例では、大学は、どちらか一方の条件を満たせば十分であっても、両方の条件が満たされていることを必要とする可能性があります。また、学生が入学試験の小論文でどの程度の成績を修めたかなど、他の考慮要素もあり得ます。もし3つの要素すべてが必要とされた場合、大学は意思決定木に「オーバーフィッティング」を求めているという問題が生じます。3つの基準すべてにおいて優秀な成績を修めた学生は、English 101を履修しなくても問題のないことが高い可能性で考えられます。しかし、そうでない学生は問題がなさそうであっても履修が必要です。ランダム・フォレストは、決定木のコレクションをまとめることで、結果を累積的に重み付けし、より広範な見解を示します。ランダム・フォレストを使用することで、プロジェクトは意思決定木の主要な仕組みを使用しつつも、関連するデータポイント間の微妙な関係を考慮することができます。つまり、大学ではこれら3つの基準を別々の意思決定木に分割し、高校での英語の成績が最も予測しやすい指標であり、小論文のパフォーマンスが最も予測しにくい指標であることに基づいて、重み付けを行い、英語101の履修を免除する学生を決定することができます。

ニューラル・ネットワークを超えて

機械学習はさまざまなアルゴリズムを使用しています。上記で説明したものが最も一般的なアルゴリズムですが、ここではそれほど一般的ではないものの、役立つアルゴリズムを5つ紹介します。

勾配ブースティング シーケンス内の過去のエラーに着目してモデルを順次構築します。不正やスパムの検出に役立ちます。
K近傍(KNN) シンプルかつ効果的なモデルで、トレーニング・データ内の最近傍のラベルに基づいてデータポイントを分類します。
主成分分析(PCA) 最も重要な機能を特定することで、データの次元を削減します。たとえば異常検知などの可視化やデータ圧縮に役立ちます。
Qラーニング 試行錯誤を通じて学習し、望ましい行動にはリワードを、間違った行動にはペナルティを受け取るエージェントを活用します。
サポート・ベクター・マシン(SVM) 画像分類など、異なるクラスに属するデータポイントを効果的に分離するための超平面を作成します。

機械学習のメリット

機械学習により、組織は他の方法では見つけることができないデータに関するインサイトを引き出すことができます。機械学習をプロセスに統合することで得られる最も一般的なメリットには、次のようなものがあります。

  • 意思決定と予測分析の効率化: データに基づく意思決定は、データ分析から始まります。当然のことですが、手動で分析プロセスを実行すると、時間およびリソース集約的になり、コストの正当性を証明するために十分豊かなインサイトが得られない可能性があります。機械学習は、大量のデータを調べてトレンドやパターンを特定できるため、ユーザーは手動のデータ処理を最適化するのではなく、クエリと実用的な結果に集中できます。分析ツールによっては、機械学習により予測の生成とデータから見つけにくいインサイトの特定が可能になるため、分析がより深まり、組織の価値が高まります。
  • 効率の向上とタスクの自動化: 機械学習は、従業員の効率を高めるテクノロジーの根幹にあります。スペルチェックやドキュメントのデジタル化、分類など、認知的負荷の少ない反復的な作業の多くは、機械学習によりコンピューターに任されています。

    機械学習はまた、人間には非常に難しい、その場での迅速なデータ分析も得意としています。「その取引は不正なものなのでしょうか」や「そのメールはフィッシング詐欺なのでしょうか」といった問いに対して、機械学習システムは多くの場合、回答を数秒で正確に判断し、自動的に適切な対策を講じることができます。MLテクノロジーを組み合わせることで、予測に影響を与えた要因の説明を伴うデータから予測を行うことができ、エグゼクティブが組織にとって最適な道筋を示すことを支援します。
  • サービスのパーソナライズとイノベーション:機械学習は、パーソナライズを通してカスタマー・エクスペリエンスに新たな扉を開きました。購入履歴、閲覧履歴、ターゲット層のデータ、その他の情報を使用して個々のカスタマー・プロファイルを作成し、類似のプロファイルと照合して顧客の関心を予測することができます。これにより、提案エンジンの提供、割引の自動生成、その他のパーソナライズされたエンゲージメントが可能になり、顧客をリピーターとして維持することができます。

    ここで説明した命名法を使用することで、意思決定木は顧客の分類を支援します。ある顧客はヴィンテージや中古のファッションが好きで、別の顧客は最先端のデザイナーズ・ファッションが好きという場合もあります。それぞれの顧客を似たような顧客とクラスタリングすることで、その顧客がクリックしそうな製品や、販売意欲が高いかを識別できるように支援することができます。そして、MLは顧客がどのクラスタリングに当てはまるかを考慮することで、各顧客に最適なオファーを予測することができます。

機械学習の課題

機械学習プロジェクトの有効性は、それを構築するシステムとリソースによって決まります。そのため、適切な計画と準備への投資に対する必要性が明らかになります。

以下は、機械学習プロジェクトが直面する最も一般的な課題です。

  • データ品質: 機械学習には「ガベージ・イン、ガベージ・アウト」という格言がありますが、トレーニング・フェーズでも本番でも、データの品質は非常に重要です。高品質なデータは、より正確な結果をタイムリーかつ効率的に提供することにつながる可能性があり、低品質なデータは、結果のモデルに不正確さや歪みを生じさせる可能性があります。プロジェクトによって「品質」の意味は異なる場合があることに注意が必要です。画像認識システムをトレーニングする場合、データはモデルが実世界で見るものを表現する必要があります。これには、影の中にいる被写体、少し焦点が合っていない被写体、カメラを直接見ていない被写体などが含まれます。トレーニング・データは、システムが実世界で目にするものと類似していればいるほど優れています。

    そのために、組織はデータソースの検証、データセットの一貫性と互換性のある形式への変革、クレンジングと重複排除の手順の実行、プロセスとプロトコルに関するユーザーのトレーニング、品質と適合性を評価するツールの統合を行う必要があります。
  • 先入観: データはクリーンなものである場合でも、先入観は存在しないでしょうか。分かりやすい例として、写真に写っている犬を検出する機械学習システムをトレーニングしようとし、ラブラドールとプードルの写真だけを集めた堅牢なデータセットを用意したとします。トレーニング後、モデルはこれらの種類の犬を見分けることが非常に得意になりますが、それはそうなるように先入観が働いているとも言えます。一方、ブルドッグの写真を見せると、犬は見つからないと答えます。そのためにトレーニングされたわけではないので、当然のことです。

    適切なトレーニング・データセットを作成することは、思い通りに動作するMLツールを構築する上で最も厄介で、最もコストがかかることのひとつです。特定のデータ型を見つけることの難しさは、意図しない先入観のもとを生み出すことがよくあります。たとえば、チベタン・マスティフは珍しい品種の犬ですが、見た目はオレンジがかった茶色のニューファンドランドに似ています。そのため、チベタン・マスティフのデータ・サンプルが十分にない場合、MLモデルがそれをニューフィー・マスティフと識別しても、それほど驚くようなことではありません。
  • データ・セキュリティ: 機械学習には多くのメリットがありますが、さまざまなセキュリティ問題が発生する可能性があります。ML分析に使用されているデータには、一般に公開されていない機密情報や独自の情報が含まれている可能性があります。同様に、データはモデルを汚染し、結果に誤った情報を組み込むことを意図したサイバー攻撃の標的になる可能性があります。データの準備段階は、特にデータセットがシステム間でエクスポートまたはインポートされるときに、セキュリティの脆弱性を露呈し、またそれに対処する可能性があります。セキュリティの問題軽減を支援するために、、企業は、実践的な従業員トレーニングを含め、さまざまなセキュリティ・ポリシー、手順、管理策を採用する必要があります。
  • データ・プライバシ: 機密データが漏洩しないように徹底することは、継続的な取り組みです。データの匿名化は新しい手法ですが、常に利用できるとは限りませんし、十分とは限りません。たとえば、ある企業が、収集したデータに基づいてビジネス顧客 が最終消費者についてより詳しい情報を得られるようなサービスの提供を望んでいるとします。このような情報は法的要件に従って保護および使用する必要があり、企業はMLシステムを通じてデータを侵害しようとする新しい脅威ベクトルについて慎重に検討する必要があります。

機械学習のユースケース

機械学習は、ほぼすべての業界と組織内のすべての部門に大きなメリットを提供します。数字が処理され、データがあれば、機械学習は効率を向上させ、新たな種類のエンゲージメントを引き出す方法を提供します。あらゆる業界にまたがる一般的な機械学習のユースケースには次のようなものがあります。

  • 小売: 小売業者にとって、機械学習は運用や販売などを支援することができます。運用レベルでは、機械学習によってサプライチェーン・データを分析し、在庫管理の最適化と遅延の可能性の早期発見を支援することができます。売上の増加を支援するために、機械学習は顧客の検索履歴や閲覧履歴を顧客層とともに検証し、さらなるエンゲージメントの基礎となるプロファイルを構築できます。
  • ストリーミング・メディア: 小売業者と同様に、オーディオおよびビデオ・ストリーミング・サービス業者は、ユーザーのエンゲージメントや閲覧履歴、ターゲット層データに基づいてカスタマー・プロファイルを構築できますそして、このプロファイルは、発見とさらなるエンゲージメントを支援するレコメンデーション・エンジンを強化することが可能です。
  • 金融: 機械学習の最も強力でありながらシンプルな使用方法の1つは、金融業界の不正検出です。機械学習により、アルゴリズムは一般的な口座の行動を特定し、潜在的な不正調査のために異常な行動にフラグを立てることができます。
  • 医療: ヘルスケア業界は、業務のほぼすべての面で機械学習を使用する準備が整っています。電子カルテによる患者プロファイルは、類似の患者層と比較したパターンに基づいて、起こりうる問題を事前に特定することができます。スマート投薬ディスペンサーなどのIoTデバイスから得られるデータは、迅速にエラーにフラグを立てることができ、患者の往来や病床の使用状況から得られる運用データは、人員のスケーラビリティに役立てることができます。

オラクルによるより迅速でセキュアな機械学習

Oracle Databaseの機械学習は、機械学習プロセスを加速するためのさまざまな機能と特徴を提供します。データをデータベース内に保持する機能により、データ・サイエンティストは、30種類以上の組み込まれた高パフォーマンスのアルゴリズム、R、SQL、Pythonなどの一般的な言語のサポート、自動化された機械学習機能、コード不要のインターフェースなどを活用しながら、ワークフローを簡素化し、セキュリティを高めることができます。

大規模なデータセットを持つ組織では、HeatWave MySQLを使用したデータベース内の機械学習により、機械学習のためにデータを別のシステムに移動する必要がなくなり、セキュリティの向上、コスト削減、時間の短縮を支援できます。HeatWave AutoMLは、アルゴリズムの選択、トレーニング用のインテリジェントなデータ・サンプリング、機能の選択、チューニングなど、機械学習のライフサイクルを自動化し、多くの場合、時間と労力をより大幅に削減します。

機械学習の利点は、大量のデータを迅速かつ正確に分析および解釈する機能です。一度トレーニングされた機械学習モデルは、人間が検出するまでに数週間かかるようなパターン、トレンド、インサイトを数秒から数分で特定することができます。その結果、十分な情報に基づく意思決定、問題解決の改善、データに基づく予測を行う機能が向上します。さらに、機械学習モデルは定型的なプロセスを自動化し、時間とリソースを削減することができます。機械学習は、職場を革新し、イノベーションを推進する可能性を実現しつつあります。

機械学習はデータの価値を引き出すカギであり、人工知能プログラムを成功させる第一歩です。

機械学習に関するFAQ

AIとMLの違いを教えてください。

人工知能は、人間のように考えるシステムを構築・改善することに焦点を当てた、幅広いコンピューティング分野に与えられた名称です。機械学習は、この分野のサブセットであり、特に学習プロセスのコンピューティングの側面に焦点を当てています。この2つの言葉は同じ意味で使用されることが多く、同じような課題に直面していますが、このようなつながりにもかかわらず、別々に存在しています。

機械学習の4つの主なタイプを教えてください。

機械学習には次の4つのタイプがあります。

  • 教師あり:教師あり学習は、ラベル付きデータセットを使用して、特定の目標に向かってアルゴリズムをトレーニングします。
  • 教師なし:教師なし学習は、アルゴリズムにパターンを探索および識別する余地を与えるために、ラベル付きではないデータセットを使用しています。
  • 半教師あり:半教師あり学習では、ラベル付きデータセットを最初のトレーニングに使用して、プロジェクトの大まかなパラメータを確立します。その後、アルゴリズムはそのトレーニングを使用してラベル付けされていないサンプルを評価し、高い確率でラベル付けできるかを確認します。このプロセスは繰り返し行うことができ、ラベル付けされたサンプル・セットは反復するごとに大きくなります。
  • 強化:強化学習は、ラベル付きではないデータセットを使用しているという点で、教師なし学習と同様の動作をします。しかし強化学習は、パターンを探すのではなく、ポジティブ、ネガティブ、ニュートラルなフィードバックを通じて特定の目標を達成するために最適な方法を学習することに重点を置いています。

機械学習を学ぶことは大変でしょうか。

どのような技術でもそうですが、機械学習の裏と表を学ぶことは、時間と集中が必要とされる反復プロセスです。機械学習を始めるには、統計学の理解とともに、PythonやRなどのプログラミング言語の基礎を身につけることが良い出発点となります。機械学習の出力に対する評価には、回帰、分類、フィッティング、パラメータなどの統計的概念の理解が必要な要素が数多くあります。

機械学習の例を教えてください。

機械学習の最も一般的な例の1つは、提案エンジンです。「こちらもおすすめです」という製品のお薦めとして表示されます。動画ストリーミング・メディアでは、次に見るべきもののアイデアとして見られます。このような場合、アルゴリズムはユーザーの履歴を取り込み、ユーザーが興味を持ちそうなものの予測を作成し、ユーザーがデータポイントを追加するほど、アルゴリズムは予測を改善することができます。