جيفري إريكسون | خبير استراتيجيات المحتوى | 29 أكتوبر 2024
سلط نوع البيانات الأقل شهرة، المتجهات، الضوء مؤخرًا على أنه عامل تمكين للذكاء الاصطناعي التوليدي. لكن المتجهات - وقواعد البيانات القادرة على تخزينها وتحليلها - ظلت تتراكم لسنوات عديدة. يتم استخدامها في رسم الخرائط والتحليلات الجغرافية المكانية لتخطيط المدن ولوجستيات النقل والتحليل البيئي. في الآونة الأخيرة، تم استخدام المتجهات في محركات التوصية لمنتجات البيع بالتجزئة وكذلك مواقع بث الموسيقى والفيديو.
يعتمد الذكاء الاصطناعي المبتكر على حالات الاستخدام هذه ويفتح الباب أمام الابتكارات الجديدة باستخدام المتجهات وقواعد بيانات المتجهات إلى جانب التقنيات المصاحبة، بما في ذلك الإنشاء المعزز للاسترجاع (RAG).
المتجه هو ببساطة مجموعة من الأرقام التي تمثل ميزات الكائن - سواء كان ذلك الكائن كلمة أو جملة أو مستندًا أو صورة أو ملف فيديو أو صوتًا. هناك حاجة إلى المتجهات لأن مقارنة هذا النوع من المحتوى غير المنظم أو البحث عنه أمر صعب على أجهزة الكمبيوتر. مقارنة أو البحث عن متجهات، من ناحية أخرى، هو أسهل بكثير ويستند إلى رياضيات مفهومة جيدًا.
يتم تخزين المتجهات في قاعدة بيانات تشتمل على كائنات البيانات التي تستند إليها أو ترتبط بها. تميل المتجهات القريبة رياضيًا من بعضها البعض إلى وصف الكائنات ذات الميزات المتشابهة، بحيث يمكنك مقارنتها أو البحث عنها بسرعة وإرجاع الكائنات المتشابهة. يمكنك أيضًا تكوين متجه استعلام مع تحديد ميزات معينة فقط. سيؤدي البحث إلى إرجاع كائنات ذات ميزات مشابهة لتلك المحددة في متجه الاستعلام.
قاعدة بيانات المتجهات هي أي قاعدة بيانات يمكنها في الأصل تخزين وإدارة عمليات تضمين المتجهات ومعالجة البيانات غير المهيكلة التي تصفها، مثل المستندات أو الصور أو الفيديو أو الصوت.
مع أهمية البحث المتقدم عن الذكاء الاصطناعي التوليدي، استدعى مجال التكنولوجيا العديد من قواعد بيانات المتجهات المتخصصة والمستقلة، والتي يمكن للشركات إضافتها إلى البنى التحتية للبيانات. وفي الوقت نفسه، قامت إصدارات المفضلات الثابتة، مثل Oracle Database وقاعدة بيانات MySQL مفتوحة المصدر، بدمج المتجهات كنوع بيانات أصلي إلى جانب العديد من أنواع البيانات الأخرى. يتيح ذلك لعمليات البحث عن مجموعة من البيانات التجارية والدلالية أن تكون أسرع وأكثر دقة، حيث يتوفر كلا نوعي البيانات في قاعدة بيانات واحدة. كما يتجنب هذا النهج مشكلات اتساق البيانات التي يتم تقديمها عند استخدام قاعدة بيانات متجهات متخصصة منفصلة بالإضافة إلى قاعدة البيانات الأساسية للشركة.
تم تصميم فهارس المتجهات وقواعد بيانات المتجهات لتخزين المتجهات واسترجاعها بكفاءة، أي مجموعات من الأرقام التي تمثل ميزات الكائن، مثل مستند أو صورة أو ملف فيديو أو ملف صوت. ومع ذلك، لديها خصائص وحالات استخدام مختلفة. تستخدم فهارس المتجهات بشكل أساسي للبحث "أقرب جار"، والذي يتضمن العثور على أقرب متجه إلى متجه استعلام معين. تعد الفهارس مثالية للتطبيقات التي تتطلب عمليات بحث تشابه سريعة ودقيقة، مثل محرك التوصية. وعلى العكس من ذلك، إن قواعد بيانات المتجهات هي المكان الذي تخزن فيه المؤسسات المتجهات للاسترجاع والتحليل. توفر قاعدة بيانات المتجهات من فئة المؤسسات ميزات مفيدة تتجاوز أقرب بحث مجاور، مثل تخزين بيانات التعريف وإصدار البيانات والتكامل مع الأنظمة الأخرى.
الفرق الرئيسي بين فهرس المتجهات وقاعدة بيانات المتجهات هو أن فهارس المتجهات تخزن معلومات حول سمات البيانات غير المهيكلة، مثل النص أو الصور أو ملفات الصوت. يتم تمثيل هذه المعلومات بمجموعة من الأرقام تسمى متجه. يحتفظ فهرس المتجهات بهذه البيانات و"يفهرسها" بطريقة تساعد قاعدة البيانات على تحديد الكائنات ومطابقتها بسرعة.
تشتمل قاعدة بيانات المتجهات على هذه الفهارس والكائنات التي تصفها. ومع ذلك، تختلف كيفية ترتيب قاعدة البيانات لفهارس المتجهات وكائنات البيانات. تفصل قواعد البيانات التي تدعم المتجهات، مثل Oracle Database، تخزين كائنات البيانات عن كيفية البحث في البيانات والمتجهات. يتيح لهم ذلك الجمع بين قوة الاستعلام الناضجة لـ SQL لبيانات التعريف وبيانات الأعمال الحديثة مع سرعة بحث المتجه وملاءمته السياقية. ويعني هذا النهج، على سبيل المثال، أن بحث المتجه عن منتجات البيع بالتجزئة ذات الصلة يمكن أن يوفر أيضًا أحدث الأسعار والتوافر.
النقاط الرئيسة
بدلاً من تحمل التكلفة والجهد لضبط نماذج الذكاء الاصطناعي التوليدي، تقوم الشركات بتنظيم البيانات التي تستخدمها نماذج LLM لإنشاء مخرجاتها. تستخدم قواعد بيانات متجهات تحتوي على معلومات حديثة للمؤسسة. يتيح هذا النهج الهيكلي، الذي يسمى الإنشاء المعزز للاسترجاع، إدارة LLM التي تم تدريبها على كميات هائلة من البيانات العامة تحسين استجابتها باستخدام البيانات الخاصة الموجودة في قاعدة بيانات متجهات.
على سبيل المثال، إذا تمكن روبوت محادثة مدعوم من LLM من الوصول إلى سجلات عملاء بائع التجزئة واتصالات البريد الإلكتروني بدلاً من الرسائل العامة، فقد يوفر استجابات أكثر فائدة وتخصيصًا للاستعلامات مثل "هل تم شحن طلبي؟"
يمكن لـ RAG أيضًا تعزيز موثوقية نماذج الذكاء الاصطناعي العامة وجدارتها بالثقة من خلال الاستشهاد بالمستندات الموجودة في قاعدة بيانات المتجهات التي أبلغت مخرجاتها.
ومن غير المستغرب أن يتزايد استخدام قواعد البيانات المحسنة لتخزين المتجهات وتحليلها. بمجرد استخدامها بشكل أساسي لرسم الخرائط وتحليل البيانات، أصبحت قواعد بيانات المتجهات تقنية أساسية مهمة لمحركات التوصية التي يشيع استخدامها من قبل تجار التجزئة الأكثر شيوعًا وموفري بث الموسيقى والفيديو بالإضافة إلى المساعدين الافتراضيين والتعرف على الأنماط البيومترية والكشف عن أوجه الخلل والمزيد. والآن، وجدت قواعد بيانات المتجهات استخدامًا جديدًا ومذهلاً: تخزين كميات كبيرة من البيانات غير المنظمة التي يمكن الوصول إليها لإعلام مخرجات نماذج الذكاء الاصطناعي التوليدي.
يتمثل الاتجاه المتزايد في قواعد البيانات المنشأة، مثل MySQL وOracle Database، لدمج بيانات المتجه كنوع بيانات أصلي إلى جانب بقية بيانات المؤسسة، مثل JSON والرسوم البيانية والمكانية والعلائقية. ينفي هذا التقارب الحاجة إلى نقل البيانات إلى قاعدة بيانات منفصلة لعمليات الذكاء الاصطناعي التوليدي، والتي تبسط العملية وتترك بيانات قيمة في مستودعات موثوقة.
يعني نمو حالات استخدام الذكاء الاصطناعي المبتكر وجود العديد من قواعد بيانات المتجهات الجديدة في السوق، بالإضافة إلى NoSQL وقواعد البيانات الارتباطية التي أضافت إدارة أنواع بيانات المتجه.
تعمل قواعد بيانات المتجهات عن طريق تخزين البيانات ومعالجتها كمتجهات، وهي تمثيلات رياضية لميزات الكائنات في الفضاء متعدد الأبعاد. يتيح ذلك تخزين أنواع البيانات المعقدة، مثل الصور والصوت والفيديو وبيانات المستشعر، والاستعلام عنها بكفاءة، مما يجعل المتجهات مثالية لحالات الاستخدام مثل أنظمة التوصية، ومعالجة اللغة الطبيعية، والتعرف على الصور.
العمليات تحدث في عدة خطوات:
يمكن تصنيف قواعد بيانات المتجهات إلى أنواع مختلفة، إما عن طريق هيكل التخزين، مثل عمودي، أو تصنيفها بناءً على تنفيذها، مثل قواعد البيانات المضمنة بالذاكرة. كل نوع له مزايا ؛ أي نوع تختاره يجب أن يستند إلى متطلباتك المحددة وحالات الاستخدام.
تقوم قاعدة البيانات العمودية بتخزين البيانات في أعمدة وتجميعها على قرص. يعمل هذا الترتيب على تسريع تحليلات البيانات لأن التحليل يتضمن عادةً ترشيح البيانات ودمجها من أعمدة الجدول. يمكن لقواعد البيانات أيضًا تخزين السجلات بتنسيق الصف، وهو أمر مفيد للعمليات التي تقوم فيها بتحديث عنصر واحد في السجل. ومع ذلك، بالنسبة لتحليل البيانات، تتيح قاعدة البيانات العمودية للمحللين إمكانية مسح أي عمود من آلاف أو ملايين السجلات بسرعة كبيرة.
قاعدة بيانات مخزن المستندات، أو قاعدة بيانات المتجهات للمستندات، هي نظام تخزين بيانات وبرنامج يقوم بإدارة المعلومات الموجهة للمستندات واسترجاعها وتخزينها. تخزن قواعد بيانات المستندات البيانات في مستندات مرنة تشبه JSON، وهي مناسبة لهياكل البيانات المتنوعة والديناميكية. وهي تختلف عن قواعد البيانات العلائقية التي تستخدم الجداول لتنظيم البيانات باستخدام مخطط قاعدة بيانات ثابت.
تحليلات الرسوم البيانية هي عملية تحليل البيانات بتنسيق رسم بياني، باستخدام نقاط البيانات كنقاط توصيل وعلاقات كحواف. يمكن أن يساعدك النظر إلى البيانات بهذه الطريقة في اكتشاف الاتصالات والعلاقات التي لم تكن واضحة من قبل. تتطلب تحليلات الرسم البياني قاعدة بيانات يمكنها دعم تنسيقات الرسم البياني. يمكن أن تكون قاعدة بيانات رسم بياني مخصصة أو قاعدة بيانات متقاربة تدعم نماذج بيانات متعددة، بما في ذلك الرسم البياني.
تقوم قواعد البيانات المضمّنة بالذاكرة بتخزين البيانات ومعالجتها في طبقة الذاكرة الخاصة بتطبيق بدلاً من تخزينها على قرص تخزين. غالبًا ما يتطابق هذا النوع من الهياكل مع وظائف المخزن العمودي وخطط الاستعلام المتجهة لتسريع الاستعلامات التحليلية. هذا النوع من مخزن البيانات جيد في دعم العمليات السريعة في الاتصالات السلكية واللاسلكية العالمية والشركات التي تحتاج إلى اتخاذ قرارات على أساس البيانات في الوقت الحقيقي.
تعد مخازن القيمة الأساسية، التي تسمى أحيانًا قواعد بيانات القيمة الأساسية، طريقة سريعة لتخزين البيانات التي تتغير غالبًا والاستعلام عنها، مثل العناصر الموجودة في متجر على الإنترنت. مخزن القيمة الأساسية هو قاعدة بيانات من نوع NoSQL تستخدم قيمة مفتاح لتحديد سجل معين للاستعلام أو التحديث.
تقوم قاعدة البيانات المكانية بتخزين وإدارة البيانات المكانية، والتي تمثل معلومات حول الموقع الفعلي والخصائص الهندسية للكائنات في الفضاء. تقوم بذلك باستخدام تقنيات الفهرسة وعمليات الاستعلام. تُستخدم قواعد البيانات المكانية للتخطيط والتحليلات عبر الإنترنت وكذلك في عمليات لوجستيات الشحن.
يتم استخدام قاعدة بيانات المتوالية الزمنية لتخزين البيانات ذات الطابع الزمني وتحليلها بكفاءة، حيث ترتبط كل نقطة بيانات بطابع زمني محدد أو فاصل زمني محدد. تُستخدم قواعد البيانات هذه بشكل شائع في أنظمة مراقبة تكنولوجيا المعلومات التي تعتمد على تحليل السجلات وفي الإدارة المالية.
تعمل قواعد بيانات المتجهات على تحسين نماذج اللغات الكبيرة التجارية أو المفتوحة المصدر من خلال منحها إمكانية الوصول إلى أحدث المعلومات التي تقدمها مؤسسة أو شركة محلية. يساعد هذا على جعل مخرجات LLM أكثر ملاءمة وتخصيصًا للأشخاص المرتبطين بتلك المؤسسة.
يتم استخدام قواعد بيانات المتجهات من قِبل مختلف التطبيقات والمنظمات التي تتعامل مع كميات كبيرة من البيانات المكانية والهندسية، كما هو الحال في صناعات البيع بالتجزئة والخدمات اللوجستية والنظم التي تجرب المركبات المستقلة. والآن، تتبنى الشركات التي تستكشف الذكاء الاصطناعي المتقدم والتعلم الآلي قواعد بيانات متجهات أيضًا. تعتمد نماذج الذكاء الاصطناعي التوليدي، على سبيل المثال، على قواعد بيانات المتجهات لتحسين مخرجاتها باستخدام البيانات المحلية المحدثة.
وتشمل حالات الاستخدام المحددة الأخرى ما يلي:
تتنوع حالات استخدام قواعد بيانات المتجهات مثل المؤسسات والتطبيقات التي تعتمد عليها. بالإضافة إلى تحليلات البيانات في الوقت الفعلي والأنظمة المالية ومحركات التوصيات، يتم تحسين قواعد بيانات المتجهات للتعامل مع هياكل البيانات المعقدة المطلوبة عادة لمهام مثل التعرف على الصور ومعالجة اللغة الطبيعية.
من خلال تخزين البيانات ومعالجتها بكفاءة، تتيح قواعد بيانات المتجهات للشركات الاستفادة من هياكل البيانات المعقدة لمجموعة واسعة من التطبيقات، بما في ذلك ما يلي:
توفر قواعد بيانات المتجهات العديد من المزايا، بما في ذلك البحث السريع عن التشابه. يتم تحسينها لإجراء عمليات بحث فعالة لأقرب الجوار، مما يسمح بالاسترجاع السريع للعناصر المماثلة حتى في مجموعات البيانات الكبيرة. وهذا يجعلها مثالية للتطبيقات والصناعات التي تتطلب معالجة البيانات غير المهيكلة وتحليلها في الوقت الفعلي وحالات استخدام الذكاء الاصطناعي التوليدي الناشئة.
تشمل المزايا الأخرى ما يلي:
سواء كنت تستخدم الذكاء الاصطناعي التوليدي أو أي عملية أخرى تقريبًا باستخدام المتجهات، يمكن أن تقدم Oracle المساعدة.
توفر Oracle Database، قاعدة بيانات المؤسسة الأكثر شعبية في العالم، نظامًا أساسيًا واحدًا للبيانات للمتجهات وجميع بيانات أعمالك. يمكنك الاستفادة من إمكانية البحث عن التشابه في بيانات شركتك دون الحاجة إلى الإشراف على قواعد البيانات المختلفة ومزامنتها. يتيح لك البحث عن متجه الذكاء الاصطناعي إجراء عمليات بحث على كل من البيانات المهيكلة وغير المهيكلة من خلال فهم دلالاتها أو معناها، بالإضافة إلى قيمها.
يتيح لك الجمع بين البيانات العلائقية ومستندات JSON والرسوم البيانية والبيانات الجغرافية المكانية والنص والمتجهات في قاعدة بيانات واحدة إنشاء ميزات جديدة بسرعة في تطبيقاتك. يمكن أيضًا استخدام بحث متجه الذكاء الاصطناعي في Oracle Database في مسار RAG مع أي خدمة GenAI. بالإضافة إلى ذلك، تتعامل خدمة قاعدة بيانات HeatWave MySQL من Oracle مع المتجهات في الأصل لدعم بحث المتجه وحالات الاستخدام الأخرى. على سبيل المثال، يمكنك استخدامه مع خدمة RAG في Oracle Cloud Infrastructure (OCI) لجلب واجهة الذكاء الاصطناعي العامة إلى مستنداتك الخاصة، مما يمنحك ذكاءً اصطناعيًا خبيرًا في البيانات التشغيلية لمؤسستك.
سواء كنت تستخدم المتجهات لتحليل البيانات أو التطبيقات الجغرافية المكانية أو توصيات المنتجات أو كتقنية تمكينية للذكاء الاصطناعي التوليدي، يمكن أن تقدم Oracle المساعدة. يقوم كل من Autonomous Database و Oracle HeatWave MySQL الرائدان في Oracle بإدارة المتجهات كنوع بيانات أصلي إلى جانب العديد من أنواع البيانات الأخرى للحصول على تجربة تطوير أبسط. تعمل قاعدتا البيانات على Oracle Cloud Infrastructure. تم تصميم OCI بأحدث المعالجات وبنية المجموعات الفائقة للتعامل بكفاءة مع أحمال عمل الذكاء الاصطناعي الأكثر طلبًا، بما في ذلك الذكاء الاصطناعي التوليدي ورؤية الكمبيوتر والتحليلات التنبؤية. سواء كنت تنشئ باستخدام Oracle Database أو قاعدة بيانات MySQL مفتوحة المصدر، يمكنك البدء في الاستفادة من بحث المتجه اليوم.
في عصر الذكاء الاصطناعي المبتكر، أصبحت قواعد بيانات المتجهات أكثر أهمية للشركات من أي وقت مضى. مع تطلع المزيد من فرق التطوير إلى تخزين نوع بيانات المتجهات وإدارته، سيكون لديهم قرار باتخاذه: إحضار قاعدة بيانات متجهة متخصصة مصممة لغرض معين أو استخدام قواعد بيانات متعددة النماذج، مثل Oracle Database، لا تدعم المتجهات فحسب، بل تدعم العديد من أنواع البيانات الأخرى أيضًا.
تعد قواعد بيانات المتجهات محورية لحالات استخدام الذكاء الاصطناعي المثيرة، بما في ذلك روبوتات المحادثة التي تحدث ثورة في خدمة العملاء والخوارزميات التي تحول الرعاية الصحية. شاهد كيف تضع الشركات قوة المتجهات للعمل الآن.
متى يجب استخدام قاعدة بيانات المتجهات؟
يمكن استخدام قاعدة بيانات متجهات لمجموعة واسعة من حالات الاستخدام، بما في ذلك التطبيقات الجغرافية المكانية، مثل لوجستيات الشحن أو الأبحاث البيئية، أو توصيات خيارات الترفيه عبر الإنترنت أو البيع بالتجزئة، أو في الآونة الأخيرة، كمخزن أساسي للبيانات التي تدعم الذكاء الاصطناعي التوليدي من قِبل المؤسسات الفردية.
هل يستخدم Netflix قواعد بيانات متجهات؟
أعلنت Netflix أنها تستخدم قواعد بيانات متجهات لدعم محركات التوصية الشائعة. وهو يطبق تضمين المتجهات على كل قطعة من الترفيه في كتالوجها وقاعدة بيانات المتجهات تمكن البحث في الوقت الحقيقي عن عناوين مماثلة.