Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.

حلول لمُشكلة نفاد بيانات التدريب المُخصصة لأدوات الذكاء الاصطناعي

التطور السريع لأدوات الذكاء الاصطناعي يعتمد بشكل كبير على توافر بيانات التدريب عالية الجودة. ومع تزايد استخدام هذه الأدوات في مُختلف المجالات، بدأت الشركات تُواجه تحدياً جديداً يتمثل في نقص بيانات التدريب المُتاحة. هذا النقص قد يُعيق تطوير وتحسين أداء النماذج الذكية. إذًا، كيف يُمكننا تدريب الذكاء الاصطناعي بحيث يستمر في النمو ويكون مفيدًا لنا؟

قد تعتقد أنَّ الإنترنت وبياناته موارد لا تنضب، لكن أدوات الذكاء الاصطناعي استهلكت تقريبًا كل البيانات المُتاحة لي. الآن، قبل أن تقلق، لن يوقف ذلك تطور الذكاء الاصطناعي، فهناك الكثير من البيانات التي لا تزال جاهزة لتدريب أنظمة الذكاء الاصطناعي. هناك حلول مُبتكرة يمكن أن تُساعد في التغلب على هذه المشكلة، مما يسمح بالاستمرار في تحسين وتعزيز قدرات الذكاء الاصطناعي. تحقق من أدوات الذكاء الاصطناعي التي ستُجيب على الأسئلة من ملفات PDF.

صورة لـ حلول لمُشكلة نفاد بيانات التدريب المُخصصة لأدوات الذكاء الاصطناعي | 1HdPxSE107sZwDNtfLuQWSg-DzTechs

1. تتم دائمًا إضافة المزيد من البيانات عبر الإنترنت

باختصار، يقول معهد أبحاث الذكاء الاصطناعي Epoch إنَّ البيانات عالية الجودة التي يتم تدريب الذكاء الاصطناعي عليها يُمكن أن تنفد بحلول عام 2026.

الكلمة الأساسية هناك هي “يُمكن”. تزداد كمية البيانات المُضافة إلى الإنترنت كل عام، لذلك قد يتغير شيء جذري قبل عام 2026. ومع ذلك، يظل هذا تقديرًا عادلاً — وفي كلتا الحالتين، ستنفد البيانات الجيدة المُخصصة لأنظمة الذكاء الاصطناعي في مرحلة ما.

ومع ذلك، يجب أن نتذكر أنه تتم إضافة حوالي 147 زيتابايت من البيانات عبر الإنترنت كل عام (وفقًا لـ Exploding Topics). زيتابايت واحد فقط يساوي 1,000,000,000,000,000,000,000 بت من البيانات. بالقيمة الحقيقية، هذا أكثر من 30 مليار فيلم بدقة 4K (حقيقي، ولكن لا يُمكن فهمه). إنها كمية مُذهلة من المعلومات التي يتعين على الذكاء الاصطناعي التدقيق فيها.

ومع ذلك، فإنَّ الذكاء الاصطناعي يستهلك البيانات بشكل أسرع مما يُمكن للبشرية إنتاجها…

2. الذكاء الاصطناعي قد ينسى البيانات مُنخفضة الجودة

صورة لـ حلول لمُشكلة نفاد بيانات التدريب المُخصصة لأدوات الذكاء الاصطناعي | 1mH6OFAacUbReXc6jah7QsA-DzTechs

بالطبع، ليست كل البيانات البالغة 147 زيتابايت بيانات جيدة. هناك الكثير مما تراه العين. ولكن من المقدر أنَّ الذكاء الاصطناعي سوف يستهلك بيانات لغوية مُنخفضة الجودة بحلول عام 2050 أيضًا.

وذكرت Reuters أنَّ Photobucket، التي كانت ذات يوم واحدة من أكبر مستودعات الصور في العالم، تجري محادثات لترخيص مكتبتها الواسعة لشركات تدريب الذكاء الاصطناعي. تحتوي الصور على بيانات لتدريب نماذج مثل DALL-E و Midjourney، ولكن حتى هذا يُمكن أن ينفد بحلول عام 2060. هناك مشكلة أكبر هنا أيضًا: فقد ضمت Photobucket صورًا من منصات الشبكات الاجتماعية في العقد الأول من القرن الحادي والعشرين مثل Myspace، مما يعني أنها ليست عالية المستوى مثل التصوير الفوتوغرافي الحالي. وهذا يؤدي إلى بيانات ذات جودة مُنخفضة.

Photobucket ليست وحدها. في فبراير 2024، أبرمت Google صفقة مع Reddit، مما يسمح لعملاق البحث باستخدام بيانات مُستخدم منصة التواصل الاجتماعي في تدريب الذكاء الاصطناعي. تُوفر منصات الشبكات الاجتماعية الأخرى أيضًا بيانات المستخدم لأغراض التدريب على الذكاء الاصطناعي؛ تستخدمها البعض لتدريب نماذج الذكاء الاصطناعي الداخلية، مثل Llama من Meta.

ومع ذلك، في حين أنه يُمكن استخلاص بعض المعلومات من بيانات منخفضة الجودة، تُفيد التقارير أنَّ Microsoft تعمل على تطوير طريقة للذكاء الاصطناعي “لتجاهل” البيانات بشكل انتقائي. في المقام الأول، سيتم استخدام هذا الحل لقضايا الملكية الفكرية، ولكنه قد يعني أيضًا أنَّ الأدوات يمكن أن تنسى ما تعلمته من مجموعات البيانات مُنخفضة الجودة.

يمكننا تغذية الذكاء الاصطناعي بمزيد من البيانات دون أن نكون انتقائيين للغاية؛ يُمكن لأنظمة الذكاء الاصطناعي هذه بعد ذلك انتقاء واختيار ما هو أكثر فائدة للتعلم منه.

3. يفتح التعرف على الكلام البيانات المُتاحة في الفيديو والبودكاست

تتألف البيانات التي يتم تغذيتها لأدوات الذكاء الاصطناعي حتى الآن إلى حد كبير من النصوص، وبدرجة أقل، من الصور. سيتغير هذا بلا شك، ومن المُحتمل أنه تغير بالفعل، لأنَّ برامج التعرف على الكلام ستعني أنَّ وفرة مقاطع الفيديو والبودكاست المُتاحة يمكنها أيضًا تدريب الذكاء الاصطناعي.

ومن الجدير بالذكر أنَّ OpenAI طورت الشبكة العصبية مفتوحة المصدر للتعرف التلقائي على الكلام (ASR)، Whisper، باستخدام 680.000 ساعة من البيانات مُتعددة اللغات ومتعددة المهام. قامت OpenAI بعد ذلك بتغذية أكثر من مليون ساعة من المعلومات من مقاطع فيديو YouTube إلى نموذجها اللغوي الكبير، GPT-4.

يُعد هذا نموذجًا مثاليًا لأنظمة الذكاء الاصطناعي الأخرى، التي تستخدم التعرف على الكلام لنسخ مقاطع الفيديو والصوت من مصادر عديدة وتشغيل تلك البيانات من خلال نماذج الذكاء الاصطناعي الخاصة بها.

وفقًا لـ Statista، يتم تحميل أكثر من 500 ساعة من الفيديو على YouTube كل دقيقة، وهو رقم ظل ثابتًا إلى حد ما منذ عام 2019. وذلك دون ذكر منصات الفيديو والصوت الأخرى مثل Dailymotion و Podbean. إذا تمكن الذكاء الاصطناعي من تحويل انتباهه إلى مجموعات بيانات جديدة مثل هذه، فلا يزال هناك قدر هائل من المعلومات التي يتعين علينا استخراجها.

4. لقد تمسك الذكاء الاصطناعي إلى حد كبير باللغة الإنجليزية

هذا ليس كل ما يُمكننا تعلمه من Whisper. قامت OpenAI بتدريب النموذج باستخدام 117000 ساعة من البيانات الصوتية غير الإنجليزية. وهذا أمر مثير للاهتمام بشكل خاص لأنَّ العديد من أنظمة الذكاء الاصطناعي تم تدريبها بشكل أساسي باستخدام اللغة الإنجليزية أو عرض الثقافات الأخرى من خلال العدسة الغربية.

في جوهر الأمر، معظم الأدوات مُقيَّدة بثقافة منشئيها.

خذ ChatGPT كمثال. بعد وقت قصير من إصداره في عام 2022، قامت Jill Walker Rettberg، أستاذ الثقافة الرقمية بجامعة بيرغن بالنرويج، بتجربة ChatGPT وخلصت إلى ما يلي:

“لا يعرف ChatGPT الكثير عن الثقافة النرويجية. أو بالأحرى، كل ما يعرفه عن الثقافة النرويجية يُفترض أنه تم تعلمه في الغالب من مصادر اللغة الإنجليزية… يتوافق ChatGPT بشكل واضح مع القيم والقوانين الأمريكية. وفي كثير من الحالات تكون هذه قريبة من القيم النرويجية والأوروبية، ولكن من المفترض ألا يكون هذا هو الحال دائمًا.

ومن ثم، يُمكن لأنظمة الذكاء الاصطناعي تطوير تفاعل عدد أكبر من الأشخاص متعددي الجنسيات معها، أو استخدام اللغات والثقافات الأكثر تنوعًا لتدريب مثل هذه الأنظمة. في الوقت الحالي، تقتصر العديد من نماذج الذكاء الاصطناعي على مكتبة واحدة؛ ويُمكن أن تنمو إذا أُعطيت مفاتيح المكتبات في جميع أنحاء العالم.

5. دور النشر يمكن أن تُساعد في تطوير الذكاء الاصطناعي

صورة لـ حلول لمُشكلة نفاد بيانات التدريب المُخصصة لأدوات الذكاء الاصطناعي | 1TNbX5SYYffyQv824_VuRzA-DzTechs

من الواضح أنَّ الملكية الفكرية تمثل مشكلة كبيرة، ولكن يمكن لبعض الناشرين المساعدة في تطوير الذكاء الاصطناعي من خلال إبرام اتفاقيات الترخيص. وهذا يعني إعطاء الأدوات بيانات عالية الجودة، أي موثوقة، من الكتب بدلاً من الحصول على معلومات مُنخفضة الجودة مستمدة من مصادر عبر الإنترنت.

في الواقع، يُقال إنَّ شركة Meta، المالكة لمواقع Facebook، و Instagram، و Whatsapp، فكرت في شراء شركة سايمون آند شوستر، إحدى دور النشر “الخمسة الكبار”. وكانت الفكرة هي استخدام الأدبيات التي نشرتها الشركة لتدريب الذكاء الاصطناعي الخاص بشركة Meta. فشلت الصفقة في نهاية المطاف، ربما بسبب المنطقة الرمادية الأخلاقية للشركة التي تُعالج عناوين IP دون موافقة مسبقة من الكُتَّاب.

يبدو أن هناك خيارًا آخر تم النظر فيه وهو شراء حقوق الترخيص الفردية للعناوين الجديدة. من المفترض أن يسبب هذا مخاوف كبيرة للمُبدعين، لكنه سيظل وسيلة مثيرة للاهتمام لتطوير أدوات الذكاء الاصطناعي في حالة استنفاد البيانات القابلة للاستخدام. تحقق من كيفية إنشاء واستخدام الفن المُستند إلى الذكاء الاصطناعي بشكل أخلاقي.

6. البيانات الاصطناعية هي المُستقبل

لا تزال كل الحلول الأخرى محدودة، ولكن هناك خيار واحد يُمكن أن يؤدي إلى ازدهار الذكاء الاصطناعي في المستقبل: البيانات الاصطناعية. ويتم التحقيق في الأمر بالفعل باعتباره احتمالًا حقيقيًا للغاية.

إذًا، ما هي البيانات الاصطناعية؟ هي بيانات أنشأها الذكاء الاصطناعي؛ مثلما يقوم البشر بإنشاء البيانات، فإنَّ هذه الطريقة ستشهد قيام الذكاء الاصطناعي بإنشاء بيانات لأغراض التدريب.

في الواقع، يُمكن للذكاء الاصطناعي إنشاء فيديو عميق التزييف بشكل مُقنع. يُمكن تغذية هذا الفيديو الذي يستخدم التزييف العميق مرة أخرى إلى الذكاء الاصطناعي حتى يتمكن من التعلم مما هو في الأساس سيناريو خيالي. وهذه، في نهاية المطاف، إحدى الطرق الرئيسية التي يتعلم بها البشر: فنحن نقرأ أو نشاهد شيئًا ما من أجل فهم العالم من حولنا.

من المحتمل أن تكون أنظمة الذكاء الاصطناعي قد استهلكت بالفعل معلومات اصطناعية. قامت تقنية التزييف العميق بنشر معلومات مُضللة وخاطئة عبر الإنترنت، لذلك عندما تقوم أنظمة الذكاء الاصطناعي بفحص مُحتويات الإنترنت، فمن المنطقي أن يكون البعض قد تعرض لمحتوى مزيف.

نعم، هناك جانب خبيث لهذا. ويمكن أن يؤدي أيضًا إلى إتلاف أنظمة الذكاء الاصطناعي أو الحد منها، مما يعزز وينشر الأخطاء التي ترتكبها تلك الأدوات. وتعمل الشركات على القضاء على المشكلة؛ ومع ذلك، فإنَّ عبارة “تعلم الذكاء الاصطناعي من بعضها البعض وارتكاب الأخطاء” هي نقطة حبكة للعديد من سيناريوهات كابوس الخيال العلمي. تحقق من دليلك الكامل لحماية خصوصيتك في عصر الذكاء الاصطناعي.

7. استخدام الذكاء الاصطناعي بشكل أفضل

أدوات الذكاء الاصطناعي أمر مثير للجدل. هناك الكثير من السلبيات لها، لكن المنتقدين يتجاهلون فوائدها. على سبيل المثال، تُشير شبكة التدقيق والاستشارات PwC [PDF] إلى أنَّ الذكاء الاصطناعي يمكن أن يساهم بما يصل إلى 15.7 تريليون دولار في الاقتصاد العالمي بحلول عام 2030.

علاوة على ذلك، يتم استخدام الذكاء الاصطناعي بالفعل في جميع أنحاء العالم. من المحتمل أنك استخدمته اليوم بشكل أو بآخر، وربما دون أن تدرك ذلك. والآن خرج الجني من القمقم، والمفتاح هو بالتأكيد تدريبه على بيانات موثوقة وعالية الجودة حتى نتمكن من الاستفادة منه بشكل صحيح.

الذكاء الاصطناعي له إيجابياته وسلبياته. هناك توازن يُمكن العثور عليه بالتأكيد.

تُواجه أدوات الذكاء الاصطناعي تحدياً متزايداً بسبب نقص بيانات التدريب المُتاحة، مما يهدد بتقويض تقدمها وتطورها. وللتغلب على هذا التحدي، يتم تبني حلول مبتكرة مثل استخدام البيانات التركيبية، والاستفادة من التعلم غير الخاضع للإشراف، وتعزيز التعاون بين المؤسسات لمشاركة البيانات. هذه الحلول تساعد في توفير مصادر جديدة للبيانات، مما يضمن استمرار تحسين وتطوير النماذج الذكية بكفاءة وفعالية. يُمكنك الإطلاع الآن على الطرق التي يمكن أن يُساعد بها الذكاء الاصطناعي مجرمي الإنترنت.

زر الذهاب إلى الأعلى