روابط سريعة
Whisper من OpenAI هو حل جديد مدعوم بالذكاء الاصطناعي يُمكنه مُساعدتك على تحويل صوتك إلى نص بشكل مُميز. أفضل ما في الأمر أنه يأتي بدون تكلفة.
ومع ذلك ، هناك مشكلة بسيطة نسبيًا: التثبيت والاستخدام أكثر صعوبة من خلال أداة Windows العادية. خاصةً إذا كنت ترغب في استخدام نوى Tensor من بطاقة رسومات Nvidia لإعطائه دفعة جيدة. تحقق من أفضل الأدوات المُستندة إلى الذكاء الاصطناعي لإنشاء صورة فنية مما تكتبه مجانًا.
لا يجب أن تيأس ، رغم ذلك. لهذا نحن هنا! تابع القراءة لمعرفة كيفية تثبيته واستخدامه ، ولكن أيضًا ، إذا كنت تمتلك بطاقة رسومات من Nvidia ، سنعرض كيف يُمكن أن يستفيد Whisper منها.
ما هو Whisper من OpenAI؟
أصبح ChatGPT رائجًا بسرعة بين المُستخدمين ، وقد رأينا بالفعل كيف يُمكنك استخدام ChatGPT بواسطة OpenAI. ومع ذلك ، فهو ليس المشروع الوحيد المُثير للاهتمام من قبل شركة OpenAI.
مدعوم من التعلم العميق والشبكات العصبونية ، Whisper هو نظام معالجة لغة طبيعي يُمكنه “فهم” الكلام وتحويله إلى نص. ولكنه أيضًا يتميز بالعديد من التكوينات المُخصصة في مجاله ، حيث يتفوق بين جميع الحلول المُماثلة بفضل:
- Whisper هو حل للذكاء الاصطناعي “مدرب” على اللغة الطبيعية. لذا ، فإنَّ فهم الكلام البشري “الطبيعي” أفضل من الحلول القديمة.
- لا يأتي Whisper بواجهة ، ولا يُمكنه تسجيل الصوت. يُمكن أن يأخذ الملفات الصوتية الموجودة والملفات النصية المخرجة فقط.
- نظرًا لأنه جيد في “فهم اللغة” ، يتمتع Whisper أيضًا بالأفضل المُطلقة في الترجمة التلقائية.
- Whisper ليس خدمة عبر الإنترنت ويُمكن أن يعمل دون اتصال بالإنترنت تمامًا.
- إذا كان لديك بطاقة رسومات Nvidia (GTX970 أو أحدث) ، يُمكن تشغيل Whisper في “وضع تسريع الأجهزة” لزيادة سرعة استجابته.
- ليس هناك شرط للتسجيل أو شراء ترخيص أو شراء اشتراك.
لماذا لا يتم دعم بطاقة الرسومات من AMD؟
لكي تكون وحدات معالجة الرسومات مُفيدة لأكثر من مجرد إخراج الرسومات ، يجب أن تعمل كمعالجات قابلة للبرمجة بالكامل. لهذا السبب أنشأت Nvidia معمارية CUDA ، والتي تُعتبر رسميًا “منصة حوسبة متوازية ونموذج برمجة”.
CUDA هي تقنية من Nvidia مملوكة لها ، مُتوافقة فقط مع وحدات معالجة الرسومات من Nvidia. أقرب البدائل لها من AMD هي OpenCL و Radeon Compute Platform.
مقارنة بالبدائل ، تُعتبر CUDA أكثر نضجًا وأداءً وأسهل في الاستخدام. وبالتالي ، فإنَّ معظم المطورين يستهدفون CUDA فقط ، وهذا بدوره يعني أن تطبيقاتهم لا تستفيد إلا من ميزات الأجهزة على وحدات معالجة الرسومات من Nvidia. وهذا يشمل Whisper. تحقق من مقارنة بين بطاقات الرسومات من AMD و NVIDIA على Linux: أيهما يجب أن تستخدم؟
كيفية تنزيل وتثبيت Whisper
لسوء الحظ ، Whisper ليس تطبيقًا مُستقلاً يُمكنك تنزيله وتثبيته وتشغيله بشكل إعتيادي. إنه يعتمد على تبعيات أخرى يجب تثبيتها أيضًا.
بالنسبة لـ Windows ، لإبقاء هذا الدليل بسيطًا ، سنستخدم Chocolatey الرائج على نطاق واسع لتثبيت معظم أجزاء التطبيقات الضرورية. راجع دليلنا حول أسرع طريقة لتثبيت تطبيقات Windows للحصول على مزيد من المعلومات حول Chocolatey.
بالنسبة إلى كل من Linux و Mac ، يجب أن تكون عملية التثبيت (باستثناء مُتغيِّر مسار Windows والملفات الدفعية سهلة الاستخدام التي سننشئها) مُتشابهة.
- لتثبيت واستخدام Whisper ، يجب تثبيت Python وأداة PIP الخاصة به وإضافتهما إلى مُتغيِّر Windows “Path”. للحصول على معلومات حول ذلك ، راجع مقالتنا حول كيفية تثبيت Python PIP على Windows و Mac و Linux.
- قم بتثبيت FFMPEG من خلال Chocolatey باستخدام هذا الأمر:
choco install ffmpeg
- أيضًا ، قم بتثبيت إصدار Python الخاص به باستخدام:
pip3 install python-ffmpeg
- أخيرًا ، قم بتثبيت Whisper من صفحة Github الخاصة به باستخدام:
pip3 install git+https://github.com/openai/whisper.git
الحصول على إصدار CUDA-Enabled من Whisper
على الرغم من أنَّ Whisper لا يستخدم وحدات معالجة الرسومات من Nvidia بشكل أساسي ، إلا أنَّ حزمة Torch التي تعتمد عليها تُقدم إصدارًا مُسرعًا من CUDA. يمكن أن يساعد استخدامه بدلاً من الإصدار “العادي” لـ Whisper على إكمال عمليات التفريغ الصوتي بشكل أسرع بمساعدة بطاقة رسومات Nvidia.
للحصول على Whisper ، الذي يستخدم CUDA من Nvidia:
- إذا كان لديك بالفعل إصدار “الفانيليا” من Torch مُثبتًا ، فقم بإلغاء تثبيته والتخلص من الملفات المُتبقية باستخدام:
pip3 uninstall torch
- بمجرد الانتهاء من ذلك ، قم بمتابعته مع الأمر التالي:
pip cache purge
- قم بتثبيت إصدار Torch’s الذي يدعم CUDA باستخدام الأمر:
pip3 install torch torchvision torchaudio — extra-index-url https://download.pytorch.org/whl/cu117
- للتحقق مما إذا كان بإمكان Whisper يقوم باستخدام Nvidia GPU ، استخدم:
whisper — help | findstr -i pytorch
يجب أن تُشاهد (default: cuda) بدلاً من (default: cpu). تحقق من الأسباب المُعززة التي تجعل ChatGPT لا يأخذ وظيفتك في كتابة المُحتوى.
ماذا تفعل إذا فشل تثبيت Torch
إذا واجهت خطأ “لم يتم العثور على إصدار” أثناء تثبيت Torch ، فقد تحتاج إلى تثبيت إصدار أقدم من Python موازٍ لإصدارك الحالي.
استخدم هذا الأمر للقيام بذلك:
choco install python — version OLDER_VERSION — side-by-side
استبدل “OLDER_VERSION” بإصدار مثل 3.10.
بعد ذلك ، استخدم مسار الإصدار الثانوي لجميع أوامر Whisper “العامة” (على سبيل المثال ، “c:\Python310\Scripts\pip.exe
” بدلاً من “pip” فقط).
كيف تُسجل صوتك
يُمكنك استخدام أي تطبيق تسجيل صوتي لتحويل صوتك إلى ملف WAV أو MP3. يتضمن Windows مثل هذا التطبيق — لمزيد من المعلومات حول ذلك ، راجع كيفية استخدام تطبيق مُسجل الصوت على Windows 10.
للحصول على خيار كامل الميزات ، جرب Audacity. تعرف على كيفية القيام بذلك من خلال دليلنا حول كيفية استخدام Audacity لتسجيل الصوت على Windows و Mac.
كيف تبدأ الكتابة باستخدام Whisper
على الرغم من أنَّ Whisper لا يأتي مع واجهة مستخدم رسومية بسيطة ، إلا أن استخدامه سلس للغاية.
لنفترض أنَّ لدينا ملف LatestNote.mp3 الذي يحتوي على الكلام باللغة اليونانية ، في المجلد c:\MyAudioFiles ، ونُريد ترجمته إلى اللغة الإنجليزية ونسخه إلى ملف نصي.
- نبدأ بتشغيل موجه الأوامر أو PowerShell.
- نقوم “بتغيير الدليل” إلى أين يتم تخزين الملف الصوتي باستخدام هذا الأمر:
cd C:\MyAudioFiles
- نقوم بتشغيل Whisper في الملف باستخدام:
whisper — model base — language gr — task translate LatestNote.mp3
بمجرد المعالجة ، سيظهر الملف النصي (المسمى “LatestNote.mp3.txt”) في نفس المجلد. افتحه في مُحرِّر نصي مثل Notepad لعرض النص المترجم.
استخدمنا مثالًا للترجمة لأنَّ التفريغ الصوتي الإنجليزي أكثر وضوحًا: ما عليك سوى استخدام العلامات “lose” ، “ –language” و “-task”. وبالتالي ، بالنسبة للنسخ الصوتي البسيط ، سيكون الأمر أعلاه:
whisper — model base LatestNote.mp3
علامة “model” مطلوبة لأنَّ Whisper يستخدم واحدًا من الخيارات المُختلفة. دعنا نوسعها لمساعدتك في اختيار الأفضل لاحتياجاتك. تحقق من ما هي وظيفة التفريغ الصوتي؟ ما دورها وكيف تعمل فيها؟
أي نموذج تختار؟
يُقدم Whisper نماذج لغوية مختلفة. كلما كان النموذج أكبر ، زادت دقته ، ولكن أيضًا زادت متطلبات الأجهزة الخاصة به. والتي هي:
- Tiny.
- Base.
- Small.
- Medium.
- Large.
يجب أن تكون النماذج Tiny أو Base جيدة لمعظم المُتحدثين باللغة الإنجليزية. قد يرى الناطقون باللغة الإنجليزية غير المُتحدثين بها نتائج أفضل مع الطرز الأكبر ، مثل Medium و Large.
لاحظ ، مع ذلك ، أنَّ النماذج Medium و Large تتطلب أكثر من 8 جيجا بايت من VRAM (أي “ذاكرة وحدة معالجة الرسومات الخاصة بك”).
لتحديد واحد منها ، حدد النموذج بعد مفتاح “ — model” في الأمر:
whisper — model tiny/small/medium/large [file]
على سبيل المثال:
whisper — model small My_Voice_Note.mp3
كيفية تبسيط التفريغ الصوتي
الاضطرار إلى كتابة أمر Whisper بالكامل في كل مرة تُريد فيها نسخ بعض الصوت يُمكن أن يُصبح مملًا بسرعة. لنقم بإنشاء ملف دفعي يمكن الوصول إليه بشكل عالمي لتبسيط العملية.
- قم بتشغيل مستكشف Windows وقم بزيارة محرك الأقراص
C:
. - قم بإنشاء مجلد للنصوص ، وانسخ مساره إلى الحافظة.
- في “قائمة ابدأ” في Windows ، ابحث عن “Path” وحدد تعديل مُتغيِّرات بيئة النظام.
- ابحث عن مُتغيِّر المسار ضمن متغيرات المستخدم لـ YOUR_USERNAME. انقر نقرًا مزدوجًا فوقه لتعديله. انقر فوق جديد ، والصق المسار إلى مجلد البرامج النصية الخاصة بك. انقر فوق “موافق” لقبول التغييرات.
- ارجع إلى مجلد البرامج النصية في مستكشف Windows. قم بإنشاء ملف دفعي جديد هناك باسم “wht.bat”. “داخله” ، أضف هذا الأمر:
whisper — model tiny — language en %1
- قم بإنشاء اثنين من الملفات الدفعية ، “whs” و “whm”.
- أضف هذا الأمر داخل الملف الأول:
whisper — model small — language en %1
- أضف هذا الأمر داخل الملف الثاني:
whisper — model medium — language en %1
تهانينا ، لديك الآن ثلاثة ملفات لاستخدام نماذج Whisper الصغيرة والمتوسطة والأساسية بسهولة مع ملفاتك الصوتية! لتحويل أي ملف صوتي إلى نص:
- حدد مكان الملف باستخدام مستكشف ملفات Windows.
- انقر بزر الماوس الأيمن فوق مكان فارغ واختر فتح في Terminal.
- اكتب هذا الأمر ، واستبدل “wht” بـ “whs” أو “whm” لاستخدام نماذج اللغات الصغيرة أو المتوسطة:
wht YOUR_AUDIO_FILE.mp3
كتابة المُحتوى الصوتي بسرعة باستخدام Whisper
حتى أسرع الكاتبين على لوحة المفاتيح لا يُمكنهم مطابقة السرعة التي نتحدث بها. ومع ذلك ، حتى وقت قريب ، لم يكن التحدث بدلاً من الكتابة هو الأمثل لإنشاء المستندات.
أنتجت معظم حلول تحويل الصوت إلى نص نتائج متواضعة. يُمكنك أن تجد بعض الحلول التي تستحق المحاولة ، لكنها كانت مُعقَّدة الاستخدام أو مُكلفة. لحسن الحظ ، قام Whisper بتغيير كل ذلك.
بعد الخطوات المذكورة أعلاه ، يجب أن تكون جاهزًا لكتابة صوتك أو ترجمته بدقة عالية ، باستخدام أمر واحد فقط. يُمكنك الإطلاع الآن على أفضل تطبيقات تحويل الصوت إلى نص لتدوين الملاحظات والاجتماعات والمحاضرات.