استخدم Sohl-Dickstein مبادئ الانتشار لتطوير خوارزمية للنمذجة التوليدية. الفكرة بسيطة: تقوم الخوارزمية أولاً بتحويل الصور المعقدة في مجموعة بيانات التدريب إلى ضوضاء بسيطة – تشبه الانتقال من نقطة حبر لنشر الماء الأزرق الفاتح – ثم تعلم النظام كيفية عكس العملية ، وتحويل الضوضاء إلى صور.
وإليك كيفية عملها: أولاً ، تأخذ الخوارزمية صورة من مجموعة التدريب. كما في السابق ، لنفترض أن لكل وحدة من المليون بكسل بعض القيمة ، ويمكننا رسم الصورة كنقطة في مساحة مليونية الأبعاد. تضيف الخوارزمية بعض الضوضاء لكل بكسل في كل خطوة زمنية ، وهو ما يعادل انتشار الحبر بعد خطوة زمنية صغيرة واحدة. مع استمرار هذه العملية ، تحمل قيم البكسل علاقة أقل بقيمها في الصورة الأصلية ، وتبدو وحدات البكسل مثل توزيع ضوضاء بسيط. (تقوم الخوارزمية أيضًا بدفع قيمة كل بكسل a smidgen نحو الأصل ، والقيمة الصفرية على كل هذه المحاور ، في كل خطوة زمنية. يمنع هذا التنبيه قيم البكسل من الزيادة الكبيرة جدًا بحيث لا يمكن لأجهزة الكمبيوتر التعامل معها بسهولة.)
افعل ذلك لجميع الصور في مجموعة البيانات ، وسيتحول التوزيع الأولي المعقد للنقاط في مساحة مليون بعد (والتي لا يمكن وصفها وأخذ عينات منها بسهولة) إلى توزيع بسيط وطبيعي للنقاط حول الأصل.
قال Sohl-Dickstein: “إن تسلسل التحولات يحول ببطء شديد توزيع البيانات الخاصة بك إلى مجرد كرة ضوضاء كبيرة”. تتيح لك هذه “العملية المستقبلية” توزيعًا يمكنك أخذ عينات منه بسهولة.
التالي هو جزء التعلم الآلي: امنح الشبكة العصبية الصور الصاخبة التي تم الحصول عليها من التمريرة الأمامية وقم بتدريبها على التنبؤ بالصور الأقل ضوضاء التي جاءت قبل ذلك بخطوة. سترتكب أخطاء في البداية ، لذلك تقوم بتعديل معلمات الشبكة حتى تعمل بشكل أفضل. في النهاية ، يمكن للشبكة العصبية أن تحول بشكل موثوق صورة مشوشة ، والتي تمثل عينة من التوزيع البسيط ، وصولاً إلى صورة ممثلة لعينة من التوزيع المعقد.
الشبكة المدربة هي نموذج توليدي كامل. الآن لا تحتاج حتى إلى صورة أصلية للقيام بتمريرة إلى الأمام: لديك وصف رياضي كامل للتوزيع البسيط ، بحيث يمكنك أخذ عينات منه مباشرة. يمكن للشبكة العصبية تحويل هذه العينة – بشكل أساسي فقط ثابتة – إلى صورة نهائية تشبه صورة في مجموعة بيانات التدريب.
يتذكر Sohl-Dickstein المخرجات الأولى لنموذج الانتشار الخاص به. قال: “عليك أن تحدق بجانبك وتكون مثل ،” أعتقد أن تلك النقطة الملونة تشبه شاحنة “. “لقد أمضيت شهورًا عديدة من حياتي أحدق في أنماط مختلفة من البكسل وأحاول رؤية البنية التي كنت مثلها ،” هذه طريقة أكثر تنظيماً من أي وقت مضى. ” لقد كنت متحمسا جدا.”
تصور المستقبل
نشر Sohl-Dickstein خوارزمية نموذج الانتشار الخاصة به في عام 2015 ، لكنها كانت لا تزال متأخرة جدًا عما يمكن أن تفعله شبكات GAN. في حين أن نماذج الانتشار يمكن أن تأخذ عينات من التوزيع بأكمله ولا تتعثر أبدًا في بصق مجموعة فرعية من الصور ، كانت الصور تبدو أسوأ ، وكانت العملية بطيئة للغاية. قال سوهل ديكستين: “لا أعتقد في ذلك الوقت أن هذا كان يُنظر إليه على أنه مثير”.
سوف يتطلب الأمر اثنين من الطلاب ، لم يكن أي منهما يعرف Sohl-Dickstein أو أحدهما الآخر ، لربط النقاط من هذا العمل الأولي بنماذج الانتشار الحديثة مثل DALL E 2. كان الأول سونج ، طالب الدكتوراه في ستانفورد في ذلك الوقت. في عام 2019 ، نشر هو ومستشاره طريقة جديدة لبناء نماذج توليدية لم تقدر التوزيع الاحتمالي للبيانات (السطح عالي الأبعاد). بدلاً من ذلك ، قدرت تدرج التوزيع (فكر في الأمر على أنه منحدر للسطح عالي الأبعاد).
اكتشاف المزيد من مباشر التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.