تتلقى ميزة chatgpt لتوليد الصور ترقية

خلال أحد الأوقات يوم الثلاثاء ، أعلن سام ألتمان ، الرئيس التنفيذي لشركة Openai ، أول ترقية رئيسية لقدرات توليد الصور في ChatGPT منذ أكثر من عام.
يمكن لـ ChatGPT الآن الاستفادة من طراز GPT-4O للشركة لإنشاء وتعديل الصور والصور. لقد قامت GPT-4O بدعم منصة chatbot التي تعمل بالنيابة ، ولكن حتى الآن ، تمكن النموذج من إنشاء النص وتحريره فقط-وليس الصور.
قال Altman إن GPT-4O Native Image Generation يعيش اليوم في Chatgpt و Sora ، منتج توليد الفيديو من AI Openai ، للمشتركين في خطة الشركة المحترفة التي تبلغ قيمتها 200 شهرين. يقول Openai إن الميزة يتم طرحها قريبًا إلى زائد المستخدمين المجانيين لـ ChatGPT ، وكذلك المطورين الذين يستخدمون خدمة API الخاصة بالشركة.
GPT-4O مع إخراج الصورة “يفكر” لفترة أطول قليلاً من نموذج جيل الصور الذي يحل محله بشكل فعال ، Dall-E 3 ، لجعل ما يصفه Openai بأنه صور أكثر دقة وتفصيلية. يمكن لـ GPT-4O تحرير الصور الحالية ، بما في ذلك الصور التي تحتوي على أشخاص فيها-تحويلها أو تفاصيل “inpainting” مثل كائنات الأمامية والخلفية.
لتشغيل ميزة الصورة الجديدة ، أخبرت Openai صحيفة وول ستريت جورنال أنها تدربت GPT-4O على “البيانات المتاحة للجمهور” ، بالإضافة إلى بيانات الملكية من شراكاتها مع شركات مثل Shutterstock.
يرى العديد من بائعي الذكاء الاصطناعى التوليدي بيانات التدريب على أنها ميزة تنافسية ، لذلك يحتفظون بها وأي معلومات تتعلق بها بالقرب من الصدر. لكن تفاصيل بيانات التدريب هي أيضًا مصدر محتمل للدعاوى القضائية المتعلقة بـ IP ، وهو مثبط آخر للشركات تكشف الكثير.
وقال براد لايتكاب ، كبير مسؤولي العمليات في Openai ، في بيان للمجلة: “نحن نحترم حقوق الفنانين من حيث كيفية قيامنا بالإخراج ، ولدينا سياسات تمنعنا من توليد صور تحاكي أي عمل فنانين حيين”.
يوفر Openai نموذج إلغاء الاشتراك يسمح للمبدعين بطلب إزالة أعمالهم من مجموعات بيانات التدريب الخاصة بها. تقول الشركة أيضًا إنها تحترم طلبات عدم السماح بروبوتاتها التي تنقل الويب من جمع بيانات التدريب ، بما في ذلك الصور ، من مواقع الويب.
تتبع ميزة chatgpt التي تمت ترقيتها لتوليد الصور على أعقاب إخراج الصور الأصلي التجريبي من Google لـ Gemini 2.0 Flash ، أحد الطرز الرائدة للشركة. كانت الميزة القوية فيروسية على وسائل التواصل الاجتماعي – ولكن ليس بالضرورة لأفضل الأسباب. تبين أن مكون صورة Gemini 2.0 Flash يحتوي على عدد قليل من الدرابزين ، مما يسمح للأشخاص بإزالة العلامات المائية وإنشاء صور تصور الأحرف المحمية بحقوق الطبع والنشر.
تم تحديث هذه المقالة في الساعة 12 مساءً بتوقيت PT لتشمل بيان Openai إلى The Wall Street Journal حول بيانات تدريب GPT-4O.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.