3 سال پیش / خواندن دقیقه

ChatGPT در آزمون پزشکی موفق عمل می‌کند اما نمی‌توان به توصیه‌های پزشکی آن اعتماد کرد

به‌نظر می‌رسد درحال حاضر نمی‌توان به توصیه‌های پزشکی هوش مصنوعی ChatGPT اعتماد کرد.

سم آلتمن، مدیرعامل OpenAI چندماه قبل اعلام کرد افراد کم درآمد و کسانی که از خدمات مراقبت‌های بهداشتی بهره نمی‌برند قادر خواهند بود از چت‌بات‌های هوش مصنوعی مثل ChatGPT به‌عنوان مشاور پزشکی استفاده کنند.

ایده‌ی آلتمن برای استفاده از هوش مصنوعی به‌عنوان مشاور پزشکی در ابتدا کمی احمقانه به‌نظر می‌رسید و در حال حاضر نمی‌توان به این رویکرد اعتماد کرد. براساس تحقیقات جدید متخصصان پزشکی دانشگاه استنفورد، اگرچه ChatGPT می‌تواند آزمون مجوز پزشکی ایالات‌متحده را با موفقیت بگذراند، اما در پاسخ به سناریوهای پزشکی به‌طرز نگران‌کننده‌ای غیرقابل اعتماد است.

تحقیق دانشمندان استنفورد نشان می‌دهد تقریباً ۶۰ درصد از پاسخ‌های ChatGPT به موقعیت‌های پزشکی دنیای واقعی با نظر متخصصان انسانی در تضاد است یا به‌اندازه‌ی کافی با نظر پزشکان مطابقت ندارد.

محققان استنفورد در آزمایش خود ۶۴ سؤال پزشکی واقعی از ChatGPT پرسیدند از دوازده متخصص بالینی درخواست کردند پاسخ‌های هوش مصنوعی را مورد ارزیابی قرار دهند.

GPT-4 جدیدترین و قدرتمندترین مدل زبان بزرگ جهان است که ChatGPT از آن استفاده می‌کند. آزمایش‌ها نشان می‌دهند بیش‌از ۹۰ درصد از پاسخ‌های این مدل هوش مصنوعی به‌اندازه‌ی کافی ایمن هستند اما نمی‌توان آن‌ها را الزماً دقیق درنظر گرفت.

به‌هر حال، ۴۱ درصد از پاسخ‌های هوش مصنوعی OpenAI با پاسخ‌های ارائه‌شده ازطرف متخصصان پزشکی در تضاد بود و ۲۹ درصد از آن‌ها به‌قدر مبهم یا نامرتبط بودند که حتی امکان ارزیابی آن‌ها وجود نداشت.

به گزارش فیوچریسم، برخی از افراد از ادعاهای مرتبط با مفید بودن هوش مصنوعی در زمینه‌ی مشاوره‌ی پزشکی، عقب‌نشینی کرده‌اند و درعوض آن را ابزار مفیدی برای بررسی مدارک پزشکی یا ارائه‌ی دستورالعمل به بیماران می‌دانند. مارک سنداک، دانشمند داده‌های بالینی دانشگاه دوک می‌گوید: «ما نباید به ادعای مفید نبودن هوش مصنوعی برای کمک به پزشکان اطمینان کنیم و این موضوعی است که باید به‌طور دقیق بررسی شود.»

اگر منصفانه به موضوع نگاه کنیم، انسان‌های شرکت‌کننده در آزمایش محققان استنفورد مزیت مهمی داشتند؛ دسترسی به سوابق سلامتی بیماران که ChatGPT قطعاً از آن‌ها اطلاعی ندارد. محققان می‌گویند این مورد به‌نوبه‌ی خود نقض ذاتی آزمایش‌های انجام‌شده روی هوش مصنوعی را نشان می‌دهد. به‌عبارت دیگر این ارزیابی فقط براساس کتاب‌های درسی انجام شده است. این مورد همچنین شک سنداک را درمورد روش صحیح انجام آزمایش مذکور تأیید می‌کند.

نیگام شاه، پروفسور پزشکی در دانشگاه استنفورد که رهبری تحقیق درمورد قابلیت‌های مشاوره‌ی پزشکی هوش مصنوعی را برعهده داشته است می‌گوید: «ما این فناوری را اشتباه ارزیابی کردیم و آنچه باید مورد بررسی قرار گیرد، ساختار ترکیبی انسان درکنار هوش مصنوعی است.»

نیگام شاه در ادامه اظهارداشت از پیشرفت‌های GPT-4 نسبت‌به نسخه‌ی قبلی آن شگفت‌زده شده است. درمقام مقایسه، GPT-3.5 در آزمون پزشکی مشابه، فقط در ۲۰ درصد مواقع پاسخ‌هایی مطابق با نظر متخصصان انسانی ارائه داد.

0 نظر

پلاس وی

هر آنچه میخواهید در اینجا بخوانید

ChatGPT در آزمون پزشکی موفق عمل می‌کند اما نمی‌توان به توصیه‌های پزشکی آن اعتماد کرد

منوی سریع