مدلهای زبان بزرگ OpenAI براساس مجموعهی بسیار گستردهای از دادهها آموزش دیدهاند و اطلاعات را از همهجای اینترنت استخراج میکنند.
اگر مدلهای زبانی بزرگ (LLM) بخواهند در دارک وب به کاوش بپردازند چه خواهد شد؟ تیمی از محققان کرهی جنوبی دقیقاً همین کار را انجام دادند و مدل هوش مصنوعی جدیدی به نام DarkBERT ساختهاند تا برخی از دامنههای اصلی موجود در اینترنت را فهرست کند.
DarkBERT نگاه اجمالی و جذابی به برخی از تاریکترین بخشهای شبکهی جهانی وب ارائه میدهد. دارک وب جایی است که فعالیتهای غیرقانونی از اشتراکگذاری دادههای هکشده گرفته تا فروش مواد مخدر در آن انجام میشود.
فیوچریسم مینویسد، اگرچه DarkBERT در نگاه اول شبیه کابوس بهنظر میرسد اما محققان میگویند این مدل هوش مصنوعی اهداف بسیار خوبی دارد؛ تلاش برای ایجاد راههای جدید مبارزه با جرایم سایبری.
جای تعجب نیست، درک بخشهایی از وب که موتورهای جستوجو آنها را فهرست نمیکنند و اغلب ازطریق نرمافزارهای خاص قابلدسترسی هستند، کار آسانی نبود.
براساس مقالهی «DarkBERT: مدل زبانی برای طرف تاریک اینترنت»، مدل مذکور ابتدا به شبکهی تور (Tor) متصل شد؛ شبکهای که از آن برای دسترسی به دارک وب استفاده میشود. در مرحلهی بعد، مدل کار خود را آغاز و پایگاه دادهای از اطلاعات خام دریافتشده ایجاد کرد.
تیم تحقیقاتی میگوید مدل زبان بزرگ جدید آنها نسبت به مدلهای دیگر که برای انجام کارهای مشابه آموزش داده شدهاند، توصیف بسیار بهتری از دارک وب ارائه داد.
محققان در بخشی از مقالهی خود نوشتهاند: «نتایج ارزیابی ما نشان میدهد مدل طبقهبندی متنی DarkBERT از مدلهای زبانی از پیش آموزشدیده، عملکرد بهتری دارد.»