Charset با نام های Character Sets (مجموعه های کاراکتری) یا Encoding (رمزگذاری) نیز شناخته می شود. برای نمایش صحیح و درست صفحه وب استفاده می شود چراکه برای نمایش صحیح هر چیزی، مرورگر وب باید بداند از کدام مجموعه کاراکتر (رمزگذاری کاراکتر) استفاده کند.
رمزگذاری کاراکتر در HTML
انواع مختلفی از رمزگذاری کاراکتر وجود دارد. در اینجا این مجموعه ها را توضیح خواهیم داد:
مجموعه کاراکتر ASCII
ASCII یا اسکی مخفف کد استاندارد آمریکایی برای تبادل اطلاعات است. استاندارد ASCII اولین استاندارد رمزگذاری کاراکتر در html است. ASCII، ۱۲۸ کاراکتر الفبایی مختلف را ارائه می دهد که می توانند در اینترنت استفاده شوند: اعداد (۰-۹)، حروف انگلیسی (A-Z) و برخی کاراکترهای خاص مانند ! $ + – () @ <>.
مشکل اصلی در رمزگذاری ASCII دامنه محدود کاراکترها بود. این مجموعه شامل ۱۲۸ کاراکتر است.
مجموعه کاراکتر ANSI
ANSI مخفف موسسه استاندارد ملی آمریکا است. این استاندارد مجموعه کاراکتر نسخه توسعه یافته از استاندارد مجموعه کاراکتر ASCII است. این مجموعه از ۲۵۶ کاراکتر پشتیبانی می کند. ANSI با عنوان ۱۲۵۲Windows- نیز شناخته می شود و تا ویندوز ۹۵، مجمموعه کاراکتر پیش فرض برای ویندوز بود.
مجموعه کاراکتر ISO-8859-1
ISO-8859-1 رمزگذاری کاراکتر پیش فرض در۰٫ HTML2 و نسخه توسعه یافته از استاندارد ASCII با کاراکترهای بین المللی بود. این مجموعه از یک بایت کامل (۸ بیت) برای نمایش کاراکترها استفاده کرده است.
مجموعه کاراکتر ۸-UTF
۸UTF- یک رمزگذاری کاراکتر با محدوده متغیر است که تقریباً تمام کاراکترها و نمادهای موجود در جهان را پوشش می دهد. (ANSI 1252(Windows- مجموعه کاراکتر اصلی ویندوز بود که از ۲۵۶ کد کاراکتر مختلف پشتیبانی می کرد.
ISO-8859-1 مجموعه کاراکتر پیش فرض برای HTML4 بود. این مجموعه کاراکتر نیز از ۲۵۶ کد کاراکتر مختلف پشتیبانی می کند.
چرا ۸-UTF هم در HTML4 پشتیبانی می شود؟
از آنجا که ANSI و ISO-8859-1 بسیار محدود بودند، HTML4 از ۸-UTF نیز پشتیبانی می کند. ۸-UTF رمزگذاری کاراکتر پیش فرض برای HTML5 است.
ساختار ۸-UTF برای HTML4
<meta http-equiv=”Content-Type” content=”text/html;charset= UTF-8″>
ساختار ۸-UTF برای HTML5L
<meta charset=”UTF-8″>