منطقه
1. کد گذاریهای کاراکتری
در عمل کامپیوترها نمیتوانند کاراکترها و علائم را ذخیره کنند، آنها فقط اعداد را ذخیره میکنند. روشهای بیشماری برای نمایش دادن کاراکترهای زبان انسانی( مانند حرف A، علامت به اضافه، وغیره ) به عنوان عدد، وجود دارد، و این امر که روشهای متفاوت بسیار زیادی، واقعاً به کار برده شد، به بینظمی منجر گردیده است.
کامپیوترهای اولیه (حداقل در ایالات متحده) در دو استاندارد برای طرحریزی(نگاشت) کاراکترهای US English به اعداد و بالعکس، به یکدیگر نزدیک شدند: ASCII و EBCDIC. دومی به تدریج تا اواخر قرن بیستم منسوخ گردید و ASCII ( کد استاندارد امریکایی برای تبادل اطلاعات) را به عنوان استاندارد اصلی باقی گذاشت.
مشکل با ASCII آن است که برای زبانهای غیر از انگلیسی، یا حتی برای برخی کلمات انگیسیِ وابسته به مزیتهای انشایی نویسنده، یا شاید نوشته شده با آوا نماها (به عنوان مثال rôle و naïve) خیلی محدود است. ASCII تنها بیست و شش حرف از الفبای انگلیسی (بزرگ و کوچک)، ارقام 0 تا 9، و مقداری نشانهگذاری اصلی را پوشش میدهد -- به طور معمول آنهایی که شما در صفحه کلید US کامپیوتر میبینید. در ماشینهای یونیکسی برای دیدن فهرست آنها میتوانید man ascii را تایپ کنید.
اکثر کامپیوترها از یک بایت هشت بیتی به عنوان واحد ذخیرهشان (یعنی یک دامنه از 0 تا 255 هنگامی که مانند اعداد صحیح غیر منفی بیان میشوند) استفاده میکنند. ASCII فقط کاراکترهای هفت بیتی (0 تا 127) تعریف میکند، یک میرات روزهایی که ارتباطات راه دور دادهها به طور قابل ملاحظهای آهسته و بیشتر مستعد خطا بود. چون ASCII تنها نصف محدوده یک بایت را استفاده میکند، این مطلب فضایی را برای افراد باقی گذاشت که مجموعههای کاراکتری خودشان را داخل یک بایت منفرد تعریف کنند.
(بسیاری از کاربران DOS/Windows مایکروسافت باور دارند که ASCII تمام دامنه 0 تا 255 را با صورتکهای خندان و کاراکترهای ترسیم خطوط و مانند آن پوشش میدهد. این تصور نادرست است. مجموعه کاراکتر معروف DOS در حقیقت IBM code page 437 است، که یکی از چندین فوقمجموعه ASCII میباشد. ASCII خودش منحصر به 127 کاراکتر است.)
ادامه مطلب