ทางเลือกของผู้อ่าน
บทความยอดนิยม
แนวคิดการเข้ารหัส
นามธรรม
สารบัญ
1. ข้อมูลการเข้ารหัส
2.
3. การเข้ารหัสอักขระแป้นพิมพ์
4. การเข้ารหัสสี
5. การเข้ารหัสข้อมูลกราฟิก
6. การเข้ารหัสจำนวนเต็มและจำนวนจริง
7. การเข้ารหัสข้อมูลเสียง
8. แนวคิดของไฟล์
9. หน่วยวัดของรหัสไบนารีของข้อความ
ในทำนองเดียวกันตัวเลขที่มีน้ำหนักมากที่สุดคือรูปที่เขียนทางซ้ายมากที่สุด จำนวนที่แสดงด้วยจำนวนดังต่อไปนี้ . ค่าของตัวเลขนั้นได้มาจากการเพิ่มตัวเลขแต่ละตัวคูณด้วยปัจจัยที่แสดงถึงน้ำหนักของมัน ดังนั้นจากขวาไปซ้ายตัวเลขตัวแรกเรียกว่าหน่วยสิบสองและสามร้อยเป็นต้น ในฐาน 10 ค่าของตัวเลขนั้นได้มาจากการคูณจำนวนหน่วยด้วยหนึ่งหมื่นคูณ 10 ร้อยโดย 100 และอื่น ๆ เท่าที่เห็นจากห้อง
ตัวเลขที่เป็นผลรวมของดีกรี 10 ปัจจัยที่คูณด้วยตัวเลขแต่ละหลักนั้นคือพลังต่อเนื่องของฐานที่ใช้ ในกรณีนี้หมายเลขเดียวกันสามารถเขียนใหม่ได้ดังนี้ นั่นคือตัวเลขจะได้รับโดยการคูณแต่ละหลักด้วยฐานที่เพิ่มขึ้นโดยตัวบ่งชี้เท่ากับตำแหน่งที่ครอบครองเริ่มต้นด้วยหน่วยน้ำหนักน้อยกว่าซึ่งตำแหน่งเป็นศูนย์
10. การเป็นตัวแทนของสัดส่วนของหน่วยการวัดข้อมูล
ข้อมูลการเข้ารหัส - นี่คือการนำเสนอข้อความในรูปแบบเฉพาะ ด้วยความช่วยเหลือของลำดับของอักขระบางตัว
กฎของการแสดงชุดอักขระหนึ่งชุดในอีกชุดหนึ่งเรียกว่ารหัส วิธีการนำเสนอข้อมูลโดยใช้อักขระสองตัว - 0 และ 1 เรียกว่ารหัสไบนารี่
สูตรทั่วไปสำหรับพื้นฐานใด ๆ ตัวเลขในฐาน 7 ไม่มีตัวเลขมากกว่า 6 เนื่องจากฐานใช้ตัวเลขตั้งแต่ 0 ถึงเท่านั้น เมื่อเขียนตัวเลขในบริเวณต่าง ๆ ปัญหาของความคลุมเครือเกิดขึ้น เพื่อหลีกเลี่ยงความสับสนดังที่แสดงในสมการข้างต้นเมื่อจัดการตัวเลขในฐานต่าง ๆ มันรวมฐานซึ่งเขียนทางด้านขวาและเป็นดัชนี
ปัจจัยประกอบด้วยตัวเลขที่เหลือและเมื่อใช้การหารต่อเนื่องเราจะได้ตัวเลขที่เหลือตามลำดับจากน้อยไปหามาก เพื่อให้ได้งานนำเสนอในฐาน 7 การแบ่งส่วนแรกจะถูกดำเนินการส่วนที่เหลือคือ 2 และดังนั้นการปล่อยจะมีน้ำหนักน้อยกว่า หากการดำเนินการนี้ซ้ำแล้วซ้ำอีกลำดับผลลัพธ์ที่ได้จะเป็น 0 ในที่สุดและยอดเงินที่ตามมาจะสอดคล้องกับการแสดงตัวเลขในฐาน 7 ดังที่แสดงใน
บิต เป็นเลขฐานสองหนึ่งหลัก 0 หรือ 1 . หนึ่งบิตสามารถเข้ารหัสสองค่า: 1 หรือ 0 .
สองบิต คุณสามารถเข้ารหัสได้สี่ค่า: 00, 01, 10, 11 .
สามบิต ถูกเข้ารหัส 8 ค่าที่แตกต่าง การเพิ่มหนึ่งบิตจะเพิ่มจำนวนของค่าที่สามารถเข้ารหัสได้สองเท่า
การรับตัวเลขในฐาน 7 การใช้การหารตามลำดับโดยฐานทำให้แน่ใจว่าสัมประสิทธิ์มีค่าน้อยกว่าค่าของฐานเสมอ เมื่อสิ่งนี้เกิดขึ้นไม่จำเป็นต้องมีการแยกเพิ่มเติม กระบวนการจะหยุดลงเมื่ออัตราส่วนสุดท้ายต่ำกว่าฐาน มีการอธิบายวิธีสองวิธีสำหรับการแปลจำนวนที่แสดงในฐานใด ๆ ก่อนฐาน 10 และในทางกลับกัน การรวมทั้งสองโพรซีเดอร์สามารถแปลตัวเลขที่แสดงบนพื้นฐานใด ๆ
ข้อมูลการเข้ารหัสไบนารีที่ง่ายที่สุดที่กำหนดไว้สำหรับหน่วยประมวลผลเพื่อประมวลผลคือจำนวนของจำนวนธรรมชาติ การเป็นตัวแทนสอดคล้องกับตัวเลขในฐานข้อมูล ตัวเลขสองหลักเท่านั้นของฐานนี้ตรงกับค่าสองค่าที่สามารถจัดการวงจรดิจิตอล
การเข้ารหัสอักขระคีย์บอร์ด
D เพื่อเข้ารหัสการใช้แป้นพิมพ์อักขระเดียว8 บิต - หนึ่งไบต์
ไบต์ - นี่คือหน่วยประมวลผลข้อมูลที่เล็กที่สุด ด้วยหนึ่งไบต์คุณสามารถเข้ารหัส 2 8 =256 ตัวละคร
มีตารางของรหัสแป้นพิมพ์ รหัสแรกด้วย 32 บน 127 เป็นมาตรฐานและจำเป็นสำหรับทุกประเทศและคอมพิวเตอร์ทุกเครื่องและในช่วงครึ่งหลัง ( 128 -255 ) แต่ละประเทศสามารถสร้างมาตรฐานของตัวเอง - ระดับชาติ
แต่เนื่องจากตัวเลขที่สามารถแสดงในเลขฐานสองเป็น 0 หรือ 1 สูตรข้างต้นจึงสามารถตีความได้อย่างง่ายดาย เมื่อกำหนดจำนวนที่แสดงในฐาน 2 จะได้รับทศนิยมเทียบเท่าโดยการเพิ่มพลังเหล่านั้นเป็น 2 ซึ่งตัวบ่งชี้ที่สอดคล้องกับสถานที่ที่เป็นตัวเลข
พิจารณาตัวเลขในรูปแบบไบนารี จำนวนทศนิยมเทียบเท่าได้มาจากจำนวนต่อไปนี้ ถ่ายโอนฐาน 10 ไปที่ฐาน 2 เพื่อดูว่าตัวเลขเป็นเลขคู่หรือคี่เพียงแค่ดูที่น้ำหนักที่น้อยกว่า ถ้าบิตนี้เป็นหนึ่งจำนวนจะเป็นเลขคี่ถ้าเป็นศูนย์ตัวเลขจะเป็นเลขคู่ แสดงให้เห็นถึงคุณสมบัตินี้เป็นเรื่องไม่สำคัญ ทศนิยมที่เทียบเท่ากับตัวเลขในนิพจน์ไบนารี่นั้นได้มาจากการรวมค่าของกำลังทั้งหมดเหล่านี้ด้วยข้อยกเว้นของคู่แรก ดังนั้นจำนวนคี่จะต้องมีหนึ่งในน้ำหนักที่ต่ำที่สุด
ครึ่งแรกเรียกว่าโต๊ะ ASCII รหัสมาตรฐานอเมริกันสำหรับการแลกเปลี่ยนข้อมูล.
มีตารางการเข้ารหัสอื่น ๆ KOI8-U, Wsndows-1251, Unicode. ของตารางที่แสดงรายการตารางนั้นพิเศษ Unicodeเพราะอักขระทุกตัวในตารางนี้ถูกเข้ารหัส ในสอง ไบต์.
รหัสสี
ในทำนองเดียวกันจำนวนคู่ใด ๆ จะต้องมีศูนย์ในน้ำหนักต่ำสุดเนื่องจากมันสามารถประกอบด้วยพลังของ 2 คู่เท่านั้น คุณสมบัติที่สองไม่เพียงใช้กับฐาน 2 แต่ยังรวมถึงฐานใดก็ได้ การดำเนินการหารและจำนวนเต็มจะดำเนินการโดยการเพิ่มศูนย์เป็นการปล่อยน้ำหนักที่ต่ำกว่าหรือโดยการลบน้ำหนักสั่งซื้อที่ต่ำกว่าตามลำดับ
สำหรับหมายเลขฐาน 10 การดำเนินการคูณด้วย 10 จะดำเนินการโดยการเพิ่มศูนย์เป็นตัวเลขที่ต่ำกว่าของน้ำหนักให้กับจำนวนที่ระบุ ในทำนองเดียวกันถ้าเราหารจำนวนทศนิยมสิบค่าสัมประสิทธิ์จะได้รับโดยไม่สนใจตัวเลขน้ำหนักที่ลดลงซึ่งจะสอดคล้องกับส่วนที่เหลือของการหาร
สีใด ๆ สามารถแทนด้วยสีหลักสามสี: สีแดง, สีเขียว และสีน้ำเงิน (เรียกว่าองค์ประกอบของสี)
หากคุณเข้ารหัสจุดสีโดยใช้สามไบต์ ( 24 บิต) จากนั้น ครั้งแรก ไบต์จะนำข้อมูลเกี่ยวกับ สีแดง ส่วนประกอบ ที่สอง - สีเขียวและ ที่สาม - สีน้ำเงิน. ยิ่งค่าไบต์ขององค์ประกอบสีใหญ่ขึ้นเท่าใด
กลับไปที่การเป็นตัวแทนไบนารีในกรณีนี้การคูณและการหารจำนวนเต็ม 2 สอดคล้องกับการดำเนินงานของการเพิ่มศูนย์เป็นน้ำหนักน้อยลงเล็กน้อยหรือลบตัวเลขน้ำหนักที่สูงขึ้น การเข้ารหัสพื้นฐาน 8 แม้ว่าจะไม่ได้มีประโยชน์ในบริบทของตรรกะดิจิทัล แต่ก็มีคุณสมบัติพิเศษที่ทำให้มีความสำคัญ แอปพลิเคชันของแนวคิดที่นำเสนอในตัวเลขที่เข้ารหัสในฐานข้อมูลนี้ประกอบด้วยตัวเลขระหว่าง 0 ถึงดังนั้นหลังจาก 7 หมายเลขถัดไปคือ 10 และหลังจาก 77 หมายเลขถัดไป
การตั้งค่าใด ๆ (จาก 0 ถึง 255) สำหรับแต่ละสามไบต์ที่มีการเข้ารหัสสีคุณสามารถเข้ารหัสใด ๆ 16,5 ล้านดอกไม้.
การเข้ารหัสข้อมูลกราฟิก
ในการแปลหมายเลขที่กำหนดในฐาน 10 เป็นฐาน 8 จะมีการดำเนินการหารตามลำดับระหว่าง 8 ซึ่งจะได้รับตัวเลขที่เกี่ยวข้อง โดยหลักการแล้วคุณสามารถแปลงตัวเลขในรูปแบบไบนารีให้เป็นตัวเลขในฐานข้อมูล อย่างน้อยคุณสามารถได้รับการเป็นตัวแทนในฐานเลขฐานสิบ 10 จากนั้นทำการถ่ายโอนไปยังฐาน แต่การแปลนี้สามารถทำได้โดยตรงหรือไม่
มีการตรวจพบการวิเคราะห์การปฏิบัติงานที่จำเป็นสำหรับการโอนซึ่งสามารถทำได้ทันที การหารระหว่าง 8 ในเลขฐานสองนั้นสอดคล้องกับการหารระหว่างฐานพลังงานโดยเฉพาะอย่างยิ่ง 2 3 ตามที่อธิบายไว้ข้างต้นการดำเนินการนี้เทียบเท่ากับสามส่วนระหว่าง 2 หรือเท่ากันเอาสามบิตที่มีน้ำหนักน้อยกว่าจากหมายเลข หมวด ผลลัพธ์ทั้งสองนี้เป็นสิ่งที่จำเป็นสำหรับการถ่ายโอน
เข้ารหัสสีของจุดเดียวเรียกว่า จำเป็นต้องใช้หนึ่งสองหรือสามไบต์ขึ้นอยู่กับจำนวนสีที่จะส่ง ในการเข้ารหัสรูปภาพคุณต้องแบ่งรูปภาพออกเป็นจุดต่างๆ ยิ่งมีคะแนนมากเท่าไหร่การถ่ายโอนที่แม่นยำยิ่งขึ้นก็จะยิ่งมากขึ้นเท่านั้น จากนั้นเริ่มจากมุมซ้ายบนและเคลื่อนที่ไปตามเส้นจากซ้ายไปขวาเข้ารหัสสีของแต่ละจุด
ดังนั้นเพื่อที่จะแปลงตัวเลขโดยตรงจากรหัสไบนารี่เป็นฐาน 8 กลุ่มของสามหรือสามบิตเริ่มต้นด้วยอันที่เล็กกว่าและการแปลของแต่ละกลุ่มของ 3 บิตเป็นตัวเลขระหว่าง 0 ถึงสามหลักเลขฐานสองสามารถแทนตัวเลขได้อย่างแม่นยำจาก 0 ถึง 7 ตามที่แสดงในภาพ
การติดต่อระหว่างกลุ่มของ 3 บิตและตัวเลขในฐานแปด หากในกลุ่มสุดท้ายไม่มี 3 บิตบิตที่หายไปจะถูกพิจารณาด้วยค่าศูนย์ เขายกตัวอย่างว่าการแปลนี้เสร็จสิ้นอย่างไร เมื่อพิจารณาถึงความง่ายในการแปลงเลขฐานสองเป็นฐานแปดและในทางกลับกันฐานหลังถูกใช้แทนการแสดงจำนวนฐานสองที่กะทัดรัดยิ่งขึ้น แทนที่จะเขียนชุดของคนและศูนย์มันเทียบเท่าเลขฐานแปดจะถูกเขียน แนวคิดนี้เป็นเรื่องธรรมดามากที่จะระบุว่าหมายเลขนั้นถูกเขียนในฐาน 8 แทนที่จะเพิ่มดัชนีหลังตัวเลขที่มีน้ำหนักน้อยกว่าศูนย์จะถูกเพิ่มทางซ้าย
การเข้ารหัสจำนวนเต็มและจำนวนจริง
ทั้งหมด หมายเลขจะถูกเข้ารหัสอย่างง่าย ๆ ด้วยการโอนหมายเลขจากระบบหมายเลขหนึ่งไปอีกระบบหนึ่ง
สำหรับการเข้ารหัส จริง ตัวเลขใช้การเข้ารหัส 80 บิต ในกรณีนี้จำนวนจะถูกแปลงเป็นรูปแบบมาตรฐาน
กระบวนการแปลโดยตรงมากนี้ได้มาจากคุณสมบัติที่ฐาน 8 คือพลังของฐาน เนื่องจากคุณสมบัตินี้หน่วยงานที่ตามมาและการได้รับส่วนที่เหลือจะไม่มีอะไรมากไปกว่าการจัดกลุ่มบิตที่เริ่มต้นด้วยน้ำหนักที่เล็กลง Base 8 ไม่ใช่คนเดียวที่มีคุณสมบัตินี้ ฐานถัดไปตามลำดับจากน้อยไปมากซึ่งเป็นพลังของสองคือฐาน ฉันสามารถเขียนตัวเลขในฐานข้อมูลนี้ได้หรือไม่ ตามแนวคิดที่นำเสนอในที่เดียวคุณต้องมีตัวเลขให้มากที่สุดเท่าที่ฐานจะบ่งบอกเริ่มต้นด้วยศูนย์
นอกเหนือจากการใช้ตัวเลขสิบหลักจาก 0 ถึง 9 จะต้องใช้ตัวเลขอีกหกหลัก การเข้ารหัสนี้เรียกอีกอย่างว่าการเข้ารหัสเลขฐานสิบหก เป็นไปได้ไหมที่จะทำการแปลโดยตรงของเลขฐานสองเป็นเลขฐานสิบหก? การดำเนินการที่จำเป็นเพื่อให้ได้ตัวเลขคือการหารระหว่าง แต่ในฐานะกำลัง 2 การดำเนินการประกอบด้วยการละทิ้งสี่บิตของน้ำหนักที่ต่ำกว่าของเลขฐานสองซึ่งสอดคล้องกับส่วนที่เหลือ ดังนั้นเพื่อให้ได้เลขฐานสิบหกจากเลขฐานสองต้องทำการจัดกลุ่มบิตสี่ถึงสี่ไว้ด้วยกันโดยเริ่มจากบิตที่มีน้ำหนักน้อยที่สุด
การเข้ารหัสเสียง
เทคนิคและวิธีการเข้ารหัสข้อมูลเสียงมาถึงเทคโนโลยีคอมพิวเตอร์ในภายหลัง ผลที่ได้คือวิธีการเข้ารหัสข้อมูลเสียงด้วยรหัสไบนารีนั้นอยู่ไกลจากมาตรฐานและมีความหลากหลายมาก
M มีสองทิศทางการเข้ารหัสหลัก: วิธี เอฟเอ็ม (การสลายตัวของเสียงที่ซับซ้อนเป็นชุดฮาร์โมนิ) และวิธีการ การสังเคราะห์ตารางคลื่น (จัดเก็บในตารางที่แยกต่างหากของตัวอย่างหมายเลขของเสียงดนตรีต่างๆ)
แต่ละคนจะถูกแปลงเป็นเลขฐานสิบหก ด้วย 4 บิตตัวเลข 16 หลักที่ใช้โดยฐาน 16 จะถูกเข้ารหัสตามที่แสดง ความสอดคล้องระหว่างกลุ่มของ 4 บิตและตัวเลขในรูปแบบเลขฐานสิบหก เช่นเดียวกับในกรณีของฐาน 8 ฐานเลขฐานสิบหกจะถูกนำมาใช้แทนการแสดงจำนวนฐานสองที่กะทัดรัดยิ่งขึ้น มันแสดงตัวอย่างของการติดต่อระหว่างการเป็นตัวแทนไบนารีและเลขฐานสิบหก การแปลงเลขฐานสองเป็นฐานสิบหก
การแปลงจากฐานสิบหกเป็นฐาน 10 จะเหมือนกันกับส่วนที่เหลือของฐาน ในส่วนก่อนหน้านี้เราเห็นวิธีการเข้ารหัสตัวเลขธรรมชาติในรูปแบบไบนารี การเป็นตัวแทนของตัวเลขสอดคล้องกับชุดของบิต แต่จำเป็นต้องมีบิตจำนวนเท่าใดในการแทนค่าจำนวนธรรมชาติ เนื่องจากมีจำนวนอนันต์คำตอบคือบิตไม่สิ้นสุด แต่เพื่อให้รูปแบบดิจิทัลในการควบคุมจำนวนประเภทนี้การแสดงของมันจะต้องมีขนาด จำกัด
แนวคิดของไฟล์
ในคอมพิวเตอร์ข้อมูลใด ๆ (ข้อความตัวเลขรูปภาพเสียง) จะแสดงเป็นลำดับของไบต์ เพื่อให้คอมพิวเตอร์สามารถแยกแยะข้อมูลทุกชนิดได้แนวคิดเช่น รูป.
แต่ละกลุ่มของไบต์ที่แสดงถึงข้อมูลที่เข้ารหัสบางอย่างนั้นเรียกว่าไฟล์ ไฟล์ ต้องมีชื่อเฉพาะของรูปแบบเฉพาะ
ข้อ จำกัด นี้หมายความว่านอกเหนือจากการกำหนดรูปแบบที่องค์ประกอบที่จำเป็นจะถูกเข้ารหัสโดยใช้รหัสไบนารีขนาดของการเข้ารหัสจะต้องตั้งค่าและสิ่งที่จะเกิดขึ้นเมื่อการเข้ารหัสนี้ไม่เพียงพอ ตัวอย่างเช่นมันเป็นธรรมเนียมในการแสดงตัวเลขธรรมชาติในรูปแบบไบนารีที่มีขนาด 10 บิต สามารถแสดงเฉพาะตัวเลขในช่วง
ผลลัพธ์ถูกคำนวณ แต่การนำเสนอด้วย 10 บิตนั้นเป็นไปไม่ได้ ในสถานการณ์เช่นนี้คุณจะได้รับตัวเลขซึ่งเป็นไปไม่ได้มันเรียกว่าล้นหรือ "ล้น" โปรเซสเซอร์ตรวจจับและรายงานสถานการณ์นี้เนื่องจากเป็นความผิดปกติในการเข้ารหัส
ตามชื่อไฟล์ คอมพิวเตอร์จะเป็นตัวกำหนดว่าไฟล์นั้นอยู่ที่ใดข้อมูลนั้นมีอยู่ในรูปแบบใดที่จะถูกบันทึกและด้วยโปรแกรมที่สามารถประมวลผลได้
ไฟล์ - หน่วยเก็บข้อมูลที่เล็กที่สุด ไฟล์สามารถจัดเก็บหลายสิบหลายร้อยไบต์
หน่วยของความยาวรหัสไบนารีของข้อความ
จำนวนบิตที่ใช้ในการเข้ารหัส vivo เป็นพารามิเตอร์ที่ขึ้นอยู่กับโปรเซสเซอร์ที่ใช้ ยิ่งใช้ตัวเลขมากเท่าใดก็จะสามารถแสดงตัวเลขได้มากขึ้น แต่ในเวลาเดียวกันการออกแบบตรรกะภายในที่รับผิดชอบในการปฏิบัติงานมีความซับซ้อนมากขึ้น ตลอดเวลาที่ผ่านมาตัวประมวลผลใช้จำนวนบิตมากขึ้นเพื่อแทนค่าตัวเลขเริ่มต้นจาก 8 บิตถึง 128 บิตตัวประมวลผลที่ซับซ้อนมากขึ้น
ปัญหาของขนาดการเข้ารหัสไม่ซ้ำกันเพื่อแสดงตัวเลขธรรมชาติ ชุดใด ๆ ที่มีจำนวนอนันต์ของรายการที่จะแสดงในไฟล์ไบนารีมีปัญหาเดียวกัน ขึ้นอยู่กับขนาดของการเข้ารหัสเฉพาะส่วนย่อยขององค์ประกอบที่จะปรากฏขึ้นและโปรเซสเซอร์ควรตรวจจับและแจ้งเตือนเมื่อมีความจำเป็นในการเข้ารหัสองค์ประกอบที่เป็นตัวแทนเป็นไปไม่ได้
ในการวัดข้อมูลรหัสในรูปแบบของรหัสไบนารีให้ใช้หน่วยการวัดดังกล่าว (หน่วยการวัดความจุ อุปกรณ์เก็บข้อมูลคอมพิวเตอร์ ) :
1 กิโลไบต์ = 2 10 ไบต์ = 1024 ไบต์
1 MB = 2 10 KB = 2 20 ไบต์ = 1048576 ไบต์
1 GB = 2 10 MB = 2 20 KB = 2 30 ไบต์
1 Terabyte = 2 10 GB = 2 20 MB = 2 30 Kbytes = 2 40 ไบต์
เป็นตัวแทนของสัดส่วนของหน่วยวัดข้อมูล:
หากปรับขนาดตามเงื่อนไขเพื่อพรรณนา1 บิต1.25 มิลลิเมตร,
ไบต์ ในระดับนี้จะถูกนำเสนอ 1 ซม
KB (กิโลไบต์) - 10 เมตร ส่วน
MB (เมกะไบต์) - 10- กิโลเมตร
และ GB (กิกะไบต์) จะขยายออกไป10,000 กมที่สอดคล้องกับระยะทางจากมอสโกถึงวลาดิวอสต็อก
วัณโรค (เทราไบต์) - 10,000,000 กม
สื่อการเรียนรู้ด้วยตนเองในการบรรยาย 2
การเข้ารหัส ASCII
ตารางรหัส ASCII (ASCII - รหัสมาตรฐานอเมริกันสำหรับการแลกเปลี่ยนข้อมูล - รหัสมาตรฐานอเมริกันสำหรับการแลกเปลี่ยนข้อมูล)
สามารถเข้ารหัสอักขระต่าง ๆ ได้ 256 ตัวโดยใช้ตารางรหัส ASCII (รูปที่ 1) ตารางนี้แบ่งออกเป็นสองส่วน: ส่วนหลัก (ด้วยรหัสจาก OOh ถึง 7Fh) และเพิ่มเติม (จาก 80h ถึง FFh โดยที่ตัวอักษร h หมายถึงรหัสนั้นเป็นของระบบเลขฐานสิบหก)
รูปที่ 1
หากต้องการเข้ารหัสอักขระหนึ่งตัวจากตารางจะมีการจัดสรร 8 บิต (1 ไบต์) เมื่อประมวลผลข้อมูลที่เป็นข้อความหนึ่งไบต์อาจมีรหัสของอักขระบางตัวเช่นจดหมายตัวเลขเครื่องหมายวรรคตอนเครื่องหมายการกระทำ ฯลฯ อักขระแต่ละตัวสอดคล้องกับรหัสของมันเป็นจำนวนเต็ม ในกรณีนี้รหัสทั้งหมดจะถูกรวบรวมในตารางพิเศษที่เรียกว่าการเข้ารหัส ด้วยความช่วยเหลือของพวกเขารหัสอักขระจะถูกแปลงเป็นการแสดงที่มองเห็นได้บนหน้าจอมอนิเตอร์ ดังนั้นข้อความใด ๆ ในหน่วยความจำคอมพิวเตอร์จะแสดงเป็นลำดับของไบต์ด้วยรหัสอักขระ
ตัวอย่างเช่นคำว่า hello! จะถูกเข้ารหัสดังต่อไปนี้ (ตารางที่ 1)
ตารางที่ 1
รหัสไบนารี | ||||||
รหัสทศนิยม |
รูปที่ 1 แสดงอักขระที่รวมอยู่ในมาตรฐานการเข้ารหัส (อังกฤษ) และการขยาย (รัสเซีย) ASCII
ครึ่งแรกของตาราง ASCII นั้นเป็นมาตรฐาน มันมีรหัสควบคุม (จาก 00h ถึง 20h และ 77h) รหัสเหล่านี้จะถูกลบออกจากตารางเนื่องจากไม่ได้อยู่ในองค์ประกอบข้อความ เครื่องหมายวรรคตอนและสัญญาณทางคณิตศาสตร์ยังอยู่ที่นี่: 2lh - !, 26h - &, 28h - (, 2Bh - +, ... , ตัวอักษรละตินขนาดใหญ่และขนาดเล็ก: 41h - A, 61h - a
ครึ่งหลังของตารางประกอบด้วยแบบอักษรประจำชาติตัวอักษรเทียมซึ่งสามารถสร้างตารางและสัญญาณทางคณิตศาสตร์พิเศษได้ ส่วนล่างของตารางรหัสสามารถเปลี่ยนได้โดยใช้ไดรเวอร์ที่เหมาะสม - โปรแกรมเสริมการควบคุม เทคนิคนี้ช่วยให้คุณใช้แบบอักษรและแบบอักษรหลายแบบได้
การแสดงผลสำหรับรหัสอักขระแต่ละตัวควรแสดงภาพของตัวละครไม่ใช่รหัสดิจิทัล แต่เป็นภาพที่สอดคล้องกันเนื่องจากอักขระแต่ละตัวมีรูปร่างเป็นของตัวเอง คำอธิบายของรูปร่างของอักขระแต่ละตัวจะถูกเก็บไว้ในหน่วยความจำการแสดงผลพิเศษ - ตัวสร้างอักขระ ตัวอย่างเช่นการแสดงสัญลักษณ์บนหน้าจอแสดงผลของ IBM PC จะดำเนินการด้วยความช่วยเหลือของจุดที่สร้างเมทริกซ์สัญลักษณ์ แต่ละพิกเซลในเมทริกซ์นั้นเป็นองค์ประกอบของภาพและอาจจะสว่างหรือมืด จุดมืดถูกเข้ารหัสด้วยหมายเลข 0 แสง (สว่าง) คือ 1 หากพิกเซลมืดถูกแสดงด้วยจุดในเขตเมทริกซ์ของเครื่องหมายและพิกเซลสว่างจะแสดงด้วยเครื่องหมายดอกจันคุณสามารถแสดงรูปร่างของสัญลักษณ์
ผู้คนในประเทศต่าง ๆ ใช้สัญลักษณ์เพื่อเขียนคำของภาษาแม่ ทุกวันนี้แอปพลิเคชั่นส่วนใหญ่รวมถึงระบบอีเมลและเว็บเบราว์เซอร์ล้วน แต่มีขนาด 8 บิตซึ่งสามารถแสดงและรับรู้อักขระที่ถูกต้องเพียง 8 บิตเท่านั้นตามมาตรฐาน ISO-8859-1
โลกนี้มีอักขระมากกว่า 256 ตัว (หากคุณใช้อักษรซีริลลิก, อาราบิค, จีน, ญี่ปุ่น, เกาหลีและไทย) และมีตัวละครใหม่ปรากฏขึ้นเรื่อย ๆ และสิ่งนี้สร้างช่องว่างต่อไปนี้สำหรับผู้ใช้หลายคน:
ไม่สามารถใช้อักขระของชุดการเข้ารหัสที่แตกต่างกันในเอกสารเดียวกันได้ เนื่องจากเอกสารข้อความแต่ละชุดใช้การเข้ารหัสของตัวเองจึงเกิดความยุ่งยากอย่างมากกับการรู้จำข้อความอัตโนมัติ
สัญลักษณ์ใหม่ปรากฏขึ้น (ตัวอย่างเช่น: ยูโร) ซึ่งเป็นผลมาจาก ISO ที่พัฒนามาตรฐานใหม่ ISO-8859-15 ซึ่งคล้ายกับมาตรฐาน ISO-8859-1 มาก ความแตกต่างมีดังนี้: สัญลักษณ์สำหรับการกำหนดสกุลเงินเก่าซึ่งไม่ได้ใช้ในปัจจุบันถูกลบออกจากตารางการเข้ารหัสของมาตรฐาน ISO-8859-1 เก่าเพื่อให้มีที่ว่างสำหรับสัญลักษณ์ที่เพิ่งเกิดใหม่ (เช่นยูโร) เป็นผลให้ผู้ใช้อาจมีเอกสารเดียวกันในดิสก์ แต่ในการเข้ารหัสที่แตกต่างกัน วิธีการแก้ไขปัญหาเหล่านี้คือการใช้ชุดการเข้ารหัสระหว่างประเทศเพียงชุดเดียวซึ่งเรียกว่าการเข้ารหัสสากลหรือ Unicode
การเข้ารหัส Unicode
มาตรฐานดังกล่าวได้รับการเสนอในปี 1991 โดย Unicode Consortium (Unicode Consortium, Unicode Inc. ) แอปพลิเคชันของมาตรฐานนี้อนุญาตให้เข้ารหัสอักขระจำนวนมากจากสคริปต์ที่แตกต่างกัน: ตัวอักษรจีนสัญลักษณ์ทางคณิตศาสตร์ตัวอักษรของตัวอักษรกรีกตัวอักษรละตินและอักษรซีริลลิกสามารถอยู่ร่วมกันในเอกสาร Unicode และการสลับหน้ารหัสไม่จำเป็น
มาตรฐานประกอบด้วยสองส่วนหลัก: ชุดอักขระสากล (UCS, ชุดอักขระสากล) และชุดอักขระ (UTF, รูปแบบการแปลง Unicode) ชุดอักขระสากลกำหนดความสอดคล้องแบบหนึ่งต่อหนึ่งระหว่างอักขระและรหัส - องค์ประกอบของพื้นที่โค้ดที่แสดงถึงจำนวนเต็มไม่เป็นลบ ตระกูลการเข้ารหัสกำหนดการแสดงเครื่องของลำดับของรหัส UCS
มาตรฐาน Unicode ได้รับการออกแบบมาเพื่อสร้างการเข้ารหัสอักขระเดียวของภาษาเขียนสมัยใหม่และโบราณจำนวนมาก อักขระแต่ละตัวในมาตรฐานนี้ถูกเข้ารหัสด้วย 16 บิตซึ่งอนุญาตให้ครอบคลุมจำนวนอักขระที่ใหญ่กว่าการเข้ารหัส 8 บิตที่นำมาใช้ก่อนหน้านี้ ข้อแตกต่างที่สำคัญอื่น ๆ ระหว่าง Unicode และระบบการเข้ารหัสอื่น ๆ คือมันไม่เพียง แต่กำหนดรหัสที่ไม่ซ้ำกันให้กับตัวละครแต่ละตัวเท่านั้น แต่ยังกำหนดคุณสมบัติต่าง ๆ ของตัวละครนี้เช่น:
ประเภทตัวอักษร (ตัวพิมพ์ใหญ่ตัวอักษรตัวพิมพ์เล็กตัวเลขเครื่องหมายวรรคตอน ฯลฯ );
คุณลักษณะของสัญลักษณ์ (แสดงจากซ้ายไปขวาหรือจากขวาไปซ้ายเว้นวรรคเส้นแบ่ง ฯลฯ );
ตัวอักษรตัวพิมพ์ใหญ่หรือตัวพิมพ์เล็กที่สอดคล้องกัน (สำหรับตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ตามลำดับ);
ค่าตัวเลขที่สอดคล้องกัน (สำหรับอักขระตัวเลข)
ช่วงรหัสทั้งหมดตั้งแต่ 0 ถึง FFFF แบ่งออกเป็นชุดย่อยมาตรฐานหลายชุดแต่ละชุดสอดคล้องกับตัวอักษรของภาษาหรือกลุ่มของอักขระพิเศษที่คล้ายกันในฟังก์ชั่น แผนภาพด้านล่างมีรายการทั่วไปของชุดย่อย Unicode 3.0 (รูปที่ 2)
รูปที่ 2
มาตรฐาน Unicode เป็นพื้นฐานสำหรับการจัดเก็บและข้อความในระบบคอมพิวเตอร์ที่ทันสมัยจำนวนมาก อย่างไรก็ตามมันเข้ากันไม่ได้กับอินเทอร์เน็ตโปรโตคอลส่วนใหญ่เนื่องจากรหัสของมันสามารถมีค่าไบต์ใด ๆ และโปรโตคอลมักจะใช้ไบต์ 00 - 1F และ FE - FF เป็นบริการ เพื่อให้บรรลุความเข้ากันได้มีการพัฒนาฟอร์แมตการแปลง Unicode (UTFs, Unicode Format Format) หลายรูปแบบซึ่งส่วนใหญ่ในปัจจุบันคือ UTF-8 รูปแบบนี้กำหนดกฎต่อไปนี้สำหรับการแปลงรหัส Unicode แต่ละชุดเป็นไบต์ (ตั้งแต่หนึ่งถึงสาม) ที่เหมาะสมสำหรับการส่งผ่านอินเทอร์เน็ตโปรโตคอล
ที่นี่ x, y, z แสดงถึงบิตของซอร์สโค้ดซึ่งจะต้องแตกเริ่มต้นด้วยอายุน้อยที่สุดและป้อนเข้าไปในไบต์ของผลลัพธ์จากขวาไปซ้ายจนกว่าตำแหน่งที่ระบุทั้งหมดจะถูกเติมเต็ม
การพัฒนามาตรฐาน Unicode เพิ่มเติมนั้นเกี่ยวข้องกับการเพิ่มภาษาใหม่ลงไปคือ อักขระในช่วง 10000 - 1FFFF, 20000 - 2FFFF เป็นต้นซึ่งควรรวมการเข้ารหัสสำหรับสคริปต์ของภาษาที่ตายแล้วซึ่งไม่รวมอยู่ในตารางด้านบน เพื่อเข้ารหัสอักขระเพิ่มเติมเหล่านี้รูปแบบ UTF-16 ใหม่ได้รับการพัฒนา
ดังนั้นจึงมี 4 วิธีพื้นฐานของการเข้ารหัสไบต์ในรูปแบบ Unicode:
UTF-8: 128 อักขระถูกเข้ารหัสในหนึ่งไบต์ (รูปแบบ ASCII), 1920 ตัวอักษรถูกเข้ารหัสด้วย 2 ไบต์ ((โรมัน, กรีก, ซิริลลิก, คอปติก, อาร์เมเนีย, ฮิบรู, อักษรอาหรับ), 63488 ตัวอักษรที่เข้ารหัสด้วย 3 ไบต์ ฯลฯ ) ส่วนที่เหลืออีก 2 147 418 112 ตัวอักษร (ยังไม่ได้ใช้) สามารถเข้ารหัสด้วย 4, 5 หรือ 6 ไบต์
UCS-2: อักขระแต่ละตัวมี 2 ไบต์ การเข้ารหัสนี้มีอักขระ Unicode 65,535 ตัวแรกเท่านั้น
UTF-16: เป็นส่วนเสริมของ UCS-2 รวม 1,114,112 อักขระในรูปแบบ Unicode อักขระ 65,535 ตัวแรกแสดงด้วย 2 ไบต์ส่วนที่เหลือ 4 ไบต์
USC-4: อักขระแต่ละตัวถูกเข้ารหัสด้วย 4 ไบต์
บทความที่เกี่ยวข้อง: | |
ชุดค่าผสมสามารถเข้ารหัสได้ 3 บิต
แนวคิดของการเข้ารหัสบทคัดย่อสารบัญ 1. การเข้ารหัส ... การใช้ยา Creon สำหรับรักษาตับอ่อนอักเสบ
Creon 10,000 วิธีใช้ + แอปพลิเคชัน คำสั่ง Creon 10,000 สำหรับ ... สร้างศูนย์การรายงานยกเลิก
(ทุกองค์กรส่งยกเว้น IP) USN ตัวอย่างประกาศ USN เป็นศูนย์ |