Karaktersæt

Generelt om karakter­sæt

US-ASCII

ISO 8859-1

ISO-8859-1

ISO 8859-15

ISO-8859-15

Windows-1252

Unicode

En artikel fra: infrateket.dk

Karaktersæt

Indenfor Internet og EDB benyttes der forskellige karaktersæt. Her ser vi på de mest almindeligt anvendte.

Generelt om karaktersæt

Indledning

I en computers gemte data findes der ikke sådan noget som et bogstav eller en karakter. Alle data består udelukkende af binære talværdier, som hver især tildeles en særlig betydning. Man skal altså på forhånd have aftalt med alle andre brugere af de binære data, hvilken værdi, der svarer til et bestemt bogstav. Det gør man ved hjælp af standardiserede karaktersæt.

Et standardiseret karaktersæt er en aftale om oversættelse af binære værdier til eller fra en grafisk form (bogstaver og tegn), som vi både kan se med vores øjne og genkende med vores hjerne.

Et af de første standardiserede karaktersæt var ASCII. Det blev brugt til telegrafiforbindelser. Hovedformålet med ASCII var at kunne sortere data ens. Ved at anvende tegnenes indbyrdes placering i ASCII-karaktersættet, kunne man sortere datalister i en konsekvent rækkefølge. Siden er der kommet mange andre standardiserede karaktersæt til, som afviger efter anvendelse eller sprog. Den grafiske præsentation af tegnene er nu blevet hovedformålet, mens sorteringen styres af tabeller, der er afhængige af det aktuelle sprog.

Sådan bruger du tabellerne i dette dokument

Tabellerne i dette dokument er opbygget som i nedenstående eksempel fra ASCII-karaktersættet. Hvert felt indeholder et tegn. ASCII-koden (værdien der betegner en plads i tabellen) findes ved at lægge værdien i kolonnen Dec/Hex sammen med værdien i rækken Dec/Hex.

ASCII-koden for bogstavet A bliver således:

Uddrag af ASCII
Dec   +0 +1 +2
  Hex +0 +1 +2
0 00 NUL SOH STX
16 10 DLE DC1 DC2
32 20 SP ! "
48 30 0 1 2
64 40 @ A B
80 50 P Q R

US-ASCII

Anvendelse

US-ASCII benyttes verden over til e-mail og anden kommunikation, der kan undvære karakterer, som ligger uden for det amerikanske karaktersæt. Det er et 7-bits tegnsæt, og kan indeholde værdier fra 0 til 127.

ASCII er et af de første karaktersæt, der blev standardiseret. Det blev taget i brug ved fremkomsten af telegrafen.

Der findes nogle meget tidlige varianter af ASCII, som udelukkende indeholder store bogstaver. Den udgave, der benyttes i dag, er US-ASCII, og den indeholder både små og store bogstaver.

Tabel

Tabellen herunder viser karaktersættet ASCII:

Karakterer, der er fremhævet med gult, er kontrolkarakterer, som normalt ikke vises/udskrives. De er beregnet til at udføre forskellige funktioner i et udstyr; en del af dem benyttes, når der transmitteres data fra et udstyr til at andet, mens andre kan styre en printer osv. F.eks. bevirker US-ASCII-kode 10 (Dec), at en printer fører papiret en linie frem (LF = Line feed).

Hold cursoren hen over kontrolkaraktererne, for at se den engelske betegnelse.

US-ASCII
Dec   +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12 +13 +14 +15
  Hex +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
0 00 NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI
16 10 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
32 20 SP ! " # $ % & ' ( ) * + , - . /
48 30 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
64 40 @ A B C D E F G H I J K L M N O
80 50 P Q R S T U V W X Y Z [ \ ] ^ _
96 60 ` a b c d e f g h i j k l m n o
112 70 p q r s t u v w x y z { | } ~ DEL

Koderne 33 til 126 (dec) betegnes som "printable characters" (udskrivbare karakterer), det vil sige bogstaver, tal, tegnsætnings-tegn og forskellige symboler, som er beregnet for visning på skærm eller papir.

ISO 8859-1

Anvendelse

ISO 8859-1 er lavet til brug på Internettet, og karaktererne bør kunne vises af alle internet-browsere. Det er et 8-bits tegnsæt, og kan indeholde værdier fra 0 til 255

ISO 8859-1 kaldes også:

Koderne 32-126 (dec) er identiske med US-ASCII, mens 160-255 er karakterer, som bevirker at ISO/IEC 8859-1 kan benyttes til flere sprog end US-ASCII.

I ISO 8859-1 savnes der nogle Franske og Finske bogstaver, samt et Euro-symbol. Derfor er der udarbejdet en opdateret udgave, som hedder ISO 8859-15.

Tabel

Tabellen herunder viser karaktersættet ISO 8859-1:

ISO 8859-1
Dec   +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12 +13 +14 +15
  Hex +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
0 00 bruges ikke
16 10
32 20 SP ! " # $ % & ' ( ) * + , - . /
48 30 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
64 40 @ A B C D E F G H I J K L M N O
80 50 P Q R S T U V W X Y Z [ \ ] ^ _
96 60 ` a b c d e f g h i j k l m n o
112 70 p q r s t u v w x y z { | } ~  
128 80 bruges ikke
144 90
160 A0 NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ­ ® ¯
176 B0 ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
192 C0 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
208 D0 Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
224 E0 à á â ã ä å æ ç è é ê ë ì í î ï
240 F0 ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

Hex 20 (SP = SPACE) er det normale mellemrum, mens A0 (NBSP = non-breaking space) er et mellemrum, der sammenholder to ord, så de ikke deles over to linier.

Hex AD (SOFT HYPHEN) er en blød bindestreg, som udelukkende vises i teksten hvis ordet skal deles (i to stavelser) for enden af en linie; i modsat fald vises ordet blot som et sammenhængende ord.

ISO-8859-1

Anvendelse

ISO-8859-1 (bemærk den ekstra bindestreg efter ISO). Det er et 8-bits tegnsæt, og kan indeholde værdier fra 0 til 255. Det benyttes på Internettet og i forskelligt software, og det indeholder, ligesom US-ASCII mange kontrolkarakterer.

ISO-8859-1 kendes under flere andre navne, bl.a.:

ISO-8859-1 er identisk med de første 256 karakterer i Unicode-sættet (som beskrives et andet sted i denne artikel).

ISO-8859-1 benyttes i de fleste Unix computere.

Tabel

Tabellen herunder viser karaktersættet ISO-8859-1.

Karakterer, der er fremhævet med gult, er kontrolkarakterer, som normalt ikke vises/udskrives. De udfører en funktion i et udstyr. F.eks. bevirker ASCII-kode 10 (dec), at en printer fører papiret en linie frem (LF = Line feed).

Hold cursoren hen over kontrolkaraktererne, for at se den engelske betegnelse.

ISO-8859-1
Dec   +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12 +13 +14 +15
  Hex +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
0 00 NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI
16 10 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
32 20 SP ! " # $ % & ' ( ) * + , - . /
48 30 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
64 40 @ A B C D E F G H I J K L M N O
80 50 P Q R S T U V W X Y Z [ \ ] ^ _
96 60 ` a b c d e f g h i j k l m n o
112 70 p q r s t u v w x y z { | } ~ DEL
128 80 PAD HOP BPH NBH IND NEL SSA ESA HTS HTJ VTS PLD PLU RI SS2 SS3
144 90 DCS PU1 PU2 STS CCH MW SPA EPA SOS SGCI SCI CSI ST OSC PM APC
160 A0 NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ­ ® ¯
176 B0 ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
192 C0 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
208 D0 Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
224 E0 à á â ã ä å æ ç è é ê ë ì í î ï
240 F0 ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

Hex 20 (SP = SPACE) er det normale mellemrum, mens A0 (NBSP = non-breaking space) er et mellemrum, der sammenholder to ord, så de ikke deles over to linier.

Hex AD (SOFT HYPHEN) er en blød bindestreg, som udelukkende vises i teksten hvis ordet skal deles (i to stavelser) for enden af en linie; i modsat fald vises ordet blot som et sammenhængende ord.

ISO 8859-15

Anvendelse

ISO 8859-15 benyttes på Internettet og i forskelligt software. Det er et 8-bits tegnsæt, og kan indeholde værdier fra 0 til 255. Det er identisk med ISO 8859-1 bortset fra 8 stk. ændrede karakterer, som bevirker at det fuldt ud kan benyttes til flere vesteuropæiske sprog end ISO 8859-1; blandt andet: Engelsk, Fransk, Tysk, Spansk og Portugisisk.

ISO 8859-15 kaldes også Latin-9.

Tabellen herunder viser forskellen imellem ISO 8859-1 og ISO 8859-15:

ISO 8859-1 / ISO 8859-15
Hex A4 A6 A8 B4 B8 BC BD BE
8859-1 ¤ ¦ ¨ ´ ¸ ¼ ½ ¾
8859-15 Š š Ž ž Œ œ Ÿ

Tabel

Tabellen herunder viser ISO 8859-15. De karakterer, som er forskellige fra ISO 8859-1 er fremhævet med gult.

ISO/IEC 8859-15
Dec   +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12 +13 +14 +15
  Hex +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
0 00 bruges ikke
16 10
32 20 SP ! " # $ % & ' ( ) * + , - . /
48 30 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
64 40 @ A B C D E F G H I J K L M N O
80 50 P Q R S T U V W X Y Z [ \ ] ^ _
96 60 ` a b c d e f g h i j k l m n o
112 70 p q r s t u v w x y z { | } ~  
128 80 bruges ikke
144 90
160 A0 NBSP ¡ ¢ £ ¥ Š § š © ª « ¬ ­ ® ¯
176 B0 ° ± ² ³ Ž µ · ž ¹ º » Œ œ Ÿ ¿
192 C0 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
208 D0 Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý þ ß
224 E0 à á â ã ä å æ ç è é ê ë ì í î ï
240 F0 ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý Þ ÿ

Hex 20 (SP = SPACE) er det normale mellemrum, mens A0 (NBSP = non-breaking space) er et mellemrum, der sammenholder to ord, så de ikke deles over to linier.

Hex AD (SOFT HYPHEN) er en blød bindestreg, som udelukkende vises i teksten hvis ordet skal deles (i to stavelser) for enden af en linie; i modsat fald vises ordet blot som et sammenhængende ord.

ISO-8859-15

Anvendelse

ISO-8859-15 (bemærk den ekstra bindestreg efter ISO) er et 8-bits tegnsæt, og kan indeholde værdier fra 0 til 255. Det benyttes på Internettet og i forskelligt software, og det indeholder, ligesom ASCII, mange kontrolkarakterer.

Note:

ISO-8859-15 er identisk med de første 256 karakterer af "Unicode".

Tabel

Vejledning:

Karakterer, der er fremhævet med gult, er kontrolkarakterer, som normalt ikke vises/udskrives. De udfører en funktion i et udstyr. F.eks. bevirker ASCII-kode 10 (dec), at en printer fører papiret en linie frem (LF = Line feed).

Hold cursoren hen over kontrolkaraktererne, for at se den engelske betegnelse.

Tabellen herunder viser ISO-8859-15:

ISO-8859-15
Dec   +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12 +13 +14 +15
  Hex +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
0 00 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
16 10 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
32 20 SP ! " # $ % & ' ( ) * + , - . /
48 30 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
64 40 @ A B C D E F G H I J K L M N O
80 50 P Q R S T U V W X Y Z [ \ ] ^ _
96 60 ` a b c d e f g h i j k l m n o
112 70 p q r s t u v w x y z { | } ~ DEL
128 80 PAD HOP BPH NBH IND NEL SSA ESA HTS HTJ VTS PLD PLU RI SS2 SS3
144 90 DCS PU1 PU2 STS CCH MW SPA EPA SOS SGCI SCI CSI ST OSC PM APC
160 A0 NBSP ¡ ¢ £ ¥ Š § š © ª « ¬ ­ ® ¯
176 B0 ° ± ² ³ Ž µ · ž ¹ º » Œ œ Ÿ ¿
192 C0 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
208 D0 Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
224 E0 à á â ã ä å æ ç è é ê ë ì í î ï
240 F0 ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

 

Hex 20 (SP = SPACE) er det normale mellemrum, mens A0 (NBSP = non-breaking space) er et mellemrum, der sammenholder to ord, så de ikke deles over to linier.

Hex AD (SOFT HYPHEN) er en blød bindestreg, som udelukkende vises i teksten hvis ordet skal deles (i to stavelser) for enden af en linie; i modsat fald vises ordet blot som et sammenhængende ord.

Windows-1252

Anvendelse

Windows-1252 er det tegnsæt som Microsoft Windows benytter som standard. Det er et 8-bits tegnsæt, og kan indeholde værdier fra 0 til 255. Det svarer til ISO-8859-1, men afviger ved at indeholde tegn i området Hex 80-9F i stedet for kontrolkarakterer.

I Windows betegnes tegnsættet med ANSI, CP1252 eller Windows-1252.

Tabel

Tabellen herunder viser karaktersættet Windows-1252. De gule og grønne felter i tabellen viser forskellen fra ISO-8859-1. Grønne felter benyttes ikke:

Windows-1252 (CP1252)
Dec   +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12 +13 +14 +15
  Hex +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
0 00 NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI
16 10 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
32 20 SP ! " # $ % & ' ( ) * + , - . /
48 30 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
64 40 @ A B C D E F G H I J K L M N O
80 50 P Q R S T U V W X Y Z [ \ ] ^ _
96 60 ` a b c d e f g h i j k l m n o
112 70 p q r s t u v w x y z { | } ~ DEL
128 80   ƒ ˆ Š Œ   Ž  
144 90   ˜ š œ   ž Ÿ
160 A0 NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ­ ® ¯
176 B0 ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
192 C0 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
208 D0 Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
224 E0 à á â ã ä å æ ç è é ê ë ì í î ï
240 F0 ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

Hex 20 (SP = SPACE) er det normale mellemrum, mens A0 (NBSP = non-breaking space) er et mellemrum, der sammenholder to ord, så de ikke deles over to linier.

Hex AD (SOFT HYPHEN) er en blød bindestreg, som udelukkende vises i teksten hvis ordet skal deles (i to stavelser) for enden af en linie; i modsat fald vises ordet blot som et sammenhængende ord.

Unicode

Anvendelse

Unicode er et internationalt karaktersæt, hvis mål er at indeholde en kodeværdi for alle eksisterende karaktersæt for alle sprog. Det udarbejdes af The Unicode Consortium, der hovedsageligt består af de store computer-software og hardware fabrikanter. Det er f.eks. Apple Computer, Microsoft, IBM, Xerox, HP, Adobe Systems med flere.

ISO/IEC og Unicode modsvarer hinanden på følgende standarder:

Unicode kan indeholde 1.114.112 (= 220 + 216) karakterer, men der benyttes i øjeblikket "kun" ca. 95.000 pladser i systemet. De første 256 pladser (8 bit / 1 byte) er identiske med ISO 8859-1. Samtidigt er det de første 65536 pladser (16 bit / 2 byte), der dækker rigtigt mange sprog, mens karakterer derudover dækker specielle sprog som f.eks. Ægyptiske hieroglyffer.

Unicode er altså et meget stort system, som kræver flere bytes, for at kunne angive kodeværdien. Angivelsen af værdierne er opdelt i forskellige systemer, som bevirker at der kan spares hukommelsesplads ved systematisk at anvende et antal reducerede bit. Systemerne  betegnes med UCS-2, UCS-4, UTF-7, UTF-8, UTF-16 og UTF-32.

Tabel

Tabellen herunder indeholder Unicode fra 0 til 255, som din browser viser dem.  

Unicode 0 til 255, som din browser viser dem.
Dec   +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12 +13 +14 +15
  Hex +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
0 00 NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI
16 10 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
32 20 SP ! " # $ % & ' ( ) * + , - . /
48 30 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
64 40 @ A B C D E F G H I J K L M N O
80 50 P Q R S T U V W X Y Z [ \ ] ^ _
96 60 ` a b c d e f g h i j k l m n o
112 70 p q r s t u v w x y z { | } ~ DEL
128 80  ƒ ˆ Š Œ  Ž 
144 90  ˜ š œ  ž Ÿ
160 A0 NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ­ ® ¯
176 B0 ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
192 C0 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
208 D0 Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
224 E0 à á â ã ä å æ ç è é ê ë ì í î ï
240 F0 ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

Pladserne 00 til 31 samt 127 er kontrolkarakterer (fremhævet med gult).

Pladserne 128-159 (fremhævet med grønt) er reserveret til kontrolkarakterer, men som du sandsynligvis kan se, så vises en hel del alligevel i området 128-159. De viste karakterer svarer til symbolerne fra Windows-1252. Det er ikke muligt at finde yderligere information om dette, så jeg går ud fra, at det ikke generer nogen andre. Vi lader det ligge!

Karakterer, som din browser ikke kan vise, præsenteres som en firkant.

Copyright - © - Ophavsret - Arne Crown

www.infrateket.dk

AP022-1 / 2012-05-05 17:41