基本拉丁字母 (Unicode區段)
基本拉丁字母(Basic Latin),又稱C0控制字符及基本拉丁字母(C0 Controls and Basic Latin),是Unicode標準下的首個Unicode區段,亦是唯一一個在UTF-8下,以單一字節編碼的區段。此區段包含ASCII編碼下所有字母與控制字符。該區段的範圍為U+0000..U+007F(共128個字元),包含C0控制字符、ASCII标点符号與規約符號、ASCII數字、英文字母中的大寫與小寫字母,以及一個控制字元。
C0控制字符及基本拉丁字母 C0 Controls and Basic Latin | |
---|---|
範圍 | U+0000..U+007F (128個碼位) |
平面 | 基本多文種平面(BMP) |
文字 | 拉丁字母(52個) 通用(76個) |
應用 | |
符號系列 | |
已分配 | 128個碼位 33個控制或格式 |
未分配 | 0個保留碼位 |
來源標準 | ISO/IEC 8859 · ISO 646 |
註釋:[1][2] |
基本拉丁字母區段內的字元Unicode標準的1.0版本起一直沿用至今,多年來未曾對此作出任何增減。[3]該區段在1.0版本的名稱為ASCII。[4]
字符表
下表列出基本拉丁字母包含的所有字符[5]:
|
|
|
|
子標題
「C0控制字符及基本拉丁字母」區段內包含六個子標題。[5]
C0控制字符
「C0控制字符」(C0 Controls,於1.0版本中稱為C0 ASCII控制符)乃繼承自ASCII及其他7位元及8位元編碼系統。C0控制字符的別名乃基於ISO/IEC 6429:1992標準而取。[5]
ASCII標點及符號
此子標題乃指標準標點字元、簡單數學運算子,以及比索符號($)、百分號、&符號、下劃線和管道符號等符號。[5]
ASCII數字
「ASCII數字」(ASCII Digits)子標題包含標準歐式數字字元1-9及0。[5]
大寫拉丁字母
「大寫拉丁字母」(Uppercase Latin alphabet)子標題包含26個標準、無附加符號的大寫拉丁字母。[5]
小寫拉丁字母
「小寫拉丁字母」(Lowercase Latin alphabet)子標題包含26個標準、無附加符號的小寫拉丁字母。[5]
控制字元
「控制字元」(Control Character)子標題僅包含「刪除」字元。[5]
符號、字母與控制符數量
下表列出C0控制字符及基本拉丁字母區段中,各子標題的字母、符號與控制符數量。
子標題名稱 | 符號數量 | 字元代碼範圍 |
---|---|---|
C0控制字符 | 32個控制字符 | U+0000..U+001F |
ASCII標點及符號 | 33個標點符號與符號 | U+0020..U+002F、U+003A..U+0040、U+005B..U+0060及U+007B..U+007E |
ASCII數字 | 10個數字 | U+0030..U+0039 |
大寫拉丁字母 | 26個無附加符號的大寫拉丁字母 | U+0041..U+005A |
小寫拉丁字母 | 26個無附加符號的小寫拉丁字母 | U+0061..U+007A |
控制字元 | 1個包含「刪除」字元的控制字符 | U+007F |
區塊
C0控制字符和基本拉丁字母 C0 Controls and Basic Latin[a] Unicode Consortium 官方碼表 (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U+000x | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | VT | FF | CR | SO | SI |
U+001x | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | CAN | EM | SUB | ESC | FS | GS | RS | US |
U+002x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
U+003x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
U+004x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
U+005x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
U+006x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
U+007x | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | DEL |
|
變體
部份字元若跟從變體指示器(variant indicators),則會以標準化變體的定義生成。
區段內亦有一個為字元「0」定義、帶有短對角斜線的變體0︀(U+0030 DIGIT ZERO U+FE00 VS1)。[7][8]
12個字元可透過U+FE0E VS15或U+FE0F VS16以生成繪文字變體。[9][10][11][12]它們均為鍵帽基底字符(base characters),如#️⃣(U+0023 NUMBER SIGN U+FE0F VS16 U+20E3 COMBINING ENCLOSING KEYCAP)。VS15版本是「文字樣式」,而VS16版本則為「繪文字樣式」。[8]
U+ | 0023 | 002A | 0030 | 0031 | 0032 | 0033 | 0034 | 0035 | 0036 | 0037 | 0038 | 0039 |
基本碼位 | # | * | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
基本+VS15+鍵帽 | #︎⃣ | *︎⃣ | 0︎⃣ | 1︎⃣ | 2︎⃣ | 3︎⃣ | 4︎⃣ | 5︎⃣ | 6︎⃣ | 7︎⃣ | 8︎⃣ | 9︎⃣ |
基本+VS16+鍵帽 | #️⃣ | *️⃣ | 0️⃣ | 1️⃣ | 2️⃣ | 3️⃣ | 4️⃣ | 5️⃣ | 6️⃣ | 7️⃣ | 8️⃣ | 9️⃣ |
歷史
以下与Unicode相关的文档记录了在基本拉丁字母区块中定义特定字符的目的和过程:
版本 | 最終碼位[a] | 碼位数 | UTC ID | L2 ID | WG2 ID | 文檔 |
---|---|---|---|---|---|---|
1.0.0 | U+0000..007F | 128 | (待查) | |||
UTC/1999-013 | Karlsson, Kent, Tildes and micro sign decompositions, 1999-05-27 | |||||
L2/99-176R | Moore, Lisa, Minutes from the joint UTC/L2 meeting in Seattle, June 8-10, 1999, 1999-11-04 | |||||
L2/04-145 | Starner, David, C with stroke character examples from BAE report 1884 (Dorsey), 2004-04-30 | |||||
L2/04-202 | Anderson, Deborah, Slashed C Feedback, 2004-06-07 | |||||
N3046 (页面存档备份,存于互联网档案馆) | Suignard, Michel, Improving formal definition for control characters, 2006-02-22 | |||||
N3103 (pdf, doc (页面存档备份,存于互联网档案馆)) | Umamaheswaran, V. S., Unconfirmed minutes of WG 2 meeting 48, Mountain View, CA, USA; 2006-04-24/27, 2006-08-25 | |||||
L2/11-043 | Freytag, Asmus; Karlsson, Kent, Proposal to correct mistakes and inconsistencies in certain property assignments for super and subscripted letters, 2011-02-02 | |||||
L2/11-160 | PRI #181 Changing General Category of Twelve Characters, 2011-05-02 | |||||
L2/11-261R2 | Moore, Lisa, UTC #128 / L2 #225 Minutes, 2011-08-16, Accept Ken Whistler's recommendations in L2/11-281 on name aliases for control characters with the addition of the abbreviations BEL and NUL. | |||||
L2/11-438[b][c] | N4182 (页面存档备份,存于互联网档案馆) | Edberg, Peter, Emoji Variation Sequences (Revision of L2/11-429), 2011-12-22 | ||||
L2/15-107 | Moore, Lisa, UTC #143 Minutes, 2015-05-12, Add the 12 keycap sequences in emoji-data.txt as provisional named sequences in Unicode 8.0. | |||||
L2/15-268 | Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray, Proposal to Represent the Slashed Zero Variant of Empty Set, 2015-10-30 | |||||
L2/15-301[d][c] | Pournader, Roozbeh, A proposal for 278 standardized variation sequences for emoji, 2015-11-01 | |||||
L2/15-254 | Moore, Lisa, UTC #145 Minutes, 2015-11-16 | |||||
L2/17-294 | N4914 (页面存档备份,存于互联网档案馆) | Lunde, Ken, Proposal to add standardized variation sequence for U+FF10 FULLWIDTH DIGIT ZERO, 2017-08-14 | ||||
參見
注釋
參考資料
- ^ Unicode character database. The Unicode Standard. [2016-07-09]. (原始内容存档于2017-09-25) (英语).
- ^ Enumerated Versions of The Unicode Standard. The Unicode Standard. [2016-07-09]. (原始内容存档于2016-06-29) (英语).
- ^ The Unicode Standard Version 1.0, Volume 1. Addison-Wesley Publishing Company, Inc. 1990. ISBN 0-201-56788-1.
- ^ 3.8: Block-by-Block Charts (PDF). The Unicode Standard. version 1.0. Unicode Consortium. [2022-05-17]. (原始内容 (PDF)存档于2021-02-11) (英语).
- ^ 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 Unicode 6.2 code charts (PDF). The Unicode Standard. [2013-04-01]. (原始内容 (PDF)存档于2018-07-04) (英语).
- ^ Michael S. Kaplan. When is a backslash not a backslash?. Sorting it all Out. Microsoft. 2005-09-17. (原始内容存档于2010-06-12) (美国英语). 亦可於 http://archives.miloush.net/michkap/archive/2005/09/17/469941.html (页面存档备份,存于互联网档案馆) 查閱。
- ^ Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray. L2/15-268: Proposal to Represent the Slashed Zero Variant of Empty Set (PDF). 2015-10-30 [2022-05-17]. (原始内容 (PDF)存档于2016-10-21) (英语).
- ^ 8.0 8.1 UTS #51 Emoji Variation Sequences. The Unicode Consortium. [2022-05-17]. (原始内容存档于2022-03-31) (英语).
- ^ Edberg, Peter. L2/11-438: Emoji Variation Sequences (Revision of L2/11-429) (PDF). 2011-12-22 [2022-05-17]. (原始内容 (PDF)存档于2022-06-10) (英语).
- ^ Pournader, Roozbeh. L2/15-301: A proposal for 278 standardized variation sequences for emoji (PDF). 2015-11-01 [2022-05-17]. (原始内容 (PDF)存档于2022-03-31) (英语).
- ^ UTR #51: Unicode Emoji. Unicode Consortium. 2020-02-11 [2022-05-17]. (原始内容存档于2019-05-01) (英语).
- ^ UCD: Emoji Data for UTR #51. Unicode Consortium. 2021-08-26 [2022-05-17]. (原始内容存档于2022-03-28) (英语).