1<?xml version="1.0" encoding="UTF-8" ?> 2<!DOCTYPE supplementalData SYSTEM "../../common/dtd/ldmlSupplemental.dtd"> 3<!-- 4Copyright © 1991-2013 Unicode, Inc. 5CLDR data files are interpreted according to the LDML specification (http://unicode.org/reports/tr35/) 6For terms of use, see http://www.unicode.org/copyright.html 7--> 8<supplementalData> 9 <version number="$Revision: 12243 $"/> 10 <transforms> 11 <transform source="es_FONIPA" target="zh" direction="forward" alias="zh-t-es-fonipa"> 12 <tRule><![CDATA[ 13# Tranforms Spanish to Mandarin Chinese. The input Spanish string must be in 14# phonemic IPA transcription (es_FONIPA); the output is in Simplified Chinese. 15 16$word_boundary = [-\ $]; 17$vowel = [aeijouw]; # Vowels and glides 18$not_vowel = [^$vowel]; 19 20# First pass: Collapse phonetic distinctions not preserved in Mandarin. 21 22ð → | d; 23ɣ → | g; 24ŋ → | n; 25θ → | s; 26ɾ → | r; 27 28ff → f ; 29kk → k ; 30mm → m ; 31nn → n ; 32pp → p ; 33tt → t ; 34tʧ → ʧ ; 35 36aa → a ; 37oi̯ → oi ; 38oo → o ; 39uu → u ; 40 41[^dgktx] { ei̯ → e ; 42[^-\ .$] { eu̯ → eu ; 43[^-\ .$] { ou̯ → o; 44[^j] { ui → wi ; 45 46[^$word_boundary] { m } [bp] → n; # GB/T 17693.5-2009, 5.3.2 47s[θs] → s; # GB/T 17693.5-2009, 5.3.4 48[^ʧ] { jo → io; # GB/T 17693.5-2009 表 1, 注 7 49 50::Null; 51 52j } an $not_vowel → i ; # GB/T 17693.5-2009 表 1, 注 8 53 54 55# GB/T 17693.5-2009 表 1, 注 8 also says that <uai> should be treated as if 56# it was <u> plus <ai>. This is not borne out by the observed data, which 57# suggests that <ua> plus <i> is the more appropriate choice in some 58# situations. 59 60[g.$] { wai̯ → wai ; 61wai̯ → uai̯ ; 62[g.$] { wau̯ → wau ; 63wau̯ → uau̯ ; 64jau̯ → iau̯ ; 65 66# Even though "ao" is not a diphthong in Spanish, Mandarin treats it as one. 67 68[^jw] { ao } [^n] → au̯ ; 69[^jw] { ao } n $vowel → au̯ ; 70 71# Main pass: Phoneme to Hanzi conversion. 72# This generally follows GB/T 17693.5-2009 表 1, unless otherwise noted. 73::Null; 74 75'.' → ; 76ai̯ → 艾 ; 77an } $not_vowel → 安 ; 78au̯ → 奥 ; 79a → 阿 ; 80bai̯ → 拜 ; 81ban } $not_vowel → 班 ; 82bau̯ → 包 ; 83ba → 巴 ; 84ben } $not_vowel → 本 ; 85be → 贝 ; 86bin } $not_vowel → 宾 ; 87bi → 比 ; 88bja → 比亚 ; 89bjen } $not_vowel → 比恩 ; 90bje → 别 ; 91bju → 比乌 ; 92bon } $not_vowel → 邦 ; 93bo → 博 ; 94bun } $not_vowel → 本 ; 95bu → 布 ; 96bwan } $not_vowel → 布安 ; 97bwa → 布阿 ; 98bwen } $not_vowel → 布恩 ; # Should be be 本, per GB/T 17693.5-2009 表 1. 99bwe → 布埃 ; 100bwin } $not_vowel → 布因 ; # Nonstandard, but fits observed data. 101bwi → 布伊 ; 102bwo → 博 ; 103b → 布 ; 104βai̯ → 瓦伊 ; 105βan } $not_vowel → 万 ; 106βau̯ → 沃 ; 107βa → 瓦 ; 108βen } $not_vowel → 文 ; 109βe → 韦 ; 110βin } $not_vowel → 温 ; 111βi → 维 ; 112βja → 维亚 ; 113βjen } $not_vowel → 维恩 ; 114βje → 维耶 ; 115βju → 维乌 ; 116βon } $not_vowel → 翁 ; 117βo → 沃 ; 118βun } $not_vowel → 文 ; 119βu → 武 ; 120βwan } $not_vowel → 万 ; 121βwa → 瓦 ; 122βwen } $not_vowel → 文 ; 123βwe → 武埃 ; 124βwi → 维 ; 125βwo → 沃 ; 126β → 夫 ; 127dai̯ → 代 ; 128dan } $not_vowel → 丹 ; 129dau̯ → 道 ; 130da → 达 ; 131dei̯ → 代 ; 132den } $not_vowel → 登 ; 133de → 德 ; 134din } $not_vowel → 丁 ; 135di → 迪 ; 136dja → 迪亚 ; 137djen } $not_vowel → 迪恩 ; 138dje → 迭 ; 139dju → 迪乌 ; 140don } $not_vowel → 东 ; 141do → 多 ; 142dun } $not_vowel → 敦 ; 143du → 杜 ; 144dwan } $not_vowel → 端 ; 145dwa → 杜阿 ; 146dwen } $not_vowel → 敦 ; 147dwe → 杜埃 ; 148dwi → 杜伊 ; 149dwo → 多 ; 150d } $word_boundary → ; 151d → 德 ; 152ei̯ → 埃 ; 153en } $not_vowel → 恩 ; 154eu̯ → 欧 ; 155e → 埃 ; 156fai̯ → 法伊 ; 157fan } $not_vowel → 凡 ; 158fau̯ → 福 ; 159fa → 法 ; 160fe → 费 ; 161fin } $not_vowel → 芬 ; 162fi → 菲 ; 163fja → 菲亚 ; 164fjen } $not_vowel → 菲恩 ; 165fje → 菲耶 ; 166fju → 菲乌 ; 167fon } $not_vowel → 丰 ; 168fo → 福 ; 169fun } $not_vowel → 丰 ; 170fu → 富 ; 171fwan } $not_vowel → 富安 ; 172fwa → 富阿 ; 173fwen } $not_vowel → 丰 ; 174fwe → 富埃 ; 175fwi → 富伊 ; 176fwo → 福 ; 177 178 179# The choice of 弗 vs. 夫 sounds simple according to the GB/T standard, but the 180# data suggest otherwise. Ideally, 弗 should occur at the beginning of a 181# morpheme (e.g. in "villafranca" 比利亚弗兰卡) and 夫 everywhere else. Since 182# we don't have morpheme boundaries, we'll fudge it by writing 夫 at the end of 183# a word and 弗 everywhere else. 184 185f } $word_boundary → 夫 ; 186f → 弗 ; 187 188gai̯ → 盖 ; 189gan } $not_vowel → 甘 ; 190gau̯ → 高 ; 191ga → 加 ; 192gei̯ → 盖 ; 193gen } $not_vowel → 根 ; 194ge → 格 ; 195gin } $not_vowel → 金 ; 196gi → 吉 ; 197gja → 吉亚 ; 198gjen } $not_vowel → 吉恩 ; 199gje → 吉耶 ; 200gju → 吉乌 ; 201gon } $not_vowel → 贡 ; 202go → 戈 ; 203gun } $not_vowel → 贡 ; 204gu → 古 ; 205gwan } [$] → 古安 ; # Nonstandard, but fits observed data. 206gwan } $not_vowel → 关 ; 207gwa → 瓜 ; 208gwen } $not_vowel → 古恩 ; 209gwe → 圭 ; 210gwi → 圭 ; 211gwo → 果 ; 212g → 格 ; 213in } $not_vowel → 因 ; 214i → 伊 ; 215ʝai̯ → 亚伊 ; 216ʝan } $not_vowel → 扬 ; 217ʝau̯ → 尧 ; 218ʝa → 亚 ; 219ʝen } $not_vowel → 延 ; 220ʝe → 耶 ; 221ʝin } $not_vowel → 因 ; 222ʝi → 伊 ; 223ʝon } $not_vowel → 永 ; 224ʝo → 约 ; 225ʝun } $not_vowel → 云 ; 226ʝu → 尤 ; 227ʝwan } $not_vowel → 元 ; 228ʝwa → 尤阿 ; 229ʝwen } $not_vowel → 云 ; 230ʝwe → 尤埃 ; 231ʝwi → 尤伊 ; 232ʝwo → 约 ; 233ʝ → 伊 ; 234kai̯ → 凯 ; 235kan } $not_vowel → 坎 ; 236kau̯ → 考 ; 237ka → 卡 ; 238kei̯ → 凯 ; 239ken } $not_vowel → 肯 ; 240ke → 克 ; 241kin } $not_vowel → 金 ; 242ki → 基 ; 243kja → 基亚 ; 244kjen } $not_vowel → 基恩 ; 245kje → 基耶 ; 246kju → 基乌 ; 247kon } $not_vowel → 孔 ; 248ko → 科 ; 249kun } $not_vowel → 昆 ; 250ku → 库 ; 251kwan } $not_vowel → 宽 ; 252kwa → 夸 ; 253kwen } $not_vowel → 昆 ; 254kwe → 库埃 ; 255kwin } $not_vowel → 昆 ; 256kwi → 奎 ; 257kwo → 阔 ; 258k → 克 ; 259lae } [^n] → 莱 ; 260lai̯ → 莱 ; 261lan } $not_vowel → 兰 ; 262lau̯ → 劳 ; 263la → 拉 ; 264len } $not_vowel → 伦 ; 265le → 莱 ; 266lin } $not_vowel → 林 ; 267li → 利 ; 268lja → 利亚 ; 269ljen } $not_vowel → 连 ; 270lje → 列 ; 271lju → 柳 ; 272lon } $not_vowel → 隆 ; 273lo → 洛 ; 274lun } $not_vowel → 伦 ; 275lu → 卢 ; 276lwan } $not_vowel → 卢安 ; 277lwa → 卢阿 ; 278lwen } $not_vowel → 伦 ; 279lwe → 卢埃 ; 280lwi → 卢伊 ; 281lwo → 洛 ; 282l → 尔 ; 283ʎan } $not_vowel → 良 ; 284ʎau̯ → 廖 ; 285ʎa → 利亚 ; 286ʎen } $not_vowel → 连 ; 287ʎe → 列 ; 288ʎin } $not_vowel → 林 ; 289ʎi → 利 ; 290ʎon } $not_vowel → 利翁 ; 291ʎo → 略 ; 292ʎu → 柳 ; 293ʎwan } $not_vowel → 柳安 ; 294ʎwa → 柳阿 ; 295ʎwen } $not_vowel → 柳恩 ; 296ʎwe → 柳埃 ; 297ʎwi → 柳伊 ; 298ʎwo → 略 ; 299ʎ → 尔 ; 300mai̯ → 迈 ; 301man } $not_vowel → 曼 ; 302martin → 马丁 ; 303mau̯ → 毛 ; 304ma → 马 ; 305men } $not_vowel → 门 ; 306me → 梅 ; 307min } $not_vowel → 明 ; 308mi → 米 ; 309mja → 米亚 ; 310mjen } $not_vowel → 缅 ; 311mje → 米耶 ; 312mju → 缪 ; 313mon } $not_vowel → 蒙 ; 314mo → 莫 ; 315mun } $not_vowel → 蒙 ; 316mu → 穆 ; 317mwan } $not_vowel → 穆安 ; 318mwa → 穆阿 ; 319mwen } $not_vowel → 门 ; 320mwe → 穆埃 ; 321mwin } $not_vowel → 穆因 ; # Nonstandard, but fits observed data. 322mwi → 穆伊 ; 323mwo → 莫 ; 324m → 姆 ; 325nai̯ → 奈 ; 326nan } $not_vowel → 南 ; 327nau̯ → 瑙 ; 328na → 纳 ; 329nen } $not_vowel → 嫩 ; 330ne → 内 ; 331nin } $not_vowel → 宁 ; 332ni → 尼 ; 333nja → 尼亚 ; 334njen } $not_vowel → 年 ; 335nje → 涅 ; 336nju → 纽 ; 337non } $not_vowel → 农 ; 338no → 诺 ; 339nun } $not_vowel → 嫩 ; 340nu → 努 ; 341nwan } $not_vowel → 努安 ; 342nwa → 努阿 ; 343nwen } $not_vowel → 农 ; 344nwe → 努埃 ; 345nwi → 努伊 ; 346nwo → 诺 ; 347n → 恩 ; 348ɲan } $not_vowel → 尼扬 ; 349ɲau̯ → 尼奥 ; 350ɲa → 尼亚 ; 351ɲen } $not_vowel → 年 ; 352ɲe → 涅 ; 353ɲin } $not_vowel → 宁 ; 354ɲi → 尼 ; 355ɲon } $not_vowel → 尼翁 ; 356ɲo → 尼奥 ; 357ɲu → 纽 ; 358ɲwan } $not_vowel → 纽安 ; 359ɲwa → 纽阿 ; 360ɲwen } $not_vowel → 纽恩 ; 361ɲwe → 纽埃 ; 362ɲwi → 纽伊 ; 363ɲwo → 尼奥 ; 364on } $not_vowel → 翁 ; 365ou̯ → 欧 ; 366o → 奥 ; 367pai̯ → 派 ; 368pan } $not_vowel → 潘 ; 369pau̯ → 保 ; 370pa → 帕 ; 371pen } $not_vowel → 彭 ; 372pe → 佩 ; 373pin } $not_vowel → 平 ; 374pi → 皮 ; 375pja → 皮亚 ; 376pjen } $not_vowel → 皮恩 ; 377pje → 彼 ; 378pju → 皮乌 ; 379pon } $not_vowel → 蓬 ; 380po → 波 ; 381pun } $not_vowel → 蓬 ; 382pu → 普 ; 383pwan } $not_vowel → 普安 ; 384pwa → 普阿 ; 385pwen } $not_vowel → 蓬 ; 386pwe → 普埃 ; 387pwi → 普伊 ; 388pwo → 波 ; 389p → 普 ; 390rai̯ → 赖 ; 391ran } $not_vowel → 兰 ; 392rau̯ → 劳 ; 393ra → 拉 ; 394ren } $not_vowel → 伦 ; 395re → 雷 ; 396rin } $not_vowel → 林 ; 397ri → 里 ; 398rja → 里亚 ; 399rjen } $not_vowel → 连 ; 400rje → 列 ; 401rju → 留 ; 402ron } $not_vowel → 龙 ; 403ro → 罗 ; 404run } $not_vowel → 伦 ; 405ru → 鲁 ; 406rwan } $not_vowel → 鲁安 ; 407rwa → 鲁阿 ; 408rwen } $not_vowel → 伦 ; 409rwe → 鲁埃 ; 410rwi → 鲁伊 ; 411rwo → 罗 ; 412r → R ; 413sai̯ → 赛 ; 414san } $not_vowel → 桑 ; 415sau̯ → 绍 ; 416sa → 萨 ; 417sen } $not_vowel → 森 ; 418se → 塞 ; 419sin } $not_vowel → 辛 ; 420si → 西 ; 421sja → 西亚 ; 422sjen } $not_vowel → 先 ; 423sje → 谢 ; 424sju → 休 ; 425son } $not_vowel → 松 ; 426so → 索 ; 427sun } $not_vowel → 孙 ; 428su → 苏 ; 429swan } $not_vowel → 苏安 ; 430swa → 苏阿 ; 431swen } $not_vowel → 孙 ; 432swe → 苏埃 ; 433swi → 绥 ; 434swo → 索 ; 435s → 斯 ; 436tai̯ → 泰 ; 437tan } $not_vowel → 坦 ; 438tau̯ → 陶 ; 439ta → 塔 ; 440tei̯ → 泰 ; 441ten } $not_vowel → 滕 ; 442te → 特 ; 443tin } $not_vowel → 廷 ; 444ti → 蒂 ; 445tja → 蒂亚 ; 446tjen } $not_vowel → 蒂恩 ; 447tje → 铁 ; 448tju → 蒂乌 ; 449ton } $not_vowel → 通 ; 450to → 托 ; 451 452# The rules for /ts/ (tz in the orthography) are nonstandard and derived 453# entirely from the observed data. They apply mostly to native toponyms 454# in Mexico. 455 456tsa → 察 ; 457tsen } $not_vowel → 岑 ; 458tse → 采 ; 459tsin } $not_vowel → 钦 ; 460tsi → 齐 ; 461tso → 措 ; 462tsun } $not_vowel → 聪 ; 463tsu → 楚 ; 464ts → 茨 ; 465 466tun } $not_vowel → 通 ; 467tu → 图 ; 468twan } $not_vowel → 图安 ; 469twa → 图阿 ; 470twen } $not_vowel → 通 ; 471twe → 图埃 ; 472twi → 图伊 ; 473two → 托 ; 474t → 特 ; 475ʧai̯ → 柴 ; 476ʧan } $not_vowel → 钱 ; 477ʧau̯ → 乔 ; 478ʧa → 查 ; 479ʧen } $not_vowel → 琴 ; 480ʧe → 切 ; 481ʧin } $not_vowel → 钦 ; 482ʧi → 奇 ; 483ʧjan } $not_vowel → 钱 ; 484ʧja → 恰 ; 485ʧjen } $not_vowel → 钱 ; 486ʧje → 切 ; 487ʧjon } $not_vowel → 琼 ; 488ʧju → 丘 ; 489ʧon } $not_vowel → 琼 ; 490ʧo → 乔 ; 491ʧun } $not_vowel → 琼 ; # Should be 春, per GB/T 17693.5-2009 表 1. 492ʧu → 丘 ; 493ʧwan } $not_vowel → 丘安 ; 494ʧwa → 丘阿 ; 495ʧwen } $not_vowel → 琼 ; 496ʧwe → 丘埃 ; 497ʧwi → 崔 ; 498ʧwo → 乔 ; 499ʧ → 奇 ; 500un } $not_vowel → 温 ; 501u → 乌 ; 502wan } $not_vowel → 万 ; 503wa → 瓦 ; 504wen } $not_vowel → 温 ; 505we → 韦 ; 506win } $not_vowel → 温 ; 507wi → 维 ; 508won } $not_vowel → 翁 ; # Unseen. 509wo → 沃 ; 510xai̯ → 海 ; 511xan } $not_vowel → 汉 ; 512xau̯ → 豪 ; 513xa → 哈 ; 514xei̯ → 黑 ; 515xen } $not_vowel → 亨 ; 516xe → 赫 ; 517xin } $not_vowel → 欣 ; 518xi → 希 ; 519xja → 希亚 ; 520xjen } $not_vowel → 希恩 ; 521xje → 希耶 ; 522xju → 休 ; 523xon } $not_vowel → 洪 ; 524xo → 霍 ; 525xun } $not_vowel → 洪 ; 526xu → 胡 ; 527xwan } $not_vowel → 胡安 ; 528xwa → 华 ; 529xwen } $not_vowel → 洪 ; 530xwe → 胡埃 ; 531xwi → 惠 ; 532xwo → 霍 ; 533x → 赫 ; 534 535# 尔 simplification pass. The idea is to drop most occurences of 尔 536# corresponding to <r> (not to <l> or <ll>) from a word if there is another /l/ 537# sound nearby. There is a vague pattern like this in the data, but the details 538# remain to be determined. At the moment, this does nothing, it just puts 尔 in 539# for every <r> in a syllable coda. 540 541::Null; 542$r = [R利拉]; 543# 544# 545# R } . $r → ; 546# R } .. $r → ; 547# R } ... $r → ; 548# R } .... $r → ; 549 550R → 尔 ; 551 552# Dong-nan-xi-hai pass. Per GB/T 17693.5-2009 表 1, 注 4, replace confusing 553# characters at the beginning and end of a word. 554 555::Null; 556$word_boundary { 东 → 栋 ; 557$word_boundary { 南 → 楠 ; 558$word_boundary { 西 → 锡 ; 559海 } $word_boundary → 亥 ; 560 561::NFC; 562 ]]></tRule> 563 </transform> 564 </transforms> 565</supplementalData> 566