Skip to content

impishian/input_method

Repository files navigation

汉字输入法

1. 汉字

最新的国际标准 Unicode 15.1 包含了约 97,681 个汉字,从基本的 CJK 字符到增补的 CJK-A 至 CJK-I,涵盖了东亚汉字文化圈各地区的古今汉字。

对于大多数人来说,几乎不会用到这近十万个汉字的许多字,除非是从事古汉语等方面的相关工作。即使是《四库全书》,也用不到其中的许多字。

一般人掌握三四千个汉字就能满足现代汉语日常交流中 99.9% 以上的需求。日本目前使用的日文汉字约有两千个。

字典/辞典/词典 用字数
《新华字典》12版 超过13000字
《现代汉语词典》7版 7万余条词 (涉及的字,则不明确)
《汉语大字典》(第三版) 60370字
《汉语大词典》 22000以上的字,35万余条词
《中华字海》 85568字
《中华大字典》 57470字
《辞海》(7版) 超过13万条词 (涉及的字,则不明确)
《辞源》三版 14210字,复词 92646个
《汉字海》 102434字
《康熙字典》 47043 字
《國語辭典》 11930字、152398词
《異體字字典》 106230字

两岸三地汉字标准

所有 Unicode CJK 字符(近10万字)

通用规范汉字表(8105字)


2. 拼音

拼音pdf

根据大陆学校使用的《新华字典》(第12版),拼音共有 416 种声韵组合。除了6种特殊语气词的读音,其他 410 种组合,大多数拼音输入法都支持(这 6 种组合,所对应的 8 个语气词用字,是多音字,可以通过其他声韵组合输入)。

拼音输入法通常使用 26 键打字(不含声调),重码率较高。大陆地区学过拼音的人通常无需额外学习就能上手使用拼音输入法。

3. 注音

注音pdf

列出了 407 种声介韵组合,基本与拼音的组合一致。

注音输入法通常需要用 40 键来打字。注音带声调,比不带声调的拼音理论上重码少一些。注音打字时击键次数少于拼音,但比双拼多,打字节奏不如双拼稳定。台湾学过注音的人,只需了解 40 键与注音符号的对应关系,就能上手使用注音输入法打字。

大陆的《新华字典》不仅标注了拼音,还保留了注音,最新的第 12 版依旧如此。注音符号源自汉字的偏旁部首,大陆人稍加学习也能掌握。

4. 粤拼

粤拼pdf

列出了 600 多种声韵组合。粤拼输入法,适用于粤语输入。虽然是香港语言学会的方案,可是很多香港人也没学过。

5. 郑码(郑易里、郑珑父女)

中易官网郑码介绍

郑码是一种纯形码输入法,基于字根双编码,共有约 186 个字根。无需记忆字根口诀,只需理解笔画规律,先记 52 个主根,再记 134 个副根。

郑码从推出时就是面向大字集的输入法,若以大陆字型为准,比五笔编码更规范,拆字更合理。其双编码设计也影响了近年的一些输入方案。

郑码规则导致的“简全不一致”(简码和词组编码跟全码不同,简码并不是全码前几键),是一些使用者不满意的地方。

6. 五笔(王永民)

王码官网

五笔是商业推广最成功的形码

五笔86版最为流行,使用约 130 个字根,单编码设计,常通过口诀记忆字根。(另有说法:86版使用234个字根,98版使用259个字根,新世纪版使用了226个字根。大概是形似根不归并,统计而得的数)

五笔86版最初只面向 GB2312 字集的 6763 字来设计字根,后来还推出98版、新世纪版等多个版本。先入为主的原因,五笔86版使用者众多。

五笔的末笔交叉识别码,会有些人不满意。另外,有些字拆字别扭。

当然,汉字几千年的演变,非常复杂,没有一种形码,拆字会绝对舒服,绝对规范。没绝对的《规范》可供多国家多地区的所有汉字使用者来遵守。各地的字型不太一样。也没有一个形码是两岸人民都普遍共同推崇的。

输入法小圈子,有各种为了追求极致输入体验的五笔魔改版。

7. 仓颉(朱邦復)

朱邦復工作室

第五代仓颉手册

倉頡輸入秘笈

仓颉输入法凭视觉(非字义或笔顺)把汉字分割为字首及字身,字首为最左、最上、最外部分,剩余部分为字身。若字身可以再分,则分为次字首和次字身。各部分再分拆为有限个字码(中间部分省略),以不破坏字形特征和视觉容易辨识为准。

字首最多取二码,字身最多取三码;一个汉字最少用一码输入,最长则为五码;整体字则以第一码为字首,其余为自身,故有一到四码。取码以后再按下空白键(组字键),即可输出字符(字形)。仓颉不设简码。

汉字 分割 码数 取码 键盘上的按键
整体字,无法分割 最多取 4 码 中中 LL
字首:王 . 字身:里 最多取 2 . 3 码 一土 . 田土 MGWG
字首:艹 . 次字首:女 . 次字身:古 最多取 2 . 1 . 2 码 廿 . 女 . 十口 TVJR
字首:言 . 次字首:五 . 次字身:口 最多取 2 . 2 . 1 码 卜口 . 一一 . 口 YRMMR

注︰ 基本上,只要将字形一分为二,最左、最上、最外的字首部分,取首、尾二码;其余的字身部分,依规则取三码,则可拆解所有汉字。

仓颉有第三代、第五代,差别不大,还有简化版的速成输入法(或简易输入法)。苍颉,是坊间所称的第六代,但与三代五代差异很大,更像是衍生的输入法。

8. 二笔输入法(陈劲松)

二笔输入法曾通过中国教育部评审,进入中小学教材。

二笔输入法取码方法:拼音首字母 + 笔画。输入汉字时,第一码取汉字拼音首字母,从第二码起取笔画,每二笔算一码,最多取四码,不足四码应全取,不能取双笔画时就取单笔画,遇设定部首(如钅、木、氵等)应直接取其代码。

2013年专利期已满。除了原二笔公司的原二笔之外还有很多派生版本,如超强二笔,各种二笔的取码原理基本一致,键盘布局有不同,具体的编码规则存在微小差异,总体上分为两大类:原二笔编码规则和超强二笔编码规则。最早是30键版本,后来有26键、25键的版本,甚至还有28键、27键的。

9. 表形码(陈爱文)

表形码的字根形似字母,相对易学易记。有31键、26键的版本。

相交叉的笔画绝不拆分成两个字根,换言之,字根与字根之间没有交叉的笔画。这一点使得拆字的方式非常直观。

由于商业纠纷和推广力度等原因,用户数远不及五笔等形码。

示例:“吼”字-拆分为-O+Z+L = OZL,“啊”字-拆分为-O+P+T+O = OPTO

表形码爱好者网盘

关于表形码的一段往事

表形码与我国的语言学

10. 自然码(双拼+形)(周志农)

自然码官网

自然码是双拼和音形码的鼻祖之一。通过声韵各一键打字,节奏稳定,与全拼(完整的拼音)相比,可减少击键。

自然码辅助码,可减少同音字的重码。(有双辅方案、单辅方案,即:双码、单码的辅码)

自然码官方自2009年就停止了更新。不少爱好者,在主流输入法软件里中定制实现自然码输入方案。

11. 双拼

常见方案 不太常见方案 爱好者方案
1 自然码 国标 小浪
2 微软 雅歌 大牛
3 智能ABC 徐氏 键道3
4 拼音加加 蓝天 键道6
5 小鹤 白云 星空
6 搜狗 新华 开源小鹤
7 紫光 UCDOS 小月
8 韵标
9 C双拼
10 飞猫

其中自然码、小鹤音形与雅歌为音形输入法,“前两码音码”+“后两码形码”(形码是辅助码,也可不输,只输入双拼音码)。

12. 虎码 (PeaceB)

虎码官网

虎码使用 241 个字根,字根双编码设计,字根排列不遵循固定规律。

官网提供工具辅助记字根。取码规则简单。大字根,拆字轻松。重码极低,使用体验佳。

(1) 字根

虎码把五笔、郑码的主要字根绝大部分都收了进来,再加了几十个字根,因此,字根数比五笔、郑码都多了不少。

为了低重码和好手感,虎码是按特定的计算机算法,将各字根安排在特定的键,不像五笔或郑码那样人为地按一定的规律排布。字根完全乱序。

通过官网的工具来辅助记忆,不难记住字根。(像打游戏一样,练习超过3万分,则字根基本过关)

虎码像郑码一样采用双编码,一个字根,有大码、小码(小码音托。不懂拼音者可另想办法记小码,问题也不大)。

不要像五笔那样背字根,可用 241 个词语来记(比如:通用的 "用" Ty,方且的 "且" Fq,誓言的 "言" Sy,地里的 "里" Dl ...)

虎码面向大字符集。字根多,打字体验就比较好。像搭积木一样,能轻易搭出各种字。比五笔更容易拆字、重码少、极少的无理码。

(2) 规则

虎码,是取码规则最简单的形码

五笔、郑码等,需要看书或通过打字培训班来学习掌握复杂的规则、特例,甚至还要记无理码。

虎码规则大致如下( ① 大写字母:大码;② 小写字母:小码;③ 2表示取两根:Aa 或 AB):

备注
一根
Aa
二根
ABb
三根
ABCc
多根
ABCZ
一句话:打各字根大码,不够4码补最后字根小码
双字
2+2
三字
A+A+2
多字
A+A+A+...+A

虎码官网,很简洁,有关于虎码的所有内容,不需要再看书或跟老师学。

(3) 虎码测评网

这是虎码网站上提供的一个测评工具。

任何四码输入方案的码表(当然,必要时需转换一下格式),上传到该工具,便可测评该输入方案在常用6000字集的表现情况:

① 离散情况:用1/2/3/4码能打出的字,分别占比有多少,静态重码率多少;

② 效率:理论二简,加权键长;

③ 手感:左右互击、手指跨排、 同指/同键连打 ... 等。

13. RIME 中州韵输入法引擎(弓辰,网名佛振)

RIME 中州韻輸入法引擎 官网

Awesome RIME 整理了很多基于Rime 的输入方案和配置。

RIME 是一个自定义输入法工具,支持多平台。

平台 软件
Windows 小狼毫
MacOS 鼠须管;小企鹅fcitx5-macos
Linux 有ibus-rime、fcitx-rime、fcitx5-rime等
Android 小企鹅fcitx5-android ; trime同文输入法
iOS 「仓」输入法

14. 顶功(戴石麟)

顶功集萃 by 谭淞宸

顶功理论,通过预设规则,能在输入时减少空格使用,自动上屏,缩短码长,提高输入效率。

支持顶功的输入法,通常规则比较多,需要较多的学习、实践和记忆。

因为分为大集合、小集合,导致在四码以内的编码空间少,难以支持大字集,要不就需增加码长,可是这样又会影响效率和输入节奏。

好处是:在几千字的字集内,熟练后,能大幅减少击键来达到较快的输入速度。

14.1 声笔系列 (声笔简系、声笔飞系、声笔双拼 等)

声笔输入法FAQ

声笔飞单 简要介绍

声笔双拼 之 声笔自然 简要介绍

声笔系列码,是一种独特的顶功输入法。声笔是顶功输入的首创者和引领者。

「声笔飞单」是二码起顶,主字方案。理论上有 567 个两键字(21 + 21 × 5 + 21 × 21),总频率接近 70%。「声笔飞码」是采用「声笔飞单」的声母和部首,单字三码顶、词组四码顶的主词输入方案。「声笔自然」和「声笔小鹤」是采用自然码或小鹤双拼,单字三码顶、词组四码顶的主词输入方案。

除声笔外,顶功输入法,还有基于早期声笔飞码发展起来的西风瘦码,以及后来出现的其它顶功方案,比如:一码起顶的左飞 1811,二码起顶的小兮码、灵形速影、左飞双拼、顶功雅歌,三码起顶的左飞三码、听雨三码,二四顶屏的顶功希码,星空学系列的星空两笔、星空键道及其变种,采用四二顶的 C42,采用五二顶的徐码五二顶等等。

令 P 表示 [a-z] 的26个字母键去掉 [aeiou] 后的21键集合,代表偏旁部首; S 表示 26 个字母键去掉 [aeiou] 后的21键集合,代表声母;B 表示[aeiou] 这几个键,代表5种笔画。那么,声笔飞码的编码(除去一级简码等之外)属于以下三个之一:

SP

SPB

SPBB

顶功的原理:这些编码的首码 S 与较长码的剩余部分中的 B 互斥。前一个编码输入完成后,不需输入空格,在后一个编码的S出现时,前一个编码的字词就可无歧义地上屏。

14.2 星空键道6

星空键道6,自己的双拼布局,原理与声笔系列的 声笔双拼(声笔自然、声笔小鹤) 类似。

设集合 B 含有 {v,i,o,u,a} 五个元素,集合 S 含有其余 21 个字母作为元素。

键道6的编码特性 1:属于 B 的编码,不可能再接一个属于 S 的编码。

键道6的编码特性 2:4 个属于 S 的编码,不可能再接第 5 个属于 S 的编码。

这两个特性令键道6可以进行一系列顶功输入。

14.3 yi码:奕码、易码、逸码V20、晨逸

  • 奕码:三码定长或者四二顶〔26×26=676个二码字不需空格、自动顶;三码需加空格(相当于四码)、手动顶〕,小码是字根的拼音,重码少。26 键,出简不出全。纯单字码表,覆盖 7900 个字。编码最短 2 码,最长 3 码。【拆字说明】首根+次根+末根(不足3,则补后一或两个音托,zy的音托取韵母)(类似:虎码 + 顶功。 为了用更短码长,打小字集的字,可是字根也不少,有一定的记忆量。)

  • 易码:三码定长或者四二顶〔26×26=676个二码字不需空格、自动顶;三码需空格(相当于四码)、手动顶〕,总字根数 440+,归类完 268+,采用双编〔大码乱序+小码有序〕分布,小码二笔。覆盖 8105 个字。编码最短 2 码,最长 3 码。字词码表,单字42顶,分号作为第三码打词(abc;d)。【拆字说明】首根+次根+末根(不足3,则补末根前两笔的二笔码,仍不足,再补末根末笔笔画码FJEIV)。 (类似:五笔 + 二笔 + 顶功)

  • 逸码V20:二码顶,独一档的单字手感。字根总共 470 个,归类后 318 个字根。大集合 A 为 21 键。小集合 B 为 5 键:ERUIO(一丶ㄋ丨丿)。收字范围《通用规范汉字表》8105字。全码规则为「形形笔笔笔笔」。ymdz.dict.yaml: 共8224字,其中2码字541个、3码字2111个、4码字3198个、5码字1738个、6码字636个;6码有重的,有106个编码、251字。【拆字说明】单拆:字根+书写的笔顺;两拆:首根+次根的笔顺;多拆:首根+次根+余部的笔顺。(类似:五笔 + 顶功)。

  • 晨逸:二笔风格的二码顶。2 码起顶的二笔顶功,最长 6 码;所有字词出简也出全。(类似:声 + 二笔 + 顶功)

  • 测评工具

  • 奕码(四二顶) vs. 奕码(三码定长)

image

(与易码码表不一样,奕码三定的码表里安排了26个一级简码。有一级简码,严格来说,就不能总是四二顶了。在双码字之后,若跟着的是单码字,则需手动把双码字先顶了。若跟的是双码/三码字,则刚才的双码会自动顶)

15. 并击

并行击键,高速输入。并击主要用于速录机的领域。电脑键盘上并击可参考:速录宝、空明码、键盘并击

16. 其他

16.1 部分中文输入法

部分中文输入法列表&简图

  • 双拼:小鹤双拼... 等各种方案

  • 音形:各种二笔衍生的音形码(30键青松二笔、30键超强二笔、26键超强音形、26键超强快码、26键哲豆音形、26键自由二笔 ...)、小鹤音形等各种带辅助码的方案

  • 形码:各种魔改的五笔方案、魔改的三码郑码、受到郑码和五笔启发而设计的 徐码(245 字根)、宇浩(233 字根)...等各种方案

  • 顶功:声笔系列、星空键道 ... 等各种方案

  • 台湾的:大易、行列、自然(旧称国音,用许氏键盘) ... 等;

  • 香港的:九方、快码、纵横 ... 等。

16.2 近些年活跃的输入方案

八九十年代,曾经是“万码奔腾”的时代,各种输入方案层出不穷地提出来。

现在最多人用的是输入方式,说拼音云计算的智能整句输入。即使是五笔这样的形码,使用者也相对少了。

不过,至今仍有输入法小圈子,在做各种研究,以追求极致的个性化输入体验。

16.3 永硕 E 盘的一些输入法资源

16.4 本人主要使用的输入法组合

  • 音码:双拼 (自然码方案),打词打句

  • 音形结合自然虎形 - 虎码首末作为双拼辅码,打单字

    比鹤形辅码、自然辅码重码率更低。对于已记住虎码字根者,不需再记一套仅专用于音形码的字根和键位。

    边打边想,分词断句。该打词句时,打词句。该打字时,打字。

  • 形码:虎码,适合盲打和大字集的古籍等

    8105字集内:近乎单字唯一化,重码本不多,若有重,大都可用 ;' 选二三字。 重码>3的只有三组编码: kor 旭沓汩汨旮 / gwfr 彀觳榖縠 / fdvi 嬴羸赢蠃

    若追求更极致,想不重码打这少量的字,可参看虎码官网给一些用户自定优化的建议,用 无理容错码 、回头码 、音补、顺取变为先取中间 等方式取码,当然这些都是可选的方式。

  • 记忆量:双拼键位、虎码字根(规则几乎0记忆量)。