第三千一百零八章 统一码大会
这样在大量的思考时间当中,系统并没有上网,大部分时间都处于断网状态,可以节约不少的上网费用。
“还是要督促通信方面尽快推出家庭上网包月服务才行啊。”聂棋圣叹气道:“就目前而言,可能只有采用这三种方式了。”
除此以外,还有系统的积分问题,对弈棋手分配问题,系统既可以让真人进行匹配对弈,也可以选择虚拟棋手进行对弈。
虚拟棋手自然就是野狐小智了,但是不能让野狐小智拿着超一流棋手的水平去欺负人,因此在面对不同级别对手的时候,往往需要进行“降智”处理,这样才可以势均力敌。
对于系统评级,棋院到现在到时候有一整套段位评价体系,但是那一套体系相当严格,适合竞技不适合休闲,这和围棋网以休闲为主,推广和培养爱好者目的不符,因此肯定要做出相应的调整。
这方面周至觉得论坛游戏模式倒是可供参考,然而考虑到未来发展,论坛游戏模式明显受限比较大,加上要照顾家庭访问模式,因此还是开发成一个小程序,即BS模式比较合理。
惟一的好消息就是现在JAVA作为面向网络对象的语言已经被四叶草开发得相当成熟了,市场环境已经慢慢培养了起来,甚至已经有了好几个网络游戏试水,现在正在进入蓬勃发展的初期,开发这样的系统可能不会需要太多的时间。
不过老聂是等不了这么长的时间了,他很着急,因此周至只好拿出这种方案,就是先利用论坛架构模式,用专线+棋院模式,先把局域网的对弈模式建立起来,这样不仅仅可以引入野狐小智作为虚拟棋手,充当各路棋手的磨刀石,还可以由高手们坐镇首都,通过专线网络对各地棋院下“指导棋”。
同时这套模式也包括老聂自己新开的道场,换到中国来叫做“围棋学校”,那里是他培养子弟的地方。
安排好了这一切,周至和麦小苗方得脱身,参加世界统一码标准组织大会。
这是极为罕见的信息科技界的世界性大会在国内举行,方方面面都十分重视,世界各国尤其是亚洲泛汉语文化圈内方方面面,都派了代表前来参加大会。
这也是顺理成章的事情,毕竟现在统一码一共就十几万个,而亚洲表意区间内的字符代码就高达十三万之多,而且还在继续增长,而世界范围内其余字符,加起来也就亚洲表意区间字符集的一个零头,因此自然要以中文为主。
虽然周至是瀚文大字库的主导者和设计者,但是四叶草派出的演讲代表,却是麦小苗。
用周至的话说,自己搞出来瀚文大字库,只代表着过去,而麦小苗基于瀚文大字库上搞出来的搜索引擎,以及驱动引擎的非线性匹配算法,才真正代表着未来。
麦小苗演讲的题目叫做《汉语在未来信息世界里的重要性》。
“作为最古老的象形文字,汉语有一项对于信息技术来讲最神奇的特性,那就是它的单位信息量。”
“以《联合国宪章》为例,中文版的《联合国宪章》有26650个字符,而英文版则需要55600个字符,在排版统一的情况下,中文文件的厚度一般只有英文等字母形语言的一半。”
“因此作为书面文字,汉字是这个星球上最高效,信息密度最高的文字。”
“究其根本原因,是因为字母形文字是‘一维’的,只代表了声音,而汉字是二维的,不仅仅代表声音,还封装了海量的信息。”
“这种信息还可以自由组合,用极简的方式完成派生词的产生。”
“比如国际化这个词,用英文表述需要二十个字符,用中文只需要三个字符,换成信息技术的表述,英文需要二十比特,而中文只需要六比特。”
“根据香农信息熵的研究,字符的信息熵为4比特,而汉字的信息熵为9.65比特,也就是说,在以计算机技术为主的信息世界里,中文可以比其余文字,以更小容量的信息载体,更快的速度,记录和传播更大的信息量。”
“比如中文的舅舅一词,只有四个比特,而要用英文来准确瞄准,则需要以‘妈妈的哥哥’来表示,中文词汇在这里还包含了血缘,辈分,性别三个维度的信息量,这是声音记录类字符型文字所无法表达的。”
“除了记录的效率,还有读取的效率。”麦小苗在台上侃侃而谈:“中国有个成语叫做‘一目十行’,意思就是中文信息的读取可以是面积式的,图形化的。”
“四叶草实验室做过一个有趣的实验,那就是将固定中文词汇的排列顺序予以打乱,然后制作出文本交给读者阅读,读者们可以惊奇地发现,混乱的词汇语序搭配正确的中文语法,并不会对阅读理解造成任何影响。”
“也就是说,‘实验’和‘验实’在文章里的作用是一样的,错误的排序会被中文使用者在下意识层面完成自动纠正。”
“人类的大脑在阅读时主要涉及两条通路,一条叫背侧通路,主要进行语音识别,一条叫腹侧通路,主要进行视觉处理和语意连接。”
“大家在阅读字符型文字的时候,需要先将文字转化为语音,然后通过背侧通路接收;而在阅读表意型文字的时候,则是两条通路同时进行,所以才能够达到‘一目十行’的效果,信息的提取效率也得到了极大的提高。”
“作为识别工具,汉语的‘六书’法,又提供了强大的功能,瀚文大字库的所有表意文字,拆分开来,都是‘字根’,而这些字根里边,也涵盖了巨大的信息量。”
“比如鸟字旁的字,可以圈定一个大概的理解范围,大家可以发现汉字里这类文字,大多和鸟,飞翔这类特性相关,而字符型文字很难做到这一点。”
“对此有人会产生一种直觉,认为汉字的高效,与汉字特别多有关。”麦小苗微笑道:“然而这是一种错觉。英文总词汇量超过一百万,而且目前还在以每年四千到八千的数量增长。而中文常用字大约3500个,基本上只需要掌握这三千五百字,就能够自由组合,并且完成中文世界里百分之九十以上信息量的交互,这也是瀚文基准字库的范围。”
“这一点重要不重要呢?我只举一点重要性,那就是中国人基本无需重构专业语言,学习另一套专业词汇,就可以自由地进行跨专业的学习。”(本章完)
(https://www.02shu.com/2_2406/884182944.html)
1秒记住02书屋:www.02shu.com。手机版阅读网址:m.02shu.com