Archive for the '学海无涯' Category

Feb 19 2010

闲谈CCD

Published by 欧阳峰 under 学海无涯

你知道什么是“电荷耦合器件”(Charge Coupled Device)吗?如果你拥有一台摄像机或数字照相机,这个有着奇怪名字的元件就在为你效劳。不过人们通常以缩写来称呼它:CCD。CCD能把光学影像转换成电子信号。不仅是摄像机,照相机这些家用电器中CCD唱着主角,而且在天文望远镜和很多科学仪器中也有它的身影。

CCD的原理,要从半导体谈起。我们都知道,固体分为绝缘体,导体和半导体。在固体中,有一部分电子不是束缚在某个原子的周围,而是在整个固体中间“游荡”。但这些电子可能的状态是有限的,而且每个状态最多只能有一个电子占据。这就好像一个电影院,观众可以任意调换座位,但一个座位不能挤两个人。导体,就好像电影院里有空位。这样观众通过换座位就能跑来跑去,我们就会看到电子的移动,也就是电流。绝缘体,就是观众正好坐满了全部座位。这样大家都动不了,也就不会有电流。半导体呢,它和绝缘体一样也没有空位子。但是观众比较容易站起来,就有了可以自由移动的人和空着的位置。因为这个差别,半导体就有了很多奇妙的性质。

CCD感光是利用了半导体的光电效应。当电子吸收光子时,就会得到附加能量而跳入高能级,相当于观众从座位上站起来。如果有外加电场的话,那些“获得自由”的观众会被拉到别处而与“空椅子”分离,就不能再坐下来。所以,入射光会在半导体里产生自由电子,其数量与光强(更严格地说是光子数)成正比。这就是半导体的光电效应。最普通的半导体材料是硅。从红外到可见光到紫外线都能在硅中产生光电效应。

所以,基本的半导体影像感受器件是这样的:在半导体材料中通过一定的内部构造和电极,把表面分成一个个小格子,称为“像素”(pixel)。电子不能随便跑到别的像素去。在曝光后,每个像素中的电子数量就正比于接受的光强度。这样,只要把这些电子的数量读取出来,就能重现光的影像了。

但是一个感受器可以有上百万个像素。如果每个像素都有一套读取电路,整个器件就会很复杂。CCD的聪明之处,就在于一种“传送带”式的读取方式。在CCD器件中,像素之间的电子隔离是由一些电极控制的。通过加上适当的电压,可以把一个像素中的电子转移到相邻的像素。这样,每个像素既在曝光时担任收集光电子的功能,又在读取时扮演“传送带”的角色。通过像素之间的“接力”,最终把每个像素收集到的光电子送到读取电路,转化成电压。这种“串行”的读取方式花的时间长(每个时钟周期只能读取一个像素),但只需要一个读取电路,对早期的半导体制造水平来说是决定性的优势。下面的图就是这个电荷转移的过程的一个例子。【注一】这里,一个像素里的电子,通过三步转移,到达下一个像素。

三相CCD电荷转换图

但是如果在电荷传送的过程中继续曝光,同样的光信号就会被记录在代表不同像素的“电荷包”中,而导致影像模糊。这个问题由一个叫做“帧转移(Frame Transfer)”的技术来解决。在CCD芯片上,制造两个同样的像素区。一个用来感光,另一个则被遮光材料屏蔽起来。在读取时,感光产生的电子被并行地(一步)转移到第二个像素区,然后再用串行的方法慢慢读出来。在这同时,第一个像素区又可以对下一幅影像曝光了。还有一个办法,就是把这两个像素区一行隔一行地排列。这样两个区之间的转移就更快。这种结构叫做“行间转移(interline)”。除了转移更快(从而可以支持更高速度的电子快门)以外,行间转移还有个好处就是芯片只要与曝光区域一样大就行了,而不需要制造另一个专门的影像储存区域而增加成本。当然,在曝光区只有一半的面积真正接受光信号,另一半面积是被屏蔽掉的。为了增加采光效率,很多产品在芯片表面加上微透镜阵列,把入射光聚焦到感光的区域去。这样采光效率可以相当于全面积的90%了。

CCD本身并不能感受彩色。为了记录彩色图像,我们使用与现有彩色电视同样的方法,即使用红,绿,蓝三种原色的组合来重现颜色。在记录影像时,可以有两种方法。一种是用分光棱镜的方法把三种原色成分投射到三个CCD感光器件上。另一种是在同一个CCD芯片上,在不同像素上加上不同的滤色片,让它们记录不同原色的光强。下图就显示一种常用的滤色片排列方式。【注二】近年来还出现了一种新技术称为Foveon。 它利用各种颜色的光在硅材料中穿透深度不同,制作三层感光区来收集三种原色的光。

700px-bayer_pattern_on_sensorsvg.png

以上介绍了CCD的基本工作原理。作为消费者,最关心的还是最后的成像质量了。那么CCD的哪些指标会影响到照相机和摄像机的成像质量呢?

最广为人知的指标,就是分辨率了。分辨率就是CCD上像素的数量,可以按长,宽来标定(如3072乘2304)或总数(如7兆)。图像的细节是靠像素来记录的。所以像素数量越大,能记录的细节也越多。但是最终的分辨率还与光学系统(镜头)的质量有关。所以对于便宜的照相机,镜头的质量不会很好,追求CCD的高像素数就没有太大意义。另一方面,我们还要看照片最后显示的效果。如果在屏幕上显示的话,一般能达到1280乘1024的分辨率就不错了,通常通过Email或网站传播的照片因为数据量的限制,分辨率还要更低。如果打印的话,通常分辨率是每英寸300象素。所以如果打印整张纸(8乘11英寸)的话,需要的分辨率是2400乘3300。如果打印通常照片尺寸(4乘5英寸)的话,需要的分辨率是1200乘1500 。【注三】而现在中档相机的象素数可以达到4320乘3240 。可见,这样的分辨率只有在特别放大照片或拍完后裁减出局部等情况下才有意义。另一方面,在后期处理阶段可以把照片中的像素合并起来而提高其他性能(如提高动态范围或减小噪声)。当然这又涉及到图像处理的基本知识了。

另一个重要指标是灵敏度,也就是CCD能探测的最低光强度。灵敏度是由“暗电子”限制的。在没有光照的情况下,由于热运动和晶体中的缺陷,CCD内也会出现一些自由电子,称为暗电子。暗电子的数量与曝光时间成正比。只有光照产生的电子(光电子)数远远高于暗电子数时,我们才能精确地测量光强。科学仪器上用的CCD可以通过低温操作来减少暗电子数,提高灵敏度。但消费者用的照相机,暗电子的数量就基本上是物理和工艺所决定的了。在同样条件下,像素的面积越大,灵敏度就越高。(其中的原因这里就不说了。)所以高级的照相机用的CCD尺寸都比较大。当然,CCD越大,价格也就越贵。

灵敏度的反面是饱和光强。当入射光太强或曝光时间太长时,光电子数量太多,就会填满了像素的空间而漏到衬底中去。这样,读出的电信号就不会随着入射光的增加而继续增加。这就是饱和现象。如果以天空为背景拍人像,往往天上的云彩就没有层次。这就是饱和的缘故。饱和光强与最低光强的比值叫做动态范围。动态范围越大,拍出的照片从暗部到亮部的层次就越丰富。一般来说,CCD像素的面积越大,动态范围也就越大。早期的CCD元件还有散焦(blooming)现象,也就是一个特别亮的像素,它的光电子会溢出到邻近像素去,造成一个亮斑或一条亮线。比较新的产品应该没有这个问题了。

还有一个指标是噪声,也就是读出的数字与入射光量之间的误差。CCD有固定噪声和随机噪声。固定噪声是由背景信号(也就是前面说的暗电子)和光/电转换效率在像素之间的差别引起的。它是可以测量和预计的,所以可以通过算法来修正。【注四】随机噪声是感光过程和读出过程中产生的,不可预计的噪声。严重的时候,它会使得影像显得粗糙不清。

应该指出的是,对于家用的照相机来说,通常的性能列表都不直接给出CCD的参数。这是因为相机并不是直接输出CCD所读取的图像,而是对它进行了很多处理。例如,照相机可以提供高灵敏度(高ISO值)。而实际上这只是提高了读出电路的增益,而CCD则工作在低光条件下。所以这样照出的照片亮度虽然不错,但噪声很大。又如动态范围(每个像素的比特数)是由图像文档格式决定的,并不一定反映CCD的真正性能。有的照相机可连续以不同曝光时间连拍几张照片,然后把这些照片中曝光合适的像素拼成最后照片,这样可以达到非常高的动态范围。但是归根结底,这些处理都是在各种性能参数之间权衡,提高了一个就降低了另一个。只有采用了真正高性能的CCD元件,才能同时提高各种性能参数。所以要认真挑选相机的话,有必要弄清它所使用的CCD型号,去比较一下CCD本身的性能参数。

除了CCD以外,还有一种常用的感光元件称为CMOS感光元件。CMOS的感光原理与CCD相同,但读取方式不同。它不采用“传送带”的方式,而是每个像素有自己的读出电路。这种芯片本身比CCD复杂,但所需的外围电路(驱动电路)很简单,可以把整个照相机做在一个芯片上。在发展初期,CMOS的性能价格比不如CCD,只是用在一些特殊的场合。随着半导体制造工艺的发展,现在两者已经互有长短了。特别是在大面积的感光元件中,CMOS具有功耗低的优势。现在,CMOS也用在各种级别的数字照相机中。

CCD取代胶卷,不但使得我们拍摄和传播照片更为方便,还使得小型,低价的照相机成为可能。现在几乎所有电子装置如手机,掌上电脑等都带有照相机。照相机如此普及便捷,给我们的生活带来了很多新的机会和新的挑战。所以说CCD是改变人类生活的重大发明之一,一点也不过分。

【注一】 本图来自http://micro.magnet.fsu.edu/primer/digitalimaging/c...
【注二】 本图来自http://en.wikipedia.org/wiki/File:Bayer_pattern_on_...
【注三】 对于放得更大的照片,通常不需要每英寸300像素这样的分辨率,因为这些照片是用来远看的,人眼在远距离达不到这样的分辨率。
【注四】 暗电子的平均值虽然可以预计和修正,但在每一幅照片中实际的暗电子数量是有涨落的。所以暗电子仍然通过增加随机噪声而限制了灵敏度。

没有评论

Jan 31 2010

闲谈光纤

Published by 欧阳峰 under 学海无涯

来美国早的人,可能还记得八十年代Sprint长途电话公司的广告:一根针落在地上的声音,在电话另一端听得清清楚楚。这样高的音质,是因为他们用了光纤网络。其实,Sprint的通话质量并不比竞争者好。但用“光纤”这个先进技术作卖点,还是很有效果的。二十多年后的今天,光纤已经无所不在了。我们每天看见,听见的信息,都在光纤中传送过。就像电线,水管等一样,我们在享受其服务的同时,已经对它本身视而不见了。

2009年物理诺贝尔奖由“光纤之父”高琨分享一半,又把光纤带入了人们的视界。关于这一年的得奖工作,有一篇很好的介绍:http://www.changhai.org/articles/science/physics/no... 这里就不重复了。本文将简单介绍一下光纤的历史和现代光纤通信中的几个关键技术。

光纤的基本原理是我们都熟悉的全反射。当光在玻璃内传播时,在一定条件下会被玻璃的表面来回反射而不漏到外面去。这样光就会沿着玻璃传到另一端。这个原理在十九世纪人们就知道了,也用玻璃纤维来传送影像和数据。但是现代光纤的出现,还依赖于三个重大科学成果。

首先,现代光纤并不是简单的全反射“光管”。它更像微波上用的波导管:电磁场在边界的约束下以一定的模式振动和传播。光纤有两层材料:最里面的芯管和外面的覆层。两者的界面,就是上面说的“反射层”了。但实际上光并不是限于在芯管中传播,而是被芯管“引导”着,在两种介质中同时传播。这个理论在一九六一年提出,指导了光纤结构设计的方向。事实上,今天除了极短距离外,所有光纤都是“单模”式的,也就是只有一种电磁振动模式能够在其中传播。这种光纤的芯管只有几个微米直径,是光的波长的几倍。所以光在其中的传播不能用“反射”这样的几何光学语言来描写。【注一】

第二,就是高琨提出的光衰减的来源。高琨在一九六六年指出,光纤中的光损失主要是由于杂质。如果能制造纯度极高的玻璃,光的损失就可以从当时的二十米损失99%减少到1000米损失99%。而今天的光纤,是一百公里损失99%。光损失的减小,排除了光纤走向实用的障碍。

第三个科学成果,就是激光的发明和应用。1975年,第一个商用的,可以在室温下连续发光的半导体激光器问世。两年后(1977年),在芝加哥就建成了第一个实验光纤回路。同年,AT&T在芝加哥正式使用光纤传送电话信号。

与铜线相比,光纤在长距离传送方面是理想得多的载体。一方面,它的频宽非常宽,也就是传送数据的速度非常高。一条光纤能抵成千上万条铜线。另一方面,它的损耗很低,也就不需要途中有很多放大站。这在海底电缆上特别有好处。但是,这些放大站却比铜线中的要麻烦得多。放大光信号,需要先把光信号转变为电信号并取出其中的数据,再重新调制到光波上去。到了1990年代,光放大器开始广泛应用。光放大器可以直接增强光的强度,而不用转化成电子信号。但是,经过长距离传输后光信号的波形会有畸变,噪声也会增加。所以还是需要在一定距离后将它转变为电信号“清理”以后再继续传送(称为再生)。所以,长距离光纤线路上接有很多光放大器和电子再生器。现在,新一代的器件也可以在光放大的同时作一定程度的修正和清理,减少了所需要的电子再生器的数量。

虽然作为传播媒介来说,光纤比铜线要好得多,但它也不是完美无缺的。对于长途传送来说,光纤的主要问题是非线性和色散。色散是指不同波长的光传播的速度不同。这样,一个光脉冲在传播过程中会变宽,而和别的脉冲混在一起。这就限制了脉冲之间的最小距离,也就限制了数据传送速率。在输送功率高的时候,非线性会使得光的谱线变宽,从而加剧了色散现象。光纤线路中可以加入具有相反色散系数的一段光纤来近似地补偿色散,从而增加再生器之间的传送距离。

一条光纤上,还可以同时传送不同波长的光信号。现代的高速光纤网路普遍采用高密度波长多分(DWDM)技术,用几十,几百个十分接近的波长来并行传送数据。除了达到超高的传送速率外,这种技术还为数据处理带来了方便。在终端上,我们可以对每个波长所运载的数据进行加载或卸载,而不需要把其他波长的光信号转变为电信号。当然,这种技术对于光源的稳定性和光纤的传送质量也有了更高的要求。

数据传送速率提高后,数据处理中的电子部分就成了“瓶颈”。于是,人们设法在光学的范围内完成更多的处理。光纤网络中的路由器好象是铁路转运中心,负责把一条铁路(光纤)上进来的货物(数据)按照其目的地放到相应的铁路上运出去。最早的路由器是电子的,需要把数据从光信号上解调出来,送到相应的出口,再调制成光信号。这相当于转运中心要把货物卸下列车再重新装车。而全光路由器则试图避免这样的转换。目前的全光型路由器可以把一个波长的光接驳到相应的出口光纤,并根据需要转换波长。这好像是把一节车厢直接编组到新的列车上,比装货卸货要省事多了。但是有个条件,就是一条波长上的数据的目的地是一样的。随着光接驳的速度加快,在不久的将来能实现在数据包层次上的接驳而不需要光、电之间的转换。这样,系统的容量又能进一步提高了。

以上说的都是长距离,高速度的数据传送。除此以外,光纤也用在家庭和企业的接入服务上,也就是所谓“光纤到户”。这种技术中主要的挑战就是降低成本了。

三十年前第一条实用光纤,传送速度是45兆比特/秒(Mb/s)。现在的传送速度已经高于太比特/秒(Tb/s),提高了近十万倍!但是这还没到尽头。随着各种技术的发展,在不久的将来传送速度还有望继续提高。下面就介绍两个活跃的研究方向。

目前光信号的调制是很简单的,基本上就是“开”和“关”两种状态。一个波长在每个脉冲时段可以传送两个比特(数位)的数据(使用两个相差90度相位的载波)。加上偏振的话,速度可以再加一倍。如果象铜线的数字通信一样使用更复杂的调制方式,就可以进一步提高传送速率。但这就要求在接收端有更复杂的信号处理。这在以前很难办到,因为所要求的时钟速度太高了。但随着电子技术的进步,现在信号处理的复杂度正在增加。这不仅能支持速率更高的调制方式,而且能用电子信号处理来更精确地纠正光纤传输中的畸变,从另一方面提高传送速率。有了强大的信号处理,光纤的传送速度就可望接近香农极限了。

上面说到,光纤传送的大敌是非线性和色散。但柳暗花明,这两个特性却造就了一种新的传送技术:孤立子(soliton)。非线性和色散在一定条件下的组合,可以让一个脉冲传播很长距离而不改变形状。这个在十九世纪就被发现的现象,曾经是数学上一个冷僻的研究题目。但到了1973年,有人提出在光纤中能产生孤立子。1990年代,已经做出了演示系统,证明孤立子在光纤中可以高速传送数据,而且只靠光放大器,不需要电子再生就可以传送上亿公里。这个技术实用化以后,光纤通信的性能又可以大大提高。

光纤问世三十多年来,已经彻底改变了有线数字通信的格局。从“落针听声”的广告到今天无处不在的光纤网路,我们的生活也发生了重大的变化。信息对我们来说已经象水和空气一样不可或缺了。随着传送速率的进一步增加和传送成本的进一步降低,还有着无穷无尽的新应用等着我们去发明和享受呢。

【注一】按照几何光学的说法,芯管和覆层之间的界面是光密到光疏介质,所以能形成全反射。这样光线就在芯管内部迂回前进。根据入射角的不同,光线走的路途也不同,所以到达终端的时间也会有区别。这样,一个光脉冲经过传输后就会散开,所以不能传太远。

当芯管的直径与波长同一个量级时,光波的传播就不能用直线来近似了,而要在给定的边界条件下解波动方程。一般来说,在同一个边界条件下可以有很多解,这些解称为这种边界条件下的模(例如,在自由空间,任何方向的平面波都是波动方程的解)。但是当芯管直径很小时,波动方程只有一个解,这种情况称为单模。在单模传播条件下,光脉冲可以传送很长距离而不散开。

也可以这么想:光波是向四面八方传播,又从四面八方反射回来。而只有在一定条件下,这些反射才会相互增强而不是抵消,而形成一个“模”。

目前有2条评论

Nov 01 2009

从“破釜沉舟”谈起

Published by 欧阳峰 under 学海无涯

“破釜沉舟”,说的是项羽率大军过河后,以自断后路来激励士气而打败秦军的故事。这应该是管理学中的一个成功范例。而从博弈学角度说,“破釜沉舟”与著名的“斗鸡博弈”类似:当对手知道你没有退路时,他自己后退来避免两败俱伤就成了最明智的选择。然而,现在“破釜沉舟”这个成语,往往讲的是自断后路对自己的激励效果。所以,“破釜沉舟”更是一种心理学现象。

从纯理性的角度来说,一个人面对的选项越多,就越有可能得到最优的解决方案。“破釜沉舟”实际就是自愿减少自己的选项,为什么反而是好事?换句话说,如果继续前进对自己有利的话,即使存在后退的可能我也不会后退。那为什么要预先排除这个可能呢?原因是:人在不同的情绪影响下,做决定的“逻辑”是不同的。在任务开始前,我们也许会认识到任务完成后的得益超过所付出的代价。但当我们正在付代价时,这个得益代价的比值在感受上就会不同了。所谓“自我控制”,对我们很多人来说只是一个传说。

为了证明这一点,心理学家做了这样的实验。他们让受试者(大学生)审读三篇文章找出语法和拼写错误。对A组,每个星期要交一篇文章。对B组,受试者可以自己选择在三个星期内的三个日期作为交货期限,但决定后就不能修改。对C组,三篇文章的交货期都在三个星期后的同一天。受试者按照工作的质量得到报酬,但错过交货期限要罚款。

那么B组的受试者应该怎样选择交货期呢?从计划上说,他们应该选择均匀间隔的交货期,来均匀分配工作量。但从博弈来说,他们应该吧交货期尽量推后,给自己更大的选择空间。理性的做法,应该是把三个交货期都定在三星期后,但自己私下计划好,把工作量均匀地分布到三星期中。但是,我们都知道“私下计划”是靠不住的,需要外加的约束。果然,B组的大部分人在“均匀分布”和“尽量推后”之间折中。当然,C组的人也完全可以有均匀分配工作量的“私下计划”。

那么,这三组拥有不同程度的选项空间,最后的结果如何呢?不论从工作质量,投入程度和准时交货来说,A组都是表现最好,C组最差,B组介于两者之间。而B组中选择均匀分配交货日期的人,表现与A组一样。这说明,人们在硬性的限制以外最优安排工作的能力是很有限的。而且有选择硬性期限的自由时,也不总是能作出最优的决定。另一个类似的实验是一门课的三篇论文作业,而且测试的对象是在职读书的成年专业人士。虽然这个任务对受试者来说更为重要,但结果除了没有人逾期外,和上面说的一样。而且B组里把期限定在最后的人,不但论文的质量最差,而且因为把工作量堆在期末,还影响到了另一篇期末论文的质量。所以,人需要外来约束这个观察是有普遍性的。

所以,我们需要外界的约束来帮助我们实现自我控制。而这个约束不一定非要涉及外人(如硬性交货日期)或外物(如破釜沉舟)。它可以是自己给自己订的规则。比如:在锻炼中间不要想是否今天时间特别紧张应该减少运动量,而是在锻炼开始前作出决定。有了这条规则,就不会因为锻炼时正常的疲劳感而半途而废了。

对于时间安排,大多数人都知道自己有拖延的弱点而需要外力约束。但是在其他方面,人们就不见得那么了解自己了。另一个心理学实验,是对受试者进行问卷调查,内容是他们对两性交往的态度。结果发现,在平常状态下和在性兴奋的状态下,同一个人的回答相差很大,后者更为开放,冒险。这说明,即使自认为控制力很强的人,去“玩火”也是危险的。另外,人的生理条件会影响决定过程,如肚子饿的时候去买菜,会把整星期的菜都买得太多。人对于近期和远期的付出也有不同的估量。比如一次借几本书(即不是马上就读)和借一本书(马上就读)比较,前一种情况下人们更会选择比较艰深的书。研究表明,人的生理状态和情绪对于决定过程有着重要影响。它会影响到我们对于信息的取舍和对于目标价值的权衡。所以,对自己的“理性”不要那么相信。确定了长远目标和计划以后,还是要采用一定的纪律和限制来保证自己不偏离轨道。

还有一个常见的成语,叫“将心比心”,也就是以设想自己在别人的处境,以此来了解别人的感受和体验。西方叫做“empathy”,是所谓人际关系技巧的核心内容之一。但是如果我们了解和预测自己都如此困难的话,如何真能做到“将心比心”?我们在抚慰别人的困扰时,常说“我了解你的感受”。这种支持和安慰的愿望很好,但真正的“了解”,是很难做到的。

最近我读了Elisabeth Edwards的书Resilience,谈她面对生活中挫折的感受,就深有体会。她谈到丈夫不忠时自己的感受。因为当时已患癌症,她就联想到自己身后的家庭可能远离自己的想象,而感到自己的整个存在受到了威胁。关于面对婚外情的感受,各种文艺作品和研究文章可说是汗牛充栋了吧。但如果不是同时身患绝症,谁会有她那样的想法?别人又怎样做到“将心比心”?她谈到早年丧子之痛时说道(大意):“人们都劝我向前看。但我怎么向前看?一个失去一条腿的人怎样向前看?他的生活将永远改变了。他能做的不是忘掉这一切,而是在新的条件下过得最好。我的损失也是一样。”她还说道,她要做的不是从儿子的记忆中“解脱”,而是永远记得他,不让他在家庭生活中消失。这些感受,至少是我所想象不出的。

所以,“将心比心”不是一个愿望,而是一种努力。以谦卑的心态,通过倾听和交流真正去了解对方的感受,才能有资格说“了解你的感受”这样的话。而丰富自己的阅历,培养自己的同情心,也有助于提高在情感层次上沟通能力。

还有一句成语中国:知己知彼,百战不殆。通过这篇文章,我们能明白做到“知己知彼”是多么不容易了吧。

参考阅读:
Peters, E., Västfjäll , D., Gärling, T. and Slovic, P., “Affect and decision making: a “hot” topic”, J. Behav. Dec. Making, 19: 79-85 (2006), DOI: 10.1002/bdm.528
Ariely, D., Wertenbroch, K., “Procrastination, Deadlines, and Performance: Self-Control by Precommitment”, Psychological Science, Vol. 13, No. 3 (May, 2002), pp. 219-224, http://www.jstor.org/stable/40063710
Ariely, D. and Loewenstein, G., “The Heat of the Moment: The Effect of Sexual Arousal on Sexual Decision Making”, J. Behav. Dec. Making, 19: 87-98 (2006), DOI: 10.1002/bdm.501

没有评论

Sep 08 2009

千里送鹅毛的心理学

Published by 欧阳峰 under 学海无涯

中国有句古话:“千里送鹅毛,礼轻情意重”。就是说,即使没有金钱价值的礼物,也能表达深厚的情谊。现在设想一下,如果送来的不是鹅毛而是一张一元的钞票,你会怎样想?你会不会觉得,虽然一元钱很少,但毕竟比鹅毛更有价值,所以情谊更重?多半不会吧。你更可能觉得这样的礼物莫名其妙。那么问题出在哪里呢?

在回答之前,我再讲个故事吧。有一个托儿所,时常有些家长接孩子时会迟到。虽然他们总是很抱歉,但这样的事总有发生,而使得护理员不能按时回家。于是所方就订了条规定:迟到的家长要罚款。不料这样一来,迟到的人更多了。所方一看苗头不对,连忙取消罚款规定。但是迟到的情况还是没有恢复到以前。

这是怎么回事呢?心理学家发现,“金钱”对人的心理有着微妙的影响。原来人有两套行为准则,一套是社会准则,一套是市场准则。在社会准则中,人的道德价值起主导作用。助人为乐,舍己为人等品质就是这套准则下的行为。而在市场准则中,商业原则挂帅。人的行为主要是等价交换,按劳取酬。那么遇到具体情况,哪套行为准则起作用呢?有时候是基本固定的,比如在商店买东西,与家人的互动等。但在很多场合,行为准则是可以改变的。而“金钱”的介入,就很有效地让人接受了市场准则。而且一旦接受了,再要改回来就不容易了。

这个想法可以用很简单的实验来证明。实验者假装需要搬重物,请路过的学生帮忙。如果不给任何报酬,和给价值分别为50分和5元的巧克力作为感谢,对方愿意帮忙的程度相差不大。但如果给50分钱,愿意帮忙的人就少得多了。如果给5元钱,情况会好一些,但还是不如不给报酬的情况。而且有趣的是,如果给巧克力但提到它的价格,那效果就和直接给钱一样了。这说明,一旦涉及到钱甚至只要提到钱,人们就进入了“市场准则”,不想“助人为乐”,而想“按劳取酬”了。所以如果给的钱低于公平的市场价格的话,他就不愿意干了。“千里送鹅毛”的例子也一样。本来送礼是“社会准则”下的事情,但如果直接送钱,就带来了“市场准则”的感觉,难怪有点不伦不类了。(当然如果送得多,作为“市场准则”下的公平交换,那就是另一回事了。)这样一说,托儿所里发生了什么也就很清楚了吧。

这个实验结论与我们的生活直接相关。在我们与人交往时启动哪个“准则”,往往就在待人接物的细节之中。中国古训还说“君子之交淡如水”,就是希望“社会准则”挂帅的场合不要掺进利害关系。这真是非常有智慧的见解。朋友之间相互帮助尽量不要涉及金钱往来,也不要请朋友用职业技能来免费帮忙,是保持纯洁友情的诀窍之一。

而这两个原则最容易搞混的地方,就是工作场所了。工人干活,公司付酬,是一种“市场准则”下的关系。但同时工人还可能因为兴趣,对公司的忠诚,团队精神等作出额外的贡献。而公司也会在约定的工资以外给工人提供荣誉,成长机会,社交条件等回报。这个“社会准则”下的关系有时也称“社会契约”或“心理契约”。虽然没有白纸黑字,但双方都对自己和对方的行为有所期待。有的单位“市场准则”成分多些,有的“社会准则”成分多些,都能正常有效地运行。但是,如果把两者混起来就会出麻烦了。就说说我经历过的两件事吧。一次公司新的总裁上台,就给大家发了Email,希望人人对公司有commitment,尽力作贡献而不是干一天活拿一天钱。但他同时又宣布将进行外包,把工作移到海外去。开大会的时候就有人问:外包对本地工人的冲击,公司将如何应对?总裁回答说:公司必须基于经济效益行事,而考虑自己职业前途是每个工人的责任。他的Email是按照“社会准则”来提要求的,而公司在外包问题上却按“市场准则”办事。这两句话都没错。但合在一起,大家就可以想象到总裁所希望的commitment能得到多少了。另一件事是,原来公司里因为大家平时都忙,就常常利用午饭时间开会。这些会上往往提供简单的午饭如三明治,苏打饮料和饼干。后来有一天公司发了通知说,午饭应该是职工自费的,因此以后开会不管饭。其实,工人们开会所花的时间远远比饭钱可贵。大家是为公司的业务着想才放弃午休来开会。而公司提供午饭,也是表示感谢和照顾的意思。这是“社会准则”下的互动。但公司为了控制花费取消午饭,就“转轨”到“市场准则”下了,这必然会改变工人的行为。幸好,中层经理们也看出这是个蠢主意,让它无疾而终了。其实,所谓“企业文化”中重要的一环,就是平衡这两种“准则”之间的关系。管理人员处理公司与员工利害关系的一举一动,都对企业文化有着长远的影响,不可不慎重行事。

再举一个例子吧。在处理病假问题时,公司A的规定是:不限制员工病假的天数(当然一次时间太长就要按disability insurance案子处理)。对于滥用病假的人个案处理。公司B则规定每年最多病假天数,而这个限制当然是远远超过平均值的(否则很多人要超过限制,大家都会很不高兴)。猜一猜哪个公司的平均病假天数会更多?

其实,在“金钱挂帅”的地方,也不是绝对没有“社会准则”的空间。我以前在讨论“免费”时,提到很多时候一点小恩小惠会给人带来很温謦的感觉,如卖鱼的送上一把葱,饭店免费给碗甜汤等。这种做法把买卖双方的互动中加入一点社会准则,就使得双方的关系更加丰满。当然,这种社会准则也很脆弱。当顾客滥用商店好意提供的免费服务,或者某种“免费”的做法已经成为行规而整合到顾客期望之中,这种效果就没有了。

当然,以上的例子都是在本来该用哪种准则比较模糊的情况下,金钱的出现使得人们社会准则换到市场准则。和其他心理学现象一样,金钱的影响只是一个偏向而不是绝对的决定因素。例如,如果你的好朋友千里之外给你送来一块钱,你会感到奇怪或啼笑皆非,但不会从此就把这位朋友当成生意伙伴来相处了。家庭成员中合伙做生意的也很多,有时这两种准则不但不矛盾,还是互补的呢。

可见,有意识地处理好这两种行为准则之间的关系而避免混淆,对个人,组织和社会都是值得重视的一件事。资本主义制度的特色就是“金钱挂帅”,现代经济学也是基于“理性人”。“理性人”的需求的确包括了精神需求。但上面谈到了这种精神需求并非固定的,而是与事情的context有关。这个,通常需要think out of the box才能很好把握。

最后,再留一个作业吧。开车的人,总免不了遇到违规罚款的事。通常接到罚单会有懊恼的感觉,也就注意下次不再犯规。但罚款太经常了,人们会就视之为开车的“附加开支”而忍受下来了。比如大城市的停车违规罚款就往往是这个局面。人们决定在哪里停车,就是在停车费和罚款的风险两者间权衡。有的国家把罚款与违规人的收入挂钩,以求起到“公平”的警示作用。让我们来想想,有没有这样的可能:不是引入使得人们在遵守规则与罚款之间进行“成本比较”的“市场准则”,而是让人们在“社会准则”的范畴内得到遵守规则的有效动力?

【参考读物】:Heman, J. and Ariely, D., “Effort for Payment: A Tale of Two Markets”, Psychological Science, Vol. 15, No. 11, p. 787 (2004)

目前有4条评论

Sep 03 2009

数字通信介绍(3)信道编码

Published by 欧阳峰 under 学海无涯

前面介绍过,香农在1948年发表了《通信的一个数学理论》完整地解决了通信速度上限的问题。“信息论”(Information Science)从此诞生。(见上文《数字通信介绍(2)香农与信息论》,http://www.de-sci.org/blogs/fouyang/archives/19714http://www.mitbbs.com/pc/pccon.php?id=2721&nid...http://blog.sina.com.cn/s/blog_48dcfed30100chf2.htm... )。但是香农也留下了一个巨大挑战:怎样才能达到这个速度上限?这个挑战,就开辟了后来五十年来十分热门的研究领域:信道编码。在继续读下去以前,建议读者先复习一下上文的内容。

在数据传送时,我们不是直接把一个一个数码(比特)送去调制,而是只传送一些预先选定的序列(称为码字,codewords)。要传送的数据被对应到相应的码字来传送。在接收方,根据收到的码字就能恢复出原始数据。这种传送的方法就称为编码。编码的目的可以有多种。一个目的是保密,这里不讨论。另一个目的是加快数据传送速度。把不常用的数据编成长码,常用的编成短码,就能降低码的平均长度,而传送更多的数据。上文开始时介绍的摩斯码就是这个原理。我们现在常用zip程式来压缩文档,也是如此。在通信中,这种编码叫做源编码(source coding)有时也称数据压缩。香农在这方面也有开创性的工作,按下不表。第三个目的,就是纠正噪声引起的传送错误。这在上文中也有简单介绍。这种编码就叫信道编码(channel coding),也叫纠错码(forward error correction, FEC)。信道编码就是本文的主题。

香农在证明他的信道容量定理中,引进了“典型序列”的概念。典型序列就是指序列中的符号出现的比例与符号的先验概率相同。对于足够长的序列,所有出现机率不为零的序列都是典型序列。通过选取一些典型序列作为码字,香农证明了最大传送速率。但是这个概念实行起来有困难。很长的序列在编码和解码两方面都会非常困难。而如果序列不长的话,就无法利用“典型序列”的概念。所以,香农给出的传输速率,在几十年中都不能达到。

最早的编码类型是分组码(block code)。这也是最容易理解的一种码。顾名思义,分组码这种编码方式就是把输入数据(二进制)分为长度固定的组,对每一组分别编码。比如,最早的分组码是海明码,写为(7,4,3)。它的意思是把数据分成4个比特一组,所以共有2的4次方,也就是16种可能的序列。每个序列对应了一个7比特的码字。它的编码率(code rate)是4/7,也就是说在每7比特传送的数据中,有4比特的有效信息,剩下3比特称为冗余(redundancy)。当然,一般说来我们并不能说7比特中哪个比特是信息哪个比特是冗余,它们是组合在一起的。

(7,4,3)中最后那个数字3,是码字间的最小距离。码字间的距离(称为海明距离)是指它们之间不相同的比特数。比如,两个码字A(0010110)和B(0110011)的海明距离是3,因为它们有三个比特不同(从左数起比特2,5,7)。如果我们收到了(0110110),我们可以知道传送的更可能是A,因为它与A只有一个比特不同(比特2),而与B有两个比特不同(比特5和7)。换句话说,如果传送的是A而接收时错了一位,我们能纠正这个错误。如果错了两个比特,那它就可能更接近B而导致我们的判断错误。但它还是不等于B,所以我们还是知道出了错。假如错三比特的话,那我们就可能认为发射的是B而无法纠正或检测到错误。所以如果码字间的最小海明距离是3的话,这个码就可以纠正1比特的错误,检测2比特的错误。这里面的关系,读者自己想一下就明白了。

由此可见,分组码的性能是由编码率和最小距离决定的。编码率决定了同样调制方式下信息传输的速度。最小距离决定了纠错的能力。纠错能力越强,就能在越强的噪声下(也就是越低的信噪比下)保持很低的误码率(也就是每一比特信息出错的几率)。所以,性能优越的码,就是要在同样的编码率下达到尽可能高的最小距离。我们还记得,香农定理说,在给定的信噪比下有一个最大传送速率。只要数据转送速率在此限度以下,就可以做到没有错误。或者反过来说,给定传送速率时,有一个最小的信噪比,只要信噪比大于这个限度就可以做到没有错误。而对于现实的编码来说,绝对没有错误是不可能的。对于一个特定的码,它的传送速率是固定的。在不同的信噪比下,它有不同的误码率。我们可以在一个可以接受的误码率(如10的-7次方)下比较它所需要的信噪比与不编码情况下(同样的信息传送速率)的信噪比。这两者的差称为编码增益(coding gain)。编码增益越大,这个码的性能就越好。而香农定理给出了编码增益的上限,这个上限同时也是研究者的努力目标。

图1 给出了描写编码性能的一个例子。纵坐标是误码率(每个比特出错的几率)。横坐标是信噪比(这里用分贝即dB来表示。3个分贝的区别意味着噪声功率差一倍)。这里信噪比的定义已经考虑了信号传送速率的区别,所以对各个码来说是一个公平的比较。对于每个码,都有误码率与信噪比关系的一条曲线。我们可以看到,在较高信噪比的情况下,编码增益分别约为1分贝,1.5分贝和2.2分贝。而这些码的性能与香农上限还相差很远。

对实际应用来说,除了纠错性能外,一个码要求的运算复杂度也是很重要的。我们上面其实已经给出了一个最直接的,也是最优的解码方法(称为最大似然法,Maximum Likelihood):把收到的数据序列与所有码字比较,找出海明距离最短的那个作为解码结果。这样,运算量就与码长(上面例子中的4)成指数关系。这对于稍长的码来说就很难实现了。而实用的分组码是基于种种数学结构而产生的,编码和解码都使用某些数学运算而不是硬性搜寻。这样运算的复杂度就会低很多。人们为此发展了种种技术。目前通用的也只是普遍认为最好的几个系列。一般来说,码越长,纠错能力就越强,但需要的运算量也就越大。

channel_coding_1
图一:编码性能举例(引自[1]图4)

除了分组码以外,另一类编码是卷积码。它是基于卷积运算,如图二所示。图中输入数据进入移位寄存器。在每一个时钟点,移位寄存器里储存的比特依次向前移一位,也就是得到一位(比特)新的输入数据,同时丢掉一位最老的数据。同时,寄存器里的数据与两个系数序列(图上标为码1和码2)逐位相乘,结果相加后成为输出比特。在输出端,两个码产生的两个输出比特被依次输出。注意,以上说的加法是以2为模的。即0+0=0,0+1=1,1+1=0,没有进位。

在这种情况下,每个输入比特产生两个输出比特。所以编码率是1/2。对于一个传送序列,开始的一段和最后的一段是收,发双方约定的,用来帮助解码。我们也可以说卷积码是一种很长的分组码:一个传送序列就是一个码组。当然,由于卷积结构的限制,卷积码的性能并不是同样长度分组码中的最优。

channel_coding_2
图二:卷积码编码器举例

卷积码没有复杂的代数结构,其解码方法就是上面描述过的最大似然法。上面说过,这种方法的复杂度与码长成指数关系。幸运的是,1967年维特比(Viterbi)提出了著名的维特比算法。它遵照最大似然法的原则(因而也是最优的),但利用了卷积码的结构,而使得解码器的复杂度与序列长度成线性关系。这个发明使得卷积码成为一种实用和有吸引力的编码方法。

维特比算法的基本原理可以用一个简单的例子来说明。假如我们要找一条从A到B费时最短的路。这就是最大似然法的基本要求。从A到B要经过一座桥C。从A到C有5条路,从C到B有4条路。这样组合一下就有20(5×4)种走法,需要做20次测量来找出费时最小的选择。但是,维特比指出了另一种方法:我们可以先找出A到C的最好路程,需要做5此测量。然后再找出从C到B的最好路程,4次测量。总共测量9次(5+4),就解决问题了。这个乘法到加法的转变,就把复杂度从指数增长变成了线性增长。这个问题可以简化的关键在于:我们要优化的参数(时间)是每段路程之值的线性相加。而卷积码正具有这个特性。

以上说的解码方法,都是基于已经解调的信号(也就是收到的比特序列)。但解调过程中已经丢掉了一些信息。如果我们规定收到-1V为0,1V为1,那么如果收到0.1V或0.9V,解调的结果都是1。但是这两种情况下这个“1”的确定程度是不同的,前者更有可能出错。要提高解码增益,就要试图利用这个附加信息,也就是把解调与解码结合起来。对于分组码,这样做法需要特殊的设计。而对于卷积码,这个要求可以在维特比算法下自然完成。这也就是卷积码的主要吸引力。

卷积码的另一个特点,就是它在低信噪比条件下解码增益高,而在高信噪比条件下表现就不那么好。也就是说,在输入数据含有很多错误时,它可以把误码率降低。但在低误码率的输入情况下,它的进一步的纠错能力就不高了。于是,人们把两种编码方法合起来使用。把分组码作为“外码”,即最先编码,最后解码。而卷积码作为“内码”。这样,在接收器中,收来的信号先经过维特比算法的解调/解码,产生较低误码率的比特序列。这个序列再经过分组码解码,进一步降低误码率。

以上谈到的分组码和卷积码有一个共性,就是码字是经过精心设计的,使得码字之间的最小距离尽可能大,来增强纠错能力,降低误码率。分组码有着种种特别的数学性质,以便使用巧妙的解码方法。而卷积码通常用维特比算法来解码。另外,还有把调制和卷积码编码结合在一起的“格状编码调制”(Trellis Coding Modulation, TCM),这里就不细谈了。这些码的性能离开香农极限都有几个分贝。在一段时间内,人们认为要达到香农极限即使可能也是非常困难的。

但是柳暗花明,九十年代初期人们走出了另一条路。回到香农定理的证明,那里的“码字”就是“典型序列”。而如果我们随机产生序列的话,只要足够长,绝大多数结果都是典型序列。所以随机产生的码字就是好码字。问题是,这样没有结构的码没有好的解码方法。所以长的随机码是不现实的。但是人们发现了具有一定结构的码也可以具有这样随机的特性。而它们的结构可以帮助解码。首先发现的是turbo码。它也叫乘积码。编码方法是把两个短码(分组码或卷积码),一个编码后把次序按一定规律打乱,再编一次码。这样,最后的码长是两个短码长度的乘积。解码时,也是对于两个短码分别解,但采用迭代的办法。第一次解码,只是得到一个“可能”的结果。把这个结果及其相关的概率再输入解码器一遍,就得到一个更加“可靠”一些的结果。如此反复,就能提高解码增益。从理论上讲这种方法不一定是最优的,但实际上最后性能非常接近香农极限。Turbo码也是有结构的,但这个结构不是为了增加码字间的最小距离,而是为了给解码提供方便。在Turbo码的码字中,可能有距离很近(也就是很容易出错)的码字。但这些码字只占总体的很小一部分,所以总的来说误码率还是很低。而在分组码,卷积码中,不同码字出错的几率是差不多的。可见,Turbo码的思路与以前的编码技术有很大区别,可以说是一场革命。在此启发下,又有人重新发现了另一种随机码——低密度奇偶校验码(LDPC)也有类似的特征。LDPC码也可以用迭代方法解码,性能也接近香农极限。LDPC码早在1960就被提出了,但后来几十年间这个技术慢慢被人遗忘了。直到1990年代中叶,人们用图论重新诠释LDPC码,找到了系统的设计方法和有效的解码技术,才使得LDPC重振雄风。

随机码的发明使得编码增益大大提高,基本达到了香农极限。到2000年代,这些码已经被现代通信系统采纳了。当然,它们的实现还是比较复杂,所以常常是作为可选功能。

从香农的信息论提出后的半个多世纪,人们为了实现香农预言的传送速度极限作出了巨大的努力,发展了很多精致有效的数学工具,也进行了很多大海捞针式的搜寻。随着香农极限的基本达到,编码的研究是否到了终点呢?当然,性能和复杂性的权衡总是有工作要做的,特别是在硬件性能突飞猛进的今天。另外,除了香农所研究的基本信道外,还有许多更加复杂有趣的信道。特别是无线通信的发展,产生了多天线通信,协同通信等新技术,给信道容量和实现信道容量提出了很多新课题。这些方面我们以后会继续介绍。

【参考文献】
[1]D. J. Costello and D. Forney, “Channel Coding: The Road to Channel Capacity”, Proceedings of the IEEE, vol. 95, No. 6, June 2007 p. 1150

只有一条评论

Aug 18 2009

“免费”的代价

Published by 欧阳峰 under 学海无涯

你一定很熟悉这样的电视广告词:“我们的价钱是29.99元。而且如果你现在就打电话,你还能得到xxxx,免费!”

“免费”,可能是用得最多的广告词了。不知你有没有想过,“免费”到底有多大吸引力?顾客付一笔钱得到两样东西,把其中一样算成“免费”有什么意义?

事实上,“免费”的魔力还真不小。当亚马逊书店(Amazon)推出消费超过25美元就有“免费”运送的服务后,销售量大大增加。很多顾客为了凑足25美元消费额而购买额外的物品。但在法国,却是一切静悄悄。原来,由于疏忽,那里的运送不是免费而是1法郎(相当于10美分)。10美分有那么重要吗?不是。重要的是“免费”两个字!

“免费”效应甚至可以用简单的实验来证明。让受试者在以下三者中选一:花26美分买一种本来值很贵的巧克力;花1美分买一种本来较便宜的巧克力;或者什么都不买。然后,把两者的价钱各降一分,变成25美分和“免费”。在后一种情况下,选择第二种(即免费的)巧克力的人大大增多,而选择较贵的巧克力的人大大减少。其实,两种选择的得失比较并没有变化很大。但人们的反应,却因为“免费”而大不相同。这种情况其实相当普遍。用实物交换,也是如此。用纯粹钱的交换(花钱买代价劵),也是如此。买更昂贵的东西如几百块的电视机,也是如此。去掉“什么都不买”的选项,也还是如此。甚至对鬼节出来讨糖的小孩子做实验,结果也一样。

当然,这个结果有很多可能的原因。也许“免费”不仅省了1美分,而且省去了掏钱,找钱的麻烦?也许人们不是看减价的绝对值,而是看减价的幅度?也许“免费”让人们觉得特别安全,绝对不会吃亏?也许不涉及钱使得人们对物品的感受不同?这些理由有的是理性的,其余是以前研究过的非理性反应。可是这些可能性都被其他实验否定了。而被一个问卷实验所证实的可能是:人们对于“免费”有一种非理性的特殊的感受。

其实,我们都知道真正的“免费”是没有的。很多“免费”的条件是购买其他物品。有时为了得到“免费”的东西要花很多时间来填表或排队。在上面讲到的实验中,“免费”的代价是“机会”。为了得到免费的便宜,人们放弃了另一个便宜。所以,免费并不是没有风险,绝对合算的。然而,人们对“免费”还是趋之若鹜。

有没有办法消解“免费”的咒语呢?上面说的问卷实验其实提供了一个办法。在这个实验中,受试者在作出决定前先要回答一个问卷,表明他们对拥有昂贵的巧克力的倾向有多少,和对少花钱的倾向有多少。然后,他们再选要不要免费的巧克力。结果,在巧克力要1美分和免费的情况下,选择的结果就没什么差别了。这说明,我们把所有得益放在一起考虑,把所有花费放在一起考虑,就不会被“免费”两个字一叶障目了。

话说回来,商家提供的免费也不都是骗局。很多时候一点小恩小惠会给人带来很温謦的感觉。小时候到摊头上买鱼,摊主总会加上一把葱姜,让我觉得很体贴。中国餐馆往往饭后会送上一碗甜汤或一碟水果,带来一个完美的句号。上次买新车时,车行特地给车加满了油,让我更有心满意足的体验。这些都是很小的钱数,而且是在交易以后提供的。但不知不觉,就给双方的关系带来一点亮色。这时如果哪一方提出要给钱,那就是很煞风景的事了。在人际关系的层面上,“免费”是不是也有着特别的魔力呢?那将是下一篇文章的内容了。

【注】本文参照了以下文章:K. Shampanier, N. Mazar and D. Ariely, “Zero as a Special Price: The True Value of Free Products”, Marketing Science, Vol. 26, No. 6 (2007), pp. 742-757。

目前有3条评论

May 03 2009

也谈博弈

Published by 欧阳峰 under 学海无涯

最近方舟子写了一篇关于博弈论在生物学中应用的文章(1),其中介绍了麻省理工学院Gore等人关于酵母菌在产生单糖策略上的合作与欺骗的研究(2)。“传播数学”对此发表了一篇评论,指出方舟子文章中的一些问题,同时也给了一些关于博弈论的介绍(3)。 方舟子为此贴出回应,被网友作为评论转帖到“传播数学”的文章后面(4)。 其后,“传播数学”又写了两篇回应文章(5)(6)。

这些文章中有很多涉及人身攻击的语句,起因于网站与网友之间的恩怨。但是其中涉及到的争论确实属于一个科学问题,值得继续探讨。本文试图局限于科学范围,对这两位作者的争论提出自己的理解。

方的回应提出有两点(4) :1.酵母菌的研究是否属于“博弈论”。2.“囚徒困境”是否稳定。

本文试就这两个问题进行讨论。关于此问题的背景和有关知识,在以上引用的文章中已经很好地介绍了,这里就不再重复。

麻省理工的工作是否属于博弈论?

“传”文认为,因为酵母菌的行为是由基因决定的,不能改变,所以这个酵母体系是个动力学问题而不是博弈问题 (3) 。 但在后续讨论中,作者也指出,种群中“好人”和“坏人”的比例,是可以与“个人”的选择策略联系起来的(7)。他说:“设想一下在两种酵母都稳定的情况下, 新加入种群的酵母, 当好酵母和当坏酵母, 收益都一样才行, 否则种群不能平衡。”

方文认为,原论文摘要的最后一句提到了“strategy”和“cooperate”这样主观的词,所以显示这是博弈(4)。

为了解决这个问题,需要看一看“博弈”的定义。以下是一本博弈教科书的开头:(8)

“博弈论是关于冲突与合作情况的逻辑分析。具体地说,“博弈”定义为具有如下特征的情形:
至少有两个参与者。参与者可以是个体,也可以是公司,国家甚至生物物种。
每个参与者有若干个可能的策略,即他所遵循的行动计划。
参与者选择的策略决定了博弈的结果。
与每一种可能的博弈结果相联系,对每个参与者都有一个数量化的回报值,代表了这个结果对于各个参与者的价值。

可见,一个博弈需要有至少两个参与者,每个都有不同策略的选择。而且博弈还需要定义一套回报函数。那么对于参与者和回报函数这两个要素,这个酵母菌工作是否满足呢?让我们来看看这个工作的原始论文(2)。

这个工作的主要内容,是研究一个酵母群体中,制造单糖的品种(“好人”)与不制造单糖的品种(“坏人”)之间的比例。作者发现,这个比例随着时间延续会达到一个稳定值。这个稳定值与初始条件无关,而与培养基的条件有关。根据我的理解,这个系统可以用下面的方程来描写: 【注一】
R_c=f(S+s)-e
R_d=f(S)
这里R_c和R_d是合作者(好人,c)和叛变者(坏人,d)的生长速度。S是环境中单糖的浓度。s是“好人”截留的单糖量。【注二】 f是一个函数,表示回报值依赖与酵母能得到的糖的总量。这是一个递增非线性函数,其斜率随自变量增加而递减。e 是“好人”的代价。它有两部分。一是制造单糖的代价(耗费能量),二是 “好人”对组氨酸的特有依赖性(可能是人工引进的)。在培养基中组氨酸浓度降低时,e的值增大。单糖浓度S取决于“好人”的比例和外加单糖的浓度。

好了,现在我们可以看看这个体系的“动力学”了。在“好人” 比例低时,S值小。f随自变量的增加快。所以R_c通过f 得到的好处多于通过e付出的代价。“好人”占优势。但在“好人” 比例高时,S的值大,f随自变量的增加变慢。这样“好人”通过f得到的好处少于代价,就处于劣势。在两者之间,有一个平衡点,使得
R_c=R_d
这个对应的“好人”与“坏人”的比例就是平衡比例。通过改变培养基中外加单糖浓度和组氨酸的浓度,可以改变这个平衡点。这样,基本就可以描出f函数的特性来了。

你看,我描述这个工作,根本没有用到博弈论的语言。与上面博弈的定义对比,我们也许可以说“生长速度”相应于回报函数。但这里没有“策略”的选择。即使我们把“好人”和“坏人”的比例看成是等价于个体对于混合策略的选择(9) ,那也只有一个参与者。个体“博弈”的对象是它的环境,而这个环境是固定的。个体需要考虑的,只是如何在给定的R_c和R_d中选择较大的一个。所以在这个意义上说,这是一个优化问题,而不是博弈。

在Gore等的工作中,个体与其他个体的相互作用是通过环境来实现的,而环境只是反映了其他个体行为的总和,而不是每一个个体的行为。关键问题不是所考虑的个体有没有策略上的选择,而是它的“对手”有没有策略上的选择。Gore等工作与博弈论的关系,只是表明了酵母系统的“回报函数”属于雪堆博弈而不是囚徒困境。而Gore等对于参与者的策略的考察并不属于博弈论。囚徒困境和雪堆问题之所以引人入胜,不只是因为它们的回报函数反映了现实中的很多现象,而且是因为它们引出了博弈论的一些基本概念(如多次博弈,混合策略等等)。而这些概念在Gore等的文章中没有体现出来。

关于方文的争辩(4),Gore等论文摘要的最后一句的确提到strategy(策略)。但是摘要的那一句是总结论文中的一个观察,就是“好人”种的酵母并不总是合作(制造单糖)。在单糖浓度较高时,它会改变行为停止制造单糖,也就是改用“坏人”策略。但是这个观察与论文的主要结果没有关系。在论文附录(10) 图5的说明中,作者提到,以上几段所提到的“竞争实验”是在低单糖浓度中进行的,所以“好人”菌种总是在制造单糖。进一步分析也可以旁证这一点。从论文附录图5a看,酵母单糖转换的能力大约在单糖浓度为0.01%时开始下降,到单糖浓度为0.1%时降为零。而从论文(2)图3看,所有结果都在单糖浓度在0.01%以下就清楚显示了。对照图3a与图1中的“好人”比例,我们可以看出图1也是在单糖浓度低于0.01%(“好人”比例高于10-3)的情况下的。所以,“好人”与“坏人”的转变与这部分研究没有关系。

但是Gore等论文的确多次提到博弈论,以此作为他们讨论的语境。那么是不是在生物学研究中,“博弈”的意义有所不同呢?

的确,有一门“进化稳定策略”(Evolutionarily Stable Strategy, ESS)的学科,有时也被称为“进化博弈论”(Evolutionary Game theory)。它并不假定个体有选择策略的自由。但通过采用不同策略的个体的生存情况来分析群体的进化。这一点很像Gore等人的工作。有人评论说,这个ESS理论的出发点实际上与博弈论很不一样。而它的平衡点与纳什平衡点相同(在大多数情况下),应该说是一个意外(11)。

ESS的创始是J. Maynard Smith(12)(13)。在(13)中,作者说道:“一个ESS可以是混合策略...这时候,一个稳定的群体可以是遗传上多形的(genetically polymorphic),其中有适当比例的个体采用某种纯策略。或者,它可以是单形的(monomorphic),其中每个个体都适当地随机选取策略。”这前一种情况就相对于Gore等论文的情况。所以Gore等的工作可以说是属于ESS的。然而,即使在ESS中,人们也常常是考虑个体之间的博弈,而不是个体与环境的博弈。如Maynard Smith的工作(12)(13)就是考虑动物种群内个体之间争斗的策略(既要赢,又不能彼此消耗太多)。Gore等人引用的另一篇Wxelrod和Hamilton的工作(14),也是关于个体间“囚徒困境”的互动。这篇论文还花了很大篇幅讨论“记住对手”的能力在互动中的作用。事实上,该论文结论就很依赖于两个个体有足够高的机会再次相遇(以下还要讨论)。

所以,我们看到有一些ESS工作比Gores的更接近博弈论。但目前我不知道有多少ESS工作与Gore等的工作是一类的。

综上所述,博弈论的基本概念来看,他们的工作至少不算博弈论中具有挑战性的部分。作为普通报刊上的科普文章,跟从原作者的意思而将之看为博弈论工作也不算大错。只是读者不要得到这样的印象:这样的工作已经涵盖了囚徒困境和雪堆问题的主要课题。

2. “囚徒困境”群体是稳定的吗?

方文说道:(1) “他们认为这像是“囚徒困境”。在这样的群体中,好人和骗子分享全部的资源,而好人要承担生产成本,因此好人总是竞争不过骗子,一旦出现骗子,它们的后代数量会越来越多,好人的数量会越来越少,等到骗子们统一了天下,末日也就快到了,好人遗留下来的单糖被耗尽后,群体就会灭绝。一个处于“囚徒困境”的群体是很不稳定的。”“传”文认为,“囚徒困境”在多次博弈的情况下,“以牙还牙(tit for tat)”的策略是稳定的。这一点的根据是Axelrod的文章 (14)。方的回应 (5)则根据Gore等论文中的一段话来证明“囚徒困境不稳定”是科学界共识:“在这种情况下,欺骗者总是会比合作者长得快,它们之间的相互作用就成为所谓的囚徒困境,而在这种情况下合作策略不能在充分混合的环境下持续”。在另一个类似的工作中 (15),作者也说:(关于囚徒困境博弈)“在合乎生物现实的仿真中表明,当存在重复互动,变异,错误时,或者在一个具有空间结构的环境中,没有单一的稳定解。而且个体策略的演变可以是周期性的或杂乱无章的。”

在ESS中,“稳定”的含义是:采用一种策略的群体不能被采用其他策略的群体侵入(13)。也就是说,少数采取其他策略的个体不能占到便宜而壮大起来。而众所周知“合作”不是囚徒困境中的稳定策略。但这不等于囚徒困境的系统就不能采取其他策略而达到稳定。(有趣的是,在Gore等的论文中,通篇没有用“稳定“这个词,而只是说“平衡”。)

从文献上看,Axelrod等关于囚徒困境和生物群体的工作(14)只是这个领域的开始。这个工作证明, “以牙还牙”的策略在囚徒困境群体中是稳定的。但是,这需要一定的条件,主要是开始就有足够多的“以牙还牙”者,而且个体之间有足够高的重逢的机会。Axelrod等的论据是:只要能做到“日久见人心”,任何其他策略在“以牙还牙”面前都占不到便宜。但是后来有人指出(16),这样的证明是不够的,因为可能有第二种策略(比如“以牙还牙”的一个变种)虽然在对付“以牙还牙”时不相上下,但在对付第三种策略时比“以牙还牙”有效。这样当第三种策略不断入侵时,这第二种策略就会占上风。当博弈的规则有少许变化(例如允许“骗子”躲避受过骗的人),或者在群体中引入空间结构时,情况还会更为复杂。囚徒困境的群体稳定是一个相当复杂有趣的问题。是否稳定与很多因素有关(17) (18)。

然而,在Gore等工作的语境内,以上的讨论都不适用。因为这里没有个体之间的多次博弈,所以类似“以牙还牙”的策略不能被采用。在这种情况下,正如方文所说,任何试图合作的个体都会吃亏,最后“骗子”占据整个群体。也许这就是方所说的“不稳定”的含义。但是,“骗子当道”却是ESS意义上的一种稳定策略(“骗子”群体不能被“好人”所入侵)。Gore等文章中说的“合作策略不能持续”( 至少在ESS的意义上)不能等同于“不稳定”。

方文中的不稳定,也许是指他前面的一句话:“等到骗子们统一了天下,末日也就快到了,好人遗留下来的单糖被耗尽后,群体就会灭绝。”但是,这不仅不是ESS意义上的不稳定,而且依赖于一个条件,就是“骗子黑吃黑”的回报函数使得群体不能生存。这个条件对我们面对的酵母菌问题是成立的,但对于囚徒困境问题来说不是普遍成立的。例如,如果外界能提供少量的单糖,那么一个“骗子当道”的群体虽然不如一个合作的群体活得好,但还是活得下去的。

所以,方的原话应该被理解为对于一个特定情形的评论,而不是一个具有普遍性的陈述。

综上所述,虽然争论双方看来针锋相对,实际上只是在不同的视界看问题而已。对于有不同背景的人,对一些词语和陈述的理解不同是自然的。如果硬要分出胜负,往往会走向“咬文嚼字”的牛角尖。但是除去人身攻击部分,这些讨论还是有助于读者超出直接讨论的论文而得到更全面的知识。

“掐架,是学习的动力。”

【注一】这个方程是大大简化和不严格的,其目的只是要指出下面谈到的特征。
【注二】严格地说,“单糖浓度”和“单糖量”不能直接相加,需要一个换算。不过这个关系不大,这里就不考虑了

Bibliography
1. 方舟子. 好人和骗子的博弈. 方舟子的blog. [Online] April 15, 2009. [Cited: April 30, 2009.] http://xysblogs.org/fangzhouzi/archives/4564.
2. Gore, Jeff, Youk, Hyun and van Oudenaarden, Alexander. Snowdrift game dynamics and facultative cheating. Nature. [Online] April 6, 2009. [Cited: April 30, 2009.] http://www.nature.com/nature/journal/vaop/ncurrent/... doi:10.1038/nature07921.
3. 传播数学. 好人和骗子没博弈. 数学科普. [Online] April 19, 2009. [Cited: April 30, 2009.] http://www.de-sci.org/blogs/math/archives/29090.
4. 匿名. 评论. 数学科普. [Online] April 19, 2009. [Cited: April 30, 2009.] http://www.de-sci.org/blogs/math/archives/29090#com...
5. 传播数学. 答新语丝网友们. 数学科普. [Online] April 19, 2009. [Cited: April 30, 2009.] http://www.de-sci.org/blogs/math/archives/29114.
6. —. 囚徒困境的稳定性, 简问方舟子先生第二次. 数学科普. [Online] April 20, 2009. [Cited: April 30, 2009.] http://www.de-sci.org/blogs/math/archives/29195.
7. —. 评论. 数学科普. [Online] April 19, 2009. [Cited: April 30, 2009.] http://www.de-sci.org/blogs/math/archives/29090#com...
8. Straffin, Philip D. GameTheory and Strategy. Whashington DC : The Mathematical Association of America, 1993. ISBN 0-88385-637-9.
9. Wikipedia. Strategy (Game theory): A disputed meaning. Wikipedia. [Online] [Cited: April 9, 2009.] http://en.wikipedia.org/wiki/Strategy_(game_theory)#A_disputed_meaning.
10. Gore, Jeff, Youk, Hyun and van Oudenaarden, Alexander. Supplementary Information to Snowdrift game dynamics and facultative cheating. Nature. [Online] April 6, 2009. [Cited: April 25, 2009.] http://www.nature.com/nature/journal/vaop/ncurrent/... doi:10.1038/nature07921.
11. Wikipedia. Evolutionarily stable strategy: motivation. Wikipedia. [Online] [Cited: April 25, 2009.] http://en.wikipedia.org/wiki/Evolutionarily_stable_...
12. Maynard Smith, John; Price, George R. . The logic of animal conflict. 1973, Vol. 246, 15-18.
13. Maynard Smith, J. The theory of games and the evolution of animal conflicts. Journal of Theoretical Biology. 1974, Vol. 47, 209-221.
14. Axelrod, Robert and Hamilton, William D. The Evolution of Cooperation. Science. 1981, Vol. 211, 1390.
15. Greig, Duncan and Travisano, Michael. The Prisoner’s Dilemma and polymorphism in yeast SUC genes. Proc. R. Soc. Lond. B. 2004, Vol. 271, S25-S26.
16. No pure strategy is evolutionarily stable in the repeated Prisoner’s Dilemma game. Boyd, Robert and Lorberbaum, Jeffrey P. 58-59, s.l. : Nature, 1987, Vol. 327. doi:10.1038/327058a0.
17. Brembs, B. Chaos, cheating and co-operation: potential solutions. Oikos. 1996, Vol. 76, 14-24.
18. Doebeli, Michael; Hauert, Christoph. Models of cooperation based on the Prisoner’s Dilemma and the Snowdrift game. Ecology Letters. 2005, Vol. 8, 748-766.

目前有6条评论

Feb 22 2009

数字通信介绍(2)香农与信息论

Published by 欧阳峰 under 学海无涯

上个世纪四十年代,半导体三极管还未发明,电子计算机也尚在襁褓之中。但是通信技术已经有了相当的发展。从十九世纪中叶,电报就已经很普遍了。电报所用的摩斯码(Morse Code),就是通信技术的一项杰作。摩斯码用点和线(不同长度的电脉冲)来代表字母,而用空格来代表字母的边界。但是每个字母的码不是一样长的。常用的字母E只有一个点。而不常用的Z有两划两点。这样,在传送英语时,平均每个字母的码数就减少了。事实上,摩斯码与现代理论指导下的编码相比,传送速度只差15%。这在一百五十多年前,是相当了不起了。

除了用点,划来表示两个状态外,后来的电报也用极性相反的电流来代表这两个状态,从而使“点”和“划”都能用短的脉冲来表达,加快了传送速度。爱迪生更发明了用四个不同的电流值来同时传输两路电报。这和今天用的数字调幅(ASK)很像,只是没有载波而已(见前文《数字通信介绍(1) 调制》)。另一方面,电话在二十世纪初也迅速发展。电话公司通过在不同载波上的调制,可以用一路电线传输多路电话。

在二次世界大战时,雷达和无线电在军事上广泛应用。无线电受各种噪声的干扰很厉害,这也给通讯技术提出了新的课题。各种不同的调制方式也纷纷问世。于是就出现了这样一个问题:给定信道条件,有没有最好的调制方式,来达到最高的传送速率?

在前文《数字通信介绍(1) 调制》的结尾谈到:“传输速率是波特率与每波特所含比特数的乘积。波特率受频宽的限制,而每波特所含比特数受噪声的限制。”前一个限制,由那奎斯特(Harry Nyquist)在1928年漂亮地解决了。而后一个问题则更复杂。1928年,哈特利(R. V. L. Hartley)首先提出了信息量的概念,并指出编码(如摩斯码)在提高传送速度中的重要作用。但是他未能完整定量地解决这个问题。二战期间,维纳(Norbert Wiener)发展了在接收器上对付噪声的最优方法。但是传输速率的上限还是没有进展。

在这种情况下,香农(Claude E Shannon)在1948年发表了《通信的一个数学理论》(C. E. Shannon, A Mathematical Theory of Communication”, The Bell System Technical Journal, Vol. 27, pp. 379-423, 1948 http://cm.bell-labs.com/cm/ms/what/shannonday/shannon1948.pdf),完整地解决了通讯速度上限的问题。“信息论”(Information Science)从此诞生。

香农(1916 – 2001)可说是二十世纪最伟大的科学家之一。他二十岁就以数学和电子工程双学位毕业,进入MIT读研究生。一年以后(1937年),他的硕士论文开创了使用布尔逻辑(Boole’s Logic)分析电子计算机线路的途径。布尔逻辑今天仍是分析数字电路的基本工具。1940年,香农以题为“理论遗传学的代数”的论文得到博士学位,到数学物理研究的圣地普林斯顿高等研究院任职。后来他转任贝尔实验室继续研究工作。除了信息论外,香农在加密理论,取样理论等领域都有开创性的贡献。他还活跃于人工智能,计算机等领域。他1956年到MIT任教,直到1978年退休。

香农虽然是数学出身,却十分重视直觉。他的同事评价说,香农最擅长的就是把一个复杂的问题简化,去掉无关紧要的细节而保留关键的问题。在他创立信息论的工作,就是一个非常优美的例子。我以为,他的原始论文比 我所见到过的所有教科书上的推导都要直观易懂。以下,就简要地介绍一下这个工作【注一】。

要建立信息理论,首先要能够度量信息。信息是由信号传播的。但是信息与信号有本质的区别。所以如何度量一个信号源的信息量,就不是简单的问题。从直觉上说,如果一个信号源发出不变的符号值(比如总是1),它是没有信息量的,因为它没有告诉别人任何东西【注二】。而且如果信号源发出的符号值是变化的但是可以预计的(比如圆周率的数字序列),那也是没有信息量的,因为我不需要接受任何东西,就可以把这些符号值重复出来。而且,即使信号源发出的符号不是完全可确定的,它的信息量也和“确定”的程度有关。例如,如果一个地方90%的时候是晴天,气象报告就没有多大用处。而如果50%的时候是晴天其余时候下雨,人们就需要气象报告了。

从这点出发,香农就把信息量与信号源的不确定性,也就是各个可能的符号值的几率分布联系起来。他从直观上给出了信息量需要满足的几个简单的数学性质(如连续性,单调性等),而给出了一个唯一可能的表达形式。

那么这样定义的信息量与我们通常所说的数据量,也就是需要多少比特来传送数据,有什么关系呢?(比特就是二进制数据的位数)。为此,我们来看看一个含有固定符号数的序列(也就是信号或码字)。由于每个符号值的出现是随机的,这样的序列就有很多可能性。显然,每个可能的符号在序列中出现次数,对于所有可能序列的平均值正比于符号出现的几率。我们把每个符号出现次数“正好”等于其次数平均值的序列叫做“典型序列”,而其他的就叫作“非典型序列”。而数学上可以证明,当N趋于无穷大时,“非典型序列”出现的几率趋于零。也就是说,我们只要注意“典型序列”就行了。而典型序列的个数,就是它们出现概率的倒数(因为总概率为1)。而码字所携带的数据量,就是它的个数以2为底的对数。【注三】所以,这样的分析就得出了序列所含的数据量。除以序列的长度,就得到每个符号所含的数据量。而这个结果恰好就等于上面所说的信息量!

至此,香农开创性地引入了“信息量”的概念,从而把传送信息所需要的比特数与信号源本身的统计特性联系起来。这个工作的意义甚至超越了通信领域,而成为信息储存,数据压缩等技术的基础。

解决了信号源的数据量问题后,我们就可以来看信道了。信道(channel)的作用是把信号从一地传到另一地。在香农以前,那奎斯特已经证明了:信道每秒能传送的符号数是其频宽的一半。但问题是,即使这些符号,也不是总能正确地到达目的地的。在有噪声的情况下,信道传送的信号会发生畸变,而使得接收者不能正确地判断是哪个符号被发送了。前文《数字通信介绍(1) 调制》中谈到,对付噪声的办法是减少每个符号所带的比特数:

“而每个波特所含的比特数,则是受噪声环境的限制。这是因为当每个波特所含的比特数增加时,它的可能值的数目也增加。这样代表不同数据的信号就会比较接近。例如,假定信号允许的电压值在正负1伏之间。如果每个波特含一个比特,那么可能的值是0或1。这样我们可以用-1伏代表0,用1伏代表1。而假如每波特含两个比特,那么可能的值就是0,1,2,3。我们需要用-1伏,-0.33伏,0.33伏,1伏来代表着四个可能值。这样,如果噪声造成的误差是0.5伏的话,那么在前一种情况不会造成解读的错误(例如把-1V错成了-0.5伏,它仍然代表0)。而在后一种情况则会造成错误(例如把-1V错成了-0.5伏,它就不代表0,而代表1了)。所以,每个波特所含的比特数也是不能随便增加的。以上两个因素合起来,就构成了对于数据传输速率的限制。”

其实,除此之外,还有一个对付噪声的办法,就是在所有可能的符号序列中只选用一些来代表信息。例如,如果符号值是0和1,那么三个符号组成的序列就有8个:000,001,010,011,100,101,110,111。我们现在只用其中两个来代表信息:000和111。这样,如果噪声造成了一个符号的错误,比如000变成了010,那我们还是知道发送的是000而不是111【注四】。这个方法的代价与前面的方法一样,就是降低了传送速率(原来可以送三个比特,现在只能送一个比特了)。这种选取特定序列,而不是使用所有序列的方法称为编码。以上的例子,是一个极为简单的码,远非最优。

可见,用降低速率来减少错误的方法有很多选项。那么怎样才能达到速度和准确度之间最好的权衡呢?这看来是一个非常棘手的问题。然而,香农却得出了一个非常简明的结论:对于一个信道,有这样一个速率(称为信道的容量):一定有一个方法能在这个速率以下传送数据而误差的几率达到任意小;而超过这个速率的话,误差的几率就一定会大于某个下限。也就是说,香农同时给出了无错误的条件下传送速度的上限(即不可能超过)和下限(即有办法达到),而这两者是同一个值!

不仅结论出乎意料地简单,香农的证明也是如此。他的基本思路是:噪声使得接收端收到信号后,对于所发送的信号仍然有个不确定性。也就是说,一个收到的序列可能对应多个发送的序列。这个对应的个数可以用上面讲到的“典型序列”的个数来估计。因为如此,我们只能用这多个发送序列之中的一个来作为码字,代表要传送的信息,而其余都弃之不用。这样才能避免混淆。所以,我们的传送速率就要降低了【注五】。这个直观解释听起来简化得离谱。我们知道,随机过程是很复杂的,怎么可能用平均值就搞定呢?然而,香农在数学上严格地证明了这些结论。关键在于:他考虑序列长度趋向于无穷的情况。这样,在样本数量趋于无穷的情况下,实际情况偏于平均值的几率趋向于零。所以说,香农的简化显示他真正抓住了问题的关键。

对于通常遇到的信道,香农定理说:信道容量(即最高传送速率)与频宽成正比,与信噪比的对数(底数为2)成正比。信噪比是在接收端信号功率与噪声功率的比。增加发射功率能增加信噪比从而增加容量,但因为是对数关系,不是那么有效。而增加频宽则是线性地增加容量。通常,频率较低的频道频宽也小。如前一讲中提到的调幅(AM)广播,在几百千赫频段,频宽是20千赫。而调频(FM)广播是在一百兆赫频段,频宽是200千赫。这就是调频广播音质较好的主要原因【注六】。所以现代的数字通信服务不断往高频段扩展(目前已到2千兆赫)。当我们听到某个服务能提供更高速率的时候,并不等于它使用了性能更好的技术。很可能它只是用了更宽的频道而已。

香农完美地给出了信道容量,所以有人说他“开创并结束”了信息论。但是香农还是留下了一些困难的问题。比如,当信道随时间变化时,应用香农理论就远不是直截了当的。最重要的,是为了达到香农极限,我们处理的符号序列必须无限长。而实际上,信道编码的长度受着传送延迟和系统复杂性的限制。在这样的限制下,如何达到最高的传送速度?六十年后的今天,人们还在为此奋斗。这是下一讲的题目了。

【注一】 为简明起见,我们这里仅讨论符号值是离散的情况。香农的论文中还包括了连续值的情况。

【注二】 我们这里用的术语是:“信号”是携带信息的某种物理量(如电波,声音,光等)。“符号”是一个信号单元,如一个字母,一个音节,一个调制单位,一个脉冲等。信号可以看成是很多符号组成的一个序列。这样的序列也叫“码字”。

【注三】 例如,如果我们有八个可能的码字(例如字母A到H),我们可以将其编号为0到7。用二进制数来代表这八个数,需要3个比特(3 是8以2为底的对数)。如0是000,6是110,7是111等。将这三个比特传到接受者,接收者就能还原出码字的编号,从而知道所传送的码字了。

【注四】 当然,如果错了两个符号,收到了011,那我们就认为发送的是111,而产生了错误。但是,错两位的概率要比错一位小得多。如果错一位的概率是0.001,那么错两位的概率就是0.000001.

【注五】 这里的叙述还是不很清楚,因为我想避免使用数学公式。有兴趣的读者应该去读香农的原始论文,那里的解释要好得多。

【注六】 当然,AM和FM是模拟调制,其性能离香农极限差得远。但基本道理还是一样的。

目前有9条评论

Feb 08 2009

科学的未知与伪科学 — 《科学的十三件怪事》读后

Published by 欧阳峰 under 书山有路, 学海无涯

大多数科普书籍都是着重于已经有定论的科学知识,甚至有人提出科普的范围应该限于“主流观点”。但是也存在一些“另类”的科普书。《科学的十三件怪事》(13 Things That Don’t Make Sense: The Most Baffling Scientific Mysteries of Our Time by Michael Brooks, 2008)就是这样一本书:专讲充满争议和未知的科学话题。本书作者是一位物理博士,《新科学家》(New Scientist)的记者。他还写过一本小说,在“发现频道”主持科学节目。本书是他的第一本非小说作品。

科学哲学家库恩(Thomas Kuhn)提出过“范式转换”(Paradigm Shift)。当科学上发现的反常现象不能被现有理论解释时,人们先是会想法设法否定反常的存在或将现有理论牵强附会地去解释。到一定的时候,一个新的“范式”会出现,以全新的理论框架代替现有的,而不再是修补。而这个新的范式会被现有的科学家排斥。只有等待新一代的科学家到来,新的范式才会被接受,“范式转换”才得以完成。所以“反常”是引起“革命”的星星之火。难怪物理学家,科普作家阿西莫夫(Isaac Asimov)说过,科学发现的先兆不是阿基米德的著名惊呼“我明白了!(Eureka)”,而是“咦,这很奇怪。。。”。这本书就是以库恩的学说贯彻始终,试图展示下一次科学革命的发源地。书中列出了13项“科学悬案”。我把它们列在下面,你不妨看看自己知道几项:

1. 暗物质和暗能量:这是很多科普书的内容了。

2. 先锋号的反常:飞出太阳系的“先锋号”(Pioneer)飞船在航程中偏离计算的轨道。这是否预示广义相对论还需要修正?

3.常数的变化:对遥远星体的观察和对远古放射性物质的测量显示物理常数“精细常数”可能随时间变化。这是真的吗?

4.冷聚变:到底是骗局还是科学突破?

5.生命:生命的起源到底是地球上的化学反应还是外星尘埃?

6.海盗号:“海盗号”飞船在火星表面发现生命迹象了吗?

7.外星信息:我们收到过外星信号吗?

8.巨病毒:有核细胞缺失的祖先?

9.死亡:死亡是进化的产物还是异常?

10.性:有性生殖的优越性到底在哪里?

11.自由意志:事实还是还是虚构?

12.安慰剂效应:到底存在吗?

13.顺势疗法:伪科学,安慰剂效应还是水分子的奥秘?

其实这十三个题目还可以分成几类。有些问题是有“主流”可言,如暗物质和暗能量。有些是现有理论本来就很有限,所以也谈不上“反常”,如有关生物学的几个问题(5,8 到11)。有几个是关于事实的认定有争议的,如2,3,4,6,7,12。至于“顺势疗法”,这是通常被认为是“伪科学”的了。

由于作者的科学背景,书中基本是遵循科学研究的常规,即从事实出发进行逻辑推理,并考虑正,反两方面的证据。由于作者是物理出身,对有关物理的问题讲得比较清楚,而生物方面则有些凌乱。但也可能因为他“局外人”的身份,对于那些生物问题的争论的介绍还是比较公允的,也很有趣易懂。

本书的一个特点,是对于“反常现象”的认定过程介绍得很详细。科学研究的基本原则,就是“有一分证据说一分话”。但是科学研究的结果到了媒体那里,往往就只剩了结论,而其相关的不确定性都略过不提了。这一点在关于“全球变暖”问题的争论中尤其明显。但这本书不同。它不是只介绍结论,而是把相关的实验观察原原本本地摆在读者面前。例如,关于先锋号反常的问题,作者基本上就是讲了个引人入胜的故事:科学家们是如何发现了轨迹的误差,然后如何排除所有的“常规”解释。关于海盗号的故事,作者也是不厌其烦地介绍火星上采样和分析的细节,摆出了支持和否定生命迹象的证据。这种通过“科普”介绍科学精神的做法,很值得赞赏。

也许是记者的本能吧,本书作者看来有着“扶助弱势”的倾向,有些时候为“非主流”说话,到了有失公允的地步。例如关于冷聚变,为了证明“冷聚变”不完全是骗局而是有实验根据,作者多次引用美国能源部2004年的评审报告。但作者没有指出,这个报告从全局上看,是否定了冷聚变的科学价值。“冷聚变”主要的声称:热产出与核粒子发射,都被认为没有可靠数据支持。最后的推荐,也只是对于两个特定的问题(含重氢金属的材料科学研究和含重氢薄膜的核粒子发射)可以“个例考虑”资助研究。当然其他冷聚变中的科学问题也可以象其他学科一样申请经费。但是该报告不赞成继续资助作为学科的“冷聚变研究”。对于“顺势疗法”,其实支持的证据非常弱。但是作者仍然试图保持“平衡报道”,花大量笔墨记叙他对一个业者的采访。

应该指出,虽然“反常”可能导致革命,旦不是“反常”带来的所有理论都是革命。至少,一个新的理论对于这个“反常”的观察需要比旧理论解释得更好才行。而且,新理论还要能解释旧理论能解释的其他观察。而书中的一些“新理论”,如“先锋号反常”引起的“另类引力理论”,并没有提供定量的解释。所以,旧理论的失败不等于“这一个”新理论就会成功。“顺势疗法”的问题更严重。这个疗法的基本方法是把含有“活性物质”的水极度稀释,以至一份“药物”中连一个“活性物质”的分子都不到。从目前的物理和化学知识来说,这样的“药物”与清水没有区别。但是“顺势疗法”的支持者认为,活性物质的性质已经转移到了水分子上面。本书作者指出了目前我们对水分子行为,特别是氢键的了解还是有限,而水分子可能形成巨大和复杂的团(cluster)。这样,似乎不能排除“顺势疗法”支持者的声称。但是问题是,关于“活性物质”影响到水的结构,而这种结构变化又有治疗效果,目前没有任何理论和实验的支持,而且从公认的科学原理来说是很难想象的。这样的声称,就是伪科学了。在这里,作者是在“未知”和“伪科学”之间走钢丝。我认为他还是比较成功的,他的声称没有超过实验支持的程度,而其余只是推测而已,其间的界限是清楚的,至少对受过科学训练的读者来说。但是如果他借此机会讨论一下伪科学的问题,就更好了。

“未知”是科学的成长点,也是科学的“软肋”。由于在公众媒体上,科学往往被描写为绝对客观,绝对可靠的学问,就有人以科学的“未知”来攻击科学或推销伪科学。但其实,科学的精髓并不是那些理论和理论以外的“未知”,而是对待“未知”的态度。而科学与伪科学的分界岭,也就不是具体的学科和立场,而是从业者的行为和态度了。【注一】从这一点来说,这本书为我们提供了不少值得深思的题目。

【注一】从某种意义上说,具体的学科也有关系。如《伪科学和超常现象》的作者汉斯(Terence Hines)博士指出:有些学科的观察结果“总是停留在感性知识的边缘。”多年的研究也不能提高观察的可靠性。这样的学科,其科学价值就值得怀疑。本书中提到的冷聚变和顺势疗法就有这样的特点。

目前有17条评论

Jan 28 2009

数字通信介绍(1) 调制

Published by 欧阳峰 under 学海无涯

【进入二十一世纪以来,“因特网”已经和水,电一样,成了我们生活,工作和娱乐不可或缺的一部分。而对于用户来说,要“上网”,就需要有一个传输信息的“管道”。而数字通信就是这样的管道。就象水管,电线一样,我们通常都不需要想到“数字通信”这个管道,而只是关注其中的信息流。但是作为一项工程技术,数字通信中有很多有趣的概念和发现。作为用户,也需要了解一些常用名词背后的意义。本文试图尽量不用Mod_basic_1专业词汇和数学公式来介绍数字通信的基本概念和技术,希望对大学程度非电子工程专业的读者有所帮助。为了简洁起见,其中有些叙述不很严格,请行家们见谅。数字通信的媒介包括光纤,有线和无线。本文讨论以无线通信为重点,不包括光纤技术。】

用过收音机的人都知道,无线电台有两类:调幅(AM)和调频(FM)。这两个名词是指两种调制的方法。我们都知道,声音的频率是在20赫兹到20千赫兹之间。(赫兹就是信号每秒振荡的次数。)电台并不是直接把代表声音的电信号(称为基频)发射出去,而是把声音信号“加载”到更高频率的电波上再发射。这个高频电波在被“加载”以前叫做载波,被加载以后叫做载频信号。加载的过程就叫做调制。在美国,通常调幅广播用中波频段(520千赫到1610千赫)。调频广播用甚高频频段(87.5兆赫到108兆赫),其他国家略有不同。用载频发射有两个好处。第一,高频率信号的发射效率高,需要的发射和接收天线尺寸也小。第二,通过使用不同的载频频率,很多电台可以同时发射而不会相互干扰。

调幅就是用信号幅度来代表声音信号。随着基频信号(比如声音)电压的大小,载频信号的增幅也跟着变化。调频是用信号频率来代表声音信号。随着基频信号电压的变化,载频信号的频率在其中心值的上下变动。下面的图示意两种调制方式。我们可以看到,在基频信号的值最低的时候(例如曲线的正中间),调幅信号的振动幅度变得最小,调频信号的频率变得最小(相邻的波峰之间距离最大)。

Mod_basic_1

调制后的载频信号的频率不再是单一的,而是有一个范围,称作频宽。例如,如果一个载频信号的频率是800千赫,频宽是10千赫,那么在795千赫到815千赫之间都有它的信号。为了避免相互干扰,另一个同样频宽的载频信号的频率就必须低于790千赫,或高于810千赫。可见,频宽决定了在给定频率范围内可以容纳多少电台同时发射。例如,在中波范围内(520千赫到1610千赫),可以容纳99个频宽为10千赫的电台。如果频宽为20千赫,那就只能容纳49个电台了。

以上的调制方式是针对声音的。声音是一个连续的信号,也叫模拟信号。在数字通信中,我们要传送的是离散的数字信号。数字信号可以看成是一个序列,其中每个单元(也称比特,bit)可取值为0或1。为了调制,我们把一定比特的数字放在一起成为一个波特(baud)。例如,如果一个波特有2个比特,那么它可能取的值就有4个(2的平方)。如果有4个比特,那么它的可能值就有16个(2的4次方)。组成为波特的数字信号可以用与以上类似的方法调制。载频的一段时间可以用来调制一个波特。每秒钟所调制的波特数就叫做波特率。对应于调幅和调频,数字调制的相应方式成为幅度移动键控(ASK)和频率移动键控(FSK)。

下图表示一个数字调制的例子。第一行的数字是要传送的比特序列。第二行是波特的值(在这个例子中每个波特含有两个比特)。再下面的波形,就是这些比特值通过调幅方式调制到载波上的结果。竖虚线是波特的边界。【注一】

Mod_basic_2

数字调制中最重要的参数是传送速率,也就是每秒钟能传送多少比特。显然,传送速率等于波特率和每个波特所含比特数的乘积。如上所述, 载频信号的频宽是受限制的,否则各个发射台就会相互干扰。而数学上可以证明(那奎斯特Nyquist定律),波特率不能超过频宽的一半。

而每个波特所含的比特数,则是受噪声环境的限制。这是因为当每个波特所含的比特数增加时,它的可能值的数目也增加。这样代表不同数据的信号就会比较接近。例如,假定信号允许的电压值在正负1伏之间。如果每个波特含一个比特,那么可能的值是0或1。这样我们可以用-1伏代表0,用1伏代表1。而假如每波特含两个比特,那么可能的值就是0,1,2,3。我们需要用-1伏,-0.33伏,0.33伏,1伏来代表着四个可能值。这样,如果噪声造成的误差是0.5伏的话,那么在前一种情况不会造成解读的错误(例如把-1V错成了-0.5伏,它仍然代表0)。而在后一种情况则会造成错误(例如把-1V错成了-0.5伏,它就不代表0,而代表1了)。所以,每个波特所含的比特数也是不能随便增加的。以上两个因素合起来,就构成了对于数据传输速率的限制。

但不等于每一种调制方式都达到了传送速率的上限。事实上,以上所说的两种方式都没有利用相位这个信息。事实上,相位相差90度的两个信号虽然在同样频率,却不会相互干扰。【注二】所以,我们可以分别调制两个相位相差90度的载波然后把结果相加再发射,从而把数据传送率提高一倍。常用的正交幅度调制(QAM)就是这样一种调制方式。另外,也有单纯用相位来调制的技术,称为相位移动键控(PSK)。

然而,传送速率并非选择调制方式的唯一考虑。例如,利用相位的调制方式要求接收器与发射器之间保持更精密的时间同步,对某些系统来说并非最佳选择。又如,在低功耗的通信系统上,使用幅度不变,只调制相位PSK更有利,虽然其速率并非最佳。

无线通信的一个基本问题是众多的用户如何分享有限的频率范围。上面谈到的,是每个用户使用不同的频段,从而避免干扰。这也称为頻分多址(FDMA)。另一种方式是时分多址(TDMA),也就是多个用户使用同样的频率,但在不同的时段内轮流发射,避免相互干扰。另一种更复杂的共享方式称为码分多址(CDMA)。它是让不同用户发射的信号中带上不同的编码,接受器就能把它们分开。比方说,在同一间房间里如果有几个人嗓音相同的人同时说话,听的人就不能知道哪个字出于谁之口,而不能了解任何人所说的内容。但是如果他们说的是中文,英文等不同语言,听的人虽然还是会感到受干扰,却有可能从中辨出要听的内容。

下面举一个码分多址的简单例子。如下图所示,假定用户数据是5个比特的序列(0,1,0,0,1)。在发射器(上图)中,用五个波特来调制这个数据:0 对应于电压0,1对应于电压V。竖虚线表示波特之间的分界。我们把这个数据加上两个不同的编码:码A和码B,每个码的时间长度是一个波特。码A就是一个常数1。码B前半部分是1,后半部分是-1 。编码的过程,就是把用户数据的每个波特与相应的码相乘,得到信号A与信号B。

在接受器(中图和下图)中,把收到的信号再与相应的码相乘并在波特时间内积分。我们可以看到,如果发射和接受两边的码相同,就能复原用户信号。否则,就得到零。如果有两个用户分别用码A和码B来编码,他们发射的信号在空间相加后到达接收器。而接收器A和B只收到相应的用户数据,而不受另一路的干扰。如果使用更复杂的码,就能支持更多的用户同时发射。【注三】

Mod_basic_3

另一种时髦的调制方式称为正交頻分复用(OFDM)。这个名字很拗口,但其实很简单。它就是把一定频宽的频道分成很多频宽很小的“分频道”,在每个“分频道”中传送独立的数据流。当然,具体实施中还有很多数学细节,但基本想法无过与此。【注四】使用正交頻分复用的好处,在以后再介绍。

以上介绍了数字通信中调制的基本原理和调制的基本手段。总结来说,无线电信号具有振幅,频率和相位三个参数。这三个参数可以独立或联合地表达要传输的用户数据,这就是调制。调制的基本时间单位是波特,一个波特可以含有一个或多个比特。传输速率是波特率与每波特所含比特数的乘积。波特率受频宽的限制,而每波特所含比特数受噪声的限制。

除了基本 的调制方法以外,现代通信还使用更复杂一些的方法,如码分多址,正交频复用等。【注五】第三代手机系统基本上是用码分多址的方法。这种方法对于语音通信和移动通信有特别的好处。而我们在家里无线上网用的无线局域网(WLAN)。主要采用正交频复用(OFDM)的方法。另外,尚在开发中的微波存取全球互通(WiMax)是和手机系统一样远程连接的无线网络。它也是主要用OFDM。以后再听到这些名词,你就不会觉得像是外星语言了吧?

【注一】 为了便于说明,这里的调制方法没有严格按照ASK的规定。

【注二】 在数学上,我们可以如此理解:两个相位相差90度的信号可以表达为一个正弦波和一个余弦波。如果我们要接收前者,可以把收到的信号乘以正弦函数。如果收到的是正弦波,相乘后会得到一个不随时间变的部分(也就是直流分量),和一个两倍于原频率的分量。而如果收到的是余弦,则只有一个两倍于原频率的分量而直流分量为零。通过低通滤波,就可以只选取那个直流分量,而排除了余弦波的那部分信号。同样,如果要接受余弦的部分,可以把收到的信号乘以余弦函数。

【注三】 细心的读者会注意到,在这个例子中,加上编码后,信号在波特中间可能发生变化,相当于原来一个波特变成了两个波特。所以,这样的信号需要的频宽也就加倍了。可见,码分多址虽然能允许多个用户同时使用一个频率范围,但是单位频宽所容纳的用户并没有增加。

【注四】 在通常的分频道传输(如广播电台)方式中,电台发射的能量并不是完全在频宽以内,而是有一个逐渐衰减的范围。所以频道之间需要留出一些“保护带(guard band)”,才能避免相互干扰。而在OFDM方式,相邻分频道之间没有相互干扰(即“正交”),所以不需要留出保护带。

【注五】 其实码分多址(CDMA)和正交频复用(OFDM)是建筑在基本调制方法之上的另一重调制。码分多址中,编码可以在基本调制以前(对数据流)进行,也可以在基本调制以后(对波特信号)进行。在正交频复用中,每个分频道还是要用基本调制方法加上数据。通常是用正交幅度调制(QAM)。

目前有4条评论

- Next »