2008年12月31日星期三

科技转型谈何容易! 张五常

要先对毕业的同学说几句话。目前国内的大学毕业同学难找工作,网上有云,其中一些接受零工资。做得对︰只要有值得学习的,接受零工资是正着。希望老板们能审时度势,尽量提供学习机会给毕业生。

青年初出道,论工资不对——不仅是经济困难的今 天。为人师表数十年,我对毕业同学的建议,永远是出道选工作不要论工资,要着重自己的兴趣与知识投资的机会。可惜市道好时这建议不易被接受︰钱作怪也。当 年我不论,今天儿子也不论,占了先机。我和儿子的际遇比今天国内的同学好︰我们不需要养家。需要养家的同学的困境我明白。辛苦一点吧。不要忘记,工作后还 要自修读书的。恨不得还年轻,可以在网上授课。利用互联网教育实在方便。我不成了,希望有识之士能先把自己介绍一下,然后把所知或讲义之类放到网上去。

不是要留难北京的朋友,但要问︰同学接受零工资, 是不是违反了国家的劳动法例呢?说是,要禁止,千夫指不易横眉冷对也。说因为同学自愿,所以不违法,那么任何雇主皆可要求最低工资之下的被雇者签下自愿 书。若说除了工资,其它劳动法则不能自愿,那么工资的弹性开了一处口,其它法则皆可用自愿的工资甚至负工资调校,化为零。

我知道新劳动法放宽了不少,而好些地区不执行。然 而,两个头痛问题仍在。一、不清楚地撤销,阴影还在,投资者不敢下注。二、员工因为此法的存在可以凭法投诉,弄得劳资双方的关系今天是改革以来最差的。新 劳动法可能对某些人有利,或对某层面的员工有利。都不肯定,肯定的是最低下阶层的劳工受到损害。今天纷纷倒闭的是我认为对农转工贡献最大的接单工厂,这些 工厂养起很多穷人,而又提供给无数没有学识的劳苦大众有各行各业的学习机会。苦吗?那当然,但穷人那么多,资源那么少,有较好的办法吗?我很不同意那些自 以为是学者的贬低他们认为可笑的血汗工厂,而对认为这些工厂应该被淘汰的言论,反感更大。政府凭什么资格封自己为淘汰大师呢?

说实话,就是北京立刻撤销新劳动法,短期内不会有起死回生之效。一则太迟了,二则地球经济很不对头。面对今天的困境,撤销此法有助,助多助少不要斤斤计较吧。肯定有助就不要再等了。

说到工业转型,要向高科技励进,有谁不懂得说,但谈何容易哉?好些年前我和瑞典的一位经济学者详谈此事,因为该国主要靠科技生存。当时大家的结论,是高科技不可以话搞就搞。瑞典地大人少,一般国民的知识高,也有多年的科技传统。中国没有这些条件。

中国的重要资源是人,学识水平一般低下的人。但千 万不要小看这些人。我认为高科技在中国有得搞,也应该搞,但绝对不是把穷人淘汰出局那种搞法!地球上没有什么资源比人更可贵,而炎黄子孙这个品种,上苍早 就照顾着,认为中国人多所以命贱的想法是不对的。我说过中国人聪明,吃得苦,学得快。论及科学,中国人不仅聪明那么简单,更重要的是想象力强。论智商,地 球上不亚于炎黄子孙的民族有的是,但论到想象力,比得起中国血统的我没有见过。

不知是天生基因使然还是文化传统所致,中国人的想 象力自成一家应无疑问。不需要拿出鬼才李贺了。昔日苏子写《赤壁赋》──逝者如斯,而未尝往也──其想象力的来去纵横,彷佛随意挥洒,其它文化不易读到。 写花,杜牧说「落花犹似坠楼人」,李清照说「人比黄花瘦」。论白发吗?李白「高堂明镜悲白发」,辛弃疾「白发空垂三千丈」。想象免不了有点夸张,但来得那 么新奇而又自然,我认识的西方文化不多见。中国的文化呢?想象是惯例。

想象力是科学研究最重要的──爱因斯坦这样说过。 昔日学而优则仕的传统无疑扼杀了中国的科学发展,但传统归传统,今天归今天,上苍赐予炎黄子孙的想象本领没有变。另一方面,我们知道这本领不会因为人穷就 没有。我自己的双亲皆出自广东农村的破落户,而四十年前在美国出道时,师友们不少认为我的想象力胜出几条街。在神州大地我可没有这种优越性。然而,论到逻 辑思考与客观辩证,中国人却是输了。输出两条街吧。逻辑推理是可以学的。中国人需要的是教育,是机会。不是说每个穷人都可以杀出重围。成功的机会其实不 高。纵观中国的资源局限,爱莫能助,只是提供自力更生机会的社会成本是零。

转谈科技产出,人的质素当然也要论想象力,但远不 及科学研究那么重要。科技产出是制造,重点是产品质量的调控。这方面我们真的比较弱。有两点。其一是中国人不够清洁。其二,虽然中国人的手工艺无敌天下, 但奇怪地产品规格需要一致的要求,目前看中国比不上日本或韩国那么稳定。可能是风俗习惯使然,更肯定是教育出了问题。

要在中国大幅提升产品的科技水平,三个要素不可或 缺。其一是工人的知识水平要大幅提升。工程方面中国基本上没有问题,设计也可以,困难在于一般工人知识不足。需要细节严格、精确的产品,中国人做得不够 好。认识做厂的朋友无数,很多外地的优质产品,他们不是不懂得造,而是做不到,或成本要比进口的高。

第二个要点,是中国目前在商标、商业秘密、发明专 利等法律上还有好一段路要走。改进了很多,但还有不能漠视的不足之处。思想或知识产权的保障历来困难,就是先进之邦也头痛。是非常复杂的学问。七十年代初 期,受美国科学研究基金的委托,几个助手和我花了几年时间研究发明专利与商业秘密。一九七七年五月我写下很长的研究报告(见《张五常英语论文选》,第二十 章,《产权与发明》)。当时的同事与资助基金认为是全面而又深入的,促我继续,但题材实在太难,放弃了。今天在国内管理知识产权的朋友不妨细读这篇长文, 问题所在是说清楚了的。中国不一定要仿效西方的知识产权法律与执行的方法,考虑要点及西方遇到的困难会有助。

第三个要点,是工业科技的上升一般是由他人推上去 的。以西方为例,发明专利的注册一定要详细地公开,专利权只十七年。要持久地维护这专利,发明者要不断地继续研究、改进,希望再获其它有关的发明专利,使 十七年后自己的原先发明被自己的新发明替代了。然而,原先的发明早就公开了,其它竞争者也会研究,也会改进,有机会得到改进的注册而捷足先登。

后浪推前浪永远是科技发展得好的程序。这就带来为 什么我认为在中国的资源局限下,接单工业是那么重要了。我说过接单工业可以养起很多人,是农转工的命脉,而每间接单工厂都是一所学校,培训工业人材。这里 要强调的,是接单工厂一般力争上游,希望有自己的商标,有自己的发明专利。这样一来,上头的科技水平较高的就逼着要发愤图强,否则会被下面的淘汰。香港昔 日满是这样的故事。接单接单,到后来可以生存的都有自己的商标,也有自己的发明专利注册。行业的发展也如是。老一辈的朋友应该记得,当年香港的工业以假 发、胶花等雄视地球,后来转到玩具、手表、成衣等工业去,让假发、胶花给其它工资较低的地区造。这是工业转型的应有过程。强迫转型,淘汰了接单工业,是拿 起石头砸自己的脚。

千万不要考李嘉诚先生胶花是怎样制造的!

2008年12月30日星期二

基于粗糙集和BP网络的车牌字符识别

1、引言

  车牌字符识别是车牌识别系统中重要组成部分之一,是模式识别的一个应用领域,车牌字符样本集是字符集合的一个有限子集,包括汉字约 50个,字母A–Z,数字0–9,属于特定的有限字符集识别问题。目前最常用的车牌字符识别方法主要有模板匹配法、基于字符特征的识别方法和神经网络法 等。模板匹配法简单,实用于一些特定情况,如尺寸固定、车牌位置水平不发生旋转等情况,当车牌字符图象轻微扭曲变形、笔画粗细不均甚至缺损断裂时,容易产 生误识别。文献1作者把K近领法用到车牌字符识别中,K近领法是典型的统计学习方法,在分类领域中经常用到,主要思想是先对待识别字符进行特征提取、建 库,然后计算待测样本的特征与模式库中特征的相似度,最后根据判别函数来识别待测样本属于哪一类。基于字符特征的识别方法主要有PCA法和ICA法,文献 2就是采用了独立分量法(ICA)对车牌字符进行识别。神经网络方法具有较强的并行数据处理能力、容错能力和泛化能力。但是神经网络是一种弱学习算法,分 类精度也不高,文献3针对这一弱点提出了一种改进的BP神经网络方法用于车牌字符识别中。

  粗糙集(Rough Set)理论是波兰数学家Z.Pawlak于1982年提出的,是一种新的处理含糊性和不确定性问题的数学工具[4]。

  本文提出一种基于粗糙集和神经网络相结合的车牌字符识别方法,首先对车牌字符图象进行定位、预处理、分割以及归一化等操作,然后基于粗糙集理论对经过 归一化处理的二值化图象进行特征提取,构造决策表,并对其进行属性约简,最后用约简后的属性构造BP神经网络分类器。该方法通过粗糙集减少了条件属性个 数,简化了BP神经网络分类器的网络结构,提高了字符识别的泛化能力。

2、粗糙集相关知识[5,6]

  定义1. 设是一个信息系统,U表示对象的非空有限集合,称论域; = Φ,C称为条件属性集合,D称为决策属性集。具有条件属性和决策属性的信息系统称为决策表。,Va是属性a的值域;f表示是一个信息函数,它为每个对象的每个属性赋予一个信息值。

  定义2. 设集合,R是一个等价关系,称 = 为集合X的R下近似集;称为集合X的R上近似集。称集合 = 为X的R边界域;称= 为X的R正域;称= U-为X的R负域。

  定义3. 知识的依赖性可形式化地定义如下:令K=(U,R)是一个知识库,P、Q R。

  1) 知识Q依赖于知识P(记作PQ)当且仅当IND(P)IND(Q)。

  2) 知识Q与知识P等价(记作P≡Q)当且仅当PQ且QP。

  3) 知识Q与知识P独立(记作P≠Q)当且仅当PQ与QP均不成立。

  当知识Q依赖于知识P时,也可以说知识Q是由知识P导出的。

  有时候知识的依赖性可能是部分的,这意味着知识Q仅有部分是由知识P导出的,这可以由知识的正域来定义:令K=(U,R)是一个知识库,P、QR。

  当k==时,我们称知识Q是k度依赖于知识P的,记作PQ。当k=1时,我们称Q完全依赖于P;当0< <1时,称Q粗糙依赖于P;当k=0时,称Q完全独立于P。

  系数可以看作Q和P之间的依赖度。

3、车牌字符识别方法

  车牌字符识别是车牌识别系统中的核心内容,一般车牌字符识别包括如下步骤:首先对采集到的车牌图象进行定位、预处理、字符分割以及 归一化处理等,每个字符变成大小相同的字符,然后在归一化后的二值图象中进行特征提取,所提取的特征中并不是都同等重要,在保证属性集和决策集关系不变的 前提下,利用粗糙集对所采集到的特征进行属性约简。最后用约简后的属性作为神经网络的输入,构造神经网络字符分类器。字符识别原理如图1。


图1 字符识别原理



3.1 提取字符特征建立决策表

  字符特征的提取有多种方法,目前常用的方法有:逐像素特征提取法、骨架特征提取法、垂直方向数据统计特征提取法、13特征点提取法、粗网格特征提取法 等。本文采用粗网格特征提取法对归一化的二值图象进行特征提取。首先把字符平均分成16×16个网格,再把这16×16个网格的字符平均分成16个4×4 的象素大小的子图象,统计每一份内黑色像素点的个数,而每个网格反映的是字符的部分特征,所以需要把所有网格组合起来作为字符的统计特征,最后得到 16×16维的字符特征。然后以这16个特征作为条件属性,字符的种类作为决策属性。条件属性集为,属性值集合为,决策属性集为,即字符的真实值。

3.2 离散化决策表


  运用粗糙集理论时,要求决策表中的条件属性必须是离散化属性,本文采用遗传算法进行属性离散化。遗传算法是一种非常有效的搜索和优化技术, 有着隐含并行性、鲁棒性和全局搜索等特点,所以在粗糙集中应用遗传算法进行连续属性离散化,主要是由于其具有全局寻优能力,它将所有属性值编码成个体位 串,得到关于所有属性的全局离散化结构,避免了属性局部离散独立性所带来的弊端[7]。本文首先按照文献[8]介绍的方法求出候选断点集,从候选断点集中 选一个尽可能小的结果断点子集来对决策系统进行离散化。实验表明:最佳离散区间为3。

3.3 决策表的约简

  目前在决策表中的条件属性并不是同等重要的,在保证决策表不可分辨关系不变的前提下,对决策表进行属性约简。本文中利用知识的依赖性对决策表中的条件属性进行简化。具体算法如下:

  ⑴ 在原决策表T中计算根据条件属性划分的等价类,以及不同条件属性组合下划分的等价类

  ⑵ 计算根据决策属性D对论域划分的等价类

  ⑶ 根据相对约简和依赖度的定义,计算条件属性C和决策属性D的依赖度k,
k=(1)
  
  若k=1,则称决策属性D完全依赖于条件属性C,若0<k<1,则称决策属性D 粗糙依赖于条件属性C,若k=0,则称决策属性D完全独立于条件属性C。

  ⑷ 依次删除原决策表T中的每个条件属性Ci,并计算删除该条件属性后的正域,= ,则说明该属性Ci在决策表中是不必要的,C-{Ci}是C的D约简,C的D核也是C-{Ci},若,说明该属性在决策表中是必要的;

  ⑸ 当所有条件属性都经过步骤⑷处理后,将不必要的属性去掉,得到了约简后的决策表T’,在约简后的决策表T’中只有四个条件属性。

3.4 BP神经网络字符分类器的设计

  神经网络许多特性通过隐含层而体现出来,以字母、数字分类器为例,构造了含一个隐含层的三层BP神经网络,包括输入层、隐含层、输出层。具体算法如下[9]:

  输入 训练样本集T,由约简后的车牌字符属性构成

  输出 识别的车牌字符

  ⑴ 初始化各层的权系数和偏置。

  ⑵ 输入训练样本:输入T中的一个样本和期望输出

  ⑶ 正向传播过程:对给定训练模式输入,计算网络的输出模式。计算公式如下:

(2)


  其中为t时刻单元i与单元j间的权系数,θi(t)为t时刻单元j的偏置,为 时刻第k-1层单元i的输出。对于输入单元来说,输出等于输入,

  ⑷ 反向传播过程:ⅰ.计算每层单元的误差;ⅱ.修正权值和各单元偏置;

  输出层单元为:

 (3)



  隐含层单元为:

 (4)



  权系数修改:

(5)

(6)



  ⑸ 判断是否满足要求,若满足,算法结束,不满足,返回⑵(算法中m=3)。

4、字符识别实验及结果


  实验的编程环境是MATLAB7.0,车牌字符样本来自于随机拍摄,样本总数为300幅,训练样本为200幅,测试样本为100幅。训练次数为 1000次,网络的权值和阈值为随机选取,各层的激活函数依次为双曲正切S型函数tansig.m和线性函数purelin.m。本文采用了附加动量法, 各参数依次设定为:误差目标goal=10-3;学习速率η=0.1;学习速率的递增乘因子η_inc=1.15;学习速率的递减乘因子 η_dec=0.8;动量因子mc=0.95。图2为其中一幅车牌的识别结果。



图2 字符识别结果



  实验前每幅车牌均经过定位、预处理、分割和归一化等处理。然后分别经过三种不同方法构造的分类器,其中一种是直接用BP神经网络构建的分类器,另外一种是直接用粗糙集构造的分类器,最后一种是本文所提出的方法。实验结果如表1:

表1 实验结果



  从表1的约简结果和识别结果可见,只用BP神经网络得到的识别率是最低的,后两种方法识别率接近,说明增加属性冗余度对这粗糙集的影响不太大,但是利用粗糙集消除冗余属性有助于提高神经网络的识别率,进而提高网络的泛化能力。

5、结论

  只用BP神经网络构造分类器,神经网络不仅结构复杂,训练时间长,而且识别率较低;只用粗糙集构造车牌字符分类器,能够有效约简冗余属性,简化了决策 算法,提高了运行时间,但是算法自适应能力较弱;用粗糙集优化神经网络可以提高网络的泛化能力,简化网络结构,缩短训练时间,而且在识别率方面也有很大提 高。该方法对于正常无损坏车牌,识别率很好,对于长时间受外界因素影响而损坏的车牌,识别率还有待提高。(转自中华电子网)
欢迎访问、交流!对本博客有何建议,请
来信告知!
本博内容来源于网络,如有不当或侵犯权益,请来信告知,将及时撤除!
如引用博客内容、论文,请注明原作者!

Google一下本博客

  • 《Getting Things Done》读书笔记 - 本文来自 inertial 原创投稿。 我第一次听说《Getting Things Done》这本书的时候误以为它和世面上的那些成功学书籍没什么区别,后来在不少书中看到了这个名字,也看见了很多人的推荐,由此产生了很大的兴趣。上个月正好有不少空闲,就抽时间把这本书读完了。 本来打算读英文原版,但是原版的生...
    5 年前
  • [原]Linux下编译使用boost库 - Boost库是一个可移植、提供源代码的C++库,作为标准库的后备,是C++标准化进程的开发引擎之一。 Boost库由C++标准委员会库工作组成员发起,其中有些内容有望成为下一代C++标准库内容。在C++社区中影响甚大,是不折不扣的“准”标准库。Boost由于其对跨平台的强调,对标准C++的强调,与...
    6 年前
  • [原]猎头、培训与咨询的价值(2)【补1】——北漂18年(93) - 【上期用手机写的,同时用语音输入转化成文字,错字较多,经好友霍师傅提醒本期重写,并增加一部分新内容】 简单谈下我对猎头、培训与咨询的看法。三样都干过,算是有些浅见。 猎头 简单的说就是人才中介。虽然在公司看来是可以直接解决现有企业问题的一个直接方法,但很多时候都不太管用。 猎头费一般是人才的一个月月...
    6 年前
  • OpenCV統計應用-Mahalanobis距離 - Mahalanobis距離是一個可以準確找出資料分布上面極端值(Outliers)的統計方法,使用線性迴歸的概念,也就是說他使用的是共變數矩陣以及該資料分布的平均數來找尋極端值的產生,而可以讓一群資料系統具有穩健性(Robust),去除不必要的雜訊訊息,這邊拿前面共變數矩陣的資料為例,並且新增了兩個點座標向量來做...
    15 年前
  • 努力推进模式识别实际产品的开发与应用 - Salu 无论是手写体识别、文档处理、人脸识别、基于内容的图片搜索、嵌入人工智能的搜索技术、虚拟网络社区、还是其它相关新科技下的信息整合领域,现在都在努力实用化。 前两年、即使现在还有很多人在抱怨说人脸的方法都不能用,但是就今年出现的和正在做的有关人脸识别实际应用的各种形式的产品可以说如雨后春笋。这是一个趋...
    15 年前