信息论 Information theory - 集智百科-免疫在线蚂蚁淘旗下平台-

当前位置：首页 > 新闻动态 >

热卖商品

新闻详情

信息论 Information theory - 集智百科

来自 : wiki.swarma.org/ind...php?titl 发布时间：2021-03-25

信息论主要研究信息的传递、处理、提取和利用。抽象地说，信息可以作为不确定性的解决方案。1948年，克劳德·香农在他的论文《一种通信的数学理论》中将这个抽象的概念具体化，在这篇论文中“信息”被认为是一组可能的信号，这些信号在通过带有噪声的信道发送后，接收者能在信道噪声的影响下以较低的错误概率来重构这些信号。香农的主要结论，有噪信道编码定理，表明在信道使用的许多限制情况下，渐近可达到信息传输速率等于的信道容量，一个仅仅依赖于信息发送所经过的信道本身的统计量。（译注：当信道的信息传输率不超过信道容量时，采用合适的编码方法可以实现任意高的传输可靠性，但若信息传输率超过了信道容量，就不可能实现可靠的传输。）

信息论与一系列纯科学和应用科学密切相关。在过去半个世纪甚至更久的时间里，在全球范围内已经有各种各样的学科理论被研究和化归为工程实践，比如在自适应系统，预期系统，人工智能，复杂系统，复杂性科学，控制论，信息学，机器学习，以及系统科学。信息论是一个广博而深遂的数学理论，也具有广泛而深入的应用，其中编码理论是至关重要的领域。

编码理论与寻找明确的方法（编码）有关，用于提高效率和将有噪信道上传输的数据错误率降低到接近信道容量。这些编码可大致分为数据压缩编码(信源编码)和纠错(信道编码)技术。对于纠错技术，香农证明了理论极限很多年后才有人找到了真正实现了理论最优的方法。

第三类信息论代码是密码算法(包括密文和密码)。编码理论和信息论的概念、方法和结果在密码学和密码分析中得到了广泛的应用。

1948年7月和10月，克劳德·E·香农在《贝尔系统技术期刊》上发表了经典论文：《一种通信的数学理论》，这就是建立信息论学科并立即引起全世界关注的里程碑事件。

在此之前，贝尔实验室已经提出了有限的信息论思想，所有这些理论都隐性地假设了概率均等的事件。Harry Nyquist 在1924年发表的论文《集中影响电报速率的因素（Certain Factors Affecting Telegraph Speed）》中包含一个理论章节，量化了“情报”和通信系统可以传输的“线路速度”，并给出了关系式 W = K log m (参考玻尔兹曼常数) ，其中 W 是情报传输的速度， m 是每个时间步长可以选择的不同电压电平数，K 是常数。Ralph Hartley 在1928年发表的论文《信息的传输（ Transmission of Information）》中，将单词信息作为一个可测量的量，以此反映接收者区分一系列符号的能力，从而将信息量化为 H = log Sn = n log S，其中 S 是可以使用的符号的数量，n 是传输中符号的数量。因此信息的单位就是十进制数字，为了表示对他的尊敬，这个单位有时被称为 Hartley，作为信息的单位、尺度或度量。1940年，图灵在二战时期破解德国的“迷”密码（Enigma ciphers）的统计分析中使用了类似的思想。

信息论背后的许多数学理论（包括不同概率的事件）都是由路德维希·玻尔兹曼和约西亚·威拉德·吉布斯为热力学领域开发出来的。

香农的那篇革命性的、开创性的论文，于1944年的年底便已基本在贝尔实验室完成。在这论文里，香农将通信看作一个统计学过程，首次提出了通信的量化模型，并以此为基础推导出了信息论。论文开篇便提出了一下论断：

“通信的基本问题是在一点上精确地或近似地再现在另一点上选择的信息”

与此相关的一些想法包括：信息熵和信源冗余，以及信源编码定理；互信息，有噪信道的信道容量，包括无损通信的证明，和有噪信道编码定理；香农-哈特利定律 Shannon–Hartley law应用于高斯信道的信道容量的结果，以及比特 bit——一种新的度量信息的最基本单位信息的度量

信息论基于概率论和统计学，其中经常涉及衡量随机变量的分布的信息。信息论中重要的信息量有：熵（单个随机变量中信息的度量）和互信息（两个随机变量之间的信息的度量）。熵是随机变量的概率分布的一个属性，它限制了从给定分布中独立采样得到的数据的压缩率。互信息是两个随机变量的联合概率分布的一个属性，是当信道的统计量由联合分布确定时，在长块长度的限制下，通过有噪信道的可靠通信的最大速率。

在下列公式中，对数底数的选择决定了信息熵的单位。信息的常见单位是比特（基于二进制对数）。其他单位包括 nat（自然对数）和十进制数字（常用对数）。

下文中，按惯例将 p = 0 时的表达式p log p的值视为等于零，因为[math]\\displaystyle{ \\lim_{p \\rightarrow 0+} p \\log p = 0 }[/math]适用于任何对数底。

基于每个用于通信的源符号的概率质量函数，香农熵 Shannon Entropy（以比特为单位）由下式给出：[math]\\displaystyle{ H = - \\sum_{i} p_i \\log_2 (p_i) }[/math]

其中pi是源符号的第i个可能值出现的概率。该方程以比特（每个符号）为单位给出熵，因为它使用以2为底的对数。为表纪念，这个熵有时被称为香农熵。熵的计算也通常使用自然对数(以e为底数，其中e是欧拉数，其他底数也是可行的，但不常用)，这样就可以测量每个符号的熵值，有时在公式中可以通过避免额外的常量来简化分析。例如以28 = 256为底的对数，得出的值就以字节（而非比特）作为单位。以10为底的对数，每个符号将产生以十进制数字(或哈特利)为单位的测量值。

直观的来看，离散型随机变量X的熵HX是对不确定性的度量，当只知道其分布时，它的值与X的值相关。

当一个信息源发出了一串含有N个符号的序列，且每个符号独立同分布时，其熵为N ⋅ H位(每个信息N符号)。如果源数据符号是同分布但不独立的，则长度为N的消息的熵将小于N ⋅ H。 $\"\"$ The entropy of a Bernoulli trial as a function of success probability, often called the 模板:Em, Hb(p). The entropy is maximized at 1 bit per trial when the two possible outcomes are equally probable, as in an unbiased coin toss. 伯努利实验的熵，作为一个成功概率的函数，通常被称为二值熵函数, Hb(p)。当使用一个无偏的硬币做实验时，两个可能结果出现的概率相等，此时的熵值最大，为1。

如果一个人发送了1000比特（0s和1s），然而接收者在发送之前就已知这串比特序列中的每一个位的值，显然这个通信过程并没有任何信息（译注：如果你要告诉我一个我已经知到的消息，那么本次通信没有传递任何信息）。但是，如果消息未知，且每个比特独立且等可能的为0或1时，则本次通信传输了1000香农的信息（通常称为“比特”）。在这两个极端之间，信息可以按以下方式进行量化。如果

本文链接： http://betbubbles.immuno-online.com/view-749065.html

发布于： 2021-03-25 阅读（0）

没有了