6.00.2x学习笔记Week2 Part2

大数法则

在数学与统计学中，大数定律又称大数法则、大数律，是描述相当多次数重复实验的结果的定律。根据这个定律知道，样本数量越多，则其平均就越趋近期望值。

大数定律很重要，因为它“保证”了一些随机事件的均值的长期稳定性。人们发现，在重复试验中，随着试验次数的增加，事件发生的频率趋于一个稳定值；人们同时也发现，在对物理量的测量实践中，测定值的算术平均也具有稳定性。比如，我们向上抛一枚硬币，硬币落下后哪一面朝上本来是偶然的，但当我们上抛硬币的次数足够多后，达到上万次甚至几十万几百万次以后，我们就会发现，硬币每一面向上的次数约占总次数的二分之一。偶然必然中包含着必然。

It’s worth noting that the law of large numbers does not imply, as too many seem to think, that if deviations from the expected behavior occur, these deviations are likely to be evened out by opposite deviations in the future.

这句话的意思是：大数法则并不表示如果一个结果一直发生，那么接下来发生相反结果的可能性就会增大。

也就是说如果抛硬币无论连续多少次都是head，也不表示下一次是tail的可能性增大，因为每一次抛都是一次独立的事件，事件之间没有相互影响。

这是人们的一种错误的惯性思维。把不确定性与确定性联系了起来。

当你扔10^1,000,000次硬币的时候，你会看到几个连续的1,000,000万的head，如果你基于此作了判断，那这显然是错误的。也就是我们常说的，只见树木，不见森林。也就是说你不可能只看一个大的随机序列的子集。

而且，如果一个大的随机序列的每个子集都是随机的，反而说明这个大序列不是随机的。如果你iPod shuffle功能从来没有连续播放一首相同的歌，说明它在选择上不是完全随机的。

同样，大数法则也不表示head和tail数目的绝对值趋近于0，实际上你抛的越多，他们直接的绝对值差会越大。只是head和tail的比率趋近于1。比率接近于1比较容易理解，但绝对值之差为什么会越来越大呢？

我们来看code：

def flipPlot(minExp, maxExp):
    """Assumes minExp and maxExp positive integers; minExp < maxExp
       Plots results of 2**minExp to 2**maxExp coin flips"""
    ratios = []
    diffs = []
    xAxis = []
    for exp in range(minExp, maxExp + 1):
        xAxis.append(2**exp)
    for numFlips in xAxis:
        numHeads = 0
        for n in range(numFlips):
            if random.random() < 0.5:
                numHeads += 1
        numTails = numFlips - numHeads
        ratios.append(numHeads/float(numTails))
        diffs.append(abs(numHeads - numTails))
    pylab.title('Difference Between Heads and Tails')
    pylab.xlabel('Number of Flips')
    pylab.ylabel('Abs(#Heads - #Tails)')
    pylab.plot(xAxis, diffs)
    pylab.figure()
    pylab.title('Heads/Tails Ratios')
    pylab.xlabel('Number of Flips')
    pylab.ylabel('Heads/Tails')
    pylab.plot(xAxis, ratios)

random.seed(0)
flipPlot(4, 20)
pylab.show()

首先，随着次数的增加，在一开始一小段剧烈浮动之后，正反的比率趋近于1。

Difference Between Heads and Tails

但是他们的绝对值之差在增加。但是这个增加的数量之小，于总计抛的次数之比可以忽略不计，这也就是为什么虽然正反绝对值之差越来越大，但是比率却趋近于1。因为两者完全不在一个数量级上，前者对后者的影响可以忽略不计。而且这里的向上的线条有欺骗作用。虽然趋势是向上的，但并不代表没有任何波动。这点要特别注意。

Difference Between Heads and Tails

把x轴改为坐标改为logarithmic，并把线改为点，数据的分布情况和趋势就看的更明显。

Source Code

结论：it’s never possible to be assured of perfect accuracy through sampling unless you sample the entire population.
接下来的问题是：how many samples we need to look at before we can have some justification that the conclusion we’re reaching really is sound.

既然部分永远无法代表全部，但在大多数情况下我们无法sample全部，那sample多少才算够？

做simulation时，我们知道仅仅做一次是不够的。要对多次simulation统计结果进行描述，仅仅给出算术平均也是不够的。我们还要看值的分布情况。这里我们引入Standard Deviation的概念，也就是标准差。

What the standard deviation is telling us is how many values are close to the mean.

例如，两组数的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7，但第二个集合具有较小的标准差。

标准方差的算法：

元素之和除以元素数量的到算术平均
每个元素于算术平均的差的平方相加，再除以元素数量。
开方

def stdDev(X):
    mean = sum(X)/float(len(X))
    tot = 0.0
    for x in X:
        tot += (x - mean)**2
    return (tot/len(X))**0.5
    
def runTrial(numFlips):
    numHeads = 0
    for n in range(numFlips):
        if random.random() < 0.5:
            numHeads += 1
    numTails = numFlips - numHeads
    return numHeads, numTail

因为要多次的trial，所以把每一次Trial单独写个function。

def flipPlot(minExp, maxExp, numTrials):
    meanRatios = []
    meanDiffs = []
    ratiosSDs =  []
    diffsSDs =  []
    xAxis = []
    for exp in range(minExp, maxExp + 1):
        xAxis.append(2**exp)
    for numFlips in xAxis:
        ratios = []
        diffs = []
        for t in range(numTrials):
            numHeads, numTails = runTrial(numFlips)
            ratios.append(numHeads/float(numTails))
            diffs.append(abs(numHeads - numTails))
        meanRatios.append(sum(ratios)/numTrials)
        meanDiffs.append(sum(diffs)/numTrials)
        ratiosSDs.append(stdDev(ratios))
        diffsSDs.append(stdDev(diffs))
    pylab.plot(xAxis, meanRatios, 'bo')
    pylab.title('Mean Heads/Tails Ratios ('
                + str(numTrials) + ' Trials)')
    pylab.xlabel('Number of Flips')
    pylab.ylabel('Mean Heads/Tails')
    pylab.semilogx()
    pylab.figure()
    pylab.plot(xAxis, ratiosSDs, 'bo')
    pylab.title('SD Heads/Tails Ratios ('
                + str(numTrials) + ' Trials)')
    pylab.xlabel('Number of Flips')
    pylab.ylabel('Standard Deviation')
    pylab.semilogx()
    pylab.semilogy()