随笔:关于高维空间样本分布稀疏性的联想
随笔:关于高维空间样本分布稀疏性的联想
背景提要
在高维的向量空间中,假设有限个数的样本从一个均匀分布随机采样得到的,那么可以证明这些样本大多会倾向于分布在高维球体或立方体的面都附近(Surface),而且即便是最近的两个样本之间的距离也会非常远,因为高维空间实在太稀疏了。比如在卷积神经网络使用的向量维度通常是1024维或2048维。
我一直在思考有没有一个形象化的比喻来直观地解释,或者类比一下这个现象。先想到了两个例子,但可能原理不同,也不一定贴切。
宇宙膨胀
现代的宇宙学最大的一个发现就是,我们所处的宇宙是在不断膨胀的,就像一个正在不断被吹胀的气球一样,我们周围的星系在不断离我们远去。但是据说我们的宇宙的维度可能有11维(包括宏观维度和微观物质的维度),即便我们的宇宙是高维空间,也不像是1024或2048维这么高的维度;而且宇宙空间会纯粹的数学上的向量空间是两个完全不同的系统,即便在某些性质上可能会有相似的交集。
突然想起一句台词,”我们像星星一样近,我们像星星一样远。我们近得摩擦生电,我们远如天际云端。“
社交距离&人际关系的疏远
我想到的一个完全不相干,但是又很奇妙的比喻:人际关系的亲疏远近。有个比较普遍的现象:小时候很容易交到朋友和玩伴,建立一段Friendship的障碍没有那么大,小孩子之间的社交距离很近;但是随着我们逐渐长大,经历的事情越来越多,我们的心灵越来越社会化,会越发现建立一段Relationship会变得愈发困难。进入社会工作后,自己身边都是”同事“和陌生人,大家都很忙,彼此不想过度打扰,即便是你感觉再好的朋友距离也会比小时候变远,就好像在一段数轴上均匀分布的5个点可能离得很近,但是如果把这5个点随机撒入几十维的高维球中,那么即便是最近的两个点,其欧氏距离也比一维坐标轴上的距离要更遥远。
那么比喻的相似点在哪里呢?年龄小的时候,我们所生活在一个低维的世界中,在这个世界中只有”吃饭“,”睡觉“,”写作业“,”玩“等较少的维度中。维度越低的时候,也是我们的心智越稚嫩简单的时候,对陌生人和这个世界容易充满信任。当我们慢慢长大,上大学,读研,工作,建立家庭,我们的生活维度在不断扩张,直到变成一个高维空间。在这个高维空间里,生活和工作中的遇到的人际关系会更加复杂,再也不是在象牙塔里如此的单纯,仿佛整个世界只由几个简单的维度构成。生活在一个高维空间里是很容易疲惫,就好像训练一个高维的神经网络模型一样困难。自然而然,在这个高维空间里,如果把每个人作为这个社会随机采样下的样本,样本之间的距离也会随之自然变远。
PS: 居然查到了有《社会统计学》这门课,不过真正的社会统计学肯定不是像我这般的胡思乱想。
"无尽的远方,无数的人们,都与我有关。" 希望这句话能带给我一些安慰。