《数据科学家养成手册》--第四章---数据科学的使命

4.1.2  从信息到数据

1948年香农(好像吐槽输入法)发表的论文《通信的数学理论》(A Mathematical Theory of Communication)其中的话:

if the number of message in the finite then this number or any monotonic function of this number can be regarded as a measure of the information producted when one message is chosen from the set ,all choices being equally likely. As  was pointed out by  Hartley the most natural choice is the logarithmic function. Although  thhis definition must be generalized considerably  when we consider the influence of the statistics of the message and when we have a continuous rang of messages,we will in all cases use an essentially logarithmic measure.

谷歌翻译:

如果有限的消息数量,那么这个数字或这个数字的任何单调函数都可以被看作是当从集合中选择一条消息时产生的信息的度量,所有的选择同样可能。 正如哈特利指出的那样,最自然的选择是对数函数。 虽然在我们考虑信息统计的影响时,当我们有持续的信息传递时,这个定义必须大致概括,但我们在任何情况下都会使用基本上对数的测度。

大致的意思:“信息是用来消除不确定性的东西”

香农信息熵公式

P是消息x产生的概率

数据作为一种承载信息的介质,实际上是一种将信息抽象后的符号表示。所以究其本质,无论是磁带上的语音数据,还是唱片上的音乐数据,磁盘上的文件数据,纸张上的文字数据,都具有如下的特性:

(1)作用:承载信息,消除不确定性

(2)形式:抽象够的符号记录

(3)定义:符号的含义经过约定,不会或至少容易产生二义性。

资源以及其中的句子

香农的信息论究竟牛在哪里? - 知乎

https://www.zhihu.com/question/27068465

(1)一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。

(2)人们曾经以采集食物为生,而如今他们要重新以采集信息为生,尽管这件事看起来很不可思议。

4.1.3 数据科学的本质

书中的定义:是一种研究信息感知,抽象,保存,建模,传输以及数据之间逻辑,数量统计,计算和转换关系的综合科学。

本质就是表达和知道对事物认知的关系量化,把普适性的科学思维方式应用到数据上,使其成为一门窄而深的,精准的,拥有完整体系的学科。

4.3 使命必达

能说出“有问题”是第一个层次----------定性

能说出“问题在哪里”是第二个层次----------定位

能说出“问题的大小或数量”是第三个层次---------定量

4.3.3 目标一致与不一致

使用数据科学求解问题,就需要我们站在同一的视角下,不同的时间是没有办法进行具体的对比的。

从而就需要简化模型-----定义目标,量化目标

所谓损失函数就是用来衡量和比较多种方案的优劣程度的量化工具。-----对于一个问题的多个解的比较过程,只要比较损失函数的值就可以了----这是一个极为理想的方案。

损失函数不仅仅是只存在于机器学习中,,在数据分析以及工程优化等都存在。在机器学习中领域,每一种模型都需要定义Loss函数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值