Loading...
墨滴

thomas

2021/09/13  阅读:48  主题:橙心

统计学导言新

统计学第一节

教师:营刚

nmgswt2018@163.com

课件地址:知乎搜索“托马斯营”在“统计学与机器学习”栏目下


课程安排

了解本门课程的考核方式

了解本课程的学习方法

课程特色

经济学与统计学

统计学与因果推断

课堂讨论


学习方法

快速变迁的学科

向最前沿前进

因此内容不设上限

以讲练为主,数据实操为主


考核方式

平时作业80%,期末考试20%

平时作业大概30次作业,小组+个人

期末展示,2-3人一组


小测试

我的假设是全部在场的同学中至少有两位生日在同一天,猜一猜我获胜的几率有多大?

然后我们打开看一下结果
大家可打开问卷星网站。
用户名: ndeconomics
密码: ndeconomics1


原理

构造一个n-1个不同生日样本组成的T分布,新增的一个同学生日有多大概率会与原有n-1个同学生日相同呢?
从图形上看,如果有100个同学,则必定会有至少两个相同。
事实上有70个同学,概率就达到97%;
有30个同学,相同概率达到80%以上。
这就是为什么,统计学把30确定为大样本的条件。
意思是说,独立同分布情况下,30个样本就大概率会发生向平均值趋近或等于平均值事件。

推广

用有限的信息如何推断出总体(想要获得的情报或规律)

正态分布 T分布 ...


课程特色


1、经济管理核心专业课
2、数据分析
3、软件操作
4、结果解释
+
5、因果推断
6、研讨课


从哲学到科学

哲学负责逻辑和思辨,但缺陷是没有数据的支持,很多命题似是而非。
科学让一切暴露在阳光下!

现代科学是基于大数据的科学

统计学与经济学

1、理论
2、数据
3、统计学 4、因果推断

物理学爱因斯坦的质能转换方程

经济学也有类似的定律,即

数据:整理计算有关一国或地区的资本数据
统计:使用统计学技术加以验证或证伪


传统统计学工具采用

1、线性回归方式
2、参数估计
CD函数就是线性的、参数式的估计

其中y是人均收入,代表一个社会富裕程度,A是技术水平,外生变量;
K是人均资本数量,
是人均资本产出弹性,代表资本对经济发展的贡献份额,是一个稳定的量。发达国家数据统计显示为大约1/3-1/4,这也是大数回归均值的表现。 问题是这一公式解释不了发展中国家经济发展,也解释不了工业革命前的农业社会。


于是理论创新,统计学创新

区别在于资本弹性是一个变动值,或它就是人均资本数量本身。 看解释力,
工业前社会
由于k<1,当k增加时,y也会增长1,但永远不会超过1,
农业社会增加财富的手段就是战争掠夺或出现安于现状的文化。
工业社会不同,其财富不取决于农业产出,比如纺织、化工、能源等,其增长速率使得k>1,因而出现了社会核裂变式的增长
本应更快的工业社会前期
发展中国家的道路应与发达国家截然不同
区间,人均收入的增长是指数化的
必然放慢的发达社会 此时 ,只能实现比资本增长略低的增长


统计学与机器学习

deepmind诞生的新世界冠军
4:1绝对优势
Alphago vs 李世石 3600
Fan 3144
Lee 3739
M 4858
Zero 5185

线性回归
深度学习


数学的前世今生

数学与方程组

函数的前世今生

群论

教授讲课

在哔哩哔哩搜索

李群
阿贝尔群
非阿贝尔群

发现找不到,这些都是最艰难的数学。

我们的目标是,利用这些人类最杰出的数学、模型来加深我们对特定社会或科学课题的理解

我们先来研究一下函数问题

如何估计f f的常见形式
常数函数

多元线性函数

一元多项式

包含交互项

维数灾难,计算资源不够。


拟合

复合函数

深度结构模型 参数估计方法 比如经济学上的柯布道格拉斯生产函数(CD函数)

可以解释发达国家经济增长数据,但是却解释不了发展中国家经济增长数据 算法:最小二乘法,可以转化为线性模型 新的算法是采用非参数模型


预测

得到一系列函数的参数

模型的可解释性
数据误差:数据搜集整理出错
训练误差:模型在训练集上的误差
测试误差:模型在新数据上的误差


寻找一个合适的模型

测试误差尽可能的小
习题:抽出样本,训练样本
试题:测试样本,测试集
全体问题:总体

学习的目的是降维?


统计学中的几个主要术语

1.总体(Population)
是根据研究的目的所确定的由个体组成的整体。
2.样本(Sample)及样本容量
总体的一部分为样本;总体中的单位数为样本容量。
3.参数(Parameter)
描述总体的特征量,是一个未知量。
4.统计量(Statistic)
描述样本的量。
5.变量
描述现象某种特征的量。
6.指标
描述现象数量方面的范畴。


线性回归:找到一条直线来预测目标值

一个简单的场景:已知房屋价格与尺寸的历史数据,问面积为2000时,售价为多少?


1、线性回归的应用

预测客户终生价值: 基于老客户历史数据与客户生命周期的关联关系,建立线性回归模型,预测新客户的终生价值,进而开展针对性的活动。
机场客流量分布预测: 以海量机场WiFi数据及安检登机值机数据,通过数据算法实现机场航站楼客流分析与预测。
货币基金资金流入流出预测: 通过用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率等信息,对用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。
电影票房预测: 依据历史票房数据、影评数据、舆情数据等互联网公众数据,对电影票房进行预测。


2. 逻辑回归:找到一条直线来分类数据

逻辑回归虽然名字叫回归,却是属于分类算法,是通过Sigmoid函数将线性函数的结果映射到Sigmoid函数中,预估事件出现的概率并分类。

逻辑回归从直观上来说是画出了一条分类线。位于分类线一侧的数据,概率>0.5,属于分类A;位于分类线另一侧的数据,概率<0.5,属于分类B。

类比断点回归(RDD)、双重差分(DID)、倾向得分匹配(PSM)等方法。

类似的例子 工业园区政策是否促进了地区经济增长 二胎政策是否促进了人口增长率的回升 教育双减政策是否促进了学生创造力的发展


3. 截面数据分析

生产函数模型

C-D生产函数

新结构生产模型


4、时间序列分析


5、面板数据


6、因果推断

有向无环图

工具变量法

断点回归法

双重差分模型

PSM匹配法

合成控制法


经济统计学常用软件

最常用
Excel或wps表格
Eviews
Stata

需要频繁的使用电脑!


课堂作业

《统计学》课程大学生目标特征分析
各自完成,有问题可以先在小组内完成
现场分组

然后我们打开看一下结果 大家可打开问卷星网站。 用户名: ndeconomics 密码: ndeconomics1 我们试着做一下分析基本分析 交叉分析 自定义分析 SPSS分析


讨论时间

15分钟讨论时间

大学生的目标主要特征有哪些?
有哪些启示?
什么情况下,制定目标是有效的?
制定多长时间的目标可能是有效的?
完成目标后的感觉是什么样?
从这个讨论中你学到什么?

各组分享讨论结果

作业请提交在qq群《问卷分析》


课程QQ群


stata软件下载安装

手机微信关注公众号:经管在线
按照要求回复:stata15
获得软件地址,下载并安装
主要使用其中,统计功能
尽快熟悉软件基本操作


本节课后作业

分别上呼和浩特统计局、内蒙古统计局、国家统计局或世界银行网站:
http://tjj.huhhot.gov.cn/——统计业务
http://www.stats.gov.cn/——统计数据——数据查询
https://www.shihang.org/——数据/data——浏览数据 by county:by indicator
因变量(被解释变量):GDP、收入、产量
控制变量:劳动力、资本、土地等投入要素
核心变量(你认为最影响产出的因素):
完成一篇分析报告: 有观点,有数据,有简单统计分析(图形分析)
地区可以选择内蒙古(或某地市),时期可以是多年、一年、一季度、一个月。

下节课上课我们用这些数据进行分析


回顾本节课内容

统计学的理论——数据——统计分析
数据类型
因果推断
讨论

thomas

2021/09/13  阅读:48  主题:橙心

作者介绍

thomas