Loading...
墨滴

精益修身

2021/03/26  阅读:80  主题:默认主题

统计学的stata命令

1. 最有用的命令

help 和 search

help summarize
search

2. 基本命令

2.1 导入

import excel

import excel "D:\《统计学》(第7版)—例题习题数据\(03)第3章  数据的图表展示(7)\(3-1)本章例题数据\例3.3.xlsx", sheet("Sheet1") cellrange(A1:B51) firstrow clear

2.2 保存

save

2.3 值标签

label define habit 1 "经常购买" 2 "不购买" 3 "有时购买"
label values habit habit

2.4 增加标签

label variable year "年"

2.5 改变变量名

rename

3. 图表展示

3.1 筛选与排序

在excel中,选择筛选》高级》条件区域。 在Stata中,可以使用:

if 语句
sort 升序
gsort -n 降序

注意 stata13以前是按照拼音排序,stata14以后是按照UTF-8汉字编码排序(CJK顺序)

3.2 数据透视表

tabulate v1 v2

tabulate v1 v2, row
tabulate v1 v2, row column

table var1 var2, contents(sum var3) row col

3.3 条形图

graph bar, over(catvar1)
graph bar (count), over(catvar1)
graph bar, over(gender) over(type
graph bar, over(type) by(gender) blabel(bar)
graph bar, over(type) by(gender) blabel(bar, format(%9.2f))

3.4 帕累托图

graph bar v1, over(catvar1, sort(1))
graph bar v1, over(catvar1, sort(1) descending)

3.5 饼图

graph pie, over(type
graph pie, over(type) by(gender)
graph pie, over(type) plabel(_all percent) pie(_all, explode)
graph pie, over(type) plabel(_all name) pie(_all, explode)
graph pie, over(type) plabel(_all name) pie(_all, explode) legend(off)

3.6 数据分组

su money
scalar num1 = r(max) - r(min) 
scalar width1 = num1 / 6
display "Class Width = " ceil(width1)
di 30+6*ceil(width1) //计算autocode里面最大值的参数
gen c2 = autocode(money, 6, 30, 534)
tab c2
tab c2, plot ***画图

3.7 茎叶图

stem var, lines(1) 只有一行
stem var, lines(2) 有两行

3.8 箱线图

graph box var
graph box var, nooutside
graph hbox var, nooutside

多个箱线图

graph box points, over(co, label(angle(45)))
graph box points, over(student)

3.9 线图

line city rural year, sort || scatter rural year || sc city year

tsset year
tsline rural city

3.10 散点图

scatter

3.11 气泡图

sc rain temp [w=production], msymbol(Oh) msize(*5)

3.12 雷达图

ssc inst radar
radar class 北京 天津 上海 重庆

4. 函数

4.1 众数

egen x=mode()
di x

注意 众数可能有多个,如果有多个众数,需要设定查看第几个众数。

4.2 中位数

sum var, detail
centile var
centile var, centile(25 50 75) //四分位数

4.3 平均数

summarize
mean()

4.4 查看多个变量的描述统计

tabstat

5. 参数估计和假设检验

5.1 置信区间

5.1.1 均值的置信区间

均值,正态分布
ci means v1-3 
mean()

均值,泊松分布
ci means v4, poisson

直接计算
cii means 85 10 3

mean var1 [weight=var2]
mean var, level(99)

5.1.2 总体比例的置信区间

ci proportions v6, wald 沃尔德方法,不推荐
Ci proportions var, agresti 推荐

检验一个比例
prtesti 50 0.9 0.95
prtesti 50 45 0.95, count

5.1.3 方差的置信区间

ci variances v1-v3

直接计算
计算总体标准差的置信区间
cii variances 15 0.02, sd level(90)

上面的命令可以计算置信区间。

5.2 两个样本

5.2.1 检验两个样本比例的差

prtest v == 0.1
prtesti 150 45 120 42, count

rdcii #a #b #c #d, options (推荐,需要安装)
rdci var_case var_exposed
var_case 病例变量
var_exposed 暴露变量

5.2.2 检验两个均值的差

  1. 非匹配数据
ttest m1==m2, unpaired
  1. 匹配数据
ttest m1==m2
  1. 直接计算
ttesti 10 25 4 20 23 4.472136, unequal

5.3 检验

  • 均值
ttest var=100
ztest var
  • 比例
prtest
bitest
  • 方差
sdtest

5.4 检验功效

power method ..., n(numlist) [power_options ...]

5.5 非参数检验(无需分布的检验)

  1. 检验分布
  • 正态性检验
sktest   从偏斜系数峰态系数来检验正态性
qnorm    正态分位数图
swilk    shapiro-wilk正态性检验
K-S检验 ksmirnov (见examples)
summ comp, detail
ksmirnov comp = normal((comp-r(mean))/r(sd))
  • 均匀分布检验
quantile
  1. 检验位置
秩检验 signrank signrankex(小样本)(匹配样本)
秩和检验 ranksum ranksumex(小样本) (独立样本)
  1. 自助法bootstrap
bootstrap mean=r(mean), reps(1000) nodots: summarize mpg, detail
bootstrap variance=r(Var), reps(1000) nodots: summarize mpg
bootstrap t=r(t), rep(1000) strata(foreign) saving(bsauto2) nodots: ttest mpg, by(foreign) unequal

6. 拟合优度检验和列联分析

6.1 计算chi2值

tabulate , chi2 cchi2
tabi 344 374 \ 126 1364, chi2

tab d e [weight=f], chi2 lrchi2

6.2 计算相关系数

correlate v1 v2 v3
correlate v1 v2 v3, covariance

pwcorr v1 v2 v3
pwcorr v1 v2 v3, sig
pwcorr v1 v2 v3, sig star(.05)
pwcorr v1 v2 v3, sig star(.05) bonferroni

6.3. 列联表

symmetry casevar controlvar
*Fisher’s Exact Test:2*2列联表,symmetry里选择exact

*McNemar’s Test:配对数据
mcc

7. 方差分析

7.1 Oneway 单因素方差分析

anova

7.1.1 计算两两相关

Stata语句:

anova var2 var1
pwcompare var1, effects mcompare(bonferroni)

7.1.2 非正式方法1:构建箱型图

graph box iqp, over(lead)

7.1.3 非正式方法2:构建均值的置信区间估计

Stata语句:

bysort var1: ci means var2

7.1.4 注意正态性检验和方差齐性检验

  • 方差齐性
anova complaints firm
estat hettest
  • 正态性检验
sktest complaints
swilk complaints
******ksmirnov方法
summ comp, detail
ksmirnov comp = normal((comp-r(mean))/r(sd))

8. 相关分析

8.1

correlate
pwcorr

8.2

mvtest normality //多元正态检验

***秩相关的命令

spearman 不良贷款 各项贷款余额 本年累计应收贷款 贷款项目个数 本年固定资产投资额, pw star(0.01) stats(rho p)
ktau

***偏相关分析 pcorr price mpg weight foreign

9. 回归分析

regress

  • 预测的非正常方法 gen dkye=各项贷款余-100 reg 不良贷款 dkye

  • 预测的一般方法 reg 不良贷款 各项贷款余额 predict y1 adjust 各项贷款余=100 adjust 各项贷款余=72.8, stdf ci //个别值预测的置信区间 adjust 各项贷款余=100, se ci //平均值预测的置信区间

  • 置信区间带 Lfitci, stdf Lfitci, stdp //默认

  • 回归后的分析

estat vif //查看膨胀因子
estat vce, correlation //查看相关系数
estat ic //查看AIC,BIC
estat hettest //检验同方差,可结合estat vce
estat imtest //信息矩阵
estat ovtest //是否遗漏高次项
  • 逐步回归
stepwise, pr(.2): regress y x1 x2 x3 x4 //向后选择,p值大于0.2,剔除
stepwise, pe(.1): regress y x1 x2 x3 x4 //向前选择,p值小于0.1加入
stepwise, pr(.2) pe(.1): regress y x1 x2 x3 x4 //向后逐步选择,大于0.2剔除,小于0.1加入
stepwise, pr(.2) pe(.1) forward: regress y x1 x2 x3 x4 //向前逐步选择,大于0.2剔除,小于0.1加入

10. 时间序列

tsset 设定时间变量,告诉stata,这是一个时间序列数据。
twoway connected 带点的线图
tssmooth ma 移动平均
tssmooth exponential 指数平均
tssmooth shwinters 

精益修身

2021/03/26  阅读:80  主题:默认主题

作者介绍

精益修身