STATA常用34条命令总结

CSDN网站LandH的Blog原创

1、input: 输入数据

例：inpurt x y

1 4

2 3.5

3 7

end

2、by: 按照某一变量的取值来进行分析

例：by group，sort: regress Y x1 x2 //按照不同的组，对Y做回归分析

3、weight: 加权或者頻数

例：fw=頻数变量 //多用在四格表资料中或者未原资料未给出所有值，只给出了值和对应的頻数

4、if: 用条件语句指定条件

例：drop if group==1|group==2 //把group变量值为1或者2的记录删除掉

5、in:指定观察值的范围，对在范围内的观察值做分析处理

例：replace x1="123" in 100/200 //把第100-200条记录中的X1变量值改为123

6、for: 用来指定变量

例：for y1-y10 z1-z5: regress @x1-x22

//把y1-y10,z1-z5分别于x1-x22做回归，一次性代表15次回归，其中@是替换符，代表y1-y10, z1-z5

7、函数

abs(x) 绝对值

exp(x) 指数函数

log(x) 自然对数

log10(x) 常用对数

sqrt(x) 平方根

uniform(x) 生成（0,1）内均匀分布的伪随机数

length(x) 计算长度

substr(s,n1,n2) 获得从S的n1个字符开始的n2个字符组成的字符串

real(x) 将字符串s转换为数值函数

trim(x) 去除字符串前面和后面的空格

int(x) 去掉x的小数部分，得到整数

sum(X) 求和

max(x) min(x) 最大值最小值

_n 当前观察值的位置

_N 观察值的总个数

8、ren: 重命名

例：ren var1 var123 // 把var1重新命名为var123

9、des:描述数据库的基本情况

10、label: 为变量添加一些说明，以示说明

11、sort: 按照某一变量从小到大排序

gsort +/-：按照某一变量从大到小或者从小到大排序

sort var1 var2:按照var1大小排序，相同的var1按照var2大小排序

12、drop:删除变量或者记录

drop x1 x2

drop x1-x5

drop if x<0

drop in 1/100

drop if x==.|y==.

drop _all //清空数据库

13、keep: 与drop对应，保存变量

14、append:纵向连接数据库

15、merge:横向连接数据库

16、gen: 生成新变量

gen bh=_n //将数据库的内部编号赋给变量bh

17、replace:更改变量值

replace z=. if z=9 //将所有z=9的值用缺失值代替

renvars: 批量修改变量名

renvars X1-X5, prefix(mono_) //把变量X1-X5的变量名前加前缀mono_；同理后缀是postfix

18、set obs: 增加空记录

set obs 20 //增加20条空白记录

19、format: 改变数据格式

format tjrq %td //将tjrq改成日期形式

20、l: list 将结果列出

21、su: 对分析数据进行描述，均值标准差等，与des不同，des是描述数据库变量个数，格式等

su x, d // 对x进行统计描述，如果加了d，那么就会更加detail

22、centile: 百分位数计算

centile x, centile(2.5,50,97.5) //计算变量x的2.5,50.97.5百分位数

23、tab:頻数表达

tab sex //计算两个性别各自的頻数

tab sex group //看看各组性别分布的情况

tab group, sum(x1) //在各组内对x1统计分析

24、ci: 计算可信区间

25、直方图：gra x, bin(9) xlab(10,20,30,40) ylab(0,1,2,3) norm gap(4) b2("height (cm)")

//对x画直方图，分为9组，X轴为10,20,30,40，y轴为0,1,2,3，加上正态分布曲线，标题与坐标轴的距离（1-8），下坐标轴加标题为height(cm)

b1/t1/l1/r1("") 给各个坐标轴加标题

b2/t2/l2/r2("") 给各个坐标轴加副标题

title 给图加总标题

条图：gra x1 x2, bar by(group) sh(31) l1("rate of die") b1("comparison of rate of die")

// 对x1,x2画条图，分组变量为group，两组的明暗对比度为3:1，左标题rate of die，下标题comparison of rate of die

饼图：gra x1 x2 x3 x4 x5, pie by(group) sh(31) total

散点图与线图：connect（简写c）——连接散点的方式：

. 不连接

l 直线连接

s 平滑曲线连接

|| 直线连接在同一纵向上的两点

J 阶梯式线条连接

symbol(简写s)——各个散点的图形：

O 大圆圈

S 大方块

T 大三角型

o 小圆圈

d 小菱形

p 小加号

. 小点

gra y x, xlab ylab c(l) s(d)

箱式图：gra y x, oneway/twoway box

26、单样本均数t检验：ttest x=14.02（总体均数μ）

ttesti n mean sd μ

配对t检验：ttest x1==x2

两样本均数t检验：ttest x1==x2,unpaired

ttest x, by(group)

27、方差分析：

方差齐性检验：sdtest x1=x2

sdtest x, by (group)

正态性检验：sktest x

单因素方差分析： oneway 相应变量分组变量

两因素方差分析：anova 相应变量分组变量1 分组变量2

多因素方差分析：anova x a b c ... ab bc abc... //乘积项代表交互作用

28、率、构成比的比较：tab var1 var2 [fw=頻数变量]

chi2 pearson卡方检验

exact fisher确切概率法

如果是原始资料RXC列联表：tabi 第一行数字从左到右第二行从左到右...最后一行从左到右, row chi2 exact

29、队列研究（暴露，不暴露）：

ir 病例变量暴露变量时间变量 ./ irs a b n1 n2

cs 病例变量暴露变量 / csi a b c d

病例对照研究（发病，不发病）：cci a b c d

30、等级资料：

genrank 编秩 genrank rankx=x

signtest 符号检验类似t检验，signtest x=常数，signtest x1=x2, signrank x1=x2

signrank 符号秩和检验

ranksum/Wilcoxon 两样本秩和检验 wilcoxon var, by (group_var)

kwallis 多样本秩和检验（Kruskal-Wallis） kwallis var,by (group_var)

spearman 等级相关 spearman x y

ktau 等级相关（kendall） ktau x y

31、直线相关与回归：相关 corr y x

回归 reg y x

估计与预测 pre yhat

画图 gra y yhat l1 l2 l3 l4 x, c(.lssss) s(oiiii) xlab ylab

32、多元线性回归及逐步回归：

散点图矩阵：gra y x1 x2, matrix

相关系数矩阵： corr

多元回归方程：reg y x1 x2 //标准化偏回归系数，reg y x1 x2, beta

逐步回归：stepwise y x1-x4, forward fe(2.73) //α等于0.05时F界值为2.73，fe代表fenter选入标准，fs代表fstay剔除标准

逐步回归法：forward,backward,stepwise,stepwise forward 例如：step y x1-x4, step fe(2.5) fs(2.6) back

33、logistic回归：

logit y x [fw=f]

blogit y x1 x2 x3/ glogit y x1 x2 x3

也可以同上做逐步Logistic回归

34、生存曲线：

中位生存时间：survsum 时间变量截尾变量, by(分组变量)

生存曲线：kapmeier 时间变量截尾变量, by(分组变量) // kaplan-meier生存曲线

生存率比较：两组：wilcoxon 时间变量截尾变量, by(分组变量)

多组：logrank 时间变量截尾变量, by(分组变量)

COX分析：cox 时间变量自变量， dead(截尾变量)