本書是寫給社會科學類專業(yè)的青年學子或者研究人員的社會統計學入門教材,內容深入淺出、文字通俗易懂,致力于幫助讀者建立統計思維、掌握社會統計學基本原理和方法。本書共16章,分為四篇,第一篇統計基礎,包含統計思維、描述性統計和概率與分布初步等內容;第二篇統計推斷,包含抽樣分布、參數的假設檢驗、方差分析、非參數檢驗、相關與回歸等內容;第三篇統計模型,包含統計建;A、線性回歸模型應用基礎、回歸診斷、虛擬變量回歸模型等內容;第四篇寫給零基礎學習者的R語言基礎,包含R基本操作、R語言數據組織與基本數據管理、高級數據管理、R語言數據可視化等內容。
更多科學出版社服務,請掃碼獲取。
主持國家自然科學基金、中國博士后科學基金、教育部人文社會科學基金項目、湖北省自然科學基金項目、湖北省教育廳科學技術研究計劃優(yōu)秀中青年人才項目、湖北省教育廳人文社會科學項目等科研項目9項。
目錄
前言
第一篇 統計基礎
第1章 統計思維 3
1.1 統計是一種思維方式 3
1.1.1 統計學家和普通人想得不一樣 3
1.1.2 統計思維的特征 4
1.2 統計是大數據分析的內核 5
1.2.1 我們已置身大數據時代 5
1.2.2 大數據時代的世界 6
1.2.3 大數據的底層邏輯是統計分析 7
1.3 統計分析是為了尋找真相 8
1.4 統計數字會撒謊 10
1.5 本章小結 11
第2章 描述性統計 13
2.1 數據測量層次 14
2.1.1 定類尺度 14
2.1.2 定序尺度 15
2.1.3 定距尺度 15
2.1.4 定比尺度 16
2.2 集中趨勢描述 17
2.2.1 平均數 17
2.2.2 中位數 18
2.2.3 四分位數 19
2.2.4 眾數 19
2.3 離散趨勢描述 20
2.3.1 極差 20
2.3.2 方差 21
2.3.3 標準差 21
2.3.4 離散系數 22
2.4 本章小結 22
第3章 概率與分布初步 24
3.1 概率是決策的基礎 24
3.1.1 人類渴望預知未來,未來充滿了不確定性 24
3.1.2 概率是不確定性情形決策的重要工具 24
3.1.3 需要注意的決策謬誤 25
3.2 概率的基本知識 25
3.2.1 概率的基本概念 25
3.2.2 概率的基本規(guī)則 26
3.3 概率分布及分布曲線 29
3.3.1 概率分布 29
3.3.2 分布曲線 30
3.4 正態(tài)分布 31
3.4.1 正態(tài)分布概述 31
3.4.2 正態(tài)分布曲線的特征 31
3.4.3 正態(tài)分布曲線的Z值 32
3.4.4 正態(tài)分布曲線的應用 33
3.5 本章小結 34
第二篇 統計推斷
第4章 抽樣分布 37
4.1 為什么要抽樣 37
4.2 可以用樣本均值推斷總體均值嗎 37
4.3 抽樣分布的概念 39
4.4 t分布 40
4.5 大數定理和中心極限定理 43
4.5.1 大數定理 43
4.5.2 中心極限定理 44
4.6 區(qū)間估計 46
4.7 本章小結 48
第5章 參數的假設檢驗 49
5.1 假設檢驗的基本邏輯 49
5.2 單樣本均值假設檢驗 51
5.2.1 什么是單樣本均值假設檢驗 51
5.2.2 單樣本均值假設檢驗的步驟 52
5.3 雙樣本均值假設檢驗 56
5.3.1 什么是雙樣本均值假設檢驗 56
5.3.2 雙樣本均值假設檢驗的步驟 57
5.4 配對樣本均值假設檢驗 62
5.4.1 什么是配對樣本均值假設檢驗 62
5.4.2 配對樣本均值假設檢驗的步驟 63
5.5 本章小結 68
第6章 方差分析 69
6.1 什么是方差分析 69
6.2 方差分析的6個步驟 69
6.3 單因素方差分析 72
6.3.1 什么是單因素方差分析 72
6.3.2 單因素方差分析的步驟 73
6.4 雙因素方差分析 74
6.4.1 什么是雙因素方差分析 74
6.4.2 雙因素方差分析的步驟 75
6.5 本章小結 79
第7章 非參數檢驗 80
7.1 單樣本卡方檢驗——定類變量假設檢驗的有效工具 80
7.1.1 什么是卡方值 80
7.1.2 卡方分布與假設檢驗 82
7.1.3 單因素擬合優(yōu)度檢驗 83
7.1.4 列聯表與雙因素獨立檢驗 85
7.1.5 卡方檢驗使用的注意事項 88
7.2 配對樣本非參數檢驗 89
7.2.1 什么是配對樣本 89
7.2.2 兩配對樣本非參數檢驗——符號檢驗 90
7.2.3 兩配對樣本非參數檢驗——符號秩檢驗 92
7.2.4 多配對樣本非參數檢驗——Friedman檢驗 96
7.3 獨立樣本非參數檢驗 98
7.3.1 什么是獨立樣本 98
7.3.2 兩獨立樣本的非參數檢驗——秩和檢驗 99
7.3.3 兩獨立樣本的非參數檢驗——曼-惠特尼U檢驗 101
7.3.4 多獨立樣本的非參數檢驗——Kruskal-Wallis檢驗 103
7.4 本章小結 105
第8章 相關與回歸 107
8.1 相關和因果 107
8.1.1 什么是相關關系 107
8.1.2 相關不等同于因果 108
8.2 如何識別和測度相關關系 109
8.2.1 散點圖 109
8.2.2 從方差到協方差 110
8.2.3 皮爾森相關系數——標準化協方差 111
8.2.4 偏相關 113
8.2.5 相關系數的顯著性檢驗 113
8.2.6 不同數據類型的相關性檢驗 114
8.2.7 相關性檢驗的R語言實現 115
8.3 回歸分析 117
8.3.1 線性回歸模型的幾何解釋 118
8.3.2 回歸系數和截距 119
8.3.3 擬合優(yōu)度R2 119
8.3.4 多元線性回歸 120
8.3.5 回歸的假設檢驗 121
8.3.6 回歸分析的R語言實現 123
8.4 本章小結 124
第三篇 統計模型
第9章 統計建;A 127
9.1 統計建模的一個故事 127
9.2 統計建模的一般思路 128
9.3 案例分析 132
9.4 本章小結 136
第10章 線性回歸模型應用基礎 138
10.1 回歸分析應用概述 138
10.2 建立線性回歸數學模型 140
10.2.1 建立線性回歸數學模型的一般步驟 140
10.2.2 多元線性回歸模型與解釋變量、控制變量 141
10.3 線性回歸數學模型求解與結果分析 142
10.3.1 回歸方程參數估計與回歸系數的解釋 142
10.3.2 線性回歸模型的擬合優(yōu)度 145
10.3.3 線性回歸模型的假設檢驗 145
10.4 本章小結 147
第11章 回歸診斷 149
11.1 回歸模型的前提假設 149
11.2 殘差的診斷 150
11.2.1 線性檢驗 150
11.2.2 獨立性檢驗 151
11.2.3 殘差方差齊性檢驗 152
11.2.4 殘差正態(tài)性檢驗 154
11.3 數據的診斷 155
11.3.1 異常點 155
11.3.2 強影響點 156
11.4 回歸診斷的R語言實現 157
11.5 本章小結 161
第12章 虛擬變量回歸模型 162
12.1 一個錯誤的解釋和一個錯用的模型 162
12.1.1 結果誤讀 162
12.1.2 模型誤用 163
12.2 什么是虛擬變量 164
12.2.1 虛擬變量的含義 164
12.2.2 虛擬變量對回歸模型選擇的影響 164
12.3 解釋變量為虛擬變量的回歸模型 164
12.3.1 加法形式的回歸模型 164
12.3.2 乘法形式的回歸模型 166
12.4 被解釋變量為虛擬變量的回歸模型 167
12.4.1 Logistic回歸 168
12.4.2 glm()函數 169
12.4.3 數據分析與結果的解讀 169
12.4.4 虛擬變量回歸模型的擬合與診斷 170
12.5 本章小結 172
第四篇 寫給零基礎學習者的R語言基礎
第13章 R基本操作 175
13.1 編程是門“手藝” 175
13.1.1 為什么要學習編程 175
13.1.2 編程可以學會嗎 176
13.2 編程語言是工具 176
13.2.1 編程語言的分類 176
13.2.2 編程語言的區(qū)別 176
13.2.3 編程語言的選擇 177
13.3 初識R 177
13.3.1 R的特點 177
13.3.2 R安裝與操作界面 177
13.3.3 與R的簡單互動 179
13.3.4 工作空間 181
13.3.5 腳本 182
13.3.6 包 183
13.4 本章小結 184
第14章 R語言數據組織與基本數據管理 185
14.1 R的基本數據類型 185
14.1.1 什么是數據類型 185
14.1.2 R常用的數據類型 186
14.2 R的基本運算 188
14.2.1 算術運算 188
14.2.2 比較運算 189
14.2.3 邏輯運算 190
14.2.4 運算次序 191
14.3 R的數據結構 192
14.3.1 一維同質表達——向量 192
14.3.2 二維同質模式——矩陣 193
14.3.3 矩陣多維延展——數組 194
14.3.4 對象有序集合——列表 195
14.3.5 二維不同模式——數據框 196
14.3.6 特殊變量集合——因子 198
14.4 R的數據輸入 199
14.4.1 使用鍵盤輸入數據 199
14.4.2 從帶分隔符的文本文件導入數據 200
14.4.3 導入Excel數據 201
14.4.4 導入SPSS數據 201
14.4.5 導入SAS數據 202
14.4.6 導入Stata數據 202
14.4.7 導入其他數據 202
14.5 R的基本數據管理 203
14.6 本章小結 210
第15章 高級數據管理 211
15.1 數據處理案例介紹 211
15.2 R內置函數 212
15.3 R處理數據的步驟 217
15.4 R控制流 221
15.5 用戶自編函數 223
15.6 本章小結 225
第16章 R語言數據可視化 226
16.1 常見單變量統計圖繪制 227
16.1.1 直方圖 227
16.1.2 柱狀圖 228
16.1.3 餅圖 229
16.1.4 箱線圖 230
16.2 常見雙變量統計圖 230
16.2.1 并列箱線圖 230
16.2.2 散點圖 232
16.2.3 堆疊柱狀圖 233
16.2.4 分組柱狀圖 233
16.3 使用ggplot2進行高級繪圖 234
16.3.1 ggplot2簡介 234
16.3.2 為散點圖添加回歸擬合線 236
16.3.3 分面圖 238
16.3.4 利用ggplot2描述數據分布 240
16.4 本章小結 243
主要參考文獻 245