9
9
---
10
10
<!-- TOC -->
11
11
12
- - [ 超参数选择] ( #超参数选择 )
12
+ - [ 超参数选择] ( #超参数选择 )
13
13
- [ Grid Search] ( #grid-search )
14
14
- [ Random Search] ( #random-search )
15
15
- [ 相关库(未使用)] ( #相关库未使用 )
16
- - [ 偏差与方差] ( #偏差与方差 )
17
- - [ 几种参数估计的区别于联系: MLE、MAP、贝叶斯 TODO] ( #几种参数估计的区别于联系-mlemap贝叶斯-todo )
18
- - [ 余弦相似度(Cos距离)与欧氏距离的区别和联系] ( #余弦相似度cos距离与欧氏距离的区别和联系 )
19
- - [ 监督学习和无监督学习] ( #监督学习和无监督学习 )
20
- - [ 熵,求投掷均匀正六面体骰子的熵] ( #熵求投掷均匀正六面体骰子的熵 )
21
- - [ 混淆矩阵、模型度量指标:准确率、精确率、召回率、F1 值等] ( #混淆矩阵模型度量指标准确率精确率召回率f1-值等 )
22
- - [ 如何处理数据中的缺失值] ( #如何处理数据中的缺失值 )
23
- - [ 介绍一个完整的机器学习项目流程] ( #介绍一个完整的机器学习项目流程 )
16
+ - [ 几种参数估计的区别于联系: MLE、MAP、贝叶斯 TODO] ( #几种参数估计的区别于联系-mlemap贝叶斯-todo )
17
+ - [ 余弦相似度(Cos距离)与欧氏距离的区别和联系] ( #余弦相似度cos距离与欧氏距离的区别和联系 )
18
+ - [ 监督学习和无监督学习] ( #监督学习和无监督学习 )
19
+ - [ 熵,求投掷均匀正六面体骰子的熵] ( #熵求投掷均匀正六面体骰子的熵 )
20
+ - [ 混淆矩阵、模型度量指标:准确率、精确率、召回率、F1 值等] ( #混淆矩阵模型度量指标准确率精确率召回率f1-值等 )
21
+ - [ 如何处理数据中的缺失值] ( #如何处理数据中的缺失值 )
22
+ - [ 介绍一个完整的机器学习项目流程] ( #介绍一个完整的机器学习项目流程 )
24
23
- [ 数据清洗与特征处理] ( #数据清洗与特征处理 )
25
- - [ 关联规则挖掘的 3 个度量指标:支持度、置信度、提升度] ( #关联规则挖掘的-3-个度量指标支持度置信度提升度 )
24
+ - [ 关联规则挖掘的 3 个度量指标:支持度、置信度、提升度] ( #关联规则挖掘的-3-个度量指标支持度置信度提升度 )
26
25
27
26
<!-- /TOC -->
28
27
@@ -66,18 +65,19 @@ Index
66
65
> geekcircle/machine-learning-interview-qa/[ 7.md] ( https://github.com/geekcircle/machine-learning-interview-qa/blob/master/questions/7.md )
67
66
68
67
什么是熵?
69
- > 深度学习/理论知识/[ 16. 信息熵、KL 散度(相对熵)与交叉熵** ] ( ../深度学习/README.md#16- 信息熵kl-散度相对熵与交叉熵 )
68
+ > 深度学习/理论知识/[ 信息熵、KL 散度(相对熵)与交叉熵** ] ( ../A- 深度学习/《深度学习》整理# 信息熵kl-散度相对熵与交叉熵 )
70
69
71
70
** 求投掷均匀正六面体骰子的熵**
72
71
73
72
- 问题描述:向空中投掷硬币,落地后有两种可能的状态,一个是正面朝上,另一个是反面朝上,每个状态出现的概率为1/2。如投掷均匀的正六面体的骰子,则可能会出现的状态有6个,每一个状态出现的概率均为1/6。试通过计算来比较状态的不确定性与硬币状态的不确定性的大小。
74
73
75
74
- 答:
76
75
77
- 硬币:[ ![ ] ( ../_assets/公式_20180620160408.png )] ( http://www.codecogs.com/eqnedit.php?latex=-\sum^{n}_{i=1}P(X_i)\log&space;P(X_i)&space;=&space;-2*\frac{1}{2}*\log&space;P(\frac{1}{2})\approx&space;1&space;\text{bit} )
78
-
79
- 六面体:[ ![ ] ( ../_assets/公式_20180620160538.png )] ( http://www.codecogs.com/eqnedit.php?latex=-\sum^{n}_{i=1}P(X_i)\log&space;P(X_i)&space;=&space;-6*\frac{1}{6}*\log&space;P(\frac{1}{6})\approx&space;2.6&space;\text{bit} )
76
+ 硬币:<div align =" center " ><a href =" http://www.codecogs.com/eqnedit.php?latex=-\sum^{n}_{i=1}P(X_i)\log&space;P(X_i)&space;=&space;-2*\frac{1}{2}*\log&space;P(\frac{1}{2})\approx&space;1&space;\text{bit} " ><img src =" ../_assets/公式_20180620160408.png " height =" " /></a ></div >
77
+
80
78
79
+ 六面体:<div align =" center " ><a href =" http://www.codecogs.com/eqnedit.php?latex=-\sum^{n}_{i=1}P(X_i)\log&space;P(X_i)&space;=&space;-6*\frac{1}{6}*\log&space;P(\frac{1}{6})\approx&space;2.6&space;\text{bit} " ><img src =" ../_assets/公式_20180620160538.png " height =" " /></a ></div >
80
+
81
81
82
82
## 混淆矩阵、模型度量指标:准确率、精确率、召回率、F1 值等
83
83
@@ -88,26 +88,22 @@ Index
88
88
- False Positive(FP):将负类预测为正类数 → 误报 (Type I error).
89
89
- False Negative(FN):将正类预测为负类数 → 漏报 (Type II error).
90
90
91
- ![ ] ( ../_assets/confusion_matrix.png )
91
+ < div align = " center " >< img src = " ../_assets/confusion_matrix.png " height = " " /></ div >
92
92
93
93
** 准确率** (accuracy)
94
-
95
- ![ ] ( ../_assets/TIM截图20180620171915.png )
94
+ <div align =" center " ><img src =" ../_assets/TIM截图20180620171915.png " height =" " /></div >
96
95
97
96
** 精确率** (precision)
98
-
99
- ![ ] ( ../_assets/TIM截图20180620171300.png )
97
+ <div align =" center " ><img src =" ../_assets/TIM截图20180620171300.png " height =" " /></div >
100
98
101
99
> 准确率与精确率的区别:
102
100
>> 在正负样本不平衡的情况下,** 准确率** 这个评价指标有很大的缺陷。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc 也有 99% 以上,没有意义。
103
101
104
102
** 召回率** (recall, sensitivity, true positive rate)
105
-
106
- ![ ] ( ../_assets/TIM截图20180620190555.png )
103
+ <div align =" center " ><img src =" ../_assets/TIM截图20180620190555.png " height =" " /></div >
107
104
108
105
** F1值** ——精确率和召回率的调和均值
109
-
110
- ![ ] ( ../_assets/TIM截图20180620191137.png )
106
+ <div align =" center " ><img src =" ../_assets/TIM截图20180620191137.png " height =" " /></div >
111
107
112
108
> 只有当精确率和召回率都很高时,F1值才会高
113
109
@@ -205,38 +201,31 @@ Index
205
201
这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程。这里的部分只是一个指导性的说明,只有多实践,多积累项目经验,才会有自己更深刻的认识。
206
202
207
203
208
- # 数据清洗与特征处理
204
+ ## 数据清洗与特征处理
209
205
> geekcircle/machine-learning-interview-qa/[8.md](https://github.com/geekcircle/machine-learning-interview-qa/blob/master/questions/8.md)
210
206
211
- **数据清洗**
212
-
213
- **特征处理**
214
-
215
- 
207
+ <!-- <div align="center"><img src="../_assets/数据清洗与特征处理.jpg" height="" /></div> -->
216
208
217
209
> [机器学习中的数据清洗与特征处理综述](https://tech.meituan.com/machinelearning-data-feature-process.html) - 美团点评技术
218
210
219
211
## 关联规则挖掘的 3 个度量指标:支持度、置信度、提升度
220
212
221
213
**支持度**(Support)
222
- ---
223
- X → Y 的支持度表示项集 {X,Y} 在总项集中出现的概率
214
+ - X → Y 的支持度表示项集 {X,Y} 在总项集中出现的概率
224
215
225
- []( http://www.codecogs.com/eqnedit.php?latex=Support(X\rightarrow&space;Y)=\frac{P(X\cup&space;Y)}{P(I)}=\frac{\text{num}(X\cup&space;Y)}{\text{num}(I)})
216
+ <div align="center"><a href=" http://www.codecogs.com/eqnedit.php?latex=Support(X\rightarrow&space;Y)=\frac{P(X\cup&space;Y)}{P(I)}=\frac{\text{num}(X\cup&space;Y)}{\text{num}(I)}"><img src="../_assets/公式_20180620204006.png" height="" /></a></div>
226
217
227
- 其中,I 表示总事务集,`num()`表示事务集中特定项集出现的次数,`P(X)=num(X)/num(I)`
218
+ - 其中,I 表示总事务集,`num()`表示事务集中特定项集出现的次数,`P(X)=num(X)/num(I)`
228
219
229
220
**置信度**(Confidence)
230
- ---
231
- X → Y 的置信度表示在先决条件 X 发生的情况下,由规则 X → Y 推出 Y 的概率。
221
+ - X → Y 的置信度表示在先决条件 X 发生的情况下,由规则 X → Y 推出 Y 的概率。
232
222
233
- []( http://www.codecogs.com/eqnedit.php?latex=Confidence(X\rightarrow&space;Y)=P(Y|X)=\frac{P(X\cup&space;Y)}{P(X)}=\frac{\text{num}(X\cup&space;Y)}{\text{num}(X)})
223
+ <div align="center"><a href=" http://www.codecogs.com/eqnedit.php?latex=Confidence(X\rightarrow&space;Y)=P(Y|X)=\frac{P(X\cup&space;Y)}{P(X)}=\frac{\text{num}(X\cup&space;Y)}{\text{num}(X)}"><img src="../_assets/公式_20180620205055.png" height="" /></a></div>
234
224
235
225
**提升度**(Lift)
236
- ---
237
- X → Y 的提升度表示含有X的条件下,同时含有Y的概率,与Y总体发生的概率之比。
226
+ - X → Y 的提升度表示含有X的条件下,同时含有Y的概率,与Y总体发生的概率之比。
238
227
239
- []( http://www.codecogs.com/eqnedit.php?latex={\displaystyle&space;{\begin{aligned}&space;Lift(X\rightarrow&space;Y)&=\frac{P(Y|X)}{P(Y)}=\frac{Confidence(X\rightarrow&space;Y)}{\text{num}(Y)/\text{num}(I)}\\&space;&=\frac{P(X\cup&space;Y)}{P(X)P(Y)}=\frac{\text{num}(X\cup&space;Y)\text{num}(I)}{\text{num}(X)\text{num}(Y)}&space;\end{aligned}}})
228
+ <div align="center"><a href=" http://www.codecogs.com/eqnedit.php?latex={\displaystyle&space;{\begin{aligned}&space;Lift(X\rightarrow&space;Y)&=\frac{P(Y|X)}{P(Y)}=\frac{Confidence(X\rightarrow&space;Y)}{\text{num}(Y)/\text{num}(I)}\\&space;&=\frac{P(X\cup&space;Y)}{P(X)P(Y)}=\frac{\text{num}(X\cup&space;Y)\text{num}(I)}{\text{num}(X)\text{num}(Y)}&space;\end{aligned}}}"><img src="../_assets/公式_20180620213601.png" height="" /></a></div>
240
229
241
230
规则的有效性:
242
231
---
0 commit comments