Skip to content

Commit 45b6c76

Browse files
committed
update
1 parent 20dd08a commit 45b6c76

File tree

3 files changed

+94
-110
lines changed

3 files changed

+94
-110
lines changed

A-机器学习/A-机器学习实践.md

+28-39
Original file line numberDiff line numberDiff line change
@@ -9,20 +9,19 @@ Index
99
---
1010
<!-- TOC -->
1111

12-
- [超参数选择](#超参数选择)
12+
- [超参数选择](#超参数选择)
1313
- [Grid Search](#grid-search)
1414
- [Random Search](#random-search)
1515
- [相关库(未使用)](#相关库未使用)
16-
- [偏差与方差](#偏差与方差)
17-
- [几种参数估计的区别于联系: MLE、MAP、贝叶斯 TODO](#几种参数估计的区别于联系-mlemap贝叶斯-todo)
18-
- [余弦相似度(Cos距离)与欧氏距离的区别和联系](#余弦相似度cos距离与欧氏距离的区别和联系)
19-
- [监督学习和无监督学习](#监督学习和无监督学习)
20-
- [熵,求投掷均匀正六面体骰子的熵](#熵求投掷均匀正六面体骰子的熵)
21-
- [混淆矩阵、模型度量指标:准确率、精确率、召回率、F1 值等](#混淆矩阵模型度量指标准确率精确率召回率f1-值等)
22-
- [如何处理数据中的缺失值](#如何处理数据中的缺失值)
23-
- [介绍一个完整的机器学习项目流程](#介绍一个完整的机器学习项目流程)
16+
- [几种参数估计的区别于联系: MLE、MAP、贝叶斯 TODO](#几种参数估计的区别于联系-mlemap贝叶斯-todo)
17+
- [余弦相似度(Cos距离)与欧氏距离的区别和联系](#余弦相似度cos距离与欧氏距离的区别和联系)
18+
- [监督学习和无监督学习](#监督学习和无监督学习)
19+
- [熵,求投掷均匀正六面体骰子的熵](#熵求投掷均匀正六面体骰子的熵)
20+
- [混淆矩阵、模型度量指标:准确率、精确率、召回率、F1 值等](#混淆矩阵模型度量指标准确率精确率召回率f1-值等)
21+
- [如何处理数据中的缺失值](#如何处理数据中的缺失值)
22+
- [介绍一个完整的机器学习项目流程](#介绍一个完整的机器学习项目流程)
2423
- [数据清洗与特征处理](#数据清洗与特征处理)
25-
- [关联规则挖掘的 3 个度量指标:支持度、置信度、提升度](#关联规则挖掘的-3-个度量指标支持度置信度提升度)
24+
- [关联规则挖掘的 3 个度量指标:支持度、置信度、提升度](#关联规则挖掘的-3-个度量指标支持度置信度提升度)
2625

2726
<!-- /TOC -->
2827

@@ -66,18 +65,19 @@ Index
6665
> geekcircle/machine-learning-interview-qa/[7.md](https://github.com/geekcircle/machine-learning-interview-qa/blob/master/questions/7.md)
6766
6867
什么是熵?
69-
> 深度学习/理论知识/[16. 信息熵、KL 散度(相对熵)与交叉熵**](../深度学习/README.md#16-信息熵kl-散度相对熵与交叉熵)
68+
> 深度学习/理论知识/[信息熵、KL 散度(相对熵)与交叉熵**](../A-深度学习/《深度学习》整理#信息熵kl-散度相对熵与交叉熵)
7069
7170
**求投掷均匀正六面体骰子的熵**
7271

7372
- 问题描述:向空中投掷硬币,落地后有两种可能的状态,一个是正面朝上,另一个是反面朝上,每个状态出现的概率为1/2。如投掷均匀的正六面体的骰子,则可能会出现的状态有6个,每一个状态出现的概率均为1/6。试通过计算来比较状态的不确定性与硬币状态的不确定性的大小。
7473

7574
- 答:
7675

77-
硬币:[![](../_assets/公式_20180620160408.png)](http://www.codecogs.com/eqnedit.php?latex=-\sum^{n}_{i=1}P(X_i)\log&space;P(X_i)&space;=&space;-2*\frac{1}{2}*\log&space;P(\frac{1}{2})\approx&space;1&space;\text{bit})
78-
79-
六面体:[![](../_assets/公式_20180620160538.png)](http://www.codecogs.com/eqnedit.php?latex=-\sum^{n}_{i=1}P(X_i)\log&space;P(X_i)&space;=&space;-6*\frac{1}{6}*\log&space;P(\frac{1}{6})\approx&space;2.6&space;\text{bit})
76+
硬币:<div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=-\sum^{n}_{i=1}P(X_i)\log&space;P(X_i)&space;=&space;-2*\frac{1}{2}*\log&space;P(\frac{1}{2})\approx&space;1&space;\text{bit}"><img src="../_assets/公式_20180620160408.png" height="" /></a></div>
77+
8078

79+
六面体:<div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=-\sum^{n}_{i=1}P(X_i)\log&space;P(X_i)&space;=&space;-6*\frac{1}{6}*\log&space;P(\frac{1}{6})\approx&space;2.6&space;\text{bit}"><img src="../_assets/公式_20180620160538.png" height="" /></a></div>
80+
8181

8282
## 混淆矩阵、模型度量指标:准确率、精确率、召回率、F1 值等
8383

@@ -88,26 +88,22 @@ Index
8888
- False Positive(FP):将负类预测为正类数 → 误报 (Type I error).
8989
- False Negative(FN):将正类预测为负类数 → 漏报 (Type II error).
9090

91-
![](../_assets/confusion_matrix.png)
91+
<div align="center"><img src="../_assets/confusion_matrix.png" height="" /></div>
9292

9393
**准确率**(accuracy)
94-
95-
![](../_assets/TIM截图20180620171915.png)
94+
<div align="center"><img src="../_assets/TIM截图20180620171915.png" height="" /></div>
9695

9796
**精确率**(precision)
98-
99-
![](../_assets/TIM截图20180620171300.png)
97+
<div align="center"><img src="../_assets/TIM截图20180620171300.png" height="" /></div>
10098

10199
> 准确率与精确率的区别:
102100
>> 在正负样本不平衡的情况下,**准确率**这个评价指标有很大的缺陷。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc 也有 99% 以上,没有意义。
103101
104102
**召回率**(recall, sensitivity, true positive rate)
105-
106-
![](../_assets/TIM截图20180620190555.png)
103+
<div align="center"><img src="../_assets/TIM截图20180620190555.png" height="" /></div>
107104

108105
**F1值**——精确率和召回率的调和均值
109-
110-
![](../_assets/TIM截图20180620191137.png)
106+
<div align="center"><img src="../_assets/TIM截图20180620191137.png" height="" /></div>
111107

112108
> 只有当精确率和召回率都很高时,F1值才会高
113109
@@ -205,38 +201,31 @@ Index
205201
这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程。这里的部分只是一个指导性的说明,只有多实践,多积累项目经验,才会有自己更深刻的认识。
206202
207203
208-
# 数据清洗与特征处理
204+
## 数据清洗与特征处理
209205
> geekcircle/machine-learning-interview-qa/[8.md](https://github.com/geekcircle/machine-learning-interview-qa/blob/master/questions/8.md)
210206
211-
**数据清洗**
212-
213-
**特征处理**
214-
215-
![](../_assets/数据清洗与特征处理.jpg)
207+
<!-- <div align="center"><img src="../_assets/数据清洗与特征处理.jpg" height="" /></div> -->
216208
217209
> [机器学习中的数据清洗与特征处理综述](https://tech.meituan.com/machinelearning-data-feature-process.html) - 美团点评技术
218210
219211
## 关联规则挖掘的 3 个度量指标:支持度、置信度、提升度
220212
221213
**支持度**(Support)
222-
---
223-
X → Y 的支持度表示项集 {X,Y} 在总项集中出现的概率
214+
- X → Y 的支持度表示项集 {X,Y} 在总项集中出现的概率
224215
225-
[![](../_assets/公式_20180620204006.png)](http://www.codecogs.com/eqnedit.php?latex=Support(X\rightarrow&space;Y)=\frac{P(X\cup&space;Y)}{P(I)}=\frac{\text{num}(X\cup&space;Y)}{\text{num}(I)})
216+
<div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=Support(X\rightarrow&space;Y)=\frac{P(X\cup&space;Y)}{P(I)}=\frac{\text{num}(X\cup&space;Y)}{\text{num}(I)}"><img src="../_assets/公式_20180620204006.png" height="" /></a></div>
226217
227-
其中,I 表示总事务集,`num()`表示事务集中特定项集出现的次数,`P(X)=num(X)/num(I)`
218+
- 其中,I 表示总事务集,`num()`表示事务集中特定项集出现的次数,`P(X)=num(X)/num(I)`
228219
229220
**置信度**(Confidence)
230-
---
231-
X → Y 的置信度表示在先决条件 X 发生的情况下,由规则 X → Y 推出 Y 的概率。
221+
- X → Y 的置信度表示在先决条件 X 发生的情况下,由规则 X → Y 推出 Y 的概率。
232222
233-
[![](../_assets/公式_20180620205055.png)](http://www.codecogs.com/eqnedit.php?latex=Confidence(X\rightarrow&space;Y)=P(Y|X)=\frac{P(X\cup&space;Y)}{P(X)}=\frac{\text{num}(X\cup&space;Y)}{\text{num}(X)})
223+
<div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex=Confidence(X\rightarrow&space;Y)=P(Y|X)=\frac{P(X\cup&space;Y)}{P(X)}=\frac{\text{num}(X\cup&space;Y)}{\text{num}(X)}"><img src="../_assets/公式_20180620205055.png" height="" /></a></div>
234224
235225
**提升度**(Lift)
236-
---
237-
X → Y 的提升度表示含有X的条件下,同时含有Y的概率,与Y总体发生的概率之比。
226+
- X → Y 的提升度表示含有X的条件下,同时含有Y的概率,与Y总体发生的概率之比。
238227
239-
[![](../_assets/公式_20180620213601.png)](http://www.codecogs.com/eqnedit.php?latex={\displaystyle&space;{\begin{aligned}&space;Lift(X\rightarrow&space;Y)&=\frac{P(Y|X)}{P(Y)}=\frac{Confidence(X\rightarrow&space;Y)}{\text{num}(Y)/\text{num}(I)}\\&space;&=\frac{P(X\cup&space;Y)}{P(X)P(Y)}=\frac{\text{num}(X\cup&space;Y)\text{num}(I)}{\text{num}(X)\text{num}(Y)}&space;\end{aligned}}})
228+
<div align="center"><a href="http://www.codecogs.com/eqnedit.php?latex={\displaystyle&space;{\begin{aligned}&space;Lift(X\rightarrow&space;Y)&=\frac{P(Y|X)}{P(Y)}=\frac{Confidence(X\rightarrow&space;Y)}{\text{num}(Y)/\text{num}(I)}\\&space;&=\frac{P(X\cup&space;Y)}{P(X)P(Y)}=\frac{\text{num}(X\cup&space;Y)\text{num}(I)}{\text{num}(X)\text{num}(Y)}&space;\end{aligned}}}"><img src="../_assets/公式_20180620213601.png" height="" /></a></div>
240229
241230
规则的有效性:
242231
---

0 commit comments

Comments
 (0)