![联邦学习实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/730/38209730/b_38209730.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
5.2 逻辑回归
根据上一节对数据集的描述,可知本章的实验是一个二分类的模型训练,即对乳腺癌数据集中恶性肿瘤M(1)和良性肿瘤B(0)的分类。逻辑回归(Logistic Regression)是当前最常用的二分类模型,属于广义线性模型(Generalized Linear Model)家族,因其模型简单且效果较好被广泛使用。本章采用逻辑回归作为实验模型。
我们先简要回顾线性回归的定义。线性回归模型是通过对特征值x=(x1,x2,· · ·,xn)进行线性组合来预测标签值y,即满足:
![](https://epubservercos.yuewen.com/7DD80E/20118172408701706/epubprivate/OEBPS/Images/40792_78_3.jpg?sign=1739659058-rvFJnUcOYBzjizhLeHY5Wc19QO3rgrRq-0-1e94c678b5662a41f875f18345fb24e1)
通常使用向量的形式简化表示为
![](https://epubservercos.yuewen.com/7DD80E/20118172408701706/epubprivate/OEBPS/Images/40792_79_1.jpg?sign=1739659058-RO7IMHLH464BvMMgKtS4wCNQT7trsXsx-0-ecb1561e22637dc119b4e37956626c49)
其中W=(w1;w2;· · ·;wn),X=(x1,x2,· · ·,xn)。
利用式(5.2)得到的y值是一个连续值,而二元分类的输出是一个只包含0和1的离散值,为此,我们可以在式(5.2)连续值输出的基础上,再进行非线性的映射,即寻找一个可微的非线性函数f将离散标签值y与线性回归的预测连续值联系起来:
![](https://epubservercos.yuewen.com/7DD80E/20118172408701706/epubprivate/OEBPS/Images/40792_79_2.jpg?sign=1739659058-2MNM7pkJkODgX3P5FxTAl3lOF5WBhlJW-0-719f27f9858b0a9b72ddf7f1ae00b853)
在逻辑回归中,我们使用逻辑斯蒂函数来充当这个非线性映射的角色,逻辑斯蒂函数的表示形式为
![](https://epubservercos.yuewen.com/7DD80E/20118172408701706/epubprivate/OEBPS/Images/40792_79_3.jpg?sign=1739659058-VyirAkvlAYdcdu9dyKlTuRrJNiJjiLK0-0-f4b314eb67bbf900f09d250966e602b6)
其函数图像如图5-2所示。
![](https://epubservercos.yuewen.com/7DD80E/20118172408701706/epubprivate/OEBPS/Images/40792_79_4.jpg?sign=1739659058-MuVgbtiAhzoVpQWFzb6f51cA03K1qnIe-0-1545e7f08e375541c634be19a85fb511)
图5-2 逻辑斯蒂函数
可以看出,利用逻辑回归进行分类预测时,当线性回归预测值WT+b≥0时,则判断为正例,输出为1;否则,判断为负例,输出0。