博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习基石笔记-Lecture 10 Logistic regression
阅读量:4560 次
发布时间:2019-06-08

本文共 842 字,大约阅读时间需要 2 分钟。

soft binary classification的概念:软二分类,不直接化为-1、1,而是给出一个概率值。

目标函数是一个概率值,但是拿到的data中y只有0、1(或者-1、1),可以看做是有noise的data。

logistic hypothesis

通过 theta 转化为 0、1间的数。

 

目标函数f(x)其实呢就是,那么

那么对N个样本,产生的概率是

对于f的估计h,似然函数为

那么有:

使

用w替换掉h,即求w的极大似然估计

化简后等价于

最后的Ein就是cross-entropy error

 

接下来要做的事就是找到一个w使得Ein最小。

注意到Ein是连续的、可微的、凸函数,所以对w求偏导能得到最优解。(与linear regression思路一样)

但是 最后偏导出来的不是一个一次方程,不能像linear regression那样直接写出解。

 

gradient  descent

想象成下山,每次探索的结果只要比现在的低,就走出去。在步长固定时,当前点的负梯度是下降最迅速的方向。

一阶泰勒展开

确定了下降的方向后,再考虑走出的步长。步长过大或过小都不好,我们希望在梯度比较大的时候步长稍微大一点,平缓的时候步长小一点。其实就和正相关。

它们的比例系数 叫做学习率。

学习过程

注意这里算法终止的条件是梯度足够小或者迭代达到最高次数。

梯度下降法每次计算在 w_t的梯度时,需要将n个点都计算一遍 然后求平均值

 

stochastic gradient descent

在样本量很大时,梯度下降法每次迭代都要计算n各点对梯度的贡献。

随机梯度下降法在更新w时,只随机选取一个点计算,当做梯度替代 n个点的平均

 

logistic regression:

优点:计算代价不高,易于理解和实现。

缺点:容易欠拟合,分类精度可能不高。

适用:数值型和标称型数据。

 

转载于:https://www.cnblogs.com/akanecode/p/7054633.html

你可能感兴趣的文章
Qt5.5 使用smtp发邮件的各种坑
查看>>
js奇葩错误 字符串传递问题
查看>>
人之初,性本恶
查看>>
springboot 端口号
查看>>
使用AChartEngine画动态曲线图
查看>>
安卓项目五子棋代码详解(四)
查看>>
urllib 学习一
查看>>
bzoj4196 [Noi2015]软件包管理器——树链剖分
查看>>
kafka源码阅读环境搭建
查看>>
UI设计
查看>>
androidtab
查看>>
php 事件驱动 消息机制 共享内存
查看>>
剑指offer 二叉树的bfs
查看>>
LeetCode Maximum Subarray
查看>>
让我们再聊聊浏览器资源加载优化
查看>>
underscore demo
查看>>
CSS hack
查看>>
C# Enum Name String Description之间的相互转换
查看>>
PHP wamp server问题
查看>>
Spring Data Redis学习
查看>>