机器学习模型的性能评估方法
创始人
2025-05-31 15:08:05

动动发财的小手,点个赞吧!

部署模型后,监控其性能对于确保 ML 系统的质量起着至关重要的作用。要计算准确度、精确度、召回率或 f1 分数等指标,需要标签。但是,在许多情况下,标签可能不可用、部分可用或延迟提供。在这些情况下,估计模型性能的能力会很有帮助。

在这篇文章[1]中,将讨论在没有真实数据的情况下估计性能的可能方法。

1. NannyML

NannyML 是一个 Python 包,用于检测静默模型故障、估计没有标记数据的部署后性能以及检测数据漂移。目前,NannyML 有两种性能估计方法:Confidence-based Performance Estimation (CBPE) 和 Direct Loss Estimation (DLE)。

2. 基于置信度的性能估计

顾名思义,此方法利用模型预测的置信度分数来执行性能估计。

  • 注意事项:
    • 置信度作为概率:置信度分数应该代表概率——例如如果大量观察的分数为 0.9,则大约 90% 的时间都是正确的。
    • 良好校准的概率:另一个要求是分数应该经过良好校准,但情况可能并非总是如此。好消息是,如果需要,NannyML 会在内部执行校准。
    • 没有协变量转移到空间中以前看不见的区域:例如,如果您的模型是针对 10-70 岁的人进行训练的,并且在生产中,您的观察对象是 70 岁以上的人,则这种方法可能无法提供可靠的估计
    • 没有概念漂移:如果模型的输入和目标之间的关系发生变化,这种方法可能无法提供可靠的估计(我个人不知道有什么方法可以)
    • 不适合回归模型:回归模型通常不会固有地输出置信度分数,只会输出实际的预测,这使得这种方法的使用对于这种情况来说并非易事。

3. 直接损失估算

这种方法背后的直觉是训练一个额外的 ML 模型,其任务是估计监控模型的损失。额外的模型称为 Nanny 模型,而受监控的模型是 Child 模型。

  • 注意事项:
    • 额外模型:需要训练额外的模型来估计原始模型的损失,这会增加系统的复杂性。但是,模型不必比原始模型好,在许多情况下,它可以是一个简单的过程。
    • 适合回归:这种方法非常适合回归任务。例如,可以训练保姆模型来预测 MSE(均方误差)或 MAE(平均绝对误差)。
    • 没有协变量转移到空间中以前看不见的区域:对 CBPE 所做的相同考虑也适用于此方法
    • 无概念漂移:对 CBPE 所做的相同考虑也适用于此方法
    • 具有不同性能的区域:受监控模型在不同区域应具有不同的性能。例如,如果您的模型根据一天中不同季节的不同时段表现得更好或更差。

Reference

[1]

Source: https://towardsdatascience.com/performance-estimation-techniques-for-machine-learning-models-aaa83463bfa3

本文由 mdnice 多平台发布

相关内容

热门资讯

头歌--第1关:Linux文件... 任务描述 假设系统中存在一个文件File,修改该文件的权限,根据实际需求...
【Spring从成神到升仙系列... 👏作者简介:大家好,我是爱敲代码的小黄,独...
梦见蜈蚣是什么意思,做梦梦见蜈... 梦见蜈蚣是什么意思目录梦见蜈蚣是什么意思做梦梦见蜈蚣什么意思梦见蜈蚣是什么意思,哪里有解释啊梦见蜈蚣...
小区车位比一般是多少,车库配比... 小区车位比一般是多少目录小区车位比一般是多少车库配比是什么小区总户数8200,总车位是1450个,配...
车锁上的lock什么意思,汽车... 车锁上的lock什么意思目录车锁上的lock什么意思汽车上lock是什么意思?车子上“lock标志”...
kirin710是什么处理器,... kirin710是什么处理器目录kirin710是什么处理器海思kirin710是高通多少?骁龙71...
程序的循环结构和random库...   第三个参数就是步长     引入文件时记得指明字符格式,否则读入不了 ...
跟着文档制作cocos第一个游... 背景 近期打算学习一下cocos creator,想着开发自己的游戏,是...
乌干达是什么梗,网络语乌干达什... 乌干达是什么梗目录乌干达是什么梗网络语乌干达什么意思?乌干达是什么梗乌干达是什么梗乌干达是什么梗 ...
车载电子狗怎么用,怎样使用电子... 车载电子狗怎么用目录车载电子狗怎么用怎样使用电子狗怎么使用电子狗求简答车载电子狗怎么使用车载电子狗怎...
梦见偷东西是什么意思,梦见自己... 梦见偷东西是什么意思目录梦见偷东西是什么意思梦见自己偷东西是什么意思?做梦梦见自己偷东西好不好梦见偷...
黄金瞳到底是什么,黄金瞳电视剧... 黄金瞳到底是什么目录黄金瞳到底是什么黄金瞳电视剧什么时候上映?《黄金瞳》的结局是什么?电视剧《黄金瞳...
前端-session、jwt 目录:   (1)session (2&#x...
企业即时通讯怎样为企业实现移动... 对于企业来说,在办公过程中少不了工作人员相互传递信息和数据传输,企业内部...
骑行选择什么自行车 极速百科网... 骑行选择什么自行车目录骑行选择什么自行车骑行选择什么自行车 1. 山地自行车:适合崎岖不平的路...
蓝色都有哪几种,蓝色都有什么颜... 蓝色都有哪几种目录蓝色都有哪几种蓝色都有什么颜色的蓝图片,蓝色都有什么颜色的蓝二年级蓝色有哪些种类蓝...
如何自学游泳要安全的,初学游泳... 如何自学游泳要安全的目录如何自学游泳要安全的初学游泳的人需要准备哪些东西,注意哪些事项?如何自学游泳...
一年级家长的话怎么写评语,一年... 一年级家长的话怎么写评语目录一年级家长的话怎么写评语一年级学生评价手册家长寄语怎么写一年级最佳家长评...
EEG微状态的功能意义 导读大脑的瞬时全局功能状态反映在其电场结构上。聚类分析方法一致地提取了四种头表面脑电场结构ÿ...
docker 镜像管理 查看本地镜像 docker images 可以查看本地下载的镜像 docker images [O...
k8s-1.22.15部署ng... 1.介绍 在前面文章中已经提到,Service对集群之外暴露服务的主要方式有两种&#x...
革命烈士寄语怎么写,清明节缅怀... 革命烈士寄语怎么写目录革命烈士寄语怎么写清明节缅怀先烈的寄语有哪些呢?革命烈士寄语怎么写 革命...
5万元以下新车推荐,5万以下买... 本篇文章极速百科给大家谈谈5万元以下新车推荐,5万以下买什么车好,以及5万以下的新车哪款最好对应的知...
真皮沙发翻新一般多少钱?(真皮... 本篇文章极速百科给大家谈谈真皮沙发翻新一般多少钱?,以及真皮沙发翻新一般多少钱一个对应的知识点,希望...
磨皮什么意思(磨皮是啥?) 磨... 本篇文章极速百科给大家谈谈磨皮什么意思,以及磨皮是啥?对应的知识点,希望对各位有所帮助,不要忘了收藏...
进程间通信【Linux】 1. 进程间通信 1.1 什么是进程间通信 在 Linux 系统中,进程间通信...
从NVIDIA GTC大会,看... 从NVIDIA GTC 2023这场全球行业盛宴,我们可以解读出AI算力行业的哪些重要...
请问什么是童子,什么是童子 极... 请问什么是童子目录请问什么是童子什么是童子古代 童子是什么意思童子是什么意思?请问什么是童子 ...
中招考试考哪些科目,中招考试考... 中招考试考哪些科目目录中招考试考哪些科目中招考试考几门科目一共多少分?中考有哪些科目中考考几科,都什...
做电商如何做,电商怎样做才能赚... 做电商如何做目录做电商如何做电商怎样做才能赚钱?做的好的电商朋友可以教教我怎么做吗新手小白怎么做跨境...