-
-
Notifications
You must be signed in to change notification settings - Fork 143
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
采取何种评估方法最能评估一个模型的好坏? #10
Comments
其他的评估方法当然是可以,只是主流的 Multi-Label Classification 任务的评估方法就是我使用的那几项。根据你任务的定义,需要参考一下其他人论文中与你类似任务中的评价指标的选取(特别是你是想写论文的话),可以更改成你提到的那些方法。 |
^_^,不写paper,要用到生产中,比如新用一个模型,想通过一些切实的评估指标来评估这个模型是否比之前的要好? |
不同评估方法侧重评价模型的性能不一样。
视实际生产业务需求定吧。 |
👍 |
@JiaWenqi 第二点非 threshold 相关,是这样的。因为如果采用 threshold 阈值相关的评价指标的话,其最终指标结果是受人工阈值选取的影响,例如选取 threshold 为 0.4 与 0.5,其指标的结果就会不同。因此为了避免这种人工阈值选取的影响,像 AUC 和 PRC 这种评价指标就可以用来表示模型整体在 Precision 和 Recall 的表现。拿 PRC 举例,就是通过绘制 Precision-Recall 的曲线来计算曲线下的面积。网上有挺多 AUC 和 PRC 相关的资料与介绍,可以去了解一下。 |
关于multi-label text classification的问题,用何种方式来评估模型的好坏最好呢?我看你用的是precision_score, recall_score, f1_score, roc_auc_score, average_precision_score。那么其他的评估方法可以吗?比如说hamming_loss,zero_one_loss,jaccard_similarity_score还是accuracy_score
The text was updated successfully, but these errors were encountered: