Kaggle 面向 解决特征工程与验证两大难题 nyaggle 附代码 和离线比赛实用工具库 (kaggle官网)

在大多数机器学习竞赛中,特诊工程的质量通常决定着整个作品的得分与排名,也是参赛者们非常看重的一部分。在 GitHub 上,作者 Nomi(专注于计算机视觉与嵌入式技术,也是 tiny-dnn 的原作者)向我们介绍了一个面向 kaggle 数据科学和离线竞赛的实用工具库 nyaggle,可供开发者专用于特征工程与验证。

面向 Kaggle 和离线比赛库 nyaggle,解决特征工程与验证两大难题(附代码)

在机器学习和模式识别中,特征工程的好坏将会影响整个模型的预测性能。其中特征是在观测现象中的一种独立、可测量的属性。选择信息量大、有差别性、独立的特征是模式识别、分类和回归问题的关键一步,可以帮助开发者最大限度地从原始数据中提取特征以供算法和模型使用。

面向 Kaggle 和离线比赛库 nyaggle,解决特征工程与验证两大难题(附代码)

而 nyaggle 就是一个特定于 Kaggle 和离线比赛的实用工具库,它主要作用于四个部分,即:特征工程、模型验证、模型实验以及模型融合,尤其在特征工程和模型验证方面有较强的性能。

其中,在特征工程方面,nyaggle 包含了 K 个特征目标编码和 BERT 句子向量化。目标编码使用的是目标变量的均值编码类别变量,为训练集中的每个分组计算目标变量的统计量,之后会合并验证集、测试集以捕捉分组和目标之间的关系。BERT 句子向量化则是对 Bert 模型的输入做一个向量化,提取词句的三维信息。

面向 Kaggle 和离线比赛库 nyaggle,解决特征工程与验证两大难题(附代码)

API 详情说明: nyaggle.experiment 类,实现模型实验的各个功能

在典型的表格数据竞赛中,开发者可能会通过交叉验证重复进行评估,并记录参数和结果以跟踪实验。

其中,run_experiment()正是用于此类交叉验证实验的高级 API,它在指定目录下输出参数、指标、异常预测、测试预测、功能重要性和 Submitting.csv。

它可以与 mlflow 跟踪结合使用,如果使用 LightGBM 作为模型,则代码将非常简单如下所示:

值得注意的是,默认的验证策略是包含了 5 个特征的计算机视觉,开发者可以通过传递 cv 参数来更改此行为(可参阅 API 参考,)。

之后,run_experiment API 执行交叉验证后,会将工件存储到日志目录。输出文件存储如下:

而如果要使用 XGBoost、CatBoost 或其他 sklearn 估计器,则需要在代码开头指定算法类型,其中的参数将传递给 sklearn API 的构造函数(例如 LGBMCLAssifier)。

如果想让 GUI 仪表板管理实验,开发者则可以通过只设置 with_mlfow = True 来将 run_experiment 与 mlflow 一起使用(需要预先安装 mlflow)。然后在与执行脚本相同的目录中,运行即可。

然后在与执行脚本相同的目录中,运行即可,相关结果(带有 CV 得分和参数的实验列表)可在 http:// localhost:5000 页面上查看。

面向 Kaggle 和离线比赛库 nyaggle,解决特征工程与验证两大难题(附代码)

注意:如果要自定义日志记录的行为,可以在 mlflow run 上下文中调用 run_experiment;如果正在运行,则 run_experiment 将使用当前正在运行的运行,而不是创建新的运行。

nyaggle.feature 类——以特征格式管理运行系列功能

nyaggle.validation 类——对抗性验证,其中的验证拆分器与 sklearn 兼容

nyaggle.hyper_parameters 类——从以往的解决方案中选取 Hypara 相关参数

面向 Kaggle 和离线比赛库 nyaggle,解决特征工程与验证两大难题(附代码)

雷锋网 AI 开发者

原创文章,未经授权禁止转载。详情见 转载须知 。

面向 Kaggle 和离线比赛库 nyaggle,解决特征工程与验证两大难题(附代码)


本文地址: https://www.gpxz.com/article/fa767c157032572d4e34.html
全局中部横幅
全局中部横幅
百度安全社区

百度安全社区旨在打造安全行业技术型社区,沉淀最有价值的安全行业资料,帮助企业、个人开发者获取最新安全资讯,学习最前沿的安全技术,了解最酷的安全产品。

AliExpress商家门户

全球速卖通AliExpress是中国最大的跨境出口B2C平台,同时也是在俄罗斯、西班牙排名第一的电商网站。全球速卖通是阿里巴巴集团旗下电商业务之一,致力于服务全球中小创业者出海,让天下没有难做的跨境生意,快速连接全球超过200个国家和地区的消费者,为全球消费者带去一种崭新生活方式。

口袋妖怪大师版游戏在线玩

手机口袋妖怪大师版h5,口袋妖怪大师版h5是一款放置类即时战斗h5游戏在线玩游戏,游戏以口袋妖怪为题材背景,游戏经典还原宠物形象,口袋妖怪大师版h5无需下载,可以直接在线玩。;您可以免费在线玩。

ISTA

富港检测(FTSTEAM)是一个专注包装科研与检验检测的第三方检测机构

回转窑

河南宏科重工是一家生产和销售为一体的公司,生产的主要设备有:回转窑,烘干机,球磨机等,可根据客户的实际需要进行定制加工,欢迎新老客户来厂考察。设备咨询热线:0371-67846980

重庆人才网

汇博招聘(huibo.com),重庆人才网,重庆招聘网,专业权威的重庆找工作必看网站。免费提供IT/互联网、运营/设计、供应链/物流、金融、贸易/零售、市场/销售、汽车/机械等重庆各行业高薪热门职位,找最新重庆人才招聘信息,找重庆人才市场招聘会,上汇博招聘!

上海碳博会

上海国际碳中和科技展览会简称「COExpo上海碳科展」以“中和科技,碳索未来”为主题,以广大的市场需求导向配套同期高端产业论坛交流,促进产业链与创新链深度融合,充分发挥科技创新对绿色低碳转型的关键支撑作用,促进培育绿色低碳产业发展的新动能!

晨风乐享网

本站励志于分享各类资源教程、网站源码、小程序源码、手机软件、电脑软件、免费源码、网站主题插件、技术教程、绿色软件等等

永不分离中老年相亲交友

永不分离助力单身中老年征婚相亲交友,举办线下相亲交友活动,为中老年公务员、国企退休人员、高校老教授教师、老年大学同学们、退休医生、护士再婚找老伴指导服务,帮助40后50后60后70后的中老年征婚,再婚,相亲,找老伴,交友,婚恋,情感咨询,红娘帮扶服务。

西安市德懋恭食品有限公司

西安市德懋恭食品有限公司,水晶饼,西安特产,中华老字号,百年老店德懋恭、水晶饼、中华老字号、非物质文化遗产、中式糕点、国潮糕点、秦式糕点、西安礼、西安印象、西安特产

全局底部横幅