TensorFlow最出色的30个机器学习数据集 (tensorflow)

文章编号:44555 资讯动态 2024-12-09 TensorFlow

字幕组双语原文: TensorFlow最出色的30个机器学习数据集

英语原文: 30 Largest TensorFlow>翻译:雷锋字幕组()

TensorFlow是由谷歌大脑的研究人员创建、最大的机器学习和数据科学的开源数据库之一。它是一个端到端平台,适合完全没有经验的初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习教程以及一整套公开数据集。为了帮助你找到所需的训练数据,本文将简单介绍一些TensorFlow中用于机器学习的大型数据集。我们将以下数据集的列表分为图像、视频、音频和文本

TensorFlow图像数据集

1.CelebA:明星脸属性数据集(CelebA)是最大的公开可用的人脸图像数据集,其中包含200,000多个名人图像。

最出色的30个机器学习数据集

每个图像包括5个面部标注和40个二进制属性标注。

2.Downsampling Imagenet:该数据集是为密度估计和生成性建模任务而建立的。它包括了130多万张物体、场景、车辆、人物等图像。这些图像有两种分辨率规格:32×32和64×64。

3.Lsun—Lsun是一个大规模的图像数据集,创建该数据集是为了帮助训练模型进行场景理解。该数据集包含超过900万张图像,按场景类别划分,如卧室、教室和餐厅。

4.Bigearthnet—Bigearthnet是另一个大规模数据集,它包含来自Sentinel-2卫星的航空图像。每张图像覆盖了1.2公里×1.2公里的一片地面。该数据集中有43个类别不平衡的标签。

5.Places 365—顾名思义,Places 365包含180多万张不同地方或场景的图片。其中一些类别包括办公室、码头和别墅。Places 365是用于场景识别任务的最大数据集之一。

6.Quickdraw位图—Quickdraw数据集是由Quickdraw玩家社区绘制的图像集合。它包含500万张图纸,跨越345个类别。这个版本的Quickdraw数据集包括28×28的灰度图像。

7.SVHN Cropped—街景房号(SVHN)是为训练数字识别算法,由斯坦福大学建立的TensorFlow数据集。它包含60万个真实世界的、被裁剪成32×32像素的图像数据实例。

8.VGGFace2—最大的人脸图像数据集之一,VGGFace2包含从谷歌搜索引擎下载的图像。数据集中的人脸在年龄、姿势和种族上都有所不同。每个类别平均有362张图像。

9.COCO—由谷歌、FAIR、加州理工学院等合作者制作,是世界上最大的标签图像数据集之一。它是为物体检测、分割和图像字幕任务而建立的。

最出色的30个机器学习数据集

通过cocodataset.org

数据集包含330,000张图像,其中20万张有标签。在所有图像中,共包含了80个类别的150万个对象实例。

10.Open Images Challenge 2019—包含约900万张图像,该数据集是网上最大的、标注的图像数据集之一。这些图像包含图像级标签、对象边界框和对象分割掩码,以及他们之间的视觉关系。

11.Open Images V4—这个数据集是上述Open Images数据集的另一个迭代。V4版本中包含了600个不同物体类别的1460万个边界框。这些边界框是由人类标注者手动绘制的。

12.AFLW2K3D—该数据集包含2000张面部图像,均有3D面部真实标注。它的创建是为了评估3D面部标注检测模型。

视频数据集

13.UCF101—来自中央佛罗里达大学,UCF101是为训练动作识别模型而建立的视频数据集。该数据集有101个动作类别的13320个视频,。

14.BAIR Robot Pushing—来自伯克利人工智能研究,BAIR Robot Pushing包含44000个机器人推的动作的示例视频。

15.Moving MNIST—这个数据集是MNIST基准数据集的一个变体。Moving MNIST包含10,000个视频。

每个视频都显示了在64×64大小的帧内2个手写数字的移动过程。

16.EMNIST—扩展的MNIST数据集,包含了原始MNIST数据集转换成28 x 28像素大小的图片。

TensorFlow音频数据集

17.CREMA-D—为情感识别任务而创建,CREMA-D由语音情感表达组成。 该数据集包含由年龄,种族和性别不同的91位演员表达的7,442个音频剪辑。

18.Librispeech—Librispeech是一个简单的音频数据集,它包含1000小时的英语语音,这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

19.Libritts—这个数据集包含约585小时的英语语音,是在Google Brain团队成员的协助下准备的。Libritts最初是为Text-to-speech(TTS)研究设计的,但可以用于各种语音识别任务。

20.TED-LIUM—TED-LIUM是一个包含110多个小时的英语TED演讲的数据集。 所有的演讲内容都已被转录。

21.VoxCeleb—VoxCeleb是为演讲者识别任务而建立的大型音频数据集,包含来自1,251位演讲者的150,000多个音频样本。

文本数据集

22.C4(Common Crawl's web Crawl Corpus)—Common Crawl是一个开放源码的网页数据库。它包含了超过40种语言、跨越7年的数据。

23.Civil Comments—这个数据集是由来自50个英文新闻网站的180多万条公众评论构成的。

24.IRC Disentanglement—这个TensorFlow数据集包括来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。

25.Lm1b—被称为语言模型基准,这个数据集包含10亿个单词。它最初是为了衡量统计语言建模的进展。

26.SNLI—斯坦福自然语言推理数据集是一个包含57万个人类写作句子对的语料库。所有的句对都经过人工标注,类别是均衡的。

27.e-SNLI—这个数据集是上面提到的SNLI的扩展,它包含了原始数据集的57万个句子对,分类为:包含、矛盾和中性。

28.MultiNLI—仿照SNLI数据集,MultiNLI包含433,000个句子对,都有尾部信息注释。

29.Wiki40b—这个大规模的数据集包括40种不同语言的维基百科文章。这些数据已经被清理,其中的非内容部分以及结构化对象已经被去掉。

30.Yelp极性评论—这个数据集包含598,000条高度极性的Yelp评论。它们是从2015年Yelp数据集挑战赛中的数据提取出来的。

虽然上述数据集是机器学习中最大、最广泛使用的一些TensorFlow数据集,但TensorFlow库是庞大的,并在不断扩展。请访问TensorFlow网站,了解更多关于该平台如何帮助您构建自己的模型的信息。


雷锋字幕组是由AI爱好者组成的志愿者翻译团队;团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。

了解字幕组请联系微信:tlacttlact

版权文章,未经授权禁止转载。详情见 转载须知 。

最出色的30个机器学习数据集


本文地址: https://www.gpxz.com/article/f2d5577b6ae84899aa6a.html
全局中部横幅
全局中部横幅
阿里创作平台

阿里创作平台,阿里巴巴集团官方内容创作平台,在这里您可以发微淘,发买家秀,发好货心得,发上新和预上新,发投稿,运营达人主页,店铺微淘装修,完成V任务等,支持微淘号达人、微淘号商家和品牌号

搜狗下载

搜狗软件下载通过先进的搜索技术,为您提供最新最全的软件下载服务,全部软件都已经过安全杀毒检测

真空上料机

张家港恒锐太机械制造有限公司一家专业的真空上料机厂家,公司引进先进技术和精良设备,致力于真空上料机生产线的开发与制造。恒锐太的真空上料机产品具有较高水平的质量及较强竟争优势的厂家直销价格,目前本厂生产的真空上料机设备广泛用于制药、化工领域,无尘投料站在食品加工处理及农副产品加工中所使用,是真空上料机行业骨干生产厂家。

自动包装机

长进包装设备(上海)有限公司致力于自动包装机,热合封口机,工业缝包机,制袋机等设备的制造,型号齐全,厂家直接供应,质量保障,价格合理,采购自动包装机,热合封口机,工业缝包机,真空热合封口机,制袋机,欢迎来电咨询:18702119870.

苏州冷库安装,冷库维保,空调安装冷库机组

韩易制冷工程设备有限公司是一家专业从事冷库设计安装,维修维护;空调安装保养维修及相关制冷配件销售,制冷技术咨询的专业性制冷公司。

观光小火车

连云港瑞鑫动励观光车有限公司是一家旅游观光火车制造厂家和景区代步交通载客方案解决商。主要生产轨道小火车、观光小火车、电动无轨小火车等旅游景区载客车辆。服务热线:13775590366。

除臭塔,静电除尘塔,喷淋塔,脱硫塔

诸城市迈特环保设备有限公司是一家从事除臭塔、静电除尘塔、喷淋塔、脱硫塔等废气处理设备等环保设备的研发、制造和销售于一体的高新技术企业。公司几年来,承蒙广大用户厚爱,获得了长足的发展,常年与国内院所合作。拥有较强的非标设计、制造和服务能力,生产检测设备完善、品种规格齐全、产品质量可靠稳定。 诸城市迈特环保设备有限公司作为环保设备生产企业,为国内农业、石油、化工、造纸、制药、食品、冶金、电力、煤炭、生活污水及市政污水等领域的工矿企业提供了用于污水处理工程的配套设备。成为国内环保产业近年来的后起之秀。

上海华渑进出口有限公司

上海华渑进出口有限公司是一家集特种光源的出口和经销进口UV光源国内销售的综合企业,美国和欧洲UV灯管的一级经销商,凭借其与美国UV灯管制造商的多年合作关系,以其优良产品性能和价格优势,公司致力于为中国电路板制造和印刷企业提供高质量、高安全的UV灯管,同时公司也携手中国光伏制造企业为中国新型能源的发展提供完善的配套产品。专业进口UV灯供应商紫外灯,紫外固化灯,水处理UV灯,印刷UV灯供应

无锡无缝钢管

无锡市巨吉特钢有限公司专业从事无缝钢管,20G高压锅炉管,15CrMoG合金管,大口径焊管以及螺旋钢管厂家的生产和销售

杭州尚艺空间设计工程有限公司

杭州尚艺空间设计工程有限公司位于杭州拱墅区莫干山路987号壹方汇A座。本公司拥有从业15年以上的优秀工装设计师团队,是专业从事室内空间设计,施工,软装一站式全案工程,公共空间、办公楼、会所、展厅、ktv、养生馆、样板间、精品酒店、民宿软装及园林全案设计,施工工程的一家专业公司。从空间,功能,材质,色彩,艺术,美学为客户提供更完善的专业整体解决方案。

在线标准查询

在线标准查询网,国内首家免费提供国家全行业标准查询网站;同时提供企业标准查询下载服务,一键下载国家行业标准!

太洋模架有限公司

太洋模架有限公司是我国规模较大的铝模租赁公司,依托全国建筑租赁、施工管理、技术服务型企业,共同为房地产公司和总包单位提供优质的铝模产品与技术服务,致力于为铝模产业升级做杰出贡献。


全局底部横幅