到如今,大数据的价值已经被各行各业广泛地认可了,有条件的企业都纷纷开始寻求大数据在自身的运用,希望抓住大数据这个风口,实现业务进一步发展。那么企业要从哪里去寻求大数据呢,除了开发自己的大数据平台,也有一些公开的大数据可以运用。下面就为大家盘点几个实用的大数据网站。
首先给大家推荐几个数据集查找器,需要的时候先去搜一搜,就会发现某些数据可能早就已经有了,就能减少重复工作量。
①Kaggle:https://www.kaggle.com/
这是一个数据科学网站,内有各种有趣的数据集。
②UCI机器学习库(UCI Machine Learning Repository)
网络上最早的数据集来源之一,可以从UCI机器学习库直接下载数据,无需注册。
③VisualData:https://www.visualdata.io/
分好类的计算机视觉数据集,可以直接搜索查找数据资源。
除了数据集查找器,一般的数据集查找也可以去相应的网站——
①公共政府类数据集
Data.gov:https://www.data.gov/
食品环境地图集(Food Environment Atlas):https://catalog.data.gov/dataset/food-environment-atlas-f4a22
学校系统财务状况(School system finances):https://catalog.data.gov/dataset/annual-survey-of-school-system-finances
慢性病数据(Chronic disease data):关于美国各地区慢性病指标的数据。
https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9
英国数据服务(The UK Data Service):https://www.ukdataservice.ac.uk/
数据美国(Data USA):http://datausa.io/
②金融与经济类数据集
Quandl:https://www.quandl.com/
世界银行开放数据(World Bank Open Data):https://data.worldbank.org/
国际货币基金组织数据(IMF Data):https://www.imf.org/en/Data
金融时报市场数据(Financial Times Market Data):https://markets.ft.com/data/
Google趋势(Google Trend):http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
③机器学习数据集
Labelme:注释图像的大型数据集。
http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
ImageNet:新算法的实例图像数据集。按WordNet层次结构进行组织,层次结构中的每个节点都有成千上万张图像。
http://image-net.org/
LSUN:场景理解以及许多辅助任务(比如房间布局估算、图像显著性预测等)。
http://lsun.cs.princeton.edu/2016/
MS COCO:通用图像的理解和文字描述。
http://mscoco.org/
当然,以上只是为大家简单举例的一些实用的大数据网站,互联网的发展带来了更多的公开数据分享,这些数据更多是基于大行业去看的,而想要贴合行业企业的实际需求的大数据,目前来说还是要靠开发数据自己的大数据平台,这样才能真正抓住更有价值的大数据,也能更好地将这些大数据利用起来。