1.机器:文中谈论的数据均为“大数据”范畴,供机器处理的格式,非人眼读取
2.接口:API数据需要自备接口才能使用,通常按调用量收费
3.处理:想榨取数据的价值,需要大数据技术和工具,文中提到的部分平台提供大数据技术的交易,或者需要大数据工具的时候直接搜索一下
国家统计局/国家数据最正统、最官方的数据,数据范围涵盖各行各业,时间跨度也较大,可下载为各种常见格式
政府各部门政府网站通常有统计数据,但不同部门数据量有多有少,目前为止数据并不算深入,但随着数据开放政策的深入,相信政府网站会成为很好的数据源部门列表可以在中国政府网找,下文中的各行业数据都可以在相关的部门网站找到数据,就不一一列举了
行业协会数据需要申请或购买,公开的并不多,但不失为一个选择
年鉴大部分主要行业都有自己的年鉴,数据比较宝贵,只是给机器用之前还需要处理;价值高的年鉴通常需要付费获取;这里推荐一下人大经济论坛,氛围较好
政府牵头1.地区性数据交易平台:贵州、上海、北京、江苏、武汉、哈尔滨、海南等2.模式:部分采用会员制,提供交易的场所以及必要的技术支持,收取交易费;部分仅提供在线交易平台3.特点:享有庞大的政府数据资源,并且联合各行业的龙头企业(此处参考“北京秋”的文章“走马观花:国内各路大数据交易平台现状”)
API平台1.列表:apistore、京东万象、聚合、阿凡达、showapi、haoservice、极速数据、apix、通联数据商城2.模式:按调用量收费3.特点:即时性很好,质量相对有保障,并且可以更大程度保护数据所有者的权益
淘宝模式1.列表:数粮、数据宝(、淘宝)2.模式:数据商入驻,创造良好的交易环境、鼓励交易3.特点:数据范围较广、态度开放,比起到处搜罗数据方便很多,有潜力进一步发展
数据包定制/下载1.列表:数多多、大海洋、发源地2.模式:以数据下载和定制为主3.特点:有一定的固定用户不断提供新鲜数据,可以定制采集
其他1.列表:数据堂、优易数据、数据淘2.特点:目前的数据平台(包括未列举的和不断出现的新兴平台)都比较有自己的特点,希望这些平台能够共同推动数据市场的成熟
财经数据1.经济数据库:CEIC、国泰安、锐思、资讯行2.监管部门:证监会、上交所、深交所(巨潮)、股转系统、大商所、郑商所网站3.金融市场网站:中国货币网、中国债券信息网、上海期货/黄金交易所4.财经终端:不少免费版的财经/股票终端都可以导出数据,属优质数据源5.门户网站:如新浪财经可以下载大量的证券数据6.通联:类似quandl提供不少财经api接口7.量化交易平台:近几年新兴的技术产品,可以在这类平台上获取大量历史数据8.投融资:IT桔子、清科数据库9.国外资源:WITS,WORLD BANK,IMF,YAHOO,Quandl(大量财经api接口,可导出各种格式)等
第一第二产业1.农业数据:目前以统计数据为主,行业门户网站和细分领域网站(如中华粮网)的数据通常无法直接调用,只能在线浏览,但不妨保持对这些网站的关注2.农业数据提供商:如艾格农业、布瑞克,但目前数据的总体质量达不到预期3.工业数据:和农业数据的情况类似,也只有少数数据商,如钢联、煤炭资源网等(传统领域的数据,随着物联网技术的发展,获取难度会降低、应用价值将提高,预计在未来会有不错的上升空间)
互联网企业由于行业的天然属性,IT企业都较重视自身的数据,因此在公开源很难找到相关的数据源,大部分知名企业选择以api接口的形式(或营销行业的DMP)供外部合作伙伴调用自身的数据,例如淘宝api、携程api、豆瓣api等
科研数据这部分数据的共享性质更突出,而且数据体量较大,未来作者会在合适的时候单论一篇;目前也已经有一些相对活跃的数据流通领域(如遥感数据,已经有中国资源卫星应用中心、遥感集市、地理空间数据云等平台撮合交易)
随着大数据市场的发展,数据价值将被不断挖掘出来,数据资源也会不断丰富,获取渠道日新月异,本文内容有限,仅抛砖引玉