<html><head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none"><!-- p { margin-top: 0px; margin-bottom: 0px; }--></style>
</head>
<body dir="ltr"><div>Hey y'all - </div><div><br></div><div>Just wanted to share some experiments I did using guoda / spark and wikidata:</div><div><br></div><div><div>Today, after loading the wikidata archive into hdfs, I've extracted all taxon items (~2M) from wikidata and associated taxon ids (e.g., gbif, itis) in less than about 5 minutes. You should be able to reproduce this using <a href="https://jupyter.idigbio.org">https://jupyter.idigbio.org</a> and my notes at <a href="https://github.com/bio-guoda/guoda-datasets/tree/master/wikidata">https://github.com/bio-guoda/guoda-datasets/tree/master/wikidata</a> . </div></div><div><br></div><div>Reason for my interest is to link GloBI into wikidata taxon items (e.g., <a href="https://www.wikidata.org/wiki/Q140">https://www.wikidata.org/wiki/Q140</a>), to retrieve associated data (e.g., images, common names) and to be able to share species interaction data with wikidata using their native ids (e.g., <a href="https://github.com/jhpoelen/eol-globi-data/issues/209">https://github.com/jhpoelen/eol-globi-data/issues/209</a>). I am sure other projects have similar needs.</div><div><br></div><div>Needless to say, I would have been unable to do this data experiment without the guoda systems that are up and running. </div><div><br></div><div>Curious to hear your thoughts and hope you find this inspiring,</div><div>-jorrit</div><div><br></div><div> </div><blockquote type="cite"><div style="color: rgb(33, 33, 33);"><div>
</div>
</div>


</blockquote></body></html>