<div dir="auto">While it would be great to have versioned datasets I generally create a snapshot of the data used in a paper and archive this in Zenodo. This gives complete reproducibility without putting extra demands on the data providers. I do however need to cite the source and the snapshot.<div dir="auto">Regards</div><div dir="auto">Quentin</div></div><br><div class="gmail_quote"><div dir="ltr">On Mon, 18 Feb 2019, 17:45 Tim Robertson <<a href="mailto:trobertson@gbif.org">trobertson@gbif.org</a> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">







<div bgcolor="white" lang="EN-GB" link="#0563C1" vlink="#954F72">
<div class="m_-9149033265453896577WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt">Hi Jonathan<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">(adding GBIF helpdesk to the CC)<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">This is just a quick answer which I expect will result in follow up questions.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">In terms of citation, we use a DOI to identify the concept of a dataset, not the specific version. E.g.
<a href="https://doi.org/10.15468/cup0nk" target="_blank" rel="noreferrer">https://doi.org/10.15468/cup0nk</a> <u></u>
<u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">If you start deleting copies of data (e.g. a background housekeeping task) what will break are links to the downloads in the IPT pages. 
<a href="https://ipt.huh.harvard.edu/ipt/resource?r=huh_all_records&v=1.3" target="_blank" rel="noreferrer">https://ipt.huh.harvard.edu/ipt/resource?r=huh_all_records&v=1.3</a><u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">This may or may not be considered a problem for you.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I think others might have contacted you about suggestions for improving the dataset titles being used but if not I would suggest considering correctly formatted titles as they are
 used in  many places (<a href="https://www.gbif.org/dataset/4e4f97d2-4670-4b24-b982-261e0a450faf)" target="_blank" rel="noreferrer">https://www.gbif.org/dataset/4e4f97d2-4670-4b24-b982-261e0a450faf)</a>.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I hope this helps as a start,<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Tim<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><u></u> <u></u></span></p>
<div style="border:none;border-top:solid #b5c4df 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span style="color:black">From: </span></b><span style="color:black">IPT <<a href="mailto:ipt-bounces@lists.gbif.org" target="_blank" rel="noreferrer">ipt-bounces@lists.gbif.org</a>> on behalf of "Kennedy, Jonathan" <<a href="mailto:jonathan_kennedy@harvard.edu" target="_blank" rel="noreferrer">jonathan_kennedy@harvard.edu</a>><br>
<b>Date: </b>Monday, 18 February 2019 at 18.31<br>
<b>To: </b>"<a href="mailto:ipt@lists.gbif.org" target="_blank" rel="noreferrer">ipt@lists.gbif.org</a>" <<a href="mailto:ipt@lists.gbif.org" target="_blank" rel="noreferrer">ipt@lists.gbif.org</a>><br>
<b>Subject: </b>[IPT] Daily feeds and archive history<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"><u></u> <u></u></span></p>
</div>
<p class="MsoNormal"><span style="font-size:11.0pt">Hi All, </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I am finishing an upgrade to the Harvard University Herbaria IPT instance and have configured our feeds for daily auto-publish. The HUH has invested in a mass digitization workflow and we are currently creating
 ~20,000 new vascular records per month (with minimal data), so we do have new records on a daily basis. However, our DwC archives are fairly large (100MB+), so we can’t keep the daily archive history. I am looking for guidance on how it will work with GBIF
 dataset citation if we do not preserve each daily archive. It seems problematic if a version of our dataset is used and cited but cannot be reconstructed.
</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Best regards,</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:10.5pt;color:black">Jonathan A. Kennedy</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-size:10.5pt;color:black">Director of Biodiversity Informatics</span><u></u><u></u></p>
<div>
<p class="MsoNormal"><span style="font-size:10.5pt;color:black">Harvard University Herbaria,</span><u></u><u></u></p>
</div>
<p class="MsoNormal"><span style="font-size:10.5pt;color:black">Department of Organismic and Evolutionary Biology</span><u></u><u></u></p>
</div>
</div>

_______________________________________________<br>
IPT mailing list<br>
<a href="mailto:IPT@lists.gbif.org" target="_blank" rel="noreferrer">IPT@lists.gbif.org</a><br>
<a href="https://lists.gbif.org/mailman/listinfo/ipt" rel="noreferrer noreferrer" target="_blank">https://lists.gbif.org/mailman/listinfo/ipt</a><br>
</blockquote></div>