<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size: 14px; font-family: Calibri, sans-serif;">
<div>Thanks David,</div>
<div><br>
</div>
<div><br>
</div>
<span id="OLK_SRC_BODY_SECTION">
<div>
<div>
<blockquote style="margin:0 0 0 40px; border:none; padding:0px;">
<div>Can you elaborate a bit more on what happens if a provider using triplets decides to add occurrenceID? </div>
<div>You said GBIF reindex (1st reindex) will recognize them and update the records.</div>
<div>What if LATER ON (after 1st reindex) a record is changed so occurrenceID KEEPS STABLE but the triplet value is deleted or modified? Shouldn't next GBIF reindex (2nd and later) keep using the already extant occurrenceID? So, the record should be updated,
 not inserted.</div>
</blockquote>
</div>
</div>
</span>
<div><br>
</div>
<div>Once occurrenceIDs are established and indexed in GBIF.org these take precedence so subsequent changes will be updates.  Therefore it is important that if you foresee making changes and want to keep stable records in GBIF to first add occurrenceID without
 changing the triples.  Then any subsequent change can occur even on the triple.</div>
<div><br>
</div>
<span id="OLK_SRC_BODY_SECTION">
<div>
<div>
<div>All the best,</div>
</div>
</div>
</span>
<div>Tim</div>
<div><br>
</div>
<span id="OLK_SRC_BODY_SECTION">
<div>
<div>
<div><br>
</div>
<div>
<div> </div>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div style="word-wrap:break-word;color:rgb(0,0,0);font-size:14px;font-family:Calibri,sans-serif">
<div><br>
</div>
<div>I notice that the dataset you linked to was published in 2007, before dwc:occurrenceID existed.  It is therefore using the <i>dwc:insitutuionCode</i>, <i>dwc:<wbr>collectionCode</i> and <i>dwc:<wbr>catalogNumber
</i>identifier strategy.</div>
<div><br>
</div>
<div>Please note, that Darwin Core recommends concatenating the 3 fields to create a <i>dwc:occurrenceID</i>.  Please be aware that this approach means that should someone chose to e.g. change the collection code, the occurrence record ID will also change thus
 removing all linkability.  If this is expected, then forging unique ids for records using e.g. UUIDs or similar would be a more robust longer term solution and in general we recommend targeting this.</div>
<div><br>
</div>
<div>We do recommend people strive to provide occurrenceID, even on older data.  This simplifies things going forward.</div>
<div><br>
</div>
<div>I hope this helps, but please feel free to ask me any questions around this.</div>
<div><br>
</div>
<div>This is off topic, but while you are reading please know that we expect stateOrProvince to be a filter on GBIF next week along with locality, protocol, license, organismID, publishingOrgKey (API only), crawlID (API only).  I know you have interest in this
 functionality.</div>
<div><br>
</div>
<div>Best wishes,</div>
<div>Tim</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<span>
<div style="font-family:Calibri;font-size:11pt;text-align:left;color:black;BORDER-BOTTOM:medium none;BORDER-LEFT:medium none;PADDING-BOTTOM:0in;PADDING-LEFT:0in;PADDING-RIGHT:0in;BORDER-TOP:#b5c4df 1pt solid;BORDER-RIGHT:medium none;PADDING-TOP:3pt">
<span style="font-weight:bold">From: </span>API-users <<a href="javascript:_e(%7B%7D,'cvml','api-users-bounces@lists.gbif.org');" target="_blank">api-users-bounces@lists.gbif.<wbr>org</a>> on behalf of Herbario SANT <<a href="javascript:_e(%7B%7D,'cvml','sant.herbarium@gmail.com');" target="_blank">sant.herbarium@gmail.com</a>><br>
<span style="font-weight:bold">Date: </span>Sunday 28 August 2016 at 16:00<br>
<span style="font-weight:bold">To: </span>"<a href="javascript:_e(%7B%7D,'cvml','api-users@lists.gbif.org');" target="_blank">api-users@lists.gbif.org</a>" <<a href="javascript:_e(%7B%7D,'cvml','api-users@lists.gbif.org');" target="_blank">api-users@lists.gbif.org</a>><br>
<span style="font-weight:bold">Subject: </span>Re: [API-users] What happens to previous data after dataset/crawl?<br>
</div>
<div><br>
</div>
<div>
<div>
<div dir="ltr">
<div>
<div>Hi<br>
<br>
</div>
I take the opportunity to ask about the difference between two GBIF terms:<br>
<br>
</div>
What is the difference of "occurrenceID" compared to "identifier"?  Both have the same value in this dataset:<br>
<div><a href="http://www.gbif.org/occurrence/1291766512/verbatim" target="_blank">http://www.gbif.org/<wbr>occurrence/1291766512/verbatim</a><br>
<a href="http://api.gbif.org/v1/occurrence/1291766512" target="_blank">http://api.gbif.org/v1/<wbr>occurrence/1291766512</a><br>
<br>
</div>
<div>I see "occurrenceID" well explained here:<br>
<a href="http://gbif.blogspot.com.es/2014/04/ipt-v21.html" target="_blank">http://gbif.blogspot.com.es/<wbr>2014/04/ipt-v21.html</a><br>
<a href="http://rs.tdwg.org/dwc/terms/#occurrenceID" target="_blank">http://rs.tdwg.org/dwc/terms/#<wbr>occurrenceID</a><br>
<div><br>
But I can't find the explanation for "identifier", which I think some institutions have been incorrectly understanding as "occurrenceID".<br>
</div>
<div>For example:  <br>
<a href="http://www.gbif.org/occurrence/142907792/verbatim" target="_blank">http://www.gbif.org/<wbr>occurrence/142907792/verbatim</a><br>
<a href="http://api.gbif.org/v1/occurrence/142907792" target="_blank">http://api.gbif.org/v1/<wbr>occurrence/142907792</a><br>
</div>
<br>
There is an "identifier" in that occurrence, but no "occurrenceID".<br>
</div>
<div>1) What is exactly the meaning of that "identifier"?  Why is it not explained in dwc terms page?<br>
2) What happens if the data provider keeps all data UNCHANGED, but adds the "occurrenceID" which was missing?<br>
</div>
<div>    Would next GBIF reindex keep the same number of records and add their occurrenceIDs? (perhaps looking at the triplet in that "identifier"?)<br>
</div>
<div>    Would later on be safe to change any fields in the dataset (even "identifier", "catalognumber", ...) if that data provider keeps those occurrenceIDs stable?<br>
</div>
<div><br>
</div>
<div>Thanks<br>
</div>
<div><br>
</div>
<div class="gmail_extra"><br>
<div class="gmail_quote">On 27 August 2016 at 08:01, Roderic Page <span dir="ltr">
<<a href="javascript:_e(%7B%7D,'cvml','Roderic.Page@glasgow.ac.uk');" target="_blank">Roderic.Page@glasgow.ac.uk</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div>
<div>Just wanted to check the consequences of the following dataset operation.</div>
<div><br>
</div>
<div>Say I have a dataset with 10 occurrences with occurrence ids 1-10. In my local database I now assign those 10 occurrences new identifiers a-j. If I create a new DwCA file for my data and crawl the new archive, my expectation is:</div>
<div><br>
</div>
<div>1. Old data with ids 1-10 is deleted from GBIF index </div>
<div>2. New data with ids a-j is indexed</div>
<div><br>
</div>
<div>So, end result is dataset has 10 occurrences. I'm asking because I know in the past the some datasets have changed identifiers and this has resulted in records with old and new identifiers coexisting in GBIF index, resulting in duplicated data.</div>
<div><br>
</div>
<div>Obviously it would be nice to have stable, unchanging identifiers for occurrences, but the for data set I'm working with the creators have changed their minds between versions of the data :(</div>
<div><br>
</div>
<div>Regards,</div>
<div><br>
</div>
<div>Rod<br>
<br>
<div>Get <a href="https://aka.ms/o0ukef" target="_blank">Outlook for iOS</a></div>
<br>
</div>
</div>
<br>
______________________________<wbr>_________________<br>
API-users mailing list<br>
<a href="javascript:_e(%7B%7D,'cvml','API-users@lists.gbif.org');" target="_blank">API-users@lists.gbif.org</a><br>
<a href="http://lists.gbif.org/mailman/listinfo/api-users" rel="noreferrer" target="_blank">http://lists.gbif.org/mailman/<wbr>listinfo/api-users</a><br>
<br>
</blockquote>
</div>
<br>
<br clear="all">
<br>
-- <br>
<div data-smartmail="gmail_signature">
<div>David García San León</div>
Herbario SANT
<div>Facultade de Farmacia - Laboratorio de Botánica</div>
<div>Universidade de Santiago de Compostela</div>
<div>15782 - Galicia (Spain)</div>
<div><a href="http://www.usc.es/herbario" target="_blank">http://www.usc.es/herbario</a></div>
<br>
</div>
</div>
</div>
</div>
</div>
</span></div>
</blockquote>
</div>
<br>
<br>
-- <br>
<div>David García San León</div>
<div>(dixitalización / control de fondos)</div>
<div>Herbario SANT</div>
<div>Facultade de Farmacia - Laboratorio de Botánica</div>
<div>Universidade de Santiago de Compostela</div>
<div>15782 - Galicia (Spain)</div>
<div><a href="http://www.usc.es/herbario" target="_blank">http://www.usc.es/herbario</a></div>
<div>Tel. +34 881815022</div>
<div>Fax +34 981594912</div>
<div>Skype: herbarium_sant</div>
<div>Twitter: @SANT_Herbarium</div>
<br>
</div>
</div>
</span>
</body>
</html>