<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">
<div class="">Dear Scott,</div>
<div class=""><br class="">
</div>
<div class="">I must have missed your email in march, sorry for that. Let me still answer your important questions about the monthly downloads.</div>
<div class=""><br class="">
</div>
COL aims to produce a monthly release which we will keep at least for a year accessible via the API with all its features. Each release has its distinct datasetKey in ChecklistBank. There is no fixed day when we will issue the release. Moving to the new infrastructure
 at the end of last year caused a few teething issues which made us skip a few releases in january/february for example. We hope this will not happen again and you should see now regular monthly updates. 
<div class=""><br class="">
</div>
<div class="">One of these releases will be tagged as an Annual release which from the API point of view is just the same as a monthly one. But it will not be removed from ChecklistBank and therefore you have long term access via the API to it. We plan to issue
 the next annual release in June.</div>
<div class=""><br class="">
</div>
<div class="">Once a monthly release is deleted, we will still keep the data in various formats for download. But it will be gone from the database.</div>
<div class="">The download archive contains a DwC archive (YYYY-MM-DD_dwca.zip) and an ACEF archive (YYYY-MM-DD_acef.zip) right now, with the next May release we will also add a new ColDP archive to the supported formats. A native postgres dump is on our list
 too, but that is not straight forward as COL is just a small part of ChecklistBank and we will need to filter out the relevant bits. </div>
<div class=""><br class="">
</div>
<div class="">Prior to December 2020 we only had DwC archives, but these has used some slightly different terms than we use today.</div>
<div class="">Note that we do not export a flattened classification (family, order, etc) at this stage, but we plan to add that back in again in a not too distant future. The same applies also to ColDP.</div>
<div class=""><br class="">
</div>
<div class="">The ACEF archive is slightly special. We used it to transfer the data to the old systems and uses \N to represent NULL, which is a postgres specific convention. The files are proper CSV files with a header row and not tab separated. There is a
 short SQL script to load the ACEF files into a postgres database which also has DDL: <a href="https://github.com/CatalogueOfLife/backend/blob/master/webservice/src/main/resources/export/acef/load-export.sql" class="">https://github.com/CatalogueOfLife/backend/blob/master/webservice/src/main/resources/export/acef/load-export.sql</a></div>
<div class=""><br class="">
</div>
<div class="">The DwCA and ColDP archives on the other hand use just an empty string and also use a header row with the term names.</div>
<div class="">Files in both dwca and coldp are tab delimited and use the .tsv file extension. For ColDP we maintain a Postgres, MS Access and Excel schema, but that needs some small updates as we are about to freeze the format for a final & fixed 1st version.</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class="">Hope thats useful, </div>
<div class=""><br class="">
</div>
<div class="">Markus</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
<div>
<blockquote type="cite" class="">
<div class="">
<div class="moz-forward-container" style="caret-color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none;">
<div class="">Hi, <br class="">
</div>
<div class=""><br class="">
</div>
<div class="">I had been using the downloads available at <a href="https://download.catalogueoflife.org/col/monthly/" moz-do-not-send="true" class="">https://download.catalogueoflife.org/col/monthly/</a> to construct a SQLite version of the database here <a href="https://github.com/sckott/col-sql" moz-do-not-send="true" class="">https://github.com/sckott/col-sql</a> to
 make it easier for users to use. <br class="">
</div>
<div class=""><br class="">
</div>
<div class="">Two questions, the 2nd with many parts:<br class="">
</div>
<div class=""><br class="">
</div>
<div class="">1. Will<span class="Apple-converted-space"> </span><a href="https://download.catalogueoflife.org/col/monthly/" moz-do-not-send="true" class="">https://download.catalogueoflife.org/col/monthly/</a> continue to be updated every 2 or 3 months with
 a new database dump?<br class="">
</div>
<div class=""><br class="">
</div>
<div class="">2. If the answer to (1) is yes: The format changed in the last database dump "2020-12-01_acef.zip".<br class="">
</div>
<div class="">a. The included file names changed, and file types changed from .tsv to .csv (although the data still appears to be tab-sep). Was it intended to change to comma-sep?<span class="Apple-converted-space"> </span><br class="">
</div>
<div class="">b. Will there be more changes to the monthly dump? <br class="">
</div>
<div class="">c. Will the release cycle be something predictable? Every 2 or 3 months?<br class="">
</div>
<div class="">d. The files have a lot of "\N" in them. Is this supposed to be a newline character? I've not seen a newline with a capital N.<br class="">
</div>
<div class="">e. Any schema to use for these various csv files?<br class="">
</div>
<div class=""><br class="">
</div>
<div class="">Thanks! <br class="">
</div>
<div class="">Scott Chamberlain<br class="">
</div>
</div>
</div>
</blockquote>
<div class=""><br class="">
</div>
</div>
</div>
</body>
</html>