<div dir="ltr">Hi Natasha,&nbsp;<div><br></div><div><br></div><div>I´m sending the files that I appended to col_dwc.txt and col_vernacular.txt.</div><div><br></div><div>I used this Linux command to append those files:</div><div>

<div><br></div><div><font face="courier new, monospace">cat AnimaisMonitoradosProcessados.csv &gt;&gt; col_dwc.txt</font></div><div><font face="courier new, monospace">cat vernacularNameAnimaisMonitoradosProcessados.csv &gt;&gt; col_vernacular.txt</font></div>

</div><div><br></div><div>Thank you for help.</div><div><br></div><div><br></div></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr">Allan Koch Veiga<br><br>Núcleo de Pesquisa em Biodiversidade e Computação - BioComp<br>

Laboratório de Automação Agrícola - LAA<div>Depto. de Engenharia de Computação e Sistemas Digitais - PCS<br>Engenharia Elétrica -&nbsp;Escola Politécnica da USP<br>Celular: +55 11 8401-2277<br>Email: <a href="mailto:allan.kv@usp.br" target="_blank">allan.kv@usp.br</a><br>

<br>&quot;<i>Stay hungry, stay foolish.</i>&quot;&nbsp;Stewart Brand<br></div></div></div>
<br><br><div class="gmail_quote">2014-04-02 18:43 GMT-03:00  <span dir="ltr">&lt;<a href="mailto:Natasha.Quimby@csiro.au" target="_blank">Natasha.Quimby@csiro.au</a>&gt;</span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">





<div style="font-size:14px;font-family:Calibri,sans-serif;word-wrap:break-word">
<div>
<div>Hi Allan,</div>
<div><br>
</div>
<div>The line of code that you are getting the NPE in is:</div>
<div>return blacklist.contains(scientificName.trim())</div>
<div><br>
</div>
<div>This implies to me that the scientific name that is being supplied is null.</div>
<div><br>
</div>
<div>You mentioned earlier that you had 109 species that you needed to add to the CoL DwcA. Could you please send the lines that you added to the DwcA?&nbsp;</div>
<div><br>
</div>
<div>Thanks.</div>
<div><br>
</div>
<div>Regards</div>
<div>Natasha</div>
</div>
<div><br>
</div>
<span>
<div style="border-right:medium none;padding-right:0in;padding-left:0in;padding-top:3pt;text-align:left;font-size:11pt;border-bottom:medium none;font-family:Calibri;border-top:#b5c4df 1pt solid;padding-bottom:0in;border-left:medium none">


<span style="font-weight:bold">From: </span>Allan Koch &lt;<a href="mailto:allan.kv@gmail.com" target="_blank">allan.kv@gmail.com</a>&gt;<br>
<span style="font-weight:bold">Date: </span>Thursday, 3 April 2014 4:53 AM<div><div class="h5"><br>
<span style="font-weight:bold">To: </span>Natasha Carter &lt;<a href="mailto:natasha.quimby@csiro.au" target="_blank">natasha.quimby@csiro.au</a>&gt;<br>
<span style="font-weight:bold">Cc: </span>&quot;Martin, Dave (CES, Black Mountain)&quot; &lt;<a href="mailto:David.Martin@csiro.au" target="_blank">David.Martin@csiro.au</a>&gt;, &quot;<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a>&quot; &lt;<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a>&gt;<br>


<span style="font-weight:bold">Subject: </span>Re: [Ala-portal] Names Generator Issues<br>
</div></div></div><div><div class="h5">
<div><br>
</div>
<blockquote style="BORDER-LEFT:#b5c4df 5 solid;PADDING:0 0 0 5;MARGIN:0 0 0 5">
<div>
<div>
<div dir="ltr">Hi Natasha,&nbsp;
<div><br>
</div>
<div>I ran DwcaNameIndexer with default CoL list, with any modification, and it works correctly.</div>
<div><br>
</div>
<div>But, it not works when I ran with a modified file. I merged into the CoL taxon concepts list and vernacular names our taxon concepts and vernacular names.</div>
<div><br>
</div>
<div>For now, I not include the&nbsp;<span style="font-size:14px;font-family:Calibri,sans-serif">IRMNG_</span><span style="font-size:14px;font-family:Calibri,sans-serif">DWC_HOMONYMS.</span></div>
<div><span style="font-size:14px;font-family:Calibri,sans-serif"><br>
</span></div>
<div><span style="font-size:14px;font-family:Calibri,sans-serif">Sou, I ran this command:</span></div>
<div><span style="font-size:14px">
<div style="font-family:Calibri,sans-serif"><br>
</div>
<div><font face="courier new,monospace">&nbsp;java -cp .:names.jar au.org.ala.checklist.lucene.DwcaNameIndexer --all --dwca /[ABSOLUT_PATH]/dwca-col-merge-animais/col_dwc.txt --target&nbsp;/[ABSOLUT_PATH]/index/mergeColAnimaisCommon/ --common&nbsp;/[ABSOLUT_PATH]/col_vernacular_merge_animais.txt</font></div>


<div style="font-family:Calibri,sans-serif"><br>
</div>
</span></div>
<div>This is the output:</div>
<div><br>
</div>
<div>
<div><font face="courier new,monospace">SLF4J: Failed to load class &quot;org.slf4j.impl.StaticLoggerBinder&quot;.</font></div>
<div><font face="courier new,monospace">SLF4J: Defaulting to no-operation (NOP) logger implementation</font></div>
<div><font face="courier new,monospace">SLF4J: See <a href="http://www.slf4j.org/codes.html#StaticLoggerBinder" target="_blank">
http://www.slf4j.org/codes.html#StaticLoggerBinder</a> for further details.</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 1:54:17 PM au.org.ala.checklist.lucene.DwcaNameIndexer createLoadingIndex</font></div>
<div><font face="courier new,monospace">INFO: Starting to create the temporary loading index.</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 1:59:55 PM au.org.ala.checklist.lucene.DwcaNameIndexer createLoadingIndex</font></div>
<div><font face="courier new,monospace">INFO: Finished creating the temporary load index with 2474452 concepts</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:05:00 PM au.org.ala.checklist.lucene.CBCreateLuceneIndex createALAIndexDocument</font></div>
<div><font face="courier new,monospace">WARNING: urn:lsid:catalogueoflife.org:taxon:e0bc6ece-2dc5-11e0-98c6-2ce70255a436:col20120124 X humeralis has issues creating a soundex: String index out of range: -1</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:05:00 PM au.org.ala.checklist.lucene.CBCreateLuceneIndex createALAIndexDocument</font></div>
<div><font face="courier new,monospace">WARNING: urn:lsid:catalogueoflife.org:taxon:e0aac25d-2dc5-11e0-98c6-2ce70255a436:col20120124 X cinerea has issues creating a soundex: String index out of range: -1</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:05:00 PM au.org.ala.checklist.lucene.CBCreateLuceneIndex createALAIndexDocument</font></div>
<div><font face="courier new,monospace">WARNING: urn:lsid:catalogueoflife.org:taxon:e0c2f680-2dc5-11e0-98c6-2ce70255a436:col20120124 X lineatus has issues creating a soundex: String index out of range: -1</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:05:00 PM au.org.ala.checklist.lucene.CBCreateLuceneIndex createALAIndexDocument</font></div>
<div><font face="courier new,monospace">WARNING: urn:lsid:catalogueoflife.org:taxon:e1590b50-2dc5-11e0-98c6-2ce70255a436:col20120124 X has issues creating a soundex: String index out of range: -1</font></div>
</div>
<div>
<div><font face="courier new,monospace">Apr 02, 2014 2:21:18 PM au.org.ala.checklist.lucene.DwcaNameIndexer generateIndex</font></div>
<div><font face="courier new,monospace">INFO: Finished loading urn:lsid:catalogueoflife.org:taxon:d74fcd5e-29c1-102b-9a4a-00304854f820:col20120124 Animalia 1 2455490</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:26:37 PM au.org.ala.checklist.lucene.DwcaNameIndexer generateIndex</font></div>
<div><font face="courier new,monospace">INFO: Finished loading urn:lsid:catalogueoflife.org:taxon:d755b8fe-29c1-102b-9a4a-00304854f820:col20120124 Plantae 2455491 3065868</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:26:50 PM au.org.ala.checklist.lucene.DwcaNameIndexer generateIndex</font></div>
<div><font face="courier new,monospace">INFO: Finished loading urn:lsid:catalogueoflife.org:taxon:d755c2e0-29c1-102b-9a4a-00304854f820:col20120124 Bacteria 3065869 3089350</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:27:10 PM au.org.ala.checklist.lucene.DwcaNameIndexer generateIndex</font></div>
<div><font face="courier new,monospace">INFO: Finished loading urn:lsid:catalogueoflife.org:taxon:d76c1e8c-29c1-102b-9a4a-00304854f820:col20120124 Protozoa 3089351 3127338</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:27:20 PM au.org.ala.checklist.lucene.DwcaNameIndexer generateIndex</font></div>
<div><font face="courier new,monospace">INFO: Finished loading urn:lsid:catalogueoflife.org:taxon:d7656902-29c1-102b-9a4a-00304854f820:col20120124 Chromista 3127339 3145930</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:27:22 PM au.org.ala.checklist.lucene.DwcaNameIndexer generateIndex</font></div>
<div><font face="courier new,monospace">INFO: Finished loading urn:lsid:catalogueoflife.org:taxon:d76df252-29c1-102b-9a4a-00304854f820:col20120124 Viruses 3145931 3150922</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:28:21 PM au.org.ala.checklist.lucene.DwcaNameIndexer generateIndex</font></div>
<div><font face="courier new,monospace">INFO: Finished loading urn:lsid:catalogueoflife.org:taxon:d770c428-29c1-102b-9a4a-00304854f820:col20120124 Fungi 3150923 3262754</font></div>
<div><font face="courier new,monospace">Apr 02, 2014 2:28:22 PM au.org.ala.checklist.lucene.DwcaNameIndexer generateIndex</font></div>
<div><font face="courier new,monospace">INFO: Finished loading urn:lsid:catalogueoflife.org:taxon:d77cda9c-29c1-102b-9a4a-00304854f820:col20120124 Archaea 3262755 3263584</font></div>
<div><b><font face="courier new,monospace">java.lang.NullPointerException</font></b></div>
<div><b><font face="courier new,monospace">&nbsp; &nbsp; &nbsp; &nbsp; at au.org.ala.checklist.lucene.CBCreateLuceneIndex.isBlacklisted(CBCreateLuceneIndex.java:769)</font></b></div>
<div><b><font face="courier new,monospace">&nbsp; &nbsp; &nbsp; &nbsp; at au.org.ala.checklist.lucene.CBCreateLuceneIndex.createALAIndexDocument(CBCreateLuceneIndex.java:779)</font></b></div>
<div><b><font face="courier new,monospace">&nbsp; &nbsp; &nbsp; &nbsp; at au.org.ala.checklist.lucene.CBCreateLuceneIndex.createALAIndexDocument(CBCreateLuceneIndex.java:747)</font></b></div>
<div><b><font face="courier new,monospace">&nbsp; &nbsp; &nbsp; &nbsp; at au.org.ala.checklist.lucene.DwcaNameIndexer.addIndex(DwcaNameIndexer.java:321)</font></b></div>
<div><b><font face="courier new,monospace">&nbsp; &nbsp; &nbsp; &nbsp; at au.org.ala.checklist.lucene.DwcaNameIndexer.generateIndex(DwcaNameIndexer.java:252)</font></b></div>
<div><b><font face="courier new,monospace">&nbsp; &nbsp; &nbsp; &nbsp; at au.org.ala.checklist.lucene.DwcaNameIndexer.create(DwcaNameIndexer.java:85)</font></b></div>
<div><b><font face="courier new,monospace">&nbsp; &nbsp; &nbsp; &nbsp; at au.org.ala.checklist.lucene.DwcaNameIndexer.main(DwcaNameIndexer.java:386)</font></b></div>
</div>
<div><br>
</div>
<div>Any idea about what coud be the problem?</div>
<div>If you want I can send you col_dwc.txt and col_vernacular_merge_animais.txt files that I used.&nbsp;</div>
<div><br>
</div>
<div>Thank you,</div>
<div><br>
</div>
</div>
<div class="gmail_extra"><br clear="all">
<div>
<div dir="ltr">Allan Koch Veiga<br>
<br>
Núcleo de Pesquisa em Biodiversidade e Computação - BioComp<br>
Laboratório de Automação Agrícola - LAA
<div>Depto. de Engenharia de Computação e Sistemas Digitais - PCS<br>
Engenharia Elétrica -&nbsp;Escola Politécnica da USP<br>
Celular: +55 11 8401-2277<br>
Email: <a href="mailto:allan.kv@usp.br" target="_blank">allan.kv@usp.br</a><br>
<br>
&quot;<i>Stay hungry, stay foolish.</i>&quot;&nbsp;Stewart Brand<br>
</div>
</div>
</div>
<br>
<br>
<div class="gmail_quote">2014-03-20 18:44 GMT-03:00 <span dir="ltr">&lt;<a href="mailto:Natasha.Quimby@csiro.au" target="_blank">Natasha.Quimby@csiro.au</a>&gt;</span>:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div style="font-size:14px;font-family:Calibri,sans-serif;word-wrap:break-word">
<div>Hi Allan,</div>
<div><br>
</div>
<div>We have finished writing a DWCA Names index generator. &nbsp;It requires a single DwCA that contains all the scientific names that you wish to add (including synonyms). &nbsp;</div>
<div><br>
</div>
<div>There is an example Catalogue of Life DwcA that can be downloaded here:&nbsp;<a href="http://biocache.ala.org.au/archives/dwca-col.zip" target="_blank">http://biocache.ala.org.au/archives/dwca-col.zip</a>&nbsp;You will need to modify the col_dwc.txt file to include
 any additional species.&nbsp;</div>
<div><br>
</div>
<div>The name matching index can also support common name. Here are the Catalogue of Life common names that can be loaded in conjunction to the Darwin Core Archive:&nbsp;<a href="http://biocache.ala.org.au/archives/col_vernacular.txt.zip" target="_blank">http://biocache.ala.org.au/archives/col_vernacular.txt.zip</a></div>


<div><br>
</div>
<div>The name matching supports homonym detection. Homonym detection is supported through the using of IRMNG. You can download the IRMNG DwCA for homonyms from the following URL:&nbsp;<a href="http://www.cmar.csiro.au/datacentre/downloads/IRMNG_DWC_HOMONYMS.zip" target="_blank">www.cmar.csiro.au/datacentre/downloads/IRMNG_DWC_HOMONYMS.zip</a></div>


<div><br>
</div>
<div>Here is the code for the DwcaNameIndexer :&nbsp;<a href="http://code.google.com/p/ala-portal/source/browse/trunk/ala-name-matching/src/main/java/au/org/ala/checklist/lucene/DwcaNameIndexer.java" target="_blank">http://code.google.com/p/ala-portal/source/browse/trunk/ala-name-matching/src/main/java/au/org/ala/checklist/lucene/DwcaNameIndexer.java</a></div>


<div><br>
</div>
<div>An assembly jar file for this can be downloaded from our maven repository :&nbsp;<a href="http://maven.ala.org.au/repository/au/org/ala/ala-name-matching/1.3-SNAPSHOT/ala-name-matching-1.3-SNAPSHOT-assembly.jar" target="_blank">http://maven.ala.org.au/repository/au/org/ala/ala-name-matching/1.3-SNAPSHOT/ala-name-matching-1.3-SNAPSHOT-assembly.jar</a></div>


<div><br>
</div>
<div>To generate the name using the assembly jar:</div>
<div>1) Rename the jar :</div>
<div>mv ala-name-matching-1.3-SNAPSHOT-assembly.jar names.jar</div>
<div><br>
</div>
<div>2) Extract the lib directory:</div>
<div>&nbsp;jar &ndash;xf names.jar lib</div>
<div><br>
</div>
<div>3) Generate the names index &ndash; here is the command that I used.</div>
<div>java &ndash;cp .:names.jar au.org.ala.checklist.lucene.DwcaNameIndexer&nbsp;--all --dwca /data/bie-staging/names-lists/dwca-col --target /data/lucene/testdwc-namematching --irmng /data/bie-staging/irmng/IRMNG_DWC_HOMONYMS --common /data/bie-staging/ala-names/col_vernacular.txt</div>


<div><br>
</div>
<div>Please be aware that the names indexing could take over an hour to complete.</div>
<div><br>
</div>
<div>Let me know if you have any questions.</div>
<div><br>
</div>
<div>Regards</div>
<div>Natasha</div>
<div><br>
</div>
<span>
<div style="border-right:medium none;padding-right:0in;padding-left:0in;padding-top:3pt;text-align:left;font-size:11pt;border-bottom:medium none;font-family:Calibri;border-top:#b5c4df 1pt solid;padding-bottom:0in;border-left:medium none">


<span style="font-weight:bold">From: </span>Allan Koch &lt;<a href="mailto:allan.kv@gmail.com" target="_blank">allan.kv@gmail.com</a>&gt;<br>
<span style="font-weight:bold">Date: </span>Wednesday, 19 March 2014 12:44 AM
<div>
<div><br>
<span style="font-weight:bold">To: </span>Natasha Carter &lt;<a href="mailto:natasha.quimby@csiro.au" target="_blank">natasha.quimby@csiro.au</a>&gt;<br>
<span style="font-weight:bold">Cc: </span>&quot;Martin, Dave (CES, Black Mountain)&quot; &lt;<a href="mailto:David.Martin@csiro.au" target="_blank">David.Martin@csiro.au</a>&gt;, &quot;<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a>&quot; &lt;<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a>&gt;<br>


<span style="font-weight:bold">Subject: </span>Re: [Ala-portal] Names Generator Issues<br>
</div>
</div>
</div>
<div>
<div>
<div><br>
</div>
<blockquote style="BORDER-LEFT:#b5c4df 5 solid;PADDING:0 0 0 5;MARGIN:0 0 0 5">
<div>
<div>
<div dir="ltr">
<div>Hi Natasha,</div>
<div><br>
</div>
<div>That´s great. Thank you very much.</div>
<div>We are waiting for the DwC-A with CoL list for we merging our names.</div>
<div><br>
</div>
<div>We are excited with this news.</div>
<div>Thank you again,<br>
</div>
<div class="gmail_extra"><br clear="all">
<div>
<div dir="ltr">Allan Koch Veiga<br>
<br>
Núcleo de Pesquisa em Biodiversidade e Computação - BioComp<br>
Laboratório de Automação Agrícola - LAA
<div>Depto. de Engenharia de Computação e Sistemas Digitais - PCS<br>
Engenharia Elétrica -&nbsp;Escola Politécnica da USP<br>
Celular: +55 11 8401-2277<br>
Email: <a href="mailto:allan.kv@usp.br" target="_blank">allan.kv@usp.br</a><br>
<br>
&quot;<i>Stay hungry, stay foolish.</i>&quot;&nbsp;Stewart Brand<br>
</div>
</div>
</div>
<br>
<br>
<div class="gmail_quote">2014-03-18 3:03 GMT-03:00 <span dir="ltr">&lt;<a href="mailto:Natasha.Quimby@csiro.au" target="_blank">Natasha.Quimby@csiro.au</a>&gt;</span>:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<div style="font-size:14px;font-family:Calibri,sans-serif;word-wrap:break-word">
<div>Hi Allan,</div>
<div><br>
</div>
<div>We would provide a DwCA with the Catalogue of Life species in it. &nbsp;Yes, you will need to add your species to this file in the same format. If you want your species to be merged into the Catalogue of life hierarchy you will need to provide appropriate parentIds.</div>


<div><br>
</div>
<div>We would provide a tool within the ala-name-matching (available as a jar file in our maven repository) to generate a list based on a DwCA. You would need to run the tool pointing at your modified DwCA.</div>
<div><br>
</div>
<div>We will let you know when this is available.</div>
<div><br>
</div>
<div>Hope that this all makes sense.</div>
<div><br>
</div>
<div>Regards</div>
<div>Natasha</div>
<div><br>
</div>
<span>
<div style="border-width:1pt medium medium;border-style:solid none none;padding:3pt 0in 0in;text-align:left;font-size:11pt;font-family:Calibri;border-top-color:rgb(181,196,223)">
<span style="font-weight:bold">From: </span>Allan Koch &lt;<a href="mailto:allan.kv@gmail.com" target="_blank">allan.kv@gmail.com</a>&gt;<br>
<span style="font-weight:bold">Date: </span>Tuesday, 18 March 2014 7:34 AM<br>
<span style="font-weight:bold">To: </span>Natasha Carter &lt;<a href="mailto:natasha.quimby@csiro.au" target="_blank">natasha.quimby@csiro.au</a>&gt;<br>
<span style="font-weight:bold">Cc: </span>&quot;Martin, Dave (CES, Black Mountain)&quot; &lt;<a href="mailto:David.Martin@csiro.au" target="_blank">David.Martin@csiro.au</a>&gt;, &quot;<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a>&quot; &lt;<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a>&gt;
<div>
<div><br>
<span style="font-weight:bold">Subject: </span>Re: [Ala-portal] Names Generator Issues<br>
</div>
</div>
</div>
<div>
<div>
<div><br>
</div>
<blockquote style="BORDER-LEFT:#b5c4df 5 solid;PADDING:0 0 0 5;MARGIN:0 0 0 5">
<div>
<div>
<div dir="ltr">
<div>
<div>Hi Natasha,</div>
<div><br>
</div>
<div>It would be great. We have 109 species that we need to include in the current name matching index.&nbsp;</div>
<div><br>
</div>
<div>It would be great if you send me a DwC-A with CoL names. I will need just to add these 109 species in that archive in the same format, right?</div>
<div><br>
</div>
<div>How will work this proposed solution?&nbsp;</div>
<div>Will you provide a souce code, a compiled program (JAR) or we will send to you the DwC-A and you will generate the Lucene index?</div>
<div><br>
</div>
</div>
<div class="gmail_extra">Thank you very much for helping.</div>
<div class="gmail_extra"><br>
</div>
<div class="gmail_extra">Best regards,</div>
<div class="gmail_extra"><br clear="all">
<div>
<div dir="ltr">Allan Koch Veiga<br>
<br>
Núcleo de Pesquisa em Biodiversidade e Computação - BioComp<br>
Laboratório de Automação Agrícola - LAA
<div>Depto. de Engenharia de Computação e Sistemas Digitais - PCS<br>
Engenharia Elétrica -&nbsp;Escola Politécnica da USP<br>
Celular: +55 11 8401-2277<br>
Email: <a href="mailto:allan.kv@usp.br" target="_blank">allan.kv@usp.br</a><br>
<br>
&quot;<i>Stay hungry, stay foolish.</i>&quot;&nbsp;Stewart Brand<br>
</div>
</div>
</div>
<br>
<br>
<div class="gmail_quote">2014-03-17 3:12 GMT-03:00 &lt;<a href="mailto:Natasha.Quimby@csiro.au" target="_blank">Natasha.Quimby@csiro.au</a>&gt;:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<div style="font-size:14px;font-family:Calibri,sans-serif;word-wrap:break-word">
<div>Hi Allan,</div>
<div><br>
</div>
<div>The ala-name-generator is useful if you want to use the Australian National Species list as the main source for your namematching index. &nbsp;We would not suggest using this to supplement the name matching index with additional species.</div>


<div><br>
</div>
<div>In order to support custom species lists we are planning an enhancement to generate the namematching index from a DarwinCore Archive. We would envision that all the species would be provided as a single DWCA with the attached meta.xml. &nbsp; We think that
 this could be achieved in the 1-2 week window that you mentioned. &nbsp;We could provide a DWCA which contains Catalogue of Life &nbsp;as a basis for you to start with. You can then add additional names to the DWCA as you please.&nbsp;Do you think that this would suit you
 needs?</div>
<div><br>
</div>
<div>Regards</div>
<div>Natasha&nbsp;</div>
<div><br>
</div>
<div style="border-width:1pt medium medium;border-style:solid none none;padding:3pt 0in 0in;text-align:left;font-size:11pt;font-family:Calibri;border-top-color:rgb(181,196,223)">
From: Allan Koch &lt;<a href="mailto:allan.kv@gmail.com" target="_blank">allan.kv@gmail.com</a>&gt;<br>
Date: Saturday, 15 March 2014 4:19 AM<br>
To: &quot;Martin, Dave (CES, Black Mountain)&quot; &lt;<a href="mailto:David.Martin@csiro.au" target="_blank">David.Martin@csiro.au</a>&gt;
<div>
<div><br>
Cc: &quot;<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a>&quot; &lt;<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a>&gt;<br>
Subject: Re: [Ala-portal] Names Generator Issues<br>
</div>
</div>
</div>
<div>
<div>
<div><br>
</div>
<blockquote style="BORDER-LEFT:#b5c4df 5 solid;PADDING:0 0 0 5;MARGIN:0 0 0 5">
<div>
<div>
<div dir="ltr">
<div>
<div>
<div>I thank you for the quick answer David and Tim .<br>
<br>
We have studied the process to create the namematching index based on the National List of Australia and I see that reproducing the same process to create a new National List is quite complex.<br>
<br>
But, for now, we just have the demand to include some names that aren´t included in current namematching index.<br>
<br>
If we understood, we need at first, run the Names Generator with the input of a set of CSVs from APNI, APC e AFD. Based on the output of the Names Generator we run the Name Mathcing for creating the LUCENE index, right?<br>


<br>
If it´s right, it would be great If we could execute this same standard process, but with de input CSVs modified, with our set of names included in these CSVs (in the same format).<br>
<br>
In the future (after this 3 months) we can study the possibility to generate our complete National List .<br>
<br>
But for now, we need to include a set of names in the namematching index.<br>
It could be possible to be realized in a short time, in one or two weeks?<br>
</div>
</div>
<div><br>
</div>
Best regards,<br>
</div>
</div>
<div class="gmail_extra"><br clear="all">
<div>
<div dir="ltr">Allan Koch Veiga<br>
<br>
Núcleo de Pesquisa em Biodiversidade e Computação - BioComp<br>
Laboratório de Automação Agrícola - LAA
<div>Depto. de Engenharia de Computação e Sistemas Digitais - PCS<br>
Engenharia Elétrica -&nbsp;Escola Politécnica da USP<br>
Celular: +55 11 8401-2277<br>
Email: <a href="mailto:allan.kv@usp.br" target="_blank">allan.kv@usp.br</a><br>
<br>
&quot;<i>Stay hungry, stay foolish.</i>&quot;&nbsp;Stewart Brand<br>
</div>
</div>
</div>
<br>
<br>
<div class="gmail_quote">2014-03-12 23:15 GMT-03:00 &lt;<a href="mailto:David.Martin@csiro.au" target="_blank">David.Martin@csiro.au</a>&gt;:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<div style="font-size:14px;font-family:Calibri,sans-serif;word-wrap:break-word">
<div>
<div>Thanks Allan, Paulo, Tim.</div>
<div><br>
</div>
<div>We appreciate your efforts in setting this software upm locally, and thanks for emailing the list.</div>
<div><br>
</div>
<div>1) Versioning&nbsp;</div>
<div><br>
</div>
<div>While we are on the track of making this software re-usable by other projects/organisations, it is still very early days. Versioning and packaging are things that we need to tackle properly in the 3 month evaulation period [2] and we are working with GBIF
 on the best approach here (see Tim&#39;s email regarding Ansible). To date, the ALA environment itself is the only place these components are used in production and we manage these closely ourselves. We havent had a need to tightly version components, but as other
 projects become reliant we need to do this properly. At this point it time, I&#39;d recommend ignoring developments on branches within SVN.&nbsp;</div>
<div><br>
</div>
<div>2) ala-name-generator</div>
<div><br>
</div>
<div>We didn&#39;t anticipate that other projects would be using the ala-name-generator code at this stage (or at all), and instead would rely on the Catalogue of Life names lucene index we&#39;ve produced [1]. The ala-name-generator code as it currently is isnt suitable
 for use outside the Australian context. It is dealing with some of the quirks of Australian species lists and merging some elements from different sources. We should have marked wikis to that effect.</div>
<div><br>
</div>
<div>That said, we appreciate the need for other projects to use their own taxonomic checklists. This was something I&#39;d hope we tackle in the 3 month evaluation period [2]. There&#39;s a few of potential approaches here we are exploring and we&#39;ll email this list
 soon with some progress on this front. I suggest in the meantime, projects make use of the existing index [1].</div>
<div><br>
</div>
<div>Thanks again,</div>
<div><br>
</div>
<div>Dave Martin</div>
<div>ALA</div>
<div><br>
</div>
<div>[1] <a href="http://biocache.ala.org.au/archives/col_namematching.tgz" target="_blank">
http://biocache.ala.org.au/archives/col_namematching.tgz</a></div>
<div>[2] See GBIF&#39;s email sent 21st Feb 2014 - &quot;Biodiversity data portals: Using the ALA tooling&quot;</div>
</div>
<div><br>
</div>
<div><br>
</div>
<div style="border-width:1pt medium medium;border-style:solid none none;padding:3pt 0in 0in;text-align:left;font-size:11pt;font-family:Calibri;border-top-color:rgb(181,196,223)">
From: &quot;Tim Robertson [GBIF]&quot; &lt;<a href="mailto:trobertson@gbif.org" target="_blank">trobertson@gbif.org</a>&gt;<br>
Date: Thursday, 13 March 2014 2:16 am<br>
To: Paulo André &lt;<a href="mailto:pfilipak@gmail.com" target="_blank">pfilipak@gmail.com</a>&gt;<br>
Cc: &quot;<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a>&quot; &lt;<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a>&gt;<br>
Subject: Re: [Ala-portal] Names Generator Issues<br>
</div>
<div>
<div>
<div><br>
</div>
<div>
<div style="word-wrap:break-word">Hi Paulo
<div><br>
</div>
<div>Those are all good comments - I&#39;ll make sure the ALA dev team are following those issues.&nbsp;</div>
<div>As this goes forward, it is clear that code releases are going to be needed, so we get immutable binaries in nexus and tagged SVN branches. &nbsp;I&#39;ll try and raise this with Dave Martin.</div>
<div><br>
</div>
<div>I&#39;ll try and follow the resolutions for the issues you log, build an artifact and verify the same results. &nbsp;</div>
<div>I&#39;m not so much into scala, but IIRC I saw that issue with another artifact. &nbsp;The solution was to run this before running the command line:</div>
<div>&nbsp; jar -xf&nbsp;ala-names-generator-1.0-SNAPSHOT-assembly.jar&nbsp;lib</div>
<div><br>
</div>
<div>I found this in the way they run the biocache command line tools in:</div>
<div>&nbsp;&nbsp;<a href="https://ala-portal.googlecode.com/svn/trunk/biocache-install/ubuntu/install.sh" target="_blank">https://ala-portal.googlecode.com/svn/trunk/biocache-install/ubuntu/install.sh</a></div>
<div><br>
</div>
<div>It may not be the solution, but worth trying.</div>
<div><br>
</div>
<div>I hope this helps,</div>
<div>Tim</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
<div>
<div>On Mar 12, 2014, at 3:57 PM, Paulo André wrote:</div>
<br>
<blockquote type="cite">
<div dir="ltr">Tim
<div><br>
</div>
<div>I had have several issues on&nbsp;<a href="https://code.google.com/p/ala-portal/source/browse/#svn/trunk/ala-names-generator" style="font-size:13px;font-family:arial,sans-serif" target="_blank">https://code.google.com/p/ala-portal/source/browse/#svn%2Ftrunk%2Fala-names-generator</a></div>


<div><br>
</div>
<div>I wrote on Jira: <a href="http://dev.gbif.org/issues/browse/ALA" target="_blank">
http://dev.gbif.org/issues/browse/ALA</a></div>
<div><br>
</div>
<div>[]&#39;s</div>
<div>Paulo Andre Filipak</div>
</div>
<div class="gmail_extra"><br>
<br>
<div class="gmail_quote">2014-03-12 11:51 GMT-03:00 Tim Robertson [GBIF] &lt;<a href="mailto:trobertson@gbif.org" target="_blank">trobertson@gbif.org</a>&gt;:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<div style="word-wrap:break-word">
<div>Hi Allan,</div>
<div><br>
</div>
<div>I am sure the ALA folks will comment when they wake up. &nbsp;But...</div>
<div><br>
</div>
<div>It doesn&#39;t appear to be published as an artifact in the ALA maven repository:&nbsp;</div>
<div>&nbsp;&nbsp;<a href="http://maven.ala.org.au/repository/au/org/ala/" target="_blank">http://maven.ala.org.au/repository/au/org/ala/</a></div>
<div><br>
</div>
<div>You could&nbsp;build from source from:&nbsp;<a href="https://code.google.com/p/ala-portal/source/browse/#svn/trunk/ala-names-generator" target="_blank">https://code.google.com/p/ala-portal/source/browse/#svn%2Ftrunk%2Fala-names-generator</a></div>


<div><br>
</div>
<div>I presume using something along the lines of &quot;mvn clean assembly:assembly&quot;</div>
<div><br>
</div>
<div>I hope this helps provide some options,</div>
<div>Tim</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<br>
<div>
<div>
<div>
<div>On Mar 12, 2014, at 3:32 PM, Allan Koch wrote:</div>
<br>
</div>
</div>
<blockquote type="cite">
<div>
<div>
<div dir="ltr">
<div>Does anyone knows where I can download this jar: <b>ala-names-generator-1.0-SNAPSHOT-assembly.jar</b>?<b></b><br>
<br>
I´m trying to generate a new Taxon Name List based on NSL for the Biocache processing.
<br>
This instructions has been followed:<br>
<br>
<a href="http://code.google.com/p/ala-portal/wiki/UpgradeALANames" target="_blank">http://code.google.com/p/ala-portal/wiki/UpgradeALANames</a><br>
<br>
According the instructions, I need to run this command:<br>
<br>
java -Xmx1G -Xms1G -cp .:ala-names-generator-1.0-SNAPSHOT-assembly.jar au.org.ala.names.NamesGenerator --all
<br>
<br>
But, I can´t find this JAR.<br>
<br>
</div>
<div>We are trying to build the Scala Project, but we are having some troubles.<br>
Would help me, for while, if I could run a ready JAR.<br>
</div>
<div><br>
</div>
Best regards,<br>
<br clear="all">
<div>
<div>
<div>
<div dir="ltr">Allan Koch Veiga<br>
<br>
Research Center on Biodiversity and Computing - BioComp<br>
University of São Paulo<br>
<br>
Laboratório de Automação Agrícola - LAA
<div>Depto. de Engenharia de Computação e Sistemas Digitais - PCS<br>
Engenharia Elétrica -&nbsp;Escola Politécnica da USP<br>
Celular: <a href="tel:%2B55%2011%2098401-2277" value="+5511984012277" target="_blank">
+55 11 98401-2277</a><br>
Email: <a href="mailto:allan.kv@usp.br" target="_blank">allan.kv@usp.br</a><br>
<br>
&quot;<i>Stay hungry, stay foolish.</i>&quot;&nbsp;Stewart Brand<br>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
_______________________________________________<br>
Ala-portal mailing list<br>
<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a><br>
<a href="http://lists.gbif.org/mailman/listinfo/ala-portal" target="_blank">http://lists.gbif.org/mailman/listinfo/ala-portal</a><br>
</blockquote>
</div>
<br>
<div>
<div style="word-wrap:break-word">
<div>
<div style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
----------------------------------------------------------------------------------------</div>
<div style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
Tim Robertson - GBIF Head of Informatics - <a href="mailto:trobertson@gbif.org" target="_blank">
trobertson@gbif.org</a></div>
<div style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
Global Biodiversity Information Facility <a href="http://www.gbif.org/" target="_blank">
http://www.gbif.org/</a></div>
<div style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
GBIF Secretariat, Universitetsparken 15, DK-2100 Copenhagen Ø, Denmark</div>
<div style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
Tel: <a href="tel:%2B45%203532%201487" value="+4535321487" target="_blank">+45 3532 1487</a>&nbsp;&nbsp;Mob:
<a href="tel:%2B45%202826%201487" value="+4528261487" target="_blank">+45 2826 1487</a>&nbsp;&nbsp;Fax:
<a href="tel:%2B45%202875%201480" value="+4528751480" target="_blank">+45 2875 1480</a></div>
<div style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
----------------------------------------------------------------------------------------</div>
</div>
</div>
</div>
<br>
</div>
<br>
_______________________________________________<br>
Ala-portal mailing list<br>
<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a><br>
<a href="http://lists.gbif.org/mailman/listinfo/ala-portal" target="_blank">http://lists.gbif.org/mailman/listinfo/ala-portal</a><br>
<br>
</blockquote>
</div>
<br>
</div>
</blockquote>
</div>
<br>
<div>
<div style="word-wrap:break-word">
<div>
<p style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
----------------------------------------------------------------------------------------</p>
<p style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
Tim Robertson - GBIF Head of Informatics - <a href="mailto:trobertson@gbif.org" target="_blank">
trobertson@gbif.org</a></p>
<p style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
Global Biodiversity Information Facility <a href="http://www.gbif.org/" target="_blank">
http://www.gbif.org/</a></p>
<p style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
GBIF Secretariat, Universitetsparken 15, DK-2100 Copenhagen Ø, Denmark</p>
<p style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
Tel: <a href="tel:%2B45%203532%201487" value="+4535321487" target="_blank">+45 3532 1487</a>&nbsp;&nbsp;Mob:
<a href="tel:%2B45%202826%201487" value="+4528261487" target="_blank">+45 2826 1487</a>&nbsp;&nbsp;Fax:
<a href="tel:%2B45%202875%201480" value="+4528751480" target="_blank">+45 2875 1480</a></p>
<p style="margin:0px;font-style:normal;font-variant:normal;font-weight:normal;font-size:12px;line-height:normal;font-family:Arial">
----------------------------------------------------------------------------------------</p>
</div>
</div>
</div>
<br>
</div>
</div>
</div>
</div>
</div>
</div>
<br>
_______________________________________________<br>
Ala-portal mailing list<br>
<a href="mailto:Ala-portal@lists.gbif.org" target="_blank">Ala-portal@lists.gbif.org</a><br>
<a href="http://lists.gbif.org/mailman/listinfo/ala-portal" target="_blank">http://lists.gbif.org/mailman/listinfo/ala-portal</a><br>
<br>
</blockquote>
</div>
<br>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</div>
</blockquote>
</div>
<br>
</div>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</span></div>
</blockquote>
</div>
<br>
</div>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</span></div>
</blockquote>
</div>
<br>
</div>
</div>
</div>
</blockquote>
</div></div></span>
</div>

</blockquote></div><br></div>