<div dir="ltr">Hello.<br><br>I am trying to play with faceted results from the occurrence api, but returned values are very odd IMHO.  <div><br>Perhaps I am misunderstanding how faceting should work? Or there might be some problem with the indexing of these particular datasets.   </div><div>I am pretty lost.  This is what I found:</div><div><br><br><b>(1) RESULTS COUNT NOT MATCHING SUM OF ALL FACET COUNTS</b><br><br>I put a simple example so everything is returned in one page.<br><br><a href="http://api.gbif.org/v1/occurrence/search?facet=ScientificName&limit=10&collectionCode=SANT-Lich&genusKey=2581943">http://api.gbif.org/v1/occurrence/search?facet=ScientificName&limit=10&collectionCode=SANT-Lich&genusKey=2581943</a><br><br>The count value is 4, the number of results is 4.<br>But the number of facets is 1, and its count is 2. <br><br>The faceted term ScientificName is a mandatory field, so no null values should happen. I would expect every occurrence having a value for it.<br>And the number of values is short, so everything is returned in one request (no paging needed). <br>So, in such a case shouldn't the sum of facet counts be equal to the number of results?<br>Why the count of the faceted name is not 4?<br><br><br><b>(2) LOWERCASE FACETS (facets values not matching results values):<br></b><br><div>Look at the same api request above (plant names)<br> <br>results: <br>Scientificname: "Generic_name specific_name (Basionym_Authors) Name_Authors"<br><br>facets: <br>name: "generic_name specific_name (basionym_authors) name_authors"</div><div><br>Why are the facets names always in lowercase? <br>I would say that is an error which shouldn't happen.<br><br>But I reported it some days ago and got no answer, so I wonder if this is the intended api behaviour.<br><br><a href="http://dev.gbif.org/issues/browse/PF-2758">http://dev.gbif.org/issues/browse/PF-2758</a><br><br>Not only scientific names are lowercased. This also happens to collectionCode in the next question.<br><br><br><b>(3) FACETING COLLECTIONCODE VALUES of a single institution fails depending on filtering parameter used to match the institution (code or uuid):</b> <br><br>Our institution (uuid= def87a70-0837-11d9-acb2-b8a03c50a862 , institutionCode=SANT) serves datasets from 4 collections, which should sum up more than 100000 records. <br><br>Why do I get only 2 of our 4 datasets faceted in the following request, which uses our publishingOrg uuid? (uuid should be the preferred option to do this, as code might not be unique for our institution)<br><br><a href="http://api.gbif.org/v1/occurrence/search?facet=collectionCode&limit=0&publishingOrg=def87a70-0837-11d9-acb2-b8a03c50a862">http://api.gbif.org/v1/occurrence/search?facet=collectionCode&limit=0&publishingOrg=def87a70-0837-11d9-acb2-b8a03c50a862</a><br><br>Why do I got 4 of 4 if I filter the request using institutionCode instead? (fortunately, nobody else uses the same institutionCode yet, so numbers are correct)<br><br><a href="http://api.gbif.org/v1/occurrence/search?facet=collectionCode&limit=0&institutionCode=SANT">http://api.gbif.org/v1/occurrence/search?facet=collectionCode&limit=0&institutionCode=SANT</a><br><br>And why do counts differ for the same facet value (sant-lich) in those two requests?<br>(9960 in the 1st request, 10007 in the 2nd one)<br><br>Why are facet values lowercase again? ("sant-lich" instead of "SANT-Lich")<br><br><br><b>(4) FACETING SCIENTIFICNAME FAILS FOR SOME DATASETS, but works as expected for others: </b><br><br>More than 1000 faceted Scientificnames returned for our SANT-Lich and SANT-Algae collections. Both of them look correct results:<br><br><a href="http://api.gbif.org/v1/occurrence/search?facet=ScientificName&limit=0&collectionCode=SANT-Lich&ScientificName.facetLimit=50000&ScientificName.facetOffset=0">http://api.gbif.org/v1/occurrence/search?facet=ScientificName&limit=0&collectionCode=SANT-Lich&ScientificName.facetLimit=50000&ScientificName.facetOffset=0</a><br><br><a href="http://api.gbif.org/v1/occurrence/search?facet=ScientificName&limit=0&collectionCode=SANT-Algae&ScientificName.facetLimit=50000&ScientificName.facetOffset=0">http://api.gbif.org/v1/occurrence/search?facet=ScientificName&limit=0&collectionCode=SANT-Algae&ScientificName.facetLimit=50000&ScientificName.facetOffset=0</a><br><br>But no facets returned for SANT-Bryo (which contains several hundred distinct scientificname values):</div><div><br><a href="http://api.gbif.org/v1/occurrence/search?facet=ScientificName&limit=0&collectionCode=SANT-Bryo&ScientificName.facetLimit=50000&ScientificName.facetOffset=0">http://api.gbif.org/v1/occurrence/search?facet=ScientificName&limit=0&collectionCode=SANT-Bryo&ScientificName.facetLimit=50000&ScientificName.facetOffset=0</a><br><br>And only 7 facets for SANT scientificnames (should be over 10 thousand, as this is by far our largest dataset):</div><div><br><a href="http://api.gbif.org/v1/occurrence/search?facet=ScientificName&limit=0&collectionCode=SANT&ScientificName.facetLimit=50000&ScientificName.facetOffset=0">http://api.gbif.org/v1/occurrence/search?facet=ScientificName&limit=0&collectionCode=SANT&ScientificName.facetLimit=50000&ScientificName.facetOffset=0</a><br><br><br><br>Other than the lowercase facets issue (2), I couldn't reproduce issues 1,3,4 in other institutions datasets. </div><div>So I wonder if all this is somehow related to a wrong indexing of our IPT.<br><br>Has anyone else detected these problems?<br><br>Thanks a lot in advance for your help</div><div><br></div><div>David</div><div><br></div><div>-- <br></div><div>David García San León<br>Herbario SANT<br>Universidade de Santiago de Compostela<br><br></div></div></div>