query :: conversion to dataframe is really slow #85

mpo-vliz · 2024-07-24T10:16:51Z

Trying out the sema.query (previous pykg2tbl with some larger resultsets making dumping (via pandas.Dataframe) to csv run for ever.

Detail logging shows the time seems to be spent in the conversion from query-result into dataframe.

We should look into making that more efficient (probably by doing less in memory copying?)
Apparently there has been some work in this are:

mpo-vliz · 2024-07-24T15:06:52Z

applied in 99263fd

the positive effects on performance are nothing less than dramatically enormous --> for a large resultset (150k rows) this cut the conversion to df from >800k millis to a mere 4 millis!

mpo-vliz added enhancement New feature or request components.query query related issues linked to pykg2tbl labels Jul 24, 2024

mpo-vliz self-assigned this Jul 24, 2024

This was referenced Jul 24, 2024

integrating pykg2tbl as sema.query #78

Merged

query :: provide decent source-composite approach (cleanup current halfway attempt) #86

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

query :: conversion to dataframe is really slow #85

query :: conversion to dataframe is really slow #85

mpo-vliz commented Jul 24, 2024 •

edited

Loading

mpo-vliz commented Jul 24, 2024

query :: conversion to dataframe is really slow #85

query :: conversion to dataframe is really slow #85

Comments

mpo-vliz commented Jul 24, 2024 • edited Loading

mpo-vliz commented Jul 24, 2024

mpo-vliz commented Jul 24, 2024 •

edited

Loading