Package: piecemaker 1.0.2.9000

Jon Harmon

piecemaker: Tools for Preparing Text for Tokenizers

Tokenizers break text into pieces that are more usable by machine learning models. Many tokenizers share some preparation steps. This package provides those shared steps, along with a simple tokenizer.

Authors:Jon Harmon [aut, cre], Jonathan Bratt [aut], Bedford Freeman & Worth Pub Grp LLC DBA Macmillan Learning [cph]

piecemaker_1.0.2.9000.tar.gz
piecemaker_1.0.2.9000.zip(r-4.7-any)piecemaker_1.0.2.9000.zip(r-4.6-any)piecemaker_1.0.2.9000.zip(r-4.5-any)
piecemaker_1.0.2.9000.tgz(r-4.6-any)piecemaker_1.0.2.9000.tgz(r-4.5-any)
piecemaker_1.0.2.9000.tar.gz(r-4.7-any)piecemaker_1.0.2.9000.tar.gz(r-4.6-any)
piecemaker_1.0.2.9000.tgz(r-4.6-emscripten)
manual.pdf |manual.html✨
DESCRIPTION |NEWS
card.svg |card.png
piecemaker/json (API)

# Install 'piecemaker' in R:

install.packages('piecemaker', repos = c('https://macmillancontentscience.r-universe.dev', 'https://cloud.r-project.org'))

Bug tracker:https://github.com/macmillancontentscience/piecemaker/issues

Pkgdown/docs site:https://macmillancontentscience.github.io

On CRAN:

3.48 score 2 packages 7 scripts 356 downloads 10 exports 8 dependencies

Last updated from:b02c1a7492. Checks:9 OK. Indexed: yes.

Target	Result	Time
linux-devel-x86_64	OK	111
source / vignettes	OK	172
linux-release-x86_64	OK	145
macos-release-arm64	OK	77
macos-oldrel-arm64	OK	90
windows-devel	OK	70
windows-release	OK	59
windows-oldrel	OK	70
wasm-release	OK	116

Exports:prepare_and_tokenize prepare_text remove_control_characters remove_diacritics remove_replacement_characters space_cjk space_punctuation squish_whitespace tokenize_space validate_utf8

Dependencies:cli glue lifecycle magrittr rlang stringi stringr vctrs

Citation

Development and contributors

Readme and manuals

Help Manual

Help page	Topics
Split Text on Spaces	prepare_and_tokenize
Prepare Text for Tokenization	prepare_text
Remove Non-Character Characters	remove_control_characters
Remove Diacritical Marks on Characters	remove_diacritics
Remove the Unicode Replacement Character	remove_replacement_characters
Add Spaces Around CJK Ideographs	space_cjk
Add Spaces Around Punctuation	space_punctuation
Remove Extra Whitespace	squish_whitespace
Break Text at Spaces	tokenize_space
Clean Up Text to UTF-8	validate_utf8